Treq - Databáze překladových ekvivalentů

Kdo Treq vyvíjí?

Návrh a realizace: Martin Vavřín, Alexandr Rosen

Nástroj pro zarovnání slov a extrakci slovních párů: GIZA++ (Och, F. J. – Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1), 19–51.), s díky Ondřeji Bojarovi a Davidu Marečkovi za pomoc s instalací. Výsledek automatické excerpce už nebyl nijak revidován.

Za podněty k vývoji Trequ vděčíme Elżbietě Kaczmarské.

Uživatelské rozhraní: Martin Vavřín

Příprava dat: Pavel Procházka, Martin Vavřín

Grafická podpora: Jan Kocek

Jak citovat Treq:

Vavřín, M. – Rosen, A.: Treq. FF UK. Praha 2015. Dostupný z WWW: "http://treq.korpus.cz".
Škrabal, M. – Vavřín, M. (2017): Databáze překladových ekvivalentů Treq. Časopis pro moderní filologii 99 (2), s. 245–260.

Verze 0.1 (alpha)

Datum zveřejnění: září 2014

prohledávání výsledků z jádra Intercorpu

Verze 0.2 (beta)

Datum zveřejnění: srpen 2015

doplnění dat z dalších částí Intercorpu (balíčky)
nový design uživatelského prostředí
integrace do lišty nástrojů ÚČNK na portálu korpus.cz

Verze 0.3 (beta)

Datum zveřejnění: září 2015

překlad rozhraní do angličtiny
odkazy na adekvátní dotaz do Kontextu

Verze 1.0

Datum zveřejnění: říjen 2015

drobné úpravy rozhraní a oficiální zveřejnění

Verze 1.1

Datum zveřejnění: leden 2016

doplněn sloupeček procenta v tabulce výsledků
logování dotazů

Verze 2.0

Datum zveřejnění: březen 2017

přepracován výběr jazyků dotazu a výsledku
přidány anglicko-cizojazyčné slovníky
přidány slovníky s víceslovnými jednotkami
přibyla možnost vybírat skupiny kolekcí
ke kladení dotazu lze použít regulární výrazy
lze ignorovat velká/malá písma v dotazu
přibyl součet výskytů na konci seznamu

Verze 2.1

Datum zveřejnění: červenec 2020

aktualizace dat: korpus Intercorp v. 12
přidány španělsko-cizojazyčné slovníky
přidána slova se spojovníkem

Verze 2.2

Datum zveřejnění: leden 2023

aktualizace dat: korpus Intercorp v. 15

Ver. 2.2

Výchozí jazyk		Cílový jazyk		Omezit na ?

Lemmata ?

Víceslovné ?

Regulární ?

A = a ?

Nápověda

Nevíte, jak nejlépe přeložit nějaké slovo? Potřebujete vymyslet vhodné synonymum? Zkuste Treq! Treq je sbírka dvojjazyčných slovníků, vytvořených automaticky z paralelního korpusu InterCorp. Slovníky jsou obousměrné, se všemi jazyky na jedné straně a češtinou, angličtinou nebo španělštinou na straně druhé.

Nejdříve zvolíme výchozí jazyk, v němž je hledaný výraz, a cílový jazyk, do něhož jej chceme přeložit. Slovo můžeme zadat v konkrétním tvaru, v základním slovníkovém tvaru (Lemmata), lze vyhledávat i víceslovnou jednotku (Víceslovné), využít při hledání regulární výrazy (Regulární) nebo v dotazu nerozlišovat velikost písmen (A = a). Můžeme si také vybrat, zda má být výsledek založen na překladech beletristického jádra, jednotlivých kolekcí, nebo všech textů v InterCorpu (Omezit na:). Pak slovo zadáme (Dotaz:) a klikneme na Hledej. Výsledkem dotazu je seznam nalezených překladů zadaného slova, defaultně setříděných sestupně podle frekvence. Pro ověření výskytu v kontextu je možné si dvojici výrazů vyhledat dotazem do korpusu InterCorp kliknutím na ekvivalent. Počet výskytů se však může lišit – paralelní dotaz najde i konkordance, v nichž potenciální ekvivalent odpovídá jinému slovu.

Treq vychází z textů 15. vydání paralelního korpusu InterCorp. Originální a překladové texty jsou nejprve na základě statistických výpočtů zarovnány po slovech pomocí programu GIZA++ (Och–Ney 2003). Zarovnané dvojice slov jsou pak setříděny a sumarizovány. Výsledek automatické excerpce není nijak revidován, jako ukazatel relevance překladového ekvivalentu však může posloužit relativní frekvence příslušné dvojice slov. Čím častěji se ekvivalent zadaného slova vyskytl ve srovnání s ostatními ekvivalenty, tím větší je pravděpodobnost, že je funkční.