Návrh a realizace: Martin Vavřín, Alexandr Rosen
Nástroj pro zarovnání slov a extrakci slovních párů: GIZA++ (Och, F. J. – Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1), 19–51.), s díky Ondřeji Bojarovi a Davidu Marečkovi za pomoc s instalací. Výsledek automatické excerpce už nebyl nijak revidován.
Za podněty k vývoji Trequ vděčíme Elżbietě Kaczmarské.
Uživatelské rozhraní: Martin Vavřín
Příprava dat: Pavel Procházka, Martin Vavřín
Grafická podpora: Jan Kocek
Jak citovat Treq:
Nápověda
Nevíte, jak nejlépe přeložit nějaké slovo? Potřebujete vymyslet vhodné synonymum? Zkuste Treq! Treq je sbírka dvojjazyčných slovníků, vytvořených automaticky z paralelního korpusu InterCorp. Slovníky jsou obousměrné, se všemi jazyky na jedné straně a češtinou, angličtinou nebo španělštinou na straně druhé.
Nejdříve zvolíme výchozí jazyk, v němž je hledaný výraz, a cílový jazyk, do něhož jej chceme přeložit. Slovo můžeme zadat v konkrétním tvaru, v základním slovníkovém tvaru (Lemmata), lze vyhledávat i víceslovnou jednotku (Víceslovné), využít při hledání regulární výrazy (Regulární) nebo v dotazu nerozlišovat velikost písmen (A = a). Můžeme si také vybrat, zda má být výsledek založen na překladech beletristického jádra, jednotlivých kolekcí, nebo všech textů v InterCorpu (Omezit na:). Pak slovo zadáme (Dotaz:) a klikneme na Hledej. Výsledkem dotazu je seznam nalezených překladů zadaného slova, defaultně setříděných sestupně podle frekvence. Pro ověření výskytu v kontextu je možné si dvojici výrazů vyhledat dotazem do korpusu InterCorp kliknutím na ekvivalent. Počet výskytů se však může lišit – paralelní dotaz najde i konkordance, v nichž potenciální ekvivalent odpovídá jinému slovu.
Treq vychází z textů 15. vydání paralelního korpusu InterCorp. Originální a překladové texty jsou nejprve na základě statistických výpočtů zarovnány po slovech pomocí programu GIZA++ (Och–Ney 2003). Zarovnané dvojice slov jsou pak setříděny a sumarizovány. Výsledek automatické excerpce není nijak revidován, jako ukazatel relevance překladového ekvivalentu však může posloužit relativní frekvence příslušné dvojice slov. Čím častěji se ekvivalent zadaného slova vyskytl ve srovnání s ostatními ekvivalenty, tím větší je pravděpodobnost, že je funkční.