11. 6. 2004
S češtinou do EvropyVýzkumné Centrum komputační lingvistiky při Matematicko-fyzikální fakultě Univerzity Karlovy v Praze, vedené profesorkou Evou Hajičovou, postupně směřuje ke svému hlavnímu cíli, jímž je komunikace s počítačem v přirozeném jazyce, zejména v češtině. Počítače by si ale s námi měly nejen česky povídat a vykonávat naše příkazy, ale měly by umět i překládat z jazyka do jazyka -- nejdůležitější pro nás přitom je překlad mezi angličtinou a češtinou. Centrum komputační lingvistiky Matematicko-fyzikální fakulty UK zve na tiskovou besedu "S češtinou do Evropy" konanou ve čtvrtek 17. června 2004 v 11.00 hod v posluchárně S1, 4. patro, budova MFF UK, Malostranské nám. 25, 118 00 Praha 1. Účast potvrďte prosím do 14. června 2004 Anně Kotěšovcové, e-mail: cil17@cil17.org, kotesovcova@ufal.ms.mff.cuni.cz, telefon: ++420 22191 4226, ++420 602 894247 |
Tisková zpráva Výzkumné Centrum komputační lingvistiky při Matematicko-fyzikální fakultě Univerzity Karlovy v Praze, vedené profesorkou Evou Hajičovou, postupně směřuje ke svému hlavnímu cíli, jímž je komunikace s počítačem v přirozeném jazyce, zejména v češtině. Počítače by si ale s námi měly nejen česky povídat a vykonávat naše příkazy, ale měly by umět i překládat z jazyka do jazyka -- nejdůležitější přitom je překlad mezi angličtinou a češtinou. Centrum komputační lingvistiky v minulých dnech publikovalo sadu počítačových databází a programových nástrojů určených pro automatický strojový překlad mezi angličtinou a češtinou a pro automatické rozpoznávání mluvené řeči počítačem. V tomto rozsahu se jedná o unikátní dílo jak v ČR a v Evropě (kde češtině úspěšně sekunduje pouze němčina), tak i ve světě, kde jedinými jazyky s větším množstvím veřejně dostupných zdrojů jsou angličtina a čínština, přitom ovšem s menší hloubkou jazykového zpracování. Publikovaná data a nástroje mohou využívat jak univerzity a výzkumné instituce (a to za velmi výhodných podmínek), tak i aplikační (průmyslová) sféra. Na vědeckém výzkumu a pořízení těchto databází a programových nástrojů se podíleli pracovníci Univerzity Karlovy, Západočeské Univerzity v Plzni a Ústavu pro jazyk český AV ČR v Praze, kteří jsou sdruženi právě v Centru komputační lingvistiky. Spolu s nimi na tzv. lingvistických anotacích dat pracuje řada studentů obou zúčastněných univerzit. Centrum komputační lingvistiky nevydává kolekci jazykových dat na CD-ROM nosičích poprvé (od r. 2000, kdy Centrum vzniklo, již vydalo tři obdobné kolekce), avšak nyní se jedná o mimořádně cenný soubor, který do jisté míry završuje čtyřapůlleté období existence Centra. Předchozí vydání se setkala s mimořádným ohlasem; přesto, že se jednalo o menší zdroje téměř výhradně související s automatickým zpracováním češtiny, Centrum má podepsané licence o výzkumném využití s již téměř stovkou jazykovědných a počítačových pracovišť z celého světa. Co lze v těchto databázových kolekcích najít? Jde především o tzv. anotovaná lingvistická data, tj. texty v češtině (a nyní i v angličtině) ve značném rozsahu (obvykle okolo 1 miliónu jazykově rozebraných slov ve větách), která slouží pro tzv. statistické metody počítačové jazykové analýzy. Na základě takových dat, tedy mluvnicky rozebíraných vět se počítač za pomoci známých postupů strojového učení "naučí", jak se jednotlivé věty mají správně jazykově rozebrat, snaží se tedy vlastně kopírovat práci lingvisty, jehož "ručně" zpracovaná analýza je v datech zachycena. Pro automatické rozpoznávání mluvené řeči jsou pak určena data transkribovaná, tj. nahrávky zpráv vysílaných např. rozhlasem s jejich (opět "ručně") pořízeným přepisem do obvyklé textové formy. I zde jde o to, aby se počítač naučil souvislosti mezi digitalizovaným audiosignálem a výsledným textem. Pro účely překladu jsou navíc třeba samozřejmě i překladové slovníky, byť ve speciální formě, kdy ke každému možnému překladu se uvádí i jeho pravděpodobnost (opět automaticky získaná za pomoci řady složitých programových technik z paralelních korpusů, neboli anglických textů a jejich českých překladů). Kolekce publikované Centrem komputační lingvistiky bude možné použít pro tvorbu programů pro překlad z angličtiny do češtiny i naopak (v textové i mluvené podobě), pro rozpoznávání mluvené řeči v informačních systémech a v mnoha dalších projektech. Jedná se tak o důležitý příspěvek k jazykové, kulturní i ekonomické integraci do Evropské unie, která přitom respektuje velmi důležitou "maličkost", totiž to, že v Česku se mluví a bude mluvit česky. Vývoj se však nesmí zastavit; pro nové aplikace a nové poznatky bude třeba i nadále pracovat jak na dalších databázích, tak i na dalších nástrojích pro počítačové zpracování češtiny a dalších jazyků a nadále je rozvíjet. Kontakt: Anna Kotěšovcová, cil17@cil17.org, 221 914 226, 602 894 247 Centrum komputační lingvistiky při MFF UK je financováno programem LN 00A063 MŠMT ČR. |