S češtinou do Evropy

11. 6. 2004

S češtinou do Evropy

Výzkumné Centrum komputační lingvistiky při Matematicko-fyzikální fakultě Univerzity Karlovy v Praze, vedené profesorkou Evou Hajičovou, postupně směřuje ke svému hlavnímu cíli, jímž je komunikace s počítačem v přirozeném jazyce, zejména v češtině. Počítače by si ale s námi měly nejen česky povídat a vykonávat naše příkazy, ale měly by umět i překládat z jazyka do jazyka -- nejdůležitější pro nás přitom je překlad mezi angličtinou a češtinou.

Centrum komputační lingvistiky Matematicko-fyzikální fakulty UK zve na tiskovou besedu "S češtinou do Evropy" konanou ve čtvrtek 17. června 2004 v 11.00 hod v posluchárně S1, 4. patro, budova MFF UK, Malostranské nám. 25, 118 00 Praha 1. Účast potvrďte prosím do 14. června 2004 Anně Kotěšovcové, e-mail: cil17@cil17.org, kotesovcova@ufal.ms.mff.cuni.cz, telefon: ++420 22191 4226, ++420 602 894247

Tisková zpráva

Centrum komputační lingvistiky v minulých dnech publikovalo sadu počítačových databází a programových nástrojů určených pro automatický strojový překlad mezi angličtinou a češtinou a pro automatické rozpoznávání mluvené řeči počítačem. V tomto rozsahu se jedná o unikátní dílo jak v ČR a v Evropě (kde češtině úspěšně sekunduje pouze němčina), tak i ve světě, kde jedinými jazyky s větším množstvím veřejně dostupných zdrojů jsou angličtina a čínština, přitom ovšem s menší hloubkou jazykového zpracování. Publikovaná data a nástroje mohou využívat jak univerzity a výzkumné instituce (a to za velmi výhodných podmínek), tak i aplikační (průmyslová) sféra.

Na vědeckém výzkumu a pořízení těchto databází a programových nástrojů se podíleli pracovníci Univerzity Karlovy, Západočeské Univerzity v Plzni a Ústavu pro jazyk český AV ČR v Praze, kteří jsou sdruženi právě v Centru komputační lingvistiky. Spolu s nimi na tzv. lingvistických anotacích dat pracuje řada studentů obou zúčastněných univerzit. Centrum komputační lingvistiky nevydává kolekci jazykových dat na CD-ROM nosičích poprvé (od r. 2000, kdy Centrum vzniklo, již vydalo tři obdobné kolekce), avšak nyní se jedná o mimořádně cenný soubor, který do jisté míry završuje čtyřapůlleté období existence Centra. Předchozí vydání se setkala s mimořádným ohlasem; přesto, že se jednalo o menší zdroje téměř výhradně související s automatickým zpracováním češtiny, Centrum má podepsané licence o výzkumném využití s již téměř stovkou jazykovědných a počítačových pracovišť z celého světa.

Co lze v těchto databázových kolekcích najít? Jde především o tzv. anotovaná lingvistická data, tj. texty v češtině (a nyní i v angličtině) ve značném rozsahu (obvykle okolo 1 miliónu jazykově rozebraných slov ve větách), která slouží pro tzv. statistické metody počítačové jazykové analýzy. Na základě takových dat, tedy mluvnicky rozebíraných vět se počítač za pomoci známých postupů strojového učení "naučí", jak se jednotlivé věty mají správně jazykově rozebrat, snaží se tedy vlastně kopírovat práci lingvisty, jehož "ručně" zpracovaná analýza je v datech zachycena. Pro automatické rozpoznávání mluvené řeči jsou pak určena data transkribovaná, tj. nahrávky zpráv vysílaných např. rozhlasem s jejich (opět "ručně") pořízeným přepisem do obvyklé textové formy. I zde jde o to, aby se počítač naučil souvislosti mezi digitalizovaným audiosignálem a výsledným textem. Pro účely překladu jsou navíc třeba samozřejmě i překladové slovníky, byť ve speciální formě, kdy ke každému možnému překladu se uvádí i jeho pravděpodobnost (opět automaticky získaná za pomoci řady složitých programových technik z paralelních korpusů, neboli anglických textů a jejich českých překladů).

Kolekce publikované Centrem komputační lingvistiky bude možné použít pro tvorbu programů pro překlad z angličtiny do češtiny i naopak (v textové i mluvené podobě), pro rozpoznávání mluvené řeči v informačních systémech a v mnoha dalších projektech. Jedná se tak o důležitý příspěvek k jazykové, kulturní i ekonomické integraci do Evropské unie, která přitom respektuje velmi důležitou "maličkost", totiž to, že v Česku se mluví a bude mluvit česky. Vývoj se však nesmí zastavit; pro nové aplikace a nové poznatky bude třeba i nadále pracovat jak na dalších databázích, tak i na dalších nástrojích pro počítačové zpracování češtiny a dalších jazyků a nadále je rozvíjet.

Kontakt: Anna Kotěšovcová, cil17@cil17.org, 221 914 226, 602 894 247

Centrum komputační lingvistiky při MFF UK je financováno programem LN 00A063 MŠMT ČR.

Vytisknout Poslat e-mailem

Obsah vydání
12. 6. 2004	Podle prvních odhadů vyhrála eurovolby ODS
13. 6. 2004	Británie: Labouristé se obávají vítězství ostře euroskeptické strany v eurovolbách
12. 6. 2004	Michael Moore nebude točit film o Tonym Blairovi
12. 6. 2004	Psovodi z vězení Abu Ghraib: "Bylo nám nařízeno zastrašovat vězně psy"
12. 6. 2004	Vrchní velitel amerických vojsk v Iráku schválil týrání vězňů
13. 6. 2004	Donalde, kde je Usáma?
12. 6. 2004	V Bagdádu byl usmrcen irácký ministr
13. 6. 2004	Komorník prince Charlese: "Za svým tvrzením o Charlesově homosexualitě si stojím"
13. 6. 2004	Znamení šelmy	Zdeněk Bárta
11. 6. 2004	Z pátečního pohřbu Ronalda Reagana
11. 6. 2004	Britští labouristé zaznamenali vážné ztráty v komunálních volbách
11. 6. 2004	Chcete beztrestně mučit údajné teroristy?
11. 6. 2004	Američtí vládní právníci: Prezident Bush nemusí dodržovat zákony proti mučení
11. 6. 2004	Bush: Protizákonné výslechy jsem neschválil
11. 6. 2004	Smrt Vladimíra Pechy: Vážné nesrovnalosti českou vládu neznepokojují
9. 6. 2004	"Vladimír Pecha vyskočil z okna"
9. 6. 2004	Třetí zpráva o České republice
11. 6. 2004	NOVA zatím netuší, že už nejsme "východoevropský" stát?	Miloš Dokulil
11. 6. 2004	Že by i "Lidovky"? Kam to vlastně volíme?	Miloš Dokulil
10. 6. 2004	Bushův plán pro Blízký východ přijat s rozpaky
10. 6. 2004	To je trs!
11. 6. 2004	Reality show & sitcom: co nám ve skutečnosti nedopřejí domácí televizní kanály?	Michal Brož
11. 6. 2004	S češtinou do Evropy
11. 6. 2004	Spolek Šalamoun v ČRo 6
11. 6. 2004	Jeden skandál za druhým	Immanuel Wallerstein
11. 6. 2004	Zpravodajství iráckého odporu za dny 1. - 5. června 2004
10. 6. 2004	Co vědí britští studenti o České republice?	Neil Bermel
10. 6. 2004	V nových členských zemích EU zmizela euforie
10. 6. 2004	V nových členských zemích se očekává cynismus, neúčast a euroskepse
10. 6. 2004	Ať si chudí lidé kouří...
9. 6. 2004	Česká republika poskytla Registru konvenčních zbraní OSN nekvalitní zprávu
9. 6. 2004	Skončilo americké nakladatelství, které vydávalo překlady českých knih	Robert Wechsler
9. 6. 2004	Násilí v médiích je odrazem násilí ve společnosti	Štěpán Kotrba
8. 6. 2004	Politická abstinence Britských listů
8. 6. 2004	Emil Hakl: Autentické svědectví o světě	Jan Čulík
8. 6. 2004	Blízká setkání	Emil Hakl
5. 6. 2004	Hospodaření OSBL za květen 2004
29. 12. 2003	Nenechte si ujít: nový knižní výbor z Britských listů
22. 11. 2003	Adresy redakce
18. 6. 2004	Inzerujte v Britských listech

Britské listy

Šéfredaktor:

Redaktor:

Správa:

Grafický návrh:

S češtinou do Evropy