11. 6. 2004
RSS backend
PDA verze
Čtěte Britské listy speciálně upravené pro vaše mobilní telefony a PDA
Reklama
Reklama
Celé vydání
Archiv vydání
Původní archiv

Autoři

Vzkaz redakci

OSBL
Tiráž

Britské listy

http://www.blisty.cz/
ISSN 1213-1792

Šéfredaktor:

Jan Čulík

Redaktor:

Karel Dolejší

Správa:

Michal Panoch, Jan Panoch

Grafický návrh:

Štěpán Kotrba

ISSN 1213-1792
deník o všem, o čem se v České republice příliš nemluví
11. 6. 2004

S češtinou do Evropy

Výzkumné Centrum komputační lingvistiky při Matematicko-fyzikální fakultě Univerzity Karlovy v Praze, vedené profesorkou Evou Hajičovou, postupně směřuje ke svému hlavnímu cíli, jímž je komunikace s počítačem v přirozeném jazyce, zejména v češtině. Počítače by si ale s námi měly nejen česky povídat a vykonávat naše příkazy, ale měly by umět i překládat z jazyka do jazyka -- nejdůležitější pro nás přitom je překlad mezi angličtinou a češtinou.

Centrum komputační lingvistiky Matematicko-fyzikální fakulty UK zve na tiskovou besedu "S češtinou do Evropy" konanou ve čtvrtek 17. června 2004 v 11.00 hod v posluchárně S1, 4. patro, budova MFF UK, Malostranské nám. 25, 118 00 Praha 1. Účast potvrďte prosím do 14. června 2004 Anně Kotěšovcové, e-mail: cil17@cil17.org, kotesovcova@ufal.ms.mff.cuni.cz, telefon: ++420 22191 4226, ++420 602 894247

Tisková zpráva

Výzkumné Centrum komputační lingvistiky při Matematicko-fyzikální fakultě Univerzity Karlovy v Praze, vedené profesorkou Evou Hajičovou, postupně směřuje ke svému hlavnímu cíli, jímž je komunikace s počítačem v přirozeném jazyce, zejména v češtině. Počítače by si ale s námi měly nejen česky povídat a vykonávat naše příkazy, ale měly by umět i překládat z jazyka do jazyka -- nejdůležitější přitom je překlad mezi angličtinou a češtinou.

Centrum komputační lingvistiky v minulých dnech publikovalo sadu počítačových databází a programových nástrojů určených pro automatický strojový překlad mezi angličtinou a češtinou a pro automatické rozpoznávání mluvené řeči počítačem. V tomto rozsahu se jedná o unikátní dílo jak v ČR a v Evropě (kde češtině úspěšně sekunduje pouze němčina), tak i ve světě, kde jedinými jazyky s větším množstvím veřejně dostupných zdrojů jsou angličtina a čínština, přitom ovšem s menší hloubkou jazykového zpracování. Publikovaná data a nástroje mohou využívat jak univerzity a výzkumné instituce (a to za velmi výhodných podmínek), tak i aplikační (průmyslová) sféra.

Na vědeckém výzkumu a pořízení těchto databází a programových nástrojů se podíleli pracovníci Univerzity Karlovy, Západočeské Univerzity v Plzni a Ústavu pro jazyk český AV ČR v Praze, kteří jsou sdruženi právě v Centru komputační lingvistiky. Spolu s nimi na tzv. lingvistických anotacích dat pracuje řada studentů obou zúčastněných univerzit. Centrum komputační lingvistiky nevydává kolekci jazykových dat na CD-ROM nosičích poprvé (od r. 2000, kdy Centrum vzniklo, již vydalo tři obdobné kolekce), avšak nyní se jedná o mimořádně cenný soubor, který do jisté míry završuje čtyřapůlleté období existence Centra. Předchozí vydání se setkala s mimořádným ohlasem; přesto, že se jednalo o menší zdroje téměř výhradně související s automatickým zpracováním češtiny, Centrum má podepsané licence o výzkumném využití s již téměř stovkou jazykovědných a počítačových pracovišť z celého světa.

Co lze v těchto databázových kolekcích najít? Jde především o tzv. anotovaná lingvistická data, tj. texty v češtině (a nyní i v angličtině) ve značném rozsahu (obvykle okolo 1 miliónu jazykově rozebraných slov ve větách), která slouží pro tzv. statistické metody počítačové jazykové analýzy. Na základě takových dat, tedy mluvnicky rozebíraných vět se počítač za pomoci známých postupů strojového učení "naučí", jak se jednotlivé věty mají správně jazykově rozebrat, snaží se tedy vlastně kopírovat práci lingvisty, jehož "ručně" zpracovaná analýza je v datech zachycena. Pro automatické rozpoznávání mluvené řeči jsou pak určena data transkribovaná, tj. nahrávky zpráv vysílaných např. rozhlasem s jejich (opět "ručně") pořízeným přepisem do obvyklé textové formy. I zde jde o to, aby se počítač naučil souvislosti mezi digitalizovaným audiosignálem a výsledným textem. Pro účely překladu jsou navíc třeba samozřejmě i překladové slovníky, byť ve speciální formě, kdy ke každému možnému překladu se uvádí i jeho pravděpodobnost (opět automaticky získaná za pomoci řady složitých programových technik z paralelních korpusů, neboli anglických textů a jejich českých překladů).

Kolekce publikované Centrem komputační lingvistiky bude možné použít pro tvorbu programů pro překlad z angličtiny do češtiny i naopak (v textové i mluvené podobě), pro rozpoznávání mluvené řeči v informačních systémech a v mnoha dalších projektech. Jedná se tak o důležitý příspěvek k jazykové, kulturní i ekonomické integraci do Evropské unie, která přitom respektuje velmi důležitou "maličkost", totiž to, že v Česku se mluví a bude mluvit česky. Vývoj se však nesmí zastavit; pro nové aplikace a nové poznatky bude třeba i nadále pracovat jak na dalších databázích, tak i na dalších nástrojích pro počítačové zpracování češtiny a dalších jazyků a nadále je rozvíjet.

Kontakt: Anna Kotěšovcová, cil17@cil17.org, 221 914 226, 602 894 247

Centrum komputační lingvistiky při MFF UK je financováno programem LN 00A063 MŠMT ČR.

                 
Obsah vydání       11. 6. 2004
12. 6. 2004 Podle prvních odhadů vyhrála eurovolby ODS
13. 6. 2004 Británie: Labouristé se obávají vítězství ostře euroskeptické strany v eurovolbách
12. 6. 2004 Michael Moore nebude točit film o Tonym Blairovi
12. 6. 2004 Psovodi z vězení Abu Ghraib: "Bylo nám nařízeno zastrašovat vězně psy"
12. 6. 2004 Vrchní velitel amerických vojsk v Iráku schválil týrání vězňů
13. 6. 2004 Donalde, kde je Usáma?
12. 6. 2004 V Bagdádu byl usmrcen irácký ministr
13. 6. 2004 Komorník prince Charlese: "Za svým tvrzením o Charlesově homosexualitě si stojím"
13. 6. 2004 Znamení šelmy Zdeněk  Bárta
11. 6. 2004 Z pátečního pohřbu Ronalda Reagana
11. 6. 2004 Britští labouristé zaznamenali vážné ztráty v komunálních volbách
11. 6. 2004 Chcete beztrestně mučit údajné teroristy?
11. 6. 2004 Američtí vládní právníci: Prezident Bush nemusí dodržovat zákony proti mučení
11. 6. 2004 Bush: Protizákonné výslechy jsem neschválil
11. 6. 2004 Smrt Vladimíra Pechy: Vážné nesrovnalosti českou vládu neznepokojují
9. 6. 2004 "Vladimír Pecha vyskočil z okna"
9. 6. 2004 Třetí zpráva o České republice
11. 6. 2004 NOVA zatím netuší, že už nejsme "východoevropský" stát? Miloš  Dokulil
11. 6. 2004 Že by i "Lidovky"? Kam to vlastně volíme? Miloš  Dokulil
10. 6. 2004 Bushův plán pro Blízký východ přijat s rozpaky
10. 6. 2004 To je trs!
11. 6. 2004 Reality show & sitcom: co nám ve skutečnosti nedopřejí domácí televizní kanály? Michal  Brož
11. 6. 2004 S češtinou do Evropy
11. 6. 2004 Spolek Šalamoun v ČRo 6
11. 6. 2004 Jeden skandál za druhým Immanuel  Wallerstein
11. 6. 2004 Zpravodajství iráckého odporu za dny 1. - 5. června 2004
10. 6. 2004 Co vědí britští studenti o České republice? Neil  Bermel
10. 6. 2004 V nových členských zemích EU zmizela euforie
10. 6. 2004 V nových členských zemích se očekává cynismus, neúčast a euroskepse
10. 6. 2004 Ať si chudí lidé kouří...
9. 6. 2004 Česká republika poskytla Registru konvenčních zbraní OSN nekvalitní zprávu
9. 6. 2004 Skončilo americké nakladatelství, které vydávalo překlady českých knih Robert  Wechsler
9. 6. 2004 Násilí v médiích je odrazem násilí ve společnosti Štěpán  Kotrba
8. 6. 2004 Politická abstinence Britských listů
8. 6. 2004 Emil Hakl: Autentické svědectví o světě Jan  Čulík
8. 6. 2004 Blízká setkání Emil  Hakl
5. 6. 2004 Hospodaření OSBL za květen 2004
29. 12. 2003 Nenechte si ujít: nový knižní výbor z Britských listů
22. 11. 2003 Adresy redakce
18. 6. 2004 Inzerujte v Britských listech