Google Books: Katastrofa pro seriozní badatele

25. 8. 2010

Vyhledávač Google Books se zřejmě nezadržitelně stane největší digitální knihovnou na světě. Google má pět let náskok před všemi konkurenty a jeho vztahy s knihovnami a nakladatelstvími mu v této věci v podstatě poskytují monopol. Dá se očekávat, že ode dneška za sto let budou badatelé pracovat se stejnými zdigitalizovanými knihami, které jsou umístěny na serverech Googlu už dnes, samozřejmě k nim budou přidány miliony knih, které mezitím vyjdou, píše Geoffrey Nunberg v americkém akademickém časopise The Chronicle Review.

Velmi důležitá je otázka: Máme vůbec nějakou jistotu, že Google ty knihy digitalizuje správně? Chcete-li používat zdigitalizovaných knižních zdrojů jako archivu pro seriozní studium, potřebujete přesná metadata: přesné bibliografické informace. Ve zdigitalizovaných knihách můžete například sledovat, kdy nějaké slovo nahradilo jiné, jaká byla propaganda v průmyslových demokraciích během dvacátého století, anebo nalézt všechny viktoriánské romány, které obsahují výraz "gentle reader".

Aby však bylo možno zodpovídat takovéto otázky, musíte mít přesné publikační údaje a přesné kategorie. V obou ohledech jsou zdigitalizované knihy v Google Books katastrofa.

Vezměme si například publikační data. Podle Google Books byl rok 1899 z vydavatelského hlediska naprosto jedinečný: Vyšla například detektivka Raymonda Chandlera Killer in the Rain, Malrauxova kniha La Condition Humaine kompletní vydání prózy Virginie Woolfové, kniha Raymonda Williamse Culture and Society 1780-1950 a životopis Boba Dylana od Roberta Sheltona. A takových děsivých datačních chyb je v Google Books mnoho.

Jsou tam ale ještě jiné šílené chyby. Zadáte-li si, aby vám systém vyhledal slovo "internet" v knihách vydaných před rokem 1950, dostanete 527 výsledků; "Medicare" za totéž období vám vydá 1600 výsledků. Anebo si zadejte jména slavných spisovatelů a hledejte jejich knihy, které podle Google Books vyšly před rokem jejich narození. Charles Dickens se narodil r. 1812, Google Books má 182 knih od Charlese Dickense, které vyšly před rokem 1812. Před narozením Rudyarda Kiplinga mají Google Books 81 knih, 115 pro Gretu Garbo, 325 pro Woodyho Allena a 29 pro Baracka Obamu.

Google si stěžuje, že ty chyby pocházejí od vydavatelů a od knihoven. Není to pravda. Historie knižních obrázků, která vyšla r. 1901, je v harvardské univerzitní knihovně správně označena jako publikace z r. 1901. Google Books ji má pod nesprávným datem 1574, protože na titulní straně je reprodukce jednoho knižního obrázku z roku 1574. Průvodce Londýnem z r. 1890 je v Google Books datován rokem 1774, protože na titulní straně je reklama nějaké firmy, která se honosí, že byla založena r. 1774.

Pak jsou v Google Books šílené chyby v kategorizaci knih. Francouzské vydání Shakespearova Hamleta a japonské vydání Madame Bovaryové jsou v kategorii "Antikvářství a sběratelství". Anglické vydání Madame Bovaryové z r. 1930 je v rubrice "Lékaři". Vydání Melvillova románu Bílá velryba je v kategorii "Počítače", Kniha fascinujích faktů pro milovníky koček je v rubrice "Technologie a inženýrství". Seznam dokumentů o autorských právech v knihovně amerického Kongresu je v rubrice "Drama" (to má být od firmy Google vtip?).

Ty chyby v kategorizaci knih jsou děsivé, když sledujete, jak jsou klasifikována různá vydání téže slavné knihy. Z prvních 10 výsledků Tristrama Shandyho< jsou čtyři v kategorii "Román", čtyři v kategorii "Rodina a vztahy", jeden v kategorii "Biografie a autobiografie" a jedno vydání vůbec kategorii nemá. Ostatní vydání jsou zkategorizována jako "Literární sbírky, historie a hudba".

Kromě toho jsou často názvy knih špatně přepsané: tak například Moby Dick: or the White Whale (Moby Dick neboli Bílá velryba) je přepsána jako Moby Dick: or the White Wall (Moby Dick neboli Bílá zeď). Křížové odkazy jsou špatně. Hesla matou dohromady autory, editory a autory předmluv, takže bibliografická informace k jednomu francouzskému vydání je opravdu dobrá: "Madam Bovaryová, autor: Henry James". Zcela záhadná je kniha s názvem The Mosaic Navigator: The Essential Guide to the Internet Interface (Mozaikový navigátor: Základní průvodce internetovým rozhraním), u níž je uvedeno, že vyšla r. 1939 a její autoři jsou Sigmund Freud a Katherine Jones.

Je fakt, že Google si je vědom mnoha těchto chyb a snaží se je opravovat. (Od minulého týdne, kdy jsem o tomto problému promluvil na jedné konferenci, už Google celou řadu těchto chyb opravil, píše autor.) Jenže opravovat jen chyby, na něž je někdo upozorní, prostě nestačí. Těch chyb je prostě příliš mnoho. A získávat bibliografická data z knih automaticky - jak je zjevné, prostě nejde.

Státní instituce by měly vyvíjet na firmu Google tlak, aby proměnila své digitalizované sbírky v použitelný zdroj pro vědecký výzkum.

Podrobnosti v angličtině ZDE

Vytisknout

Obsah vydání | Středa 25.8. 2010