3. 2. 2006
Software, vyhledávající plagiáty, je poskytován jako službaSe zájmem jsem si přečetl poznámku Štěpána Kotrby u článku Studenti si seminárky z internetu volně stahují. Reakce je formulována velmi dobře, ale vychází z nepřesných informací, píše čtenář Petr Nachtmann. |
Autor polemizuje s větou "Kromě toho existují programy, které zjistí, zda je práce zplagiarizována z internetu" a argumentuje takto: "Poslení věta je technologickým nesmyslem. Předpokládá, že lze soubor, zazipovaný na cizím, neznámém serveru kdekoliv na internetu přečíst a prohlédnout fulltextovým prohledávačem." Software pro detekci plagiátů je často poskytován jako služba. I kdyby poskytovatel systému neměl přístup k online burzám textů pro plagiátory, lze očekávat, že tyto burzy využívají plagiátoři mezi studenty. Pokud je do systému zadán prakticky totožný text od různých studentů z různých škol, je jasné, že se jedná o plagiát. Sbírky textů pro plagiátory se, pokud vím, v angličtině nazývají Internet paper mills - ZDE ZDE. Autor pokračuje : "Předpokládá výskyt technologií, za které by nejspíše i Google dal nevímco." Google tyto technologie vyvíjí a používá. Slouží například ke zjišťování webových stránek, které jsou pouze zrcadly (mirrory) jiných -- při vyhledávání nemá většinou smysl vracet stránky s totožnými texty. Služba Google News shlukuje vzájemně podobné texty ze zpravodajství a zcela redundantní texty se snaží zatlačit do pozadí -- pokud víc novin či zpravodajských serverů přebírá totožnou zprávu ze zpravodajské agentury, čtenáři tato zpráva stačí jednou. Když zkusím zadat klíčové slovo Paroubek, vidím cluster výsledků věnovaný zdravotnictví, Nejvyššímu soudu, vtipům o Romech, programové konferenci ČSSD a termínu voleb. Je samozřejmě nutné dobře stanovit práh míry podobnosti textů, rozlišovat mezi podobností textů zabývajících se stejným tématem a plagiáty. Zpravodajské články clusterují v reálném čase také české servery novyden.cz a prehled.net. Systémy pro detekci velmi podobných variací pomocí digitálních otisků jsou také součástí některých antispamových systémů - nilsimsa, Vipul's Razor, Cloudmark. Spammeři totiž rádi posílají své zprávy jednotlivým adresátům s drobnými odchylkami, například mohou být hypertextové odkazy personalizovány. Po kliknutí na může spammer identifikovat e-mailovou adresu důvěřivce, který se nechal na jeho nabídku nachytat. Jako kritéria hodnocení podobnosti textů můžeme využít mnoho různých algoritmů a jejich kombinací, například kosínovou podobnost , Kolmogorovovu složitost či porovnávání digitálních otisků - nilsimsa, Vipul's Razor. Svoji poznámku autor uzavírá: "A nebo se na to vykašlat a zadávat taková témata, která okopírovat prostě nelze. Ale to znamená i od pedagoga inteligenci, kreativitu a zvýšený zájem..."
Má naprostou pravdu. |