2008. június 7., szombat

Így is lehet: reCAPTCHA

Azt ugye mindenki tudja, mi fán terem a captcha. Aki mégsem, az se búsuljon, megpróbálom összefoglalni pár szóban: a captcha nem más, mint egy "fordított Turing-teszt", ahogy a születési neve is mutatja: Completely Automated Public Turing test to tell Computers and Humans Apart (kb.: Teljesen Automatikus, Publikus Turing teszt az Emberek és Számítógépek Megkülönböztetésére), és abban segít több vagy kevesebb sikerrel, hogy megakadályozza azt, hogy egy fórumra, blogrendszerbe, közösségi oldalra egy spammerprogram regisztráljon, hogy aztán a kéretlen reklámaival teleszemetelje azt.

Az eljárás nagyon egyszerű, a regisztrációkor, vagy a hozzászólás elküldése előtt kapunk egy kis feladatot, amit ember nagy valószínűséggel meg tud oldani, de egy korlátozott képességekkel rendelkező program már nem feltétlenül. Ez a feladat változatos lehet, az eltorzított betűkkel kiírt szöveget kell begépelnümk, esetleg megoldanunk azt a feladatot, hogy "hat meg tizenkettő" (ebben az esetben csak be kell gépelnünk, hogy "tizennyolc"), de olyannal is találkoztam már, ahol azokat a betűket kellett beírni, amelyen nem kiskutya, hanem kiscica üldögélt.

Általában tehát szemfárasztó, sokszor fölöslegesnek gondolt, de az esetek nagy részében hatákony procedúráról van szó, de egy kis csoport úgy gondolta, ezt akár hasznos célokra is fel lehet használni. A pennsylvaniai Carnegie Mellon egyetem számítástudományi karán született meg a reCAPTCHA project, amely, amellett, hogy ingyenesen kínál a weboldalunkba illeszthető captcha védelmet, az egyetem munkájához is nagyban hozzájárul. Lássuk, hogy mit is csinál ez a remek szolgáltatás!

Ha van otthon szkennered, akkor valószínűleg nem ismeretlen előtted az OCR kifejezés. Ez egy olyan algoritmus, amely a beszkennelt lapon található szöveg betűit a saját betűkészletéhez hasonlítja, így át tudja alakítani a szkennelt szöveget szövegszerkesztő programokkal megnyitható formátumba. A szoftver által használt algoritmus bonyolultságától függően az eredmény a lehangolóan silánytól a majdnem tökéletesig terjedhet, de még a legjobb OCR szoftver sem tudja száz százalékos biztonsággal konvertálni a szövegeket, így valakinek mindenképpen át kell olvasnia és korrektúráznia a kész dokumentumot. Ezt a feladatot helyezi közösségi alapokra a reCAPTCHA.

A világon becslések szerint naponta hatvanezer captchát "fejtenek meg" az internetezők. Egy átlagos újságcikk terjedelme ötszáz és kétezer szó között van. Gyors fejszámolás alapján tehát harminc és százhúsz cikknyi pusztába kiáltott szó hagyja el a világ billentyűzeteit nap mint nap. A reCAPTCA szolgáltatását használó weboldalak látogatói ezzel szemben az egyetem munkáját is segítik: az általuk kitöltött captcha két szót tartalmaz, mindkettőt egy könyvből szkennelték, majd kicsit átalakították, hogy az OCR-t használó spamrobotokat "kizárják a versenyből". A két szó közül az egyik jelentése ismert, tehát már korrektúrázott szóból származik, ha ezt jól begépelted, akkor a regisztrációd sikeres, illetve a hozzászólásod megjelenik az oldalon. A másik szóról azonban tudni kell, hogy az egyetemen használt OCR szoftvernek beletört a foga, és a rossz minőségű, szennyezett papírról beolvasott, vagy különleges betűtípussal nyomtatott szót nem tudta értelmezni. Ezt a szót is el kell olvasnod és be kell gépelned, majd a reCAPTCHA szervere abban az esetben, ha az ismert szót helyesn írtad (ebből azt gondolja, hogy a másik szó is helyes), továbbküldi az eredményeket az OCR szoftvernek, így az olvashatatlan szónak máris megvan a korrektúrája.

Remek és hasznos alkalmazása ez a captcha védelemnek. Ha a világon mindenki ezt használná, akkor hihetetlen mértékben felgyorsulna a könyvek digitalizálásának jelenleg elég időigényes feladata.

Nincsenek megjegyzések: