Od CAPTCHA do reCAPTCHA – wszyscy digitalizujemy książki

slider_ekultura_captcha
Grafika: Biblioteka Narodowa,    Prawa: Domena publiczna, Biblioteka Narodowa

 

Wizja wspólnej biblioteki

Wyobraźmy sobie bibliotekę, która przechowuje wszystkie książki, jakie zostały kiedykolwiek wydane i to w takiej formie, że możliwe jest ich jednoczesne przeszukiwanie przez pryzmat hasła, które nas interesuje. W tej bibliotece moglibyśmy także, niemal natychmiastowo widzieć związki między ogółem pozycji podążającymi za konkretnym tematem – kto kogo cytuje, w jakim zakresie i jak odnosi się do cytowanej idei. A dodatkowo biblioteka ta znajdowałaby się wszędzie tam, gdzie moglibyśmy uzyskać dostęp do Internetu.

Jest to – mniej więcej – zarys wizji, jaka przyświeca najbardziej ambitnym projektom digitalizującym słowo pisane – „The Million Book Project”, „Amercian Memory Project” Biblioteki Kongresu USA, „The Gutenberg Project” narodzony w środowiskach Wikipedystów czy – zapewne najpopularniejszy – „Google Books”.

Problem

Jednak digitalizacja książek to bardzo czasochłonne zadanie. Kiedy jeden z założycieli Google’a – Larry Page – zwrócił się w roku 2002 z pytaniem do Uniwersytetu Michigan o to, jak długo zajmie im zeskanowanie wszystkich książek jakie mają w swojej kolekcji bibliotecznej – ok. 7 mln pozycji – uzyskał odpowiedź, że ok. 1000 lat. Odpowiedział, że wykona to zadanie w sześć.

Wyzwanie digitalizacji książek polega na tym, że w książkach pojawiają się czcionki, z którymi nie radzi sobie technologia OCR (od Optical Character Recognition) i w efekcie, tekst ten nie może być zamieniony na tekst odczytywany przez maszyny; a tylko taki można potem przeszukiwać, analizować, łączyć. Książki mają również zagięcia, plamy i inne defekty, które powodują, że komputer nie może odczytać liter na cyfrowym obrazie. W związku z tym, odszyfrowaniem tych znaczeń muszą zająć się ludzie, co znacząco wydłuża cały proces. Stąd szacunek tysiąca lat dla 7 mln pozycji.

Dzięki Luisowi von Ahn poradziliśmy sobie z tym wyzwaniem – jego rozwiązanie wyraźnie pokazuje, jak ważną rolę odgrywa kreatywność inżynierów w całym przedsięwzięciu digitalizacyjnym. Digitalizacja to nie tylko automatyczne stosowanie takich, czy innych skanerów – cały proces musi być prowadzony z pomysłem i przy klarownej wizji względem tego, do czego chce się doprowadzić. Żaden projekt digitalizacyjny nie powinien zakończyć się zbiorem statycznych obrazów o wątpliwej jakości – nieedytowalnych, nieanalizowalnych, nieużytecznych.

Od CAPTCHA do reCAPTCHA

Luis von Ahn jest nazywany ojcem crowdsourcingu – czyli wykorzystania energii bardzo wielu postronnych osób na rzecz realizacji jednego celu. Około roku 2001 pracował on nad rozwiązaniem innego problemu w świecie Internetu – sprytne programy „zanieczyszczały” Internet, wykonując miliony niepożądanych działań. Przykładowo, natrętni marketerzy, korzystając z darmowych bramek smsowych, wysyłali nieskończenie wiele wiadomości do przypadkowych osób, automatyzując proces. Luis wymyślił bramkę, przez którą bardzo często musimy obecnie przechodzić, żeby udowodnić, że jesteśmy człowiekiem – ta bramka nazywa się CAPTCHA i wymaga od nas odczytania lekko zniekształconych przypadkowych liter i znaków oraz przepisania ich w odpowiednie pole. Maszyny nie potrafią tego zrobić.

Administratorzy witryn www uznali CAPTCHA za tak dobre rozwiązanie, że aktualnie ok. 200 mln kodów CAPTCHA wpisywanych jest każdego dnia zwiększając bezpieczeństwo i użyteczność całego Internetu.

Luis – w jego wystąpieniu na konferencji TEDx, które zamieszczamy poniżej – opowiada, że kiedy zdał sobie sprawę z popularności tego mechanizmu ucieszył się; a zaraz potem zmartwił, ponieważ pomyślał, że wypełnienie jednego CAPTCHA zajmuje każdemu ok. 10 sekund. W związku z tym ok. 550 tysięcy godzin jest „marnowanych” każdego dnia. Lusi postawił sobie za zadanie użycie tej energii do czegoś pożytecznego i to zaprowadziło go do projektów digitalizujących książki z ich wyzwaniem rozpoznawania słów. Ten sam defekt maszyn, który utrudniał digitalizację książek pomagał jednocześnie zabezpieczyć Internet.

Efektem prac była reCAPTCHA. W odróżnieniu od swojej pierwotnej wersji składa się z dwóch haseł i dwóch pól do wypełnienia. Przepisanie jednego ze zniekształconych haseł pozwala stwierdzić, że jesteśmy człowiekiem – nie maszyną. Natomiast drugie zniekształcone hasło pochodzi z książki, która nie została w całości zdigitalizowana w jednym z wielkich projektów digitalizacyjnych. To samo hasło trafia do tysięcy osób udowadniających swoje człowieczeństwo w sieci, następnie algorytm wybiera wersję najczęściej wpisywaną przez Internautów.

Tym sposobem, dzięki zaawansowanym algorytmom i kreatywnej inżynierii komputerowej nasze 10 sekund jest spożytkowane na rzecz digitalizacji dziedzictwa, za którym kryje się konkretna wizja biblioteki – takiej, w której wszystkie książki są ze sobą połączone w jeden system.