CAPTCHA

CAPTCHA to rodzina Test Turinga, który automatycznie odróżnić ludzką użytkownika z punktu A komputerze . Ten test typu wyzwanie-odpowiedź jest używany w informatyce w celu sprawdzenia, czy użytkownik nie jest robotem .

Weryfikacja zazwyczaj wykorzystuje możliwości analizy ludzkiego obrazu lub dźwięku . Zwykła CAPTCHA wymaga zatem od użytkownika wprowadzenia na klawiaturze nieprawdopodobnej krótkiej sekwencji pół tuzina liter i/lub cyfr widocznych na zniekształconym obrazie (patrz ilustracja), który pojawia się na ekranie . Niektóre witryny wolą wyświetlać obrazek zawierający pytanie matematyczne.

W przeciwieństwie do testów Turinga wykonanych przez ludzi, CAPTCHA jest generowane i interpretowane przez komputer, dlatego często jest opisywane jako odwrócony test Turinga (w) . Termin ten jest jednak niejednoznaczny, o ile kwalifikuje również, w innym kontekście, ludzkich uczestników, którzy próbują uchodzić za komputery.

Stopniowo pojawiały się obejścia tego systemu, w szczególności programy do optycznego rozpoznawania znaków (OCR). Ich omylność oraz przeszkoda, jaką stanowią, w szczególności dla osób niedowidzących , doprowadziły do zmian w CAPTCHA, które nie wymagają już rozpoznawania na podstawie samego czytania.

CAPTCHA jest zarejestrowanym znakiem towarowym Uniwersytetu Carnegie-Melon .

Historia

Od samego początku istnienia Internetu użytkownicy chcieli tworzyć teksty, których komputery nie były w stanie rozszyfrować. Pierwszymi byli hakerzy , którzy publikowali na forach internetowych drażliwe tematy , które były automatycznie monitorowane za pomocą słów kluczowych . Aby obejść te filtry, zaczęli zastępować słowa wizualnie podobnymi znakami. Na przykład HELLO może zostać zastąpione przez | - | 3 | _ | _ () lub) - (3 £ 0, a także wiele wariantów liczbowych. W ten sposób oszukano filtry słów kluczowych . Później nazwano je „13375p34k” ( pismo mowy ).

Pierwsza myśl o stworzeniu automatycznych testów, które mogłyby odróżnić ludzi od komputerów w celu kontrolowania dostępu do usług sieciowych , pojawiła się w manuskrypcie Moni Naor z Instytutu Nauki Weizmanna z 1996 roku , zatytułowanym Weryfikacja człowieka w pętli, czyli Identyfikacja poprzez Test Turinga . Wydaje się, że prymitywne CAPTCHA zostały opracowane później, w 1997 roku w AltaVista przez Andrei Brodera i jego współpracowników, w celu uniemożliwienia botom dodawania witryn do ich wyszukiwarki .

Badając sposób na uodpornienie ich obrazów na ataki oprogramowania do rozpoznawania znaków , zespół przyjął odwrotny pogląd na podręcznik skanera marki Brother , który zawierał zalecenia dotyczące poprawy wydajności rozpoznawania znaków (podobne rodzaje pisma, jednorodne tło itp.). ). Zespół zaprojektował więc łamigłówki, próbując symulować, co może powodować słabe automatyczne rozpoznawanie postaci. W 2000 roku von Ahn i Blum opracowali i opublikowali koncepcję CAPTCHA, która obejmuje dowolny program, który może odróżnić człowieka od komputera. Wymyślili wiele przykładów, z których pierwszy był szeroko stosowany ( w szczególności przez Yahoo! ).

Rozpoczęła się wówczas rywalizacja między ulepszaniem czytników robotów CAPTCHA a szyfrowaniem CAPTCHA. Pojawiało się więc coraz więcej zdeformowanych postaci, stosowanie kolorów i animowane CAPTCHA (którego postacie z czasem deformują się).

Metody te stwarzają jednak problemy z dostępnością dla osób z upośledzeniem wzroku. Aby rozwiązać ten problem, niektóre systemy oferują wybór między identyfikacją graficzną a dźwiękową.

Aby ominąć CAPTCHA, niektóre firmy zatrudniają ludzi do dekodowania testów. Inni powołują się na oprogramowanie CAPTCHA umożliwiające dostęp do takich zdjęć pornograficznych , tym samym znoszące koszty robocizny i pozwalające robotom, dzięki tym odpowiedziom, wysyłać spam do niektórych świeżych.

W latach 2010 pojawiły się nowe formy CAPTCHA, takie jak puzzle (wycinane obrazki, które należy ułożyć w odpowiedniej kolejności). Wykorzystywane są na przykład w systemie weryfikacji WeChat . Dostępne są różne wtyczki typu puzzle dla systemów zarządzania treścią, takich jak Captcha-garb dla Wordpress .

Pochodzenie słowa

„CAPTCHA” to Backronim : słowo to jest wymawiane jako capture ( [ k æ p tʃ ɚ ] ) w amerykańskim angielskim i ma składać się z inicjałów całkowicie zautomatyzowanego testu Turinga, aby powiedzieć Computers and Humans Apart , lub francuski ” W pełni automatyczny publiczny test Turinga w celu odróżnienia ludzi od komputerów”. Termin ten, który jest zastrzeżonym znakiem towarowym przez Carnegie Mellon University , został wynaleziony w 2000 roku przez Luis von Ahn , Manuel Blum i Nicholas J. Hopper tej uczelni i John Langford z IBM . Nazwa „captcha” może być również interpretowana jako znak przechwytywania .

Charakterystyka

CAPTCHA oznacza nie tylko okno dialogowe , ale także cały protokół generowania obrazu i sieciowy protokół routingu związany z rozdzielczością testu Turinga . CAPTCHA są w pełni zautomatyzowane i wymagają tylko kilku sekund czasu użytkownika . Celem jest zmniejszenie kosztów związanych z ręcznym wykrywaniem tożsamości użytkowników oraz zwiększenie wydajności , czyli liczby formularzy przesyłanych przez prawdziwych ludzi przetwarzanych przez serwis w jednostce czasu.

Algorytm używany do tworzenia CAPTCHA jest często publicznej, chociaż może być opatentowana jak to ma miejsce na przykład na reCAPTCHA . Ma to na celu pokazanie, że złamanie tego typu testu wymaga rozwiązania trudnego problemu poprzez odwołanie się do pojęć sztucznej inteligencji , a nie odkrywania tajników algorytmu, który można uzyskać poprzez dekompilację lub w inny sposób.

CAPTCHA częściej odnosi się do okna dialogowego znajdującego się tuż przed wysłaniem formularza , składającego się najczęściej z:

obraz plik powinien być łatwo rozpoznawalny zarówno przez człowieka i trudne do zidentyfikowania przez algorytm;
metoda wprowadzania, dzięki której użytkownik może wprowadzić swój wynik;

a rzadziej z:

metoda odnawiania pliku, gdy nie jest on nawet rozpoznawalny dla ludzi;
metoda ułatwień dostępu , na przykład wersja audio dla osób niedowidzących.

Zniekształcony obraz tekstu prawdopodobnie zbyt łatwy do odczytania dla dzisiejszych robotów.

Jeszcze przed wysłaniem formularza na stronę, żądanie jest odrzucane, jeśli CAPTCHA nie zostanie poprawnie wpisany, co chroni serwery hostingowe przed atakiem typu request flood, takim jak DoS .

Ta wizualna procedura była przestarzała w 2017 roku, kiedy Google wprowadził Captcha za pomocą prostego pola wyboru . Jego działanie jest bardziej złożone niż testy uruchamiane z ww. plików. Algorytm są przechowywane mniej lub bardziej tajne, ale Google wyjaśnia, że analizuje wszystkie zachowania użytkownika przed kliknięciem . Przypuszczalnie dotyczy to w szczególności technik śledzenia myszy .

Następna generacja CAPTCHA nie powinna już nawet wymagać udziału człowieka, który bezpośrednio analizowałby zachowanie użytkownika na odwiedzanej stronie internetowej.

Aplikacje

CAPTCHA jest używana w Internecie do ochrony formularzy przed automatycznym i wielokrotnym przesyłaniem przez złośliwe boty . Oni przywykli :

przed spamem :
- przy rejestracji na bezpłatne webmaile (których konta mogą być później wykorzystane do wysyłania niechcianych e-maili);
- podczas przesyłania wiadomości na fora dyskusyjne i blogi (co może prowadzić do nadużyć SEO ) itp. ;
przeciwko automatycznej ekstrakcji baz danych ;
przeciwko próbom brutalnych ataków siłowych ;
za udział w sondażach (których wyniki mogą zostać zniekształcone przez automatyczne głosowanie).

Złożoność

Złożoność niektórych typów CAPTCHA jest karalna dla internautów, którzy zmuszeni są do kilkukrotnego wypróbowywania możliwych kombinacji. Rzeczywiście, niektóre CAPTCHA są tak zniekształcone, że nawet użytkownicy Internetu nie mogą ich rozpoznać.

Ponadto ich skuteczność jest kwestionowana, a CAPTCHA mogą być rozpoznawane w ciągu kilku sekund przez algorytmy.

Dostępność

Testy CAPTCHA oparte na czytaniu tekstu – lub jakimkolwiek innym zadaniu percepcji wzrokowej – uniemożliwiają osobom z wadami wzroku ( niewidomym lub mającym trudności z postrzeganiem kolorów ) dostęp do chronionych zasobów . Typowe narzędzia pomocy, takie jak czytniki ekranu , nie mogą ich zinterpretować. Alternatywne rozwiązania są czasami dostarczane przez strony internetowe :

Niektóre CAPTCHA wykorzystują wiadomość dźwiękową, a następnie rozpoznawanie głosu , kolejną gałąź sztucznej inteligencji, która może być wykorzystana jako podstawa testu CAPTCHA. Wydaje się, że rozwój audio CAPTCHA pozostaje w tyle za testami wizualnymi.
Niektóre wymagają zrozumienia tekstu (na przykład puzzle logiczne , pytania lub instrukcje tworzenia hasła ). Niewiele badań skupia się na ich odporności na środki zaradcze.
Niektóre testy opierają się na rozpoznawaniu obrazu. KittenAuth jest tego typu, który prosi użytkownika o rozpoznanie zwierzęcia (kocięta) na serii zdjęć różnych gatunków (delfiny, szczenięta, lisy itp.)

Procedury te nadal wykluczają osoby z wadami wzroku i słuchu . Zastosowanie CAPTCHA uniemożliwia zatem kilku osobom korzystanie ze wszystkich usług internetowych , takich jak PayPal , Gmail , Orkut , Yahoo! oraz liczne fora i blogi .

Zgodnie z prawem w niektórych jurysdykcjach właściciele witryn mogą stać się obiektem sporów sądowych, jeśli użyją kodów CAPTCHA, które dyskryminują osoby z pewnymi niepełnosprawnościami .

Podstęp

Kilka podejść pozwala pokonać CAPTCHA:

użyj ludzkiej siły roboczej, aby je rozpoznać:
- płacić dekodery CAPTCHA w krajach o niskich kosztach pracy;
- prowadzić dobrze odwiedzaną witrynę, prosząc użytkowników o rozwiązanie w czasie rzeczywistym CAPTCHA pochodzącego z innej witryny;
wykorzystywać błędy w implementacjach, które pozwalają napastnikom całkowicie ominąć CAPTCHA;
ulepszać oprogramowanie do rozpoznawania znaków ;
atak brute force lub atak słownikowy , który może być ułatwione przez częściowe CAPTCHA rozpoznawania (w tym liczbę znaków).

Ludzka siła robocza

Możliwe jest zdanie testu CAPTCHA przy użyciu ludzkich operatorów zatrudnionych do ich dekodowania. Publikacja W3C wskazuje, że taki operator „mógłby łatwo sprawdzić setki kodów CAPTCHA na godzinę”. Indyjskie firmy świadczące usługi crowdsourcingowe specjalizują się w tym biznesie. Niektórym spamerom udało się obejść ten problem, tworząc strony internetowe, które proszą użytkownika o zdanie testu CAPTCHA w celu uzyskania dostępu, przy czym test ten jest wykonywany przez inną witrynę, taką jak Yahoo, aby zweryfikować utworzenie nowego adresu e-mail. W ten sposób użytkownik pierwszej strony przyczynia się bez swojej wiedzy do złośliwych działań tej drugiej. Istnieje środek zaradczy: dodaj w CAPTCHA wyrażenie wyraźnie identyfikujące jego wystawcę (np. „yahoo.fr”).

Błędy projektowe

Niektóre źle zaprojektowane systemy ochrony CAPTCHA mogą czasami być wymuszone bez użycia oprogramowania do rozpoznawania znaków, ponownie wykorzystując identyfikator sesji znanego obrazu CAPTCHA. Czasami, jeśli część oprogramowania generująca CAPTCHA znajduje się po stronie klienta (walidacja odbywa się na serwerze , ale tekst, który użytkownik musi wprowadzić, aby się zalogować, jest generowany po stronie klienta), to użytkownicy mogą modyfikować oprogramowanie. klienta, aby na przykład wyświetlić niezdeformowany tekst CAPTCHA.

Automatyczne rozpoznawanie znaków

Chociaż CAPTCHA zostały pierwotnie zaprojektowane w celu przeciwdziałania standardowemu oprogramowaniu do rozpoznawania znaków używanemu do skanowania dokumentów, kilka projektów badawczych udowodniło, że możliwe jest odszyfrowanie dużej liczby CAPTCHA za pomocą programów specjalnie dostosowanych do typu CAPTCHA. W przypadku CAPTCHA ze zniekształconymi literami, dostosowane podejście składa się zazwyczaj z następujących kroków:

tłumienie tła obrazu, na przykład za pomocą filtrów kolorowych i wykrywania drobnych linii;
segmentacja, czyli cięcie obrazu na kilka segmentów zawierających pojedynczą literę;
identyfikacja litery zawartej w każdym segmencie.

ReCAPTCHA oferuje podobnego podejścia na poziomie słów.

Inne procesy

Boty mogą również omijać captcha.

Boty osiągnęły następujące wyniki: 66,6% za reCAPTCHA, 64,4% za BotDetect, 57,4% za Yahoo i 57,1% za PayPal.

Odmienne zastosowania

W digitalizacji książek

W reCAPTCHA oferuje dwa słowa, z których pierwsza jest znana i służy jako CAPTCHA a drugi jest niepewne, a nawet nie wiadomo, ponieważ pochodzi od digitalizacji książki. Umożliwia to przyczynienie się (bez wiedzy użytkownika, poprzez pracę konsumenta ) do digitalizacji słabo zeskanowanych tekstów. Taki generator, aby mógł funkcjonować i być naprawdę bezpieczny, wymaga systemu, z którego korzysta bardzo duża baza różnych użytkowników (kilka milionów) i takie generatory mogą realizować tylko największe agregatory treści i serwisów internetowych.

W digitalizacji danych kartograficznych

CAPTCHA oferuje jedną lub więcej serii numerów odpowiadających znakom drogowym, znakom drogowym, numerom domów, aby pomóc w stworzeniu zbioru adresów geograficznych z fotograficznych zdjęć terenu. Ogromna różnorodność formatów i prezentacji cyfr, a także kolorystyka i faktura liternictwa oraz zastosowane tła i materiały sprawiają, że ich w pełni zautomatyzowana obróbka jest często zbyt chaotyczna; Generator CAPTCHA wykorzystuje udzielone odpowiedzi, aby poprawić skuteczne rozpoznawanie cyfr. Podobnie jak w przypadku systemu reCAPTCHA, jeśli CAPTCHA są używane jako metoda autoryzacji dostępu, system ten zazwyczaj zapewnia dwa obrazy do odczytania, z których jeden ma znaną odpowiedź z serwera, a drugi jest nieprecyzyjny i jeszcze nie został potwierdzony (dla jego niewidomych) przez ludzkiego czytelnika.

W reklamie

Niektóre firmy proponują wykorzystanie CAPTCHA jako narzędzia do rozpowszechniania reklamy. CAPTCHA może zatem poprosić użytkownika o odwiedzenie strony, obejrzenie filmu lub animacji lub odsłuchanie zwiastuna, wyszukanie tam i uzyskanie prawidłowej odpowiedzi, aby powrócić. Jako bonus użytkownik może otrzymać wynagrodzenie lub inną korzyść (np. obniżkę ceny normalnie pobieranej w celu uzyskania produktu lub usługi chronionej przez CAPTCHA).

Jako środek mikropłatności lub potwierdzenia prawnego lub umownego

Niektóre witryny używają CAPTCHA do sprawdzenia, czy użytkownik przeczytał, usłyszał i zrozumiał określoną wiadomość przed uzyskaniem dostępu do chronionych lub płatnych treści lub usług. Przekaz ma często charakter reklamowy, ale może być również sposobem na udowodnienie przez witrynę zabezpieczającą treści, że użytkownik zapamiętał przekaz reklamowy lub zrozumiał klauzulę prawną lub umowną, którą zobowiązuje się świadomie przestrzegać. CAPTCHA zadaje pytanie lub problem związany z tą wiadomością lub klauzulą, a użytkownik musi zacytować poprawną odpowiedź potwierdzającą, że wiadomość została zrozumiana).

Uwagi i referencje

Ataki na CAPTCHA
Captcha Garb , obraz puzzle captcha
neuroradiologia , InsideReCaptcha: Inżynieria wsteczna nowego „bez captchaless” systemu ReCaptcha. ,8 czerwca 2017( przeczytaj online ).
czego służą CAPTCHA? .
Grégory Rozières, „ No more„ Captcha ”, dzięki nowemu algorytmowi Google „ , na HuffPost ,13 marca 2017 r.(dostęp 4 grudnia 2018 )
„ Przedstawiamy reCAPTCHA v3 ” w Google (dostęp 4 grudnia 2018 r . ) .
Vincent Hermann, „ reCAPTCHA: Google chce udowodnić, że nie jesteś robotem za pomocą pola wyboru ” , w Next Inpact ,4 grudnia 2014(dostęp 4 grudnia 2018 r . ) .
Vincent Hermann , " Google usuwa CAPTCHA za pomocą niewidzialnego mechanizmu " , na NextInpact ,13 marca 2017 r.(dostęp 13 czerwca 2017 r . ) .
Nicolas Kerschenbaum, „ Śmierć CAPTCHA: jak piraci je łamią? " ,20 czerwca 2008(dostęp 7 grudnia 2014 )
(w) K. Chellapilla, K. Larson, P. Simard i Mr. Czerwiński, „ Komputery biją ludzi w rozpoznawaniu pojedynczych znaków w dowodach interakcji międzyludzkich (HIP) opartych na czytaniu ” [PDF] , Microsoft Research,2005(dostęp 7 grudnia 2014 )
(w) " Niedostępność CAPTCHA " na W3C ,3 lipca 2018(dostęp 4 grudnia 2018 )
W3C , " Niedostępność" CAPTCHA " , na Yoyo Design ,23 listopada 2005(dostęp 4 grudnia 2018 r. ) : „Często te systemy weryfikacji uniemożliwiają niektórym niepełnosprawnym użytkownikom tworzenie kont, pisanie recenzji lub dokonywanie zakupów w witrynach, to znaczy. - powiedz, że captcha nie rozpoznają niepełnosprawnych użytkowników jako użytkowników. "
KittenAuth .
Według sense.org.uk, około 4% ludzi w Wielkiej Brytanii ma poważne upośledzenie wzroku i słuchu. Według National Technical Assistance Konsorcjum dla niewidomych, głuchych i niemych, dzieci i młodzieży (NTAC) było 9516 ślepy, głuchy, niemy i dzieci w Stanach Zjednoczonych w 2004 roku Gallaudeta Uniwersytetu przytacza szacunkowe z 1993 r., Co skutkuje 35 000 całkowicie niewidomych, głuchych i niemych dorosłych w Stanach Zjednoczonych. Oszacowanie populacji osób niewidomych, głuchoniemych i niemych zależy od stopnia niepełnosprawności użytego w definicjach.
„ ReCAPTCHA jest nadal podatny na ataki: być może nawet bardziej niż kiedykolwiek wcześniej ” , na stronie FunCaptcha ,6 stycznia 2015(dostęp 12 czerwca 2017 )
Dancho Danchev, „ Indyjska gospodarka rozwiązywająca CAPTCHA w Indiach ” , Zero Day , na ZDNet ,29 sierpnia 2009. Wynagrodzenie wymienione w artykule jest rzędu 2 dolarów za tysiąc rozwiązanych problemów.
(en) Aatif Sulleyman, „ Bot 'łamie' Captcha, czyniąc najbardziej irytującą rzecz w Internecie bezcelową ” , The Independent ,31 października 2017 r..
„ Wszyscy pracują dla Google ” , Le Figaro ,21 października 2009(dostęp 27 września 2019 ) .
(w) „ Uczenie komputerów czytać: Google Acquires reCAPTCHA ” na oficjalnym blogu Google ,16 września 2009(dostęp 27 września 2019 ) .

Zobacz również

Powiązane artykuły

Linki zewnętrzne

Ewidencja organów :
(pl) captcha.net , strona projektu Captcha na Uniwersytecie Carnegie-Mellon, która jest źródłem tej koncepcji i która jest właścicielem marki
( fr ) O captcha i alternatywach , W3C