Optyczne rozpoznawanie znaków

Optycznego rozpoznawania znaków (OCR), angielski optycznego rozpoznawania znaków ( OCR ) lub przetwarzania OCR , oznacza procesy komputerowe dla przeliczenia drukowanych obrazów tekstowych lub maszynopisu plików tekstowych.

Do wykonania tego zadania komputer wymaga oprogramowania OCR. Pozwala to na pobranie tekstu z obrazu drukowanego tekstu i zapisanie go w pliku, który można wykorzystać w edytorze tekstu do wzbogacenia i przechowywać w bazie danych lub na innym nośniku, który może być używany przez system komputerowy.

Historia

Pierwsza maszyna OCR została stworzona przez niemieckiego inżyniera Gustava Tauscheka w 1929 roku . Zawierał światłoczuły detektor, który skierował światło na słowo, gdy dopasował szablon w swojej pamięci.

W 1950 roku , Frank Rowlett, którzy złamali japoński kod dyplomatyczny PURPLE , poprosił Davida Sheparda, a kryptoanalityk z AFSA (poprzednika US NSA ), do pracy z Louis Tordella aby propozycje agencję do spraw proceduralnych. Automatyzację danych. Problem dotyczył konwertowania komunikatów drukowanych na język maszynowy do przetwarzania komputerowego. Shepard zdecydował, że musi istnieć możliwość zbudowania maszyny do tego celu i, z pomocą przyjaciela Harveya Cooka, budował „Gismo” na swoim strychu podczas wieczorów i weekendów. Fakt ten został zgłoszony w Washington Daily News z dnia 27 kwietnia 1951oraz w New York Times z26 grudnia 1953po zgłoszeniu patentu numer 2 663 758. Shepard założył następnie Intelligent Machines Research Corporation (IMR), która dostarczyła pierwsze na świecie systemy OCR obsługiwane przez prywatne firmy. Pierwszy prywatny system został zainstalowany w Reader's Digest w 1955 roku , a wiele lat później został podarowany przez Readers Digest firmie Smithsonian , gdzie był prezentowany. Inne systemy sprzedawane przez IMR pod koniec lat pięćdziesiątych XX wieku obejmowały czytnik odcinków banknotów w Ohio Bell Telephone Company oraz digitizer (skaner dokumentów) w Siłach Powietrznych Stanów Zjednoczonych do odczytywania i teleksowej transmisji wiadomości. IBM i inni później wykorzystali patenty Sheparda.

Poczta Stanów Zjednoczonych od 1965 roku używa maszyn OCR do sortowania poczty, których zasadę działania wymyślił Jacob Rabinow , płodny wynalazca. Poczta Canada Post używa systemów OCR od 1971 roku . Systemy OCR odczytują nazwisko i adres odbiorcy w pierwszym zautomatyzowanym centrum sortowania i drukują kod kreskowy na podstawie kodu pocztowego na kopercie . Listy muszą być sortowane tylko w następujących centrach przez tańsze sortowniki, które muszą tylko odczytać kod kreskowy . Aby uniknąć ingerencji w czytelny adres, który może znajdować się w dowolnym miejscu listu, używany jest specjalny atrament, który jest wyraźnie widoczny w świetle UV . W normalnych warunkach oświetleniowych ten atrament ma kolor pomarańczowy.

Dopiero w 1974 roku naukowiec zebrał tę nową wiedzę w technologii, która pozwoliłaby niewidomym czytać dokumenty zapisane na nośnikach komputerowych. Wychodzimy z precyzyjnego pola optycznego rozpoznawania znaków, aby zastosować je przy użyciu nowych technologii. W tym celu naukowiec Ray Kurzweil stworzył syntezator mowy, który „wypowiada” tekst i usprawnił procesy digitalizacji. W 1976 roku prototyp został ukończony i dla przypomnienia, to Stevie Wonder sfinansował projekt. Wprowadzanie na rynek „czytnika” rozpoczęło się w 1978 roku. Dwa lata później Xerox kupił firmę.

Uczenie się

Wczesne systemy wymagały „szkolenia” (zebrania znanych próbek dla każdego znaku), aby odczytać dany krój pisma . Ale dzisiaj często spotyka się „inteligentne” systemy, które potrafią rozpoznać większość czcionek z wysokim poziomem dokładności .

Operacja

System OCR rozpoczyna się od obrazu cyfrowego wytworzonego przez jednostronicowy skaner optyczny (dokument drukowany, arkusz maszynowy itp.) Lub aparat cyfrowy i generuje plik tekstowy w różnych formatach (zwykły tekst, formaty, edytory tekstu, XML itp., na przykład ustandaryzowany format ALTO ).

Niektóre programy próbuje zachować wzbogacenie tekstu ( ciała , masy ciała i czcionki ), a także układ, nawet odbudować stoły i wyodrębnić obrazy.

Niektóre programy zawierają również interfejs do pozyskiwania obrazów cyfrowych.

Do niedawna funkcjonowanie wydajnych systemów OCR było mało znane, ponieważ chronione były tajemnicą przemysłową; dostępne oprogramowanie open source (np. GOcr) jest bardziej dziełem amatorów. Publikacja open source systemów o wysokiej wydajności (w szczególności Tesseract w 2006 r.) Nieco zmieniła tę sytuację.

Etapy przetwarzania można przedstawić schematycznie w następujący sposób:

Wstępna analiza obrazu: celem jest możliwie poprawa jakości obrazu. Może to obejmować prostowanie pochylonych lub zniekształconych obrazów, korektę kontrastu, przełączanie na tryb dwukolorowy (czarno-biały lub raczej papier i tusz), wykrywanie krawędzi.
Segmentacja linii i znaków (lub Analiza strony): ma na celu wyodrębnienie wierszy tekstu i znaków w wierszach obrazu. W tej fazie można również wykryć podkreślony tekst, ramki, obrazy.
Rozpoznawanie znaków właściwych: po normalizacji (skala, nachylenie) instancja do rozpoznania jest porównywana z biblioteką znanych kształtów, a najbardziej „podobny” kształt (lub N najbliższych kształtów) zostaje zachowany do następnego kroku.) Zgodnie z na odległość lub prawdopodobieństwo ( prawdopodobieństwo ). Techniki rozpoznawania można podzielić na kilka głównych typów:
1. Klasyfikacja według cech ( cech ): forma do rozpoznania jest reprezentowana przez wektor wartości liczbowych - zwanych w języku angielskim cechami - obliczonymi na podstawie tego formularza. Liczba cech jest rzędu od 100 do 300. Jeśli cechy są dobrze dobrane, klasa znaków (na przykład zbiór wielkich liter A) będzie reprezentowana przez ciągłą „chmurę” punktów w przestrzeni wektorowej. funkcje . Rolą klasyfikatora jest określenie, do której chmury (a tym samym do jakiej klasy znaków) najprawdopodobniej należy rozpoznawany kształt. Klasyfikacja generalnie wykorzystuje różne typy sztucznych sieci neuronowych trenowanych na dużej podstawie możliwych kształtów.
2. Metody metryczne: polegają na bezpośrednim porównaniu kształtu, który ma być rozpoznany, za pomocą algorytmów odległości, z zestawem wyuczonych modeli. Ten rodzaj metody jest rzadko używany i mało ceniony przez badaczy, ponieważ często jest naiwny i prawdopodobnie mniej skuteczny niż funkcje oparte na metodach .
3. Metody statystyczne: w dziedzinie rozpoznawania pisma ręcznego często stosuje się metody probabilistyczne / statystyczne, takie jak łańcuchy Markowa .
Przetwarzanie końcowe z wykorzystaniem metod językowych i kontekstowych w celu zmniejszenia liczby błędów rozpoznawania: systemy oparte na regułach lub metody statystyczne oparte na słownikach słów, sylabach, N-gramach (ciągach znaków lub wyrazach). W systemach przemysłowych specjalistyczne techniki dla niektórych pól tekstowych (nazwiska, adresy pocztowe) mogą wykorzystywać bazy danych do eliminacji błędnych rozwiązań.
Generowanie formatu wyjściowego z układem dla najlepszych systemów.

Dziedzina badań

Szczególnie trudnym problemem dla komputerów i ludzi są stare księgi chrztów i ślubów, które zawierają głównie imiona, w których strony mogą zostać uszkodzone przez czas, wodę lub ogień, a nazwiska mogą zostać uszkodzone. Przestarzałe lub zapisane starą pisownią . Techniki przetwarzania obrazu komputerowego mogą pomóc ludziom w czytaniu niezwykle trudnych tekstów, takich jak rękopisy Archimedesa Palimpsestu lub Qumran . Interesującym obszarem badań są podejścia oparte na współpracy, w których komputery pomagają ludziom i vice versa.

Rozpoznawanie postaci jest aktywnym obszarem badań w informatyce od końca lat 50. Początkowo uważano, że jest to łatwy problem, ale okazał się łatwy, o wiele ciekawszy. Komputerom zajmie jeszcze wiele dziesięcioleci , jeśli kiedykolwiek uda im się to zrobić, aby odczytać wszystkie dokumenty z taką samą precyzją jak ludzie.

Główne oprogramowanie

Darmowe oprogramowanie :
- GOCR ( Unix , Windows ),
- OCRopus (Unix),
- Tesseract (Unix, Windows),
- CuneiForm (Unix) (en) ;
Oprogramowanie Freemium :
- ManaCount (Windows, Max OS) wystawianie faktur i informacji bankowych;
Oprogramowanie własne :
- Oprogramowanie bezpłatne :
  - Moredata, darmowe oprogramowanie wykorzystujące tessnet ( Windows ),
  - MoredataFast (Windows),
- Płatne oprogramowanie:
  - Rozpoznawanie pisma maszynowego i odręcznego Ad'doc IIM (Windows) Www.imds.ca,
  - ROZWIĄZANIA Multimedialne BotServer (Windows, Linux)
  - Adobe Acrobat Professional (Windows, Mac OS),
  - ExactScan ExactScan Pro i OCRKit (Mac OS),
  - ABBYY FineReader (Unix, Windows, Mac OS),
  - Nuance Omnipage (Windows),
  - IRIS Readiris (Unix, Windows, Mac OS),
  - Nicomsoft OCR (Windows, Unix),
  - Omnipage PRO (Windows 95 i nowsze).

Uwagi i odniesienia

Zasady Wzór Klasyfikacja: Statystyczny, sieć neuronowa i Syntactic metod coraz roboty zobaczyć i usłyszeć - Uwagi wykład D r Michael D. olcha, University of Western Australia, 1994
wolny, na licencji GNU GPL lub Apache.

Zobacz też

Bibliografia

Uznanie druku , H 1348, Philippe Lefèvre, Techniques de l'Ingénieur editions, 1999.
Łączenie rozpoznawania znaków w wielu skalach i wiedzy językowej na potrzeby OCR tekstu naturalnej sceny , Khaoula Elagouni [Orange Labs], Christophe Garcia [LIRIS], Franck Mamalet [Orange Labs], Pascale Sébillot [IRISA], 2012.

Powiązane artykuły

Inteligentne rozpoznawanie znaków
Rozpoznawanie pisma odręcznego
Rozpoznawanie wzorców
Analiza dyskryminacyjna
Tablica znaków Unicode - optyczne rozpoznawanie znaków
Baza danych MNIST , standardowy zbiór danych do rozpoznawania pisma ręcznego
Automatyczne odczytywanie dokumentów