Optycznego rozpoznawania znaków (OCR), angielski optycznego rozpoznawania znaków ( OCR ) lub przetwarzania OCR , oznacza procesy komputerowe dla przeliczenia drukowanych obrazów tekstowych lub maszynopisu plików tekstowych.
Do wykonania tego zadania komputer wymaga oprogramowania OCR. Pozwala to na pobranie tekstu z obrazu drukowanego tekstu i zapisanie go w pliku, który można wykorzystać w edytorze tekstu do wzbogacenia i przechowywać w bazie danych lub na innym nośniku, który może być używany przez system komputerowy.
Pierwsza maszyna OCR została stworzona przez niemieckiego inżyniera Gustava Tauscheka w 1929 roku . Zawierał światłoczuły detektor, który skierował światło na słowo, gdy dopasował szablon w swojej pamięci.
W 1950 roku , Frank Rowlett, którzy złamali japoński kod dyplomatyczny PURPLE , poprosił Davida Sheparda, a kryptoanalityk z AFSA (poprzednika US NSA ), do pracy z Louis Tordella aby propozycje agencję do spraw proceduralnych. Automatyzację danych. Problem dotyczył konwertowania komunikatów drukowanych na język maszynowy do przetwarzania komputerowego. Shepard zdecydował, że musi istnieć możliwość zbudowania maszyny do tego celu i, z pomocą przyjaciela Harveya Cooka, budował „Gismo” na swoim strychu podczas wieczorów i weekendów. Fakt ten został zgłoszony w Washington Daily News z dnia27 kwietnia 1951oraz w New York Times z26 grudnia 1953po zgłoszeniu patentu numer 2 663 758. Shepard założył następnie Intelligent Machines Research Corporation (IMR), która dostarczyła pierwsze na świecie systemy OCR obsługiwane przez prywatne firmy. Pierwszy prywatny system został zainstalowany w Reader's Digest w 1955 roku , a wiele lat później został podarowany przez Readers Digest firmie Smithsonian , gdzie był prezentowany. Inne systemy sprzedawane przez IMR pod koniec lat pięćdziesiątych XX wieku obejmowały czytnik odcinków banknotów w Ohio Bell Telephone Company oraz digitizer (skaner dokumentów) w Siłach Powietrznych Stanów Zjednoczonych do odczytywania i teleksowej transmisji wiadomości. IBM i inni później wykorzystali patenty Sheparda.
Poczta Stanów Zjednoczonych od 1965 roku używa maszyn OCR do sortowania poczty, których zasadę działania wymyślił Jacob Rabinow , płodny wynalazca. Poczta Canada Post używa systemów OCR od 1971 roku . Systemy OCR odczytują nazwisko i adres odbiorcy w pierwszym zautomatyzowanym centrum sortowania i drukują kod kreskowy na podstawie kodu pocztowego na kopercie . Listy muszą być sortowane tylko w następujących centrach przez tańsze sortowniki, które muszą tylko odczytać kod kreskowy . Aby uniknąć ingerencji w czytelny adres, który może znajdować się w dowolnym miejscu listu, używany jest specjalny atrament, który jest wyraźnie widoczny w świetle UV . W normalnych warunkach oświetleniowych ten atrament ma kolor pomarańczowy.
Dopiero w 1974 roku naukowiec zebrał tę nową wiedzę w technologii, która pozwoliłaby niewidomym czytać dokumenty zapisane na nośnikach komputerowych. Wychodzimy z precyzyjnego pola optycznego rozpoznawania znaków, aby zastosować je przy użyciu nowych technologii. W tym celu naukowiec Ray Kurzweil stworzył syntezator mowy, który „wypowiada” tekst i usprawnił procesy digitalizacji. W 1976 roku prototyp został ukończony i dla przypomnienia, to Stevie Wonder sfinansował projekt. Wprowadzanie na rynek „czytnika” rozpoczęło się w 1978 roku. Dwa lata później Xerox kupił firmę.
Wczesne systemy wymagały „szkolenia” (zebrania znanych próbek dla każdego znaku), aby odczytać dany krój pisma . Ale dzisiaj często spotyka się „inteligentne” systemy, które potrafią rozpoznać większość czcionek z wysokim poziomem dokładności .
System OCR rozpoczyna się od obrazu cyfrowego wytworzonego przez jednostronicowy skaner optyczny (dokument drukowany, arkusz maszynowy itp.) Lub aparat cyfrowy i generuje plik tekstowy w różnych formatach (zwykły tekst, formaty, edytory tekstu, XML itp., na przykład ustandaryzowany format ALTO ).
Niektóre programy próbuje zachować wzbogacenie tekstu ( ciała , masy ciała i czcionki ), a także układ, nawet odbudować stoły i wyodrębnić obrazy.
Niektóre programy zawierają również interfejs do pozyskiwania obrazów cyfrowych.
Do niedawna funkcjonowanie wydajnych systemów OCR było mało znane, ponieważ chronione były tajemnicą przemysłową; dostępne oprogramowanie open source (np. GOcr) jest bardziej dziełem amatorów. Publikacja open source systemów o wysokiej wydajności (w szczególności Tesseract w 2006 r.) Nieco zmieniła tę sytuację.
Etapy przetwarzania można przedstawić schematycznie w następujący sposób:
Szczególnie trudnym problemem dla komputerów i ludzi są stare księgi chrztów i ślubów, które zawierają głównie imiona, w których strony mogą zostać uszkodzone przez czas, wodę lub ogień, a nazwiska mogą zostać uszkodzone. Przestarzałe lub zapisane starą pisownią . Techniki przetwarzania obrazu komputerowego mogą pomóc ludziom w czytaniu niezwykle trudnych tekstów, takich jak rękopisy Archimedesa Palimpsestu lub Qumran . Interesującym obszarem badań są podejścia oparte na współpracy, w których komputery pomagają ludziom i vice versa.
Rozpoznawanie postaci jest aktywnym obszarem badań w informatyce od końca lat 50. Początkowo uważano, że jest to łatwy problem, ale okazał się łatwy, o wiele ciekawszy. Komputerom zajmie jeszcze wiele dziesięcioleci , jeśli kiedykolwiek uda im się to zrobić, aby odczytać wszystkie dokumenty z taką samą precyzją jak ludzie.