Korektor jest w obliczeniowej , narzędzie oprogramowanie do analizy tekstu w celu wykrycia i ewentualnie poprawić błędy pisowni i muszli w nim.
Nie należy mylić sprawdzania pisowni i sprawdzania gramatyki (zwanej również sprawdzaniem gramatyki ). Moduł sprawdzania pisowni porównuje słowa w tekście ze słowami w słowniku . Jeśli słowa tekstu znajdują się w słownikach, są akceptowane, w przeciwnym razie sprawdzanie pisowni przedstawia jedną lub więcej propozycji bliskich słów. Moduł sprawdzania gramatyki sprawdza, czy słowa tekstu, mimo że znajdują się w słownikach, są zgodne z zasadami gramatyki ( akordy , szyk wyrazów itp.) oraz z zasadami semantyki (zdanie ze znaczeniem, brak pomylenia homofonów itp.). ).
To oprogramowanie może być samodzielne i działać na bloku zwykłego tekstu, ale funkcja korekcji jest często zintegrowana z oprogramowaniem, w którym użytkownik musi wprowadzić tekst. Początkowo był używany w programach do przetwarzania tekstu , a dziś w forach , menedżerach poczty e-mail i przeglądarkach internetowych .
Analiza może odbywać się w czasie rzeczywistym, to znaczy podczas wprowadzania tekstu przez użytkownika, a błędy są następnie formatowane w inny sposób, aby przyciągnąć ich uwagę i zachęcić do ich poprawiania, z propozycjami korekt w kontekście kontekstowym. menu lub wszystkie na raz, na życzenie użytkownika. Oprogramowanie do przetwarzania tekstu ma również konfigurowalną funkcję automatycznej korekty, która zajmuje się błędami i skrótami za każdym razem, gdy słowo jest sprawdzane, zgodnie z tabelą korespondencji.
Użytkownik może być zmuszony do domyślnego uzupełnienia wbudowanego słownika, w szczególności poprzez dodanie nazw własnych , aby uniknąć fałszywych alarmów .
Angielski jest wyjątkiem w tym sensie, że większość słów używanych w piśmie tylko jedno pismo, które można znaleźć w standardowym słowniku, z wyjątkiem niektórych słów i żargon zmianie. Jednak w wielu językach często wymagane jest dostosowanie pisowni do słów sąsiednich. Na przykład w języku francuskim słowo „je”, po którym następuje dowolne słowo rozpoczynające się samogłoską, jest zawsze pisane w formie elipsy, tak jak w „j'ai” lub „j'irai”. W języku niemieckim nazwy złożone są często przejmowane z innych istniejących nazw. Niektóre pisma święte nie oddzielają wyraźnie słów od siebie, co wymaga algorytmów separacji słów. Każdy język może zatem stanowić różne wyzwania dla sprawdzania pisowni w języku innym niż angielski.
Od reformy z 1990 r. język francuski charakteryzuje współistnienie dwóch różnych pisowni niektórych słów.
Kontroler pakietu Microsoft Office ma trzy tryby działania: użycie starej pisowni, użycie nowej pisowni i akceptacja obu pisowni.
Narzędzie sprawdzające pakiet biurowy OpenOffice.org i jego pochodne ( Apache OpenOffice , LibreOffice ) mają cztery słowniki: „Modern”, „Classic”, „Reform 1990” i „All Variants”.
Korektor Le Robert ma dwa tryby pracy: stara pisownia i nowa pisownia.
Korektor oprogramowania Antidote posiada trzy tryby pracy: korekta o starą pisownię, korekta o nową pisownię, akceptacja obu pisowni.
Cordial Checker firmy Synapse Développement jest na bieżąco z nową pisownią od 2003 roku.
W Debianie istnieją cztery odmiany słownika hunspell : hunspell-fr-classical (wersja klasyczna), hunspell-fr-comprehensive (wersja pełna), hunspell-fr-modern (wersja nowoczesna), hunspell-fr-revised (wersja poprawiona ) .
Najnowsze badania skupiły się na opracowaniu algorytmów zdolnych do rozpoznawania źle napisanego słowa, nawet gdy jest ono w słowniku, na podstawie słów otaczających. To łagodzi katastrofalny efekt rozszerzania słowników i pozwala na rozpoznanie większej liczby słów. Najczęstszym przykładem tego rodzaju błędu ten system może wykryć to ujednoznacznienie błąd , jak w następującym zdaniu: Island jest zmęczony dla one tam są .
Obecnie najbardziej wydajnym algorytmem sprawdzania pisowni jest algorytm oparty na technice przesiewania opublikowany w 1999 roku przez Andrew Goldinga i Dana Rotha : oprócz wykrywania błędów jest on w stanie rozpoznać około 96% błędów związanych z kontekstem , nie-słowa (w porównaniu do słownika). Najnowsze wersje programów do sprawdzania gramatyki są zależne od kontekstu. Dzięki analizie dużych korpusów mają zwyczajowy kontekst najczęściej występujących słów, dzięki czemu mogą z dużą precyzją korygować błędy ujednoznacznienia (takie jak „tchórz” i „tchórz” czy „wiatr” i „van”). Tak jest w przypadku Antidote , który przeanalizował korpus liczący 500 mln słów, tak samo jest w przypadku Cordial , który przeanalizował korpus liczący 1200 mln słów, oraz korektora Roberta.