Automatyczne rozpoznawanie mowy

Automatycznego rozpoznawania mowy (często błędnie nazywany rozpoznawania głosu ) jest technicznym komputer , który analizuje głos ludzki przechwycone przez mikrofon do zapisania jej w postaci tekstu czytelnego przez maszyny .

Rozpoznawanie mowy, a także synteza mowy , identyfikacja mówcy czy weryfikacja mówcy to tylko niektóre z technik przetwarzania mowy . Techniki te umożliwiają w szczególności tworzenie interfejsów człowiek-maszyna (HMI), w których część interakcji odbywa się za pomocą głosu: „ interfejsów głosowych”.

Wśród wielu aplikacji możemy wymienić aplikacje do dyktowania głosu na komputerze, w których trudność polega na wielkości słownictwa i długości zdań, ale także aplikacje telefoniczne typu interaktywnego serwera głosowego , gdzie trudność polega raczej na potrzebie ... rozpoznawać każdy głos w zmiennych i często hałaśliwych warunkach akustycznych (telefony komórkowe w miejscach publicznych).

W Speech and Human-Machine Dialogu, W. Minker i S. Bennacef wyjaśnić, że automatyczne rozpoznawanie mowy jest złożonym obszarem, ponieważ istnieje istotna różnica między językiem formalnym , które jest rozumiane i wykorzystywane przez maszyny i języka naturalnego , którego ludzie używają . Język formalny jest zbudowany według ścisłych reguł składniowych i nie jest dwuznaczny. I odwrotnie, w języku naturalnym słowa lub zdania mogą mieć kilka znaczeń , na przykład w zależności od intonacji mówiącego lub kontekstu.

Dziedzina badań

Rozpoznawanie mowy można powiązać z wieloma dziedzinami nauki: automatycznym przetwarzaniem języka , językoznawstwem , teorią informacji , przetwarzaniem sygnałów , sieciami neuronowymi , sztuczną inteligencją itp.

Historyczny

Prace nad rozpoznawaniem mowy z początku XX -go wieku. Pierwszy system, który można uznać za rozpoznający mowę, pochodzi z 1952 roku.

Ten system elektroniczny opracowany przez Davisa, Biddulpha i Balasheka w laboratoriach Bell Labs składał się zasadniczo z przekaźników, a jego działanie ograniczało się do rozpoznawania pojedynczych cyfr (patrz odniesienie). W latach 70. XX wieku badania znacznie wzrosły dzięki pracy Jelinek w IBM (1972-1993). Firma Threshold Technologies jako pierwsza wprowadziła na rynek w 1972 roku system rozpoznawania o pojemności 32 słów, VIP100 . Obecnie rozpoznawanie mowy to szybko rozwijająca się dziedzina dzięki wzrostowi liczby systemów pokładowych . Szybka ewolucja:

1952: rozpoznanie 10 cyfr przez przewodowe urządzenie elektroniczne.

1960: zastosowanie metod numerycznych.

1965: rozpoznawanie fonemów w mowie ciągłej.

1968: rozpoznawanie izolowanych słów przez systemy zainstalowane na komputerach typu mainframe (do 500 słów).

1970: Leonard E. Baum opracowuje ukryty model Markowa, szeroko stosowany w rozpoznawaniu mowy.

1971: Rozpoczęcie projektu ARPA w Stanach Zjednoczonych (15 milionów dolarów) w celu przetestowania wykonalności automatycznego ciągłego rozumienia mowy przy rozsądnych ograniczeniach.

1972: pierwsze na rynku urządzenie do rozpoznawania słów.

1978: wprowadzenie na rynek mikroprocesorowego systemu rozpoznawania na płytce drukowanej.

1983: światowa premiera sterowania głosowego na pokładzie myśliwca we Francji.

1985: wprowadzenie na rynek pierwszych systemów rozpoznawania kilku tysięcy słów.

1986: uruchomienie projektu telefonicznego ATR w Japonii z automatycznym tłumaczeniem w czasie rzeczywistym.

1993: Projekt Esprit SUNDIAL.

1997: Firma Dragon wprowadza na rynek „ NaturallySpeaking ”, pierwsze oprogramowanie do dyktowania głosu.

2008: Google uruchamia wyszukiwarkę internetową z funkcją rozpoznawania głosu

2011: Apple oferuje aplikację Siri na swoich telefonach.

2017: Microsoft ogłasza dostosowanie wydajności rozpoznawania mowy ludzkiej.

Podstawowe zasady

Kroki

Nagrane i zdigitalizowane zdanie jest przekazywane do programu automatycznego rozpoznawania mowy (RAP). W formalizmie RAP ( po angielsku ASR ) podział funkcjonalny wygląda następująco:

Przetwarzanie akustyczne ( front-end w języku angielskim) umożliwia głównie wyodrębnienie z sygnału mowy zwartego obrazu akustycznego w postaci wektorów akustycznych odpowiadających fragmentom sygnału od 20 do 30 ms z krokiem 10 ms (technika okienkowa Hamminga ). Sygnał jest digitalizowany i parametryzowany techniką analizy częstotliwości z wykorzystaniem transformaty Fouriera (na przykład MFCC, współczynniki cepstralne częstotliwości Mel ).

Uczenie maszynowe wysyła stowarzyszenie między elementarnych segmentów mowy i elementów leksykalnych. To skojarzenie wymaga modelowania statystycznego m.in. za pomocą ukrytych modeli Markowa (HMM, Hidden Markov Models) i / lub sztucznych sieci neuronowych (SSN, Artificial Neural Networks).

Dekodowanie przez łączenie wcześniej poznanych modeli elementarnych odtwarza najbardziej prawdopodobny dyskurs. Jest to zatem czasowe dopasowanie wzorców, często przeprowadzane przez algorytm dynamicznego dopasowania czasu (DTW w języku angielskim).

Materiał techniczny

Produkcja dokumentalna w systemie GDD rozpoczyna się od nagrania głosu ( dyktanda cyfrowego ). To kwestia nagrania i odtworzenia głosu na nośniku cyfrowym. Nagrywanie może odbywać się za pomocą różnych kanałów nagrywania: mikrofony , dyktafony , smartfony ...

Zwrot za wpis sekretariatu lub weryfikację odbywa się za pomocą głośników lub słuchawek .

Modele

Taki system oparty jest na trzech głównych modelach:

model języka: model ten podaje prawdopodobieństwo wystąpienia każdej sekwencji słów w języku docelowym; $P (W)$ $W.$
model wymowy: model ten podaje dla każdej sekwencji słów możliwe wymowy wraz z ich prawdopodobieństwami ; $W.$ $H.$ $P (H | W)$
model akustyczno-fonetyczny: model ten szacuje prawdopodobieństwo zaobserwowanej sekwencji wektorów akustycznych przy możliwej wymowie danej sekwencji słów. $P (X | H)$ $X$ $H.$

Połączenie tych trzech modeli umożliwia obliczenie prawdopodobieństwa wystąpienia dowolnej sekwencji słów przy obserwowanym sygnale mowy. Rozpoznawanie mowy polega na znalezieniu sekwencji słów o najwyższym prawdopodobieństwie. Formalnie rozwiązanie problemu jest wynikiem słów, które maksymalizują następujące wyrażenie matematyczne . $W.$ $\ textstyle P (W) \ sum _ {H} P (H | W) P (X | H)$

Aby skalibrować te modele dla aplikacji, konieczne jest użycie dużej ilości korpusu z adnotacjami. Korpus musi odpowiadać warunkom użytkowania docelowego systemu.

Klasyfikacja

Systemy rozpoznawania mowy można podzielić na kilka osi:

rodzaj sygnału: sygnał zaszumiony lub bez szumów (np .: mikrofon zestawu słuchawkowego z redukcją szumów), sygnał telefoniczny (telefon stacjonarny lub komórkowy) lub szerokopasmowy, sygnał skompresowany lub nie, itp.
rodzaj modelu akustycznego: model jednogłośnikowy ( np .: dyktowanie głosu), model wielogłośnikowy ( niezależny od mówcy w języku angielskim);
charakter nagrań: dyktowanie tekstu, polecenie głosowe, dialog człowiek-maszyna, komunikat telefoniczny, radio, telewizja, podcast itp. ;
język.

Wielkość słownictwa i złożoność modelu językowego są bezpośrednio związane z językiem i charakterem przetwarzanych danych, od kilkudziesięciu słów dla poleceń głosowych do kilkuset tysięcy słów obejmujących język, taki jak francuski lub Niemiecki.

Występ

Surową wydajność silnika rozpoznawania mowy często mierzy się stopniem błędów słów ( współczynnik błędów słów ) . I odwrotnie, możemy ocenić wskaźnik sukcesu. Szybkość ta różni się znacznie w zależności od charakteru danych do transkrypcji, mówiącego i warunków akustycznych. To niewiele zależy od języka. Oto jego formalna definicja:

${\ mathit {WER}} = {\ frac {S + E + I} {N}}$

lub:

$S$ jest liczbą podstawień;
$mi$ to liczba elekcji;
$ja$ to liczba wstawień;
$NIE$ jest liczbą słów w transkrypcji odniesienia (dokładna transkrypcja).

Oto kilka średnich wyników współczynnika błędów:

czytanie tekstów (dyktowanie głosowe, system jednego głośnika): 5%
gazety radiowe i telewizyjne: 10%
nieformalne rozmowy telefoniczne: 40%

Wzmianki w literaturze

Rozpoznawanie mowy jest wywołany w Pierwszego Kręgu przez radziecki dysydent pisarza Aleksandra Sołżenicyna , jako narzędzie represji w służbie Stalina .

Rozpoznawanie mowy jest również wspomniane w powieści kryminalnej:

„Nie ma to nic wspólnego z naszymi starymi, dobrymi raportami w domu, które brzdąkały na komputerze chłodnym palcem przyjaciela, który długo wahał się między karierą policjanta a kowalem. W Yankees mówisz i rejestrujesz, czyste i uporządkowane, bez wymazywania, powtarzania lub niewłaściwych terminów. Każdy łajdak, który nauczył się czytać na automacie, podpala cię wyznaniami, w porównaniu z którymi Wyznanie dziecka stulecia uchodziło za instrukcję użycia proszku owadobójczego przetłumaczoną z retoromańskiego.

Aby pilotować to urządzenie, nie trzeba było opuszczać Princeton. Operator musiał się tylko szarpnąć, poza swoim ładnym krzaczastym, powtarzaniem źle wymawianego słowa, a urządzenie ponownie zasugerowało stertę synonimów zgodnych ze znaczeniem zdania. Widząc działającą maszynę, pomyślałem o wszystkich moich kolegach drżących z nakryciem głowy, którego prozę uczynił zrozumiałą. "

- Frédéric Dard alias San Antonio , Sand in Vaseline

Nie ma wzmianki o rozpoznawanie mowy jako jedynego pośrednika między człowiekiem a maszyną w trylogii proroctwa o Pierre Bordage . Rzeczywiście, w tej trylogii jest przedstawiony superkomputer , PC DNA .

Oprogramowanie do rozpoznawania mowy

Nowoczesne systemy rozpoznawania mowy wykorzystują modele językowe, które mogą wymagać gigabajtów pamięci, co czyni je niepraktycznymi, szczególnie na urządzeniach mobilnych. Z tego powodu większość nowoczesnych systemów rozpoznawania mowy jest w rzeczywistości hostowana na zdalnych serwerach i wymaga połączenia internetowego oraz przesyłania treści głosowych przez sieć.

Cortana ( Microsoft )
Siri ( Apple )
Google Now ( Google )
Alexa ( Amazon )
Vocapia Research (pakiet VoxSigma)
Vocon Hybrid i Dragon (odpowiednio podyktowane gramatyką i swobodnym dyktando Nuance Communications ).

Mozilla rozpoczęła projekt społecznościowy Common Voice w celu gromadzenia próbek głosu w bezpłatnej bazie danych, aby szkolić niezastrzeżone silniki rozpoznawania mowy.

Uwagi i odniesienia

(w) Leonard E. Baum, " Technika maksymalizacji zachodząca w statystycznej analizie probabilistycznych funkcji łańcuchów Markowa " , The Annals of Mathematical Statistics ,1970, s. 164 - 171.
Peckham, J. (1993). Nowa generacja systemów dialogu mówionego: wyniki i lekcje z projektu SUNDIAL. Na trzeciej europejskiej konferencji nt. Komunikacji głosowej i technologii.
(in) „ Apple wypuszcza iPhone 4S iOS5 iCloud ” na apple.com ,4 października 2011(dostęp 21 sierpnia 2017 ) .
„ Microsoft zapowiada znaczny postęp w rozpoznawaniu mowy ” , na stronie activia.com ,21 sierpnia 2017(dostęp 21 sierpnia 2017 ) .
San Antonio , Sand in Vaseline , Paryż, Czarna Rzeka ,Wrzesień 1998, 209 s. ( ISBN 2-265-06530-7 ) , str. 40-41.

Zobacz też

Bibliografia

Przetwarzanie mowy , René Boite, Hervé Bourlard, Thierry Dutoit, Joel Hancq i Henri Leich, Presses polytechniques et universitaire romandes, 2000.
Rozpoznawanie mowy: Automatyczne przetwarzanie języka mówionego 2. Hermes Science - Lavoisier (Traktat IC2, systemy komputerowe i informacyjne), J. Mariani (red.), 2002
Jean-Paul Haton , Automatyczne rozpoznawanie mowy: od sygnału do jego interpretacji , Dunod Paris, 2006
Minker Wolfgang, Bennacef Samir (2000). Mowa i dialog człowiek-maszyna , Wydania Eyrolles i CNRS EDITIONS, Marsat, 212 stron.

Powiązane artykuły

Komenda głosowa
Automatyczne rozpoznawanie mowy
Ślad akustyczny
Interakcje człowiek-maszyna
Transkrypcja (językowa)
Lingwistyczny
Lingwistyka komputerowa
Zamiana tekstu na mowę , proces odwrotny
VoiceXML : standard interakcji głosowej
Efekt AI
Dematerializacja
Dyktafon

Linki zewnętrzne

(en) [PDF] Automatyczne rozpoznawanie cyfr mówionych , artykuł historyczny o pierwszym systemie rozpoznawania mowy, 1952
(en) "Spoczywaj w grochu: nierozpoznana śmierć rozpoznania mowy" ,Maj 2010
(en) Słowniczek dotyczący rozpoznawania mowy
identyfikacja głosu w kryminalistyce