Automatyczne rozpoznawanie mowy

Automatycznego rozpoznawania mowy (często błędnie nazywany rozpoznawania głosu ) jest technicznym komputer , który analizuje głos ludzki przechwycone przez mikrofon do zapisania jej w postaci tekstu czytelnego przez maszyny .

Rozpoznawanie mowy, a także synteza mowy , identyfikacja mówcy czy weryfikacja mówcy to tylko niektóre z technik przetwarzania mowy . Techniki te umożliwiają w szczególności tworzenie interfejsów człowiek-maszyna (HMI), w których część interakcji odbywa się za pomocą głosu: „  interfejsów głosowych”.

Wśród wielu aplikacji możemy wymienić aplikacje do dyktowania głosu na komputerze, w których trudność polega na wielkości słownictwa i długości zdań, ale także aplikacje telefoniczne typu interaktywnego serwera głosowego , gdzie trudność polega raczej na potrzebie ... rozpoznawać każdy głos w zmiennych i często hałaśliwych warunkach akustycznych (telefony komórkowe w miejscach publicznych).

W Speech and Human-Machine Dialogu, W. Minker i S. Bennacef wyjaśnić, że automatyczne rozpoznawanie mowy jest złożonym obszarem, ponieważ istnieje istotna różnica między językiem formalnym , które jest rozumiane i wykorzystywane przez maszyny i języka naturalnego , którego ludzie używają . Język formalny jest zbudowany według ścisłych reguł składniowych i nie jest dwuznaczny. I odwrotnie, w języku naturalnym słowa lub zdania mogą mieć kilka znaczeń , na przykład w zależności od intonacji mówiącego lub kontekstu.

Dziedzina badań

Rozpoznawanie mowy można powiązać z wieloma dziedzinami nauki: automatycznym przetwarzaniem języka , językoznawstwem , teorią informacji , przetwarzaniem sygnałów , sieciami neuronowymi , sztuczną inteligencją itp.

Historyczny

Prace nad rozpoznawaniem mowy z początku XX -go  wieku. Pierwszy system, który można uznać za rozpoznający mowę, pochodzi z 1952 roku.

Ten system elektroniczny opracowany przez Davisa, Biddulpha i Balasheka w laboratoriach Bell Labs składał się zasadniczo z przekaźników, a jego działanie ograniczało się do rozpoznawania pojedynczych cyfr (patrz odniesienie). W latach 70. XX wieku badania znacznie wzrosły dzięki pracy Jelinek w IBM (1972-1993). Firma Threshold Technologies jako pierwsza wprowadziła na rynek w 1972 roku system rozpoznawania o pojemności 32 słów, VIP100 . Obecnie rozpoznawanie mowy to szybko rozwijająca się dziedzina dzięki wzrostowi liczby systemów pokładowych . Szybka ewolucja:

Podstawowe zasady

Kroki

Nagrane i zdigitalizowane zdanie jest przekazywane do programu automatycznego rozpoznawania mowy (RAP). W formalizmie RAP ( po angielsku ASR ) podział funkcjonalny wygląda następująco:

Materiał techniczny

Produkcja dokumentalna w systemie GDD rozpoczyna się od nagrania głosu ( dyktanda cyfrowego ). To kwestia nagrania i odtworzenia głosu na nośniku cyfrowym. Nagrywanie może odbywać się za pomocą różnych kanałów nagrywania: mikrofony , dyktafony , smartfony ...

Zwrot za wpis sekretariatu lub weryfikację odbywa się za pomocą głośników lub słuchawek .

Modele

Taki system oparty jest na trzech głównych modelach:

Połączenie tych trzech modeli umożliwia obliczenie prawdopodobieństwa wystąpienia dowolnej sekwencji słów przy obserwowanym sygnale mowy. Rozpoznawanie mowy polega na znalezieniu sekwencji słów o najwyższym prawdopodobieństwie. Formalnie rozwiązanie problemu jest wynikiem słów, które maksymalizują następujące wyrażenie matematyczne .

Aby skalibrować te modele dla aplikacji, konieczne jest użycie dużej ilości korpusu z adnotacjami. Korpus musi odpowiadać warunkom użytkowania docelowego systemu.

Klasyfikacja

Systemy rozpoznawania mowy można podzielić na kilka osi:

Wielkość słownictwa i złożoność modelu językowego są bezpośrednio związane z językiem i charakterem przetwarzanych danych, od kilkudziesięciu słów dla poleceń głosowych do kilkuset tysięcy słów obejmujących język, taki jak francuski lub Niemiecki.

Występ

Surową wydajność silnika rozpoznawania mowy często mierzy się stopniem błędów słów ( współczynnik błędów słów ) . I odwrotnie, możemy ocenić wskaźnik sukcesu. Szybkość ta różni się znacznie w zależności od charakteru danych do transkrypcji, mówiącego i warunków akustycznych. To niewiele zależy od języka. Oto jego formalna definicja:

lub:

Oto kilka średnich wyników współczynnika błędów:

Wzmianki w literaturze

Rozpoznawanie mowy jest wywołany w Pierwszego Kręgu przez radziecki dysydent pisarza Aleksandra Sołżenicyna , jako narzędzie represji w służbie Stalina .

Rozpoznawanie mowy jest również wspomniane w powieści kryminalnej:

„Nie ma to nic wspólnego z naszymi starymi, dobrymi raportami w domu, które brzdąkały na komputerze chłodnym palcem przyjaciela, który długo wahał się między karierą policjanta a kowalem. W Yankees mówisz i rejestrujesz, czyste i uporządkowane, bez wymazywania, powtarzania lub niewłaściwych terminów. Każdy łajdak, który nauczył się czytać na automacie, podpala cię wyznaniami, w porównaniu z którymi Wyznanie dziecka stulecia uchodziło za instrukcję użycia proszku owadobójczego przetłumaczoną z retoromańskiego.

Aby pilotować to urządzenie, nie trzeba było opuszczać Princeton. Operator musiał się tylko szarpnąć, poza swoim ładnym krzaczastym, powtarzaniem źle wymawianego słowa, a urządzenie ponownie zasugerowało stertę synonimów zgodnych ze znaczeniem zdania. Widząc działającą maszynę, pomyślałem o wszystkich moich kolegach drżących z nakryciem głowy, którego prozę uczynił zrozumiałą. "

Frédéric Dard alias San Antonio , Sand in Vaseline

Nie ma wzmianki o rozpoznawanie mowy jako jedynego pośrednika między człowiekiem a maszyną w trylogii proroctwa o Pierre Bordage . Rzeczywiście, w tej trylogii jest przedstawiony superkomputer , PC DNA .

Oprogramowanie do rozpoznawania mowy

Nowoczesne systemy rozpoznawania mowy wykorzystują modele językowe, które mogą wymagać gigabajtów pamięci, co czyni je niepraktycznymi, szczególnie na urządzeniach mobilnych. Z tego powodu większość nowoczesnych systemów rozpoznawania mowy jest w rzeczywistości hostowana na zdalnych serwerach i wymaga połączenia internetowego oraz przesyłania treści głosowych przez sieć.

Mozilla rozpoczęła projekt społecznościowy Common Voice w celu gromadzenia próbek głosu w bezpłatnej bazie danych, aby szkolić niezastrzeżone silniki rozpoznawania mowy.

Uwagi i odniesienia

  1. (w) Leonard E. Baum, "  Technika maksymalizacji zachodząca w statystycznej analizie probabilistycznych funkcji łańcuchów Markowa  " , The Annals of Mathematical Statistics ,1970, s.  164 - 171.
  2. Peckham, J. (1993). Nowa generacja systemów dialogu mówionego: wyniki i lekcje z projektu SUNDIAL. Na trzeciej europejskiej konferencji nt. Komunikacji głosowej i technologii.
  3. (in) „  Apple wypuszcza iPhone 4S iOS5 iCloud  ” na apple.com ,4 października 2011(dostęp 21 sierpnia 2017 ) .
  4. „  Microsoft zapowiada znaczny postęp w rozpoznawaniu mowy  ” , na stronie activia.com ,21 sierpnia 2017(dostęp 21 sierpnia 2017 ) .
  5. San Antonio , Sand in Vaseline , Paryż, Czarna Rzeka ,Wrzesień 1998, 209  s. ( ISBN  2-265-06530-7 ) , str.  40-41.

Zobacz też

Bibliografia

Powiązane artykuły

Linki zewnętrzne

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">