Kapitel 3 : Spracherkennung
Informatik und Computerlinguistik haben ein Teilgebiet hervorgebracht, das als Spracherkennung bekannt ist und sich auf die Entwicklung von Methoden und Technologien konzentriert, die es Computern ermöglichen, gesprochene Sprache zu erkennen und in Text zu übersetzen. Das hat vor allem den Vorteil, dass der Text dann durchsucht werden kann. Die automatische Spracherkennung, manchmal auch als ASR abgekürzt, ist eine andere Bezeichnung dafür, ebenso wie die Computer-Spracherkennung und Voice-to-Text (STT). Die Bereiche Informatik, Linguistik und Computertechnik sind alle in der Einbeziehung von Wissen und Studium vertreten. Sprachsynthese ist der Prozess, der in umgekehrter Reihenfolge abläuft.
Bestimmte Spracherkennungssysteme nennen diesen Prozess "Training", obwohl er auch als "Registrierung" bezeichnet wird. Während des Trainings füttert ein einzelnes Lesegerät den Systemtext oder isolierte Vokabeln. Die Genauigkeit der Spracherkennung für diese Person wird als Folge der Analyse der einzigartigen Stimme dieser Person durch das System und der Anwendung dieser Analyse auf den Prozess verbessert. "Sprecherunabhängige" Systeme sind solche, bei denen die Benutzer keine Schulung durchlaufen müssen. Der Begriff "sprecherabhängig" bezieht sich auf die Systeme, die geschult werden müssen.
Zu den Spracherkennungsanwendungen gehören Sprachbenutzeroberflächen wie Sprachwahl (z. B. "Nach Hause rufen"), Anrufweiterleitung (z. B. "Ich möchte einen Anruf tätigen"), Domotik-Gerätesteuerung, Suchschlüsselwörter (z. B. einen Podcast finden, in dem bestimmte Wörter gesprochen wurden), einfache Dateneingabe (z. B. Eingabe einer Kreditkartennummer), Erstellung strukturierter Dokumente (z. B. B. ein radiologischer Bericht), die Bestimmung von Sprechereigenschaften und die Sprache-zu-Text-Verarbeitung (z. B. Textverarbeitungsprogramme (in der Regel als direkte Spracheingabe bezeichnet).
Bei der Spracherkennung geht es mehr darum, zu erkennen, wer spricht, als darum, zu verstehen, was die Person sagt. Die Übersetzung von Sprache in Systemen, die auf die Stimme einer bestimmten Person trainiert wurden, kann durch die Erkennung des Sprechers erleichtert werden, oder sie kann verwendet werden, um die Identität eines Sprechers im Rahmen eines Sicherheitsprozesses zu authentifizieren oder zu überprüfen. Beide Verwendungszwecke sind wichtig, um die Sicherheit sensibler Informationen zu gewährleisten.
Die Spracherkennung hat eine lange Geschichte, und in dieser Geschichte gab es mehrere Wellen bedeutender technologischer Fortschritte. Die jüngsten Entwicklungen in Bereichen wie Deep Learning und Big Data haben sich positiv auf das Thema ausgewirkt. Die Entwicklungen zeigen sich nicht nur in der Zunahme der Anzahl akademischer Artikel, die zu diesem Thema veröffentlicht wurden, sondern vor allem in der weltweiten industriellen Akzeptanz einer Reihe von Deep-Learning-Ansätzen im Prozess der Entwicklung und Implementierung von Spracherkennungssystemen.
Die deutlichsten Verbesserungen wurden in den folgenden Bereichen erzielt: Wortschatzgröße; Unabhängigkeit des Sprechers; und Verarbeitungsgeschwindigkeit.
Im Jahr 1952 erschienen drei Forscher der Bell Labs, Stephen Balashek, Das Source-Filter-Modell der Spracherzeugung wurde von Gunnar Fant im Jahr 1960 erstellt und veröffentlicht.
Auf der Weltausstellung 1962 zeigte IBM die Spracherkennungsfähigkeiten seines "Shoebox"-Systems, das bis zu 16 Wörter erkennen konnte.
Während der Arbeit an der Spracherkennung im Jahr 1966 hatten Fumitada Itakura von der Universität Nagoya und Shuzo Saito von Nippon Telegraph and Telephone (NTT) die Idee für die Linear Predictive Coding (LPC)-Technik der Sprachcodierung.
Im Jahr 1969 veröffentlichte der prominente John Pierce einen offenen Brief, in dem er die Spracherkennungsforschung kritisierte und ihr die Finanzierung entzog. Infolge dieses Briefes versiegten die Mittel für die Spracherkennungsforschung in den Bell Labs für viele Jahre. Diese Finanzierungskürzung blieb bestehen, bis Pierce das Unternehmen verließ und James L. Flanagan die Leitung übernahm.
Als Raj Reddy in den späten 1960er Jahren Doktorand an der Stanford University war, war er die erste Person, die sich mit kontinuierlicher Spracherkennung beschäftigte. Frühere Methoden erforderten eine Pause des Benutzers nach jedem Wort. Das Schachspiel wurde durch mündliche Befehle gesteuert, die von Reddys System erteilt wurden.
Etwa zu dieser Zeit entwickelten Forscher aus der Sowjetunion die Methode der dynamischen zeitlichen Verzerrung (DTW). Sie nutzten es dann, um einen Recognizer zu entwickeln, der mit einem Vokabular von bis zu 200 Wörtern funktionieren konnte. DTW analysierte die Sprache, indem es sie zunächst in mehrere kleine Frames aufteilte, die jeweils zehn Millisekunden oder weniger dauerten, und dann jeden Frame so verarbeitete, als wäre er eine unabhängige Einheit. Obwohl DTW schließlich durch fortschrittlichere Algorithmen ersetzt wurde, überlebte die Methode selbst. Zu diesem Zeitpunkt war das Problem der Autonomie der Sprecher noch nicht gelöst.
Die Voice Understanding Study wurde 1971 von der DARPA für einen Zeitraum von fünf Jahren finanziert. Diese Forschung konzentrierte sich auf die Spracherkennung und zielte darauf ab, einen Wortschatz von mindestens tausend Wörtern zu haben. Sie glaubten, dass das Verstehen von Sprache unerlässlich sein würde, um Fortschritte in der Spracherkennung zu erzielen, aber dies stellte sich später als nicht der Fall heraus. Die Forschung zur Spracherkennung wurde durch den Brief von John Pierce wiederbelebt.
Im Jahr 1972 wurde eine Konferenz von der IEEE Acoustics, Speech, and Signal Processing Section in Newton, Massachusetts, veranstaltet.
Seit ihrer Gründung im Jahr 1976 ist die International Conference on Acoustics, Voice, and Signal Processing (ICASSP) das herausragende Forum für die Präsentation und Veröffentlichung von Forschungsergebnissen zur Spracherkennung. Die Forscher waren in der Lage, dank der Verwendung von Hidden-Markov-Modellen (HMMs) viele Fachgebiete wie Akustik, Sprache und Grammatik in ein einziges probabilistisches Modell zu integrieren.
Als einer der wenigen Konkurrenten von IBM baute Fred Jelineks Team bei IBM Mitte der 1980er Jahre eine sprachaktivierte Schreibmaschine namens Tangora. Tangora beherrschte einen Wortschatz von 20.000 Wörtern und war einer der wenigen Konkurrenten von IBM.
Darüber hinaus wurde in den 1980er Jahren das N-Gramm-Sprachmodell entwickelt und in Gebrauch genommen.
1987 wurde das Back-off-Modell eingeführt, das es Sprachmodellen ermöglichte, N-Gramme unterschiedlicher Länge zu verwenden. Zur gleichen Zeit begann CSELT, HMM zu verwenden, um verschiedene Sprachen zu unterscheiden (sowohl in Software- als auch in Hardware-spezialisierten Prozessoren, z. B. RIPAC).
Die schnell wachsenden Fähigkeiten von Computern sind weitgehend für die bedeutenden Fortschritte verantwortlich, die in diesem Bereich erzielt wurden. Das DARPA-Programm endete 1976, und der beste Computer, der den Forschern zu dieser Zeit zugänglich war, war der PDP-10 mit 4 MB RAM.
Es gab auch zwei nützliche Güter:
1984 debütierte das Apricot Portable, das maximal 4096 Wörter unterstützte, aber nur 64 davon gleichzeitig im RAM halten konnte.
1987 - ein Recognizer von Kurzweil Applied Intelligence
Dragon Dictate, ein Konsumprodukt, das 1990 hergestellt wurde Xuedong Huang, ein ehemaliger Student von Raj Reddy, der das Sphinx-II-System an der CMU entwarf, war der Erfinder von Dragon Dictate. Sphinx-II war das erste System, das eine sprecherunabhängige, große Vokabel- und kontinuierliche Spracherkennung ermöglichte, und es erzielte die beste Leistung in der DARPA-Bewertung von 1992. Sphinx-II verfügte außerdem über die fortschrittlichsten Funktionen. Ein bedeutender Wendepunkt in der Entwicklung der Spracherkennung war die Fähigkeit, kontinuierliche Sprache zusammen mit einem riesigen Wortschatz zu verarbeiten. Danach, im Jahr 1993, baute Huang die Spracherkennungsabteilung bei Microsoft auf, wo er arbeitete. Kai-Fu Lee, der ein Schüler von Raj Reddy war, arbeitete später bei Apple, wo er 1992 an der Entwicklung eines Sprachschnittstellen-Prototyps für den Apple-Computer Casper mitwirkte.
Eine Firma namens Lernout & Hauspie mit Sitz in Belgien ist im Bereich der Spracherkennung tätig. Im Laufe der Jahre hat das Unternehmen viele andere Unternehmen gekauft, darunter Dragon Systems im Jahr 2000 und Kurzweil Applied Intelligence im Jahr 1997. Innerhalb des Betriebssystems Windows XP befand sich eine Komponente, die sich die Sprachtechnologie von L&H zunutze machte. Bevor das Unternehmen im Jahr 2001 aufgrund eines Bilanzskandals geschlossen wurde, hatte L&H eine herausragende Position in der Branche. ScanSoft, die 2005 ihren Namen in Nuance änderten, kauften die Sprachtechnologie, die L&H entwickelt hatte. Ursprünglich lizenzierte Apple Software von Nuance, um Siri, den digitalen Assistenten des Unternehmens, mit der Fähigkeit zur Spracherkennung anzubieten.
Sowohl das Effective Affordable Reusable Voice-to-Text (EARS)-Programm im Jahr 2002 als auch das Global Autonomous Language Exploitation-Programm waren Spracherkennungsinitiativen, die in den 2000er Jahren von der DARPA (GALE) finanziert wurden. Insgesamt gab es vier Teams, die am EARS-Programm teilgenommen haben. Zu diesen Teams gehörten IBM, eine Gruppe, die von BBN geleitet wurde und zu der LIMSI und die University of Pittsburgh, die Cambridge University sowie eine Gruppe gehörten, zu der ICSI, SRI und die University of Washington gehörten. Das EARS stellte Mittel für die Zusammenstellung des Telefonsprechkorpus der...