Kapitel 2 : Verarbeitung natürlicher Sprache
Natural Language Processing, auch bekannt als NLP, ist ein Teilgebiet der Linguistik, Informatik und künstlichen Intelligenz, das sich auf die Wechselwirkungen zwischen Computern und menschlicher Sprache konzentriert. Genauer gesagt untersucht NLP, wie Computer so programmiert werden können, dass sie große Datenmengen im Zusammenhang mit natürlicher Sprache verarbeiten und analysieren. Ein Computer, der in der Lage ist, den Inhalt von Arbeiten zu "verstehen", einschließlich der inhaltlichen Feinheiten der Sprache, die darin enthalten ist, ist das Ziel dieses Projekts. Danach ist das System in der Lage, die in den Papieren enthaltenen Informationen und Erkenntnisse korrekt zu extrahieren und die Dokumente selbst zu klassifizieren und zu organisieren.
Spracherkennung, das Verstehen natürlicher Sprache und die Erstellung natürlicher Sprache sind drei Bereiche, die im Bereich der Verarbeitung natürlicher Sprache regelmäßig Schwierigkeiten bereiten.
Die 1950er Jahre waren ein prägendes Jahrzehnt für den Bereich der Verarbeitung natürlicher Sprache. Bereits im Jahr 1950 schrieb Alan Turing einen Essay mit dem Titel "Computing Machinery and Intelligence", in dem er das vorschlug, was heute als Turing-Test bekannt ist, als Kriterium für Intelligenz. Damals wurde dies jedoch nicht als Thema genannt, abgesehen von künstlicher Intelligenz. Eine Aktivität, die die automatische Interpretation und Produktion natürlicher Sprache beinhaltet, ist in den vorgeschlagenen Test enthalten.
Die Idee hinter symbolischem NLP lässt sich ziemlich prägnant mit John Searles berühmtem chinesischen Raumexperiment zusammenfassen: Ein Computer kann das Verständnis natürlicher Sprache imitieren (oder andere NLP-Aktivitäten ausführen), wenn ihm ein Regelwerk zur Verfügung gestellt wird (z. B. ein chinesischer Sprachführer mit Fragen und entsprechenden Antworten). Der Computer tut dies, indem er die Regeln auf die Daten anwendet, die ihm präsentiert werden.
1950er Jahre: Im Rahmen des Georgetown-Experiments im Jahr 1954 wurden mehr als sechzig russische Sätze automatisch ins Englische übersetzt. Die Autoren gingen davon aus, dass das Problem der präzisen maschinellen Übersetzung innerhalb der nächsten drei bis fünf Jahre gelöst sein wird. Der wirkliche Fortschritt war jedoch viel langsamer, und nach dem ALPAC-Bericht von 1966, der feststellte, dass zehn Jahre Forschung die Erwartungen nicht erfüllt hatten, wurden die Mittel für die maschinelle Übersetzung drastisch gekürzt. Dies geschah, nachdem der Bericht festgestellt hatte, dass zehn Jahre Forschung die Erwartungen nicht erfüllt hatten. Der Bereich der maschinellen Übersetzung hat sich bis Ende der 1980er Jahre, als die ersten statistischen maschinellen Übersetzungssysteme etabliert wurden, nur sehr wenig weiterentwickelt.
SHRDLU, ein natürlichsprachliches System, das in eingeschränkten "Blockwelten" mit eingeschränktem Vokabular arbeitet, und ELIZA, eine Simulation eines Rogerschen Psychotherapeuten, die von Joseph Weizenbaum zwischen 1964 und 1966 geschrieben wurde, waren zwei der erfolgreichsten Systeme zur Verarbeitung natürlicher Sprache, die in den 1960er Jahren entwickelt wurden. SHRDLU war ein natürliches Sprachsystem, das in eingeschränkten "Blockwelten" mit eingeschränktem Vokabular arbeitete. ELIZA war in der Lage, eine Begegnung zu schaffen, die manchmal erstaunlich menschlich war, obwohl sie im Wesentlichen wenig Wissen über menschliche Kognition oder Emotionen hatte. Als der "Patient" die extrem schmale Wissensbasis überschritten hatte, könnte ELIZA eine allgemeine Antwort gegeben haben. Zum Beispiel könnte ELIZA als Antwort auf die Aussage "Mein Kopf schmerzt" gefragt haben: "Warum behauptest du, dass dein Kopf weh tut?".
1970er Jahre: In den 1970er Jahren begann eine große Anzahl von Programmierern, "konzeptionelle Ontologien" zu schreiben, die Informationen aus der realen Welt in Daten organisierten, die ein Computer interpretieren konnte. Beispiele hierfür sind MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) und Plot Units. Weitere Autoren sind Meehan (1976), Meehan (1976), QUALM (Lehnert, 1977) und Meehan (1976). (Lehnert 1981). Etwa zu dieser Zeit wurden die ersten Chatterbots in Produktion genommen (z. B. PARRY).
Das goldene Zeitalter der symbolischen Ansätze im Natural Language Processing (NLP) waren die 1980er und frühen 1990er Jahre. Die Forschung zu regelbasiertem Parsen (z. B. die Erstellung von HPSG als Computeroperationalisierung der generativen Grammatik) und Morphologie (z. B. Zwei-Ebenen-Morphologie) gehörten damals zu den Schwerpunkten.
Bis in die 1980er Jahre stützte sich die überwiegende Mehrheit der Systeme zur Verarbeitung natürlicher Sprache auf komplizierte Regelwerke, die von Hand entwickelt wurden. Ab den späten 1980er Jahren kam es jedoch zu einer Revolution auf dem Gebiet der Verarbeitung natürlicher Sprache aufgrund der Entwicklung von Algorithmen des maschinellen Lernens für die Sprachverarbeitung. Dies führte zu bedeutenden Fortschritten auf diesem Gebiet. Dies war sowohl auf die stetige Zunahme der Rechenleistung zurückzuführen (siehe Moores Gesetz) als auch auf die allmähliche Abnahme der Dominanz der Chomskyschen Theorien der Linguistik (wie z.B. der Transformationsgrammatik), deren theoretische Grundlagen die Art von Korpuslinguistik entmutigten, die die Grundlage für den Ansatz des maschinellen Lernens zur Sprachverarbeitung bildet. Dies lag daran, dass die theoretische Untermauerung der Chomskyschen Theorien der Linguistik die Art von Korpuslinguistik abschreckte, die die Grundlage für die Maschinen- ist.
In den 1990er Jahren fanden die meisten der bedeutenden frühen Errungenschaften zu statistischen Ansätzen in der Verarbeitung natürlicher Sprache im Bereich der maschinellen Übersetzung statt. Dies war vor allem der Arbeit von IBM Research zu verdanken. Diese Systeme konnten auf bereits vorhandene mehrsprachige Textkorpora zurückgreifen, die vom kanadischen Parlament und der Europäischen Union erstellt worden waren. Möglich wurde dies durch Gesetze, die die Übersetzung aller Regierungsverfahren in alle Amtssprachen der jeweiligen Regierungssysteme vorschrieben. Dadurch konnten diese Systeme die Vorteile der bestehenden mehrsprachigen Textkorpora nutzen. Die überwiegende Mehrheit der anderen Systeme stützte sich jedoch auf Korpora, die speziell für die Aufgaben generiert wurden, die von diesen Systemen ausgeführt wurden. Dies war (und ist oft immer noch) eine schwerwiegende Einschränkung, die die Wirksamkeit dieser Systeme behinderte. Als Konsequenz daraus wurde ein erheblicher Teil der Untersuchungen in die Entwicklung von Strategien investiert, um effizienter Erkenntnisse aus begrenzten Datenmengen zu gewinnen.
Seit Mitte der 1990er Jahre sind durch die Expansion des Webs, die in den 2000er Jahren begann, wachsende Mengen an (unkommentierten) linguistischen Rohdaten zugänglich. Daher konzentrieren sich die Forscher immer mehr auf semi-überwachte und unüberwachte Lernmethoden. Diese Art von Algorithmen ist in der Lage, aus Daten zu lernen, die nicht von Hand mit den erforderlichen Antworten versehen wurden, oder sie können mit einer Mischung aus Daten lernen, die mit Anmerkungen versehen wurden, und Daten, die nicht mit Anmerkungen versehen wurden. Diese Aufgabe ist oft weitaus anspruchsvoller als überwachtes Lernen und liefert in der Regel Ergebnisse, die für eine bestimmte Menge an Eingabedaten weniger genau sind. Es gibt jedoch eine große Menge an Daten, die nicht mit Anmerkungen versehen sind und leicht verfügbar sind. Zu diesen Daten gehört unter anderem die Gesamtheit der Inhalte im World Wide Web. Diese Daten können in Kombination mit einem Algorithmus, der eine ausreichend geringe Zeitkomplexität aufweist, um praktisch zu sein, häufig nicht ideale Ergebnisse kompensieren.
In den 2010er Jahren setzten sich Repräsentationslernen und andere maschinelle Lerntechniken, die nach dem Vorbild tiefer neuronaler Netze entwickelt wurden, im Bereich der Verarbeitung natürlicher Sprache immer mehr durch. Diese Popularität wurde zum Teil durch eine Flut von Studien verursacht, die bewiesen, dass solche Strategien erfolgreich waren.
In den Anfängen der Computertechnologie wurden viele Sprachverarbeitungssysteme mit symbolischen Ansätzen entwickelt. Dazu gehörte auch das manuelle Codieren eines Regelwerks, das dann mit einer Glossarsuche kombiniert wurde. So wurden beispielsweise Grammatiken geschrieben und heuristische Regeln für die Wortstammbildung entwickelt.
Neuere Systeme, die auf Algorithmen des maschinellen Lernens basieren, bieten aufgrund dieser Vorteile mehrere Vorteile gegenüber manuell geschriebenen Regeln:
Während sich die Lernprozesse, die beim maschinellen Lernen zum Einsatz kommen, automatisch auf die gängigsten Szenarien konzentrieren, ist bei der Entwicklung von Regeln von Hand manchmal gar nicht ersichtlich, wohin der Aufwand gelenkt werden soll. Die Lernverfahren, die beim maschinellen Lernen verwendet werden.
Automatische Lernverfahren können statistische Inferenzalgorithmen nutzen, um Modelle zu erstellen, die sowohl gegenüber unbekannten Eingaben (z. B. mit Wörtern oder Strukturen, die noch nie zuvor gesehen wurden) als auch gegenüber fehlerhaften Eingaben robust sind. Diese Art von Modell kann in einer Vielzahl von Anwendungen verwendet werden, einschließlich maschinellem Lernen, Deep Learning und natürlicher Sprachverarbeitung (z. B. mit falsch geschriebenen Wörtern oder versehentlich weggelassenen Wörtern). Der anmutige Umgang mit solchen Informationen unter Verwendung handschriftlicher Regeln oder, allgemeiner, die Konstruktion von...