Kapitel 2 : Neuronales Netz (maschinelles Lernen)
Ein neuronales Netz, auch als künstliches neuronales Netz oder neuronales Netz bekannt und unter seinen Abkürzungen ANN oder NN bekannt, ist ein Modell, das beim maschinellen Lernen verwendet wird. Dieses Modell ist von der Form und Funktion biologischer neuronaler Netzwerke inspiriert, die in Tiergehirnen zu sehen sind.
Die künstlichen Neuronen, aus denen ein künstliches neuronales Netzwerk (KNN) besteht, sind verbundene Einheiten oder Knoten, die den Neuronen nachempfunden sind, die im Gehirn zu finden sind. Die Kanten, die diese verbinden, sind eine Darstellung der Synapsen, die sich im Gehirn befinden. Nachdem jedes künstliche Neuron Signale von anderen Neuronen empfangen hat, die mit ihm verbunden sind, verarbeitet es diese Signale und leitet sie dann an andere Neuronen weiter, die mit ihm verbunden sind. Das "Signal" ist eine reelle Zahl, und die Aktivierungsfunktion ist eine nichtlineare Funktion, die mit der Summe der Eingaben für jedes Neuron arbeitet. Diese Funktion ist für die Berechnung der Ausgabe jedes Neurons verantwortlich. Während des Lernprozesses wird ein Gewicht verwendet, um die Stärke des Signals an jeder Verbindung zu bestimmen. Dieses Gewicht wird bei Bedarf angepasst und angepasst.
In einer typischen Situation werden Neuronen in Schichten gruppiert. Es ist möglich, dass verschiedene Schichten jeweils eine einzigartige Transformation an ihren jeweiligen Eingaben durchführen. Es ist möglich, dass Signale auf ihrem Weg von der ersten Schicht, der Eingangsschicht, zur letzten Schicht, der Ausgangsschicht, über zahlreiche Zwischenschichten, die auch als verborgene Schichten bezeichnet werden, geleitet werden. Wenn ein Netzwerk mindestens zwei verborgene Schichten umfasst, wird es oft als tiefes neuronales Netzwerk bezeichnet, um das Netzwerk zu beschreiben.
Es gibt mehrere Anwendungen für künstliche neuronale Netze, darunter prädiktive Modellierung, adaptive Steuerung und die Lösung von Problemen in der künstlichen Intelligenz. Darüber hinaus gibt es viele weitere Anwendungen. Sie haben die Fähigkeit, Wissen durch Erfahrung zu erwerben und können Schlussfolgerungen aus einer Sammlung von Fakten ziehen, die scheinbar nichts miteinander zu tun haben.
In den meisten Fällen werden neuronale Netze durch den Prozess der empirischen Risikobegrenzung trainiert. Dieser Ansatz basiert auf dem Konzept, die Parameter des Netzwerks zu optimieren, um die Differenz, die auch als empirisches Risiko bezeichnet wird, zwischen der erwarteten Ausgabe und den tatsächlichen Zielwerten in einem bestimmten Datensatz zu minimieren. Die Schätzung der Parameter des Netzwerks wird häufig durch die Verwendung gradientenbasierter Ansätze wie Backpropagation erreicht. Künstliche neuronale Netze (KNNs) lernen während der Trainingsphase aus gelabelten Trainingsdaten, indem sie deren Parameter iterativ ändern, um eine eingestellte Verlustfunktion zu minimieren. Mit dieser Strategie ist das Netzwerk in der Lage, Daten zu verallgemeinern, auf die es zuvor nicht gestoßen ist.
Vor mehr als zwei Jahrhunderten legten frühe Arbeiten in der Statistik den Grundstein für die tiefen neuronalen Netze, die heute verwendet werden. Die grundlegendste Art von Feedforward Neural Network (FNN) ist ein lineares Netzwerk. Diese Art von Netzwerk besteht aus einer einzigen Schicht von Ausgabeknoten, die über lineare Aktivierungsfunktionen verfügen. Die Eingänge werden über eine Reihe von Gewichten direkt an die Ausgänge gesendet. An jedem Knoten werden Berechnungen durchgeführt, um die Summe der Produkte aus den Gewichten und den Eingaben zu bestimmen. Um die mittleren quadrierten Fehler zu minimieren, die zwischen diesen geschätzten Ausgaben und den bereitgestellten Zielwerten auftreten, wurde eine Anpassung der Gewichte erstellt. Sowohl die Methode der kleinsten Quadrate als auch die lineare Regression sind Namen, die seit mehr als zwei Jahrhunderten verwendet werden, um sich auf diese Technik zu beziehen. Legendre (1805) und Gauß (1795) nutzten es als Methode, um eine anständige grobe lineare Anpassung an eine Reihe von Punkten zu bestimmen, um Vorhersagen über die Bewegung der Planeten zu treffen.
Der Betrieb von digitalen Computern, wie z. B. der von-Neumann-Architektur, wurde traditionell durch die Ausführung expliziter Befehle erreicht, wobei auf den Speicher eine Reihe diskreter Prozessoren zugriff. Bestimmte neuronale Netze hingegen wurden ursprünglich als Ergebnis des Versuchs entwickelt, die Informationsverarbeitung in biologischen Systemen unter Verwendung des Konnektionismus-Frameworks zu beschreiben. Im Gegensatz zum von-Neumann-Ansatz unterteilt das konnektionistische Computing Speicher und Verarbeitung nicht in zwei verschiedene Kategorien.
Im Jahr 1943 untersuchten Warren McCulloch und Walter Pitts die Möglichkeit, ein Rechenmodell für neuronale Netze zu entwickeln, das das Lernen nicht beinhaltet. Die Forschung konnte aufgrund dieses Modells in zwei verschiedene Methoden unterteilt werden. Die erste Methode konzentrierte sich auf biologische Prozesse, während sich die zweite Methode auf die Nutzung neuronaler Netze im Bereich der künstlichen Intelligenz konzentrierte.
D. wurde Ende der 1940er Jahre geboren. Hebbisches Lernen ist eine Lernhypothese, die von O. Hebb vorgeschlagen wurde. Diese Hypothese wurde auf dem Mechanismus der Plastizität des Gehirns gegründet und zu einer Theorie weiterentwickelt. Zahlreiche frühe neuronale Netze, wie das Rosenblatt-Perzeptron und das Hopfield-Netzwerk, machten sich dieses in ihren Operationen zunutze. Im Jahr 1954 führten Farley und Clark eine Simulation eines Hebb'schen Netzwerks mit Hilfe von Computergeräten durch. Rochester, Holland, Habit und Duda (1956) waren diejenigen, die weitere Rechenmaschinen für neuronale Netze entwickelten.
Das United States Office of Naval Research stellte Mittel für die Entwicklung des Perzeptrons bereit, das eines der ersten künstlichen neuronalen Netze war, das entwickelt wurde. Das Perzeptron wurde von dem Psychologen Frank Rosenblatt im Jahr 1958 beschrieben.
Ein noch früheres perzeptronähnliches Gerät wurde von Farley und Clark entwickelt, so R. D. Joseph (1960). Er schreibt, dass "Farley und Clark vom MIT Lincoln Laboratory Rosenblatt bei der Entwicklung eines perzeptronähnlichen Geräts vorausgingen". Allerdings: "Sie ließen das Thema fallen."
Infolge des Perzeptrons stieg das öffentliche Interesse an der Forschung im Zusammenhang mit künstlichen neuronalen Netzen, was zu einer deutlichen Erhöhung der Finanzierung durch die US-Regierung führte. "Das Goldene Zeitalter der KI" wurde durch die optimistischen Behauptungen von Informatikern über die Fähigkeit von Perzeptronen, menschliche Intelligenz zu replizieren, angeheizt. Dieser Umstand trug zur Entwicklung der künstlichen Intelligenz bei.
Es war nicht möglich, dass die anfänglichen Perzeptrone adaptive versteckte Einheiten hatten. Nichtsdestotrotz befasste sich Joseph (1960) auch mit mehrschichtigen Perzeptronen, die eine anpassungsfähige verborgene Schicht auf ihrer Struktur enthalten. Diese Konzepte wurden von Rosenblatt (1962) zitiert und verwendet, der auch die Arbeit von H. D. Block und B. würdigte. Der Ritter, W. Die ersten Bemühungen, die unternommen wurden, führten jedoch nicht zu einem Lernalgorithmus, der in der Lage war, für verborgene Einheiten zu arbeiten, auch bekannt als Deep Learning.
In den 1960er und 1970er Jahren wurde Grundlagenforschung zu künstlichen neuronalen Netzen (KNNs) betrieben. Die Group-Technik des Datenhandlings, die 1965 in der Ukraine von Alexey Ivakhnenko und Lapa entwickelt wurde, war der erste Algorithmus für Deep Learning, der seinen beabsichtigten Zweck erfüllte. Es war eine Möglichkeit, neuronale Netze zu trainieren, die beliebig tief waren. Nach ihrer Interpretation handelte es sich um eine Art polynomiale Regression oder eine Verallgemeinerung der Perzeptronanalyse nach Rosenblatt. Diese Methode, die auf dem Training von Schicht zu Schicht durch Regressionsanalyse basiert, wurde in einer Studie berichtet, die 1971 veröffentlicht wurde. Das tiefe Netzwerk, das mit dieser Methode entwickelt wurde, umfasste acht Schichten. Durch die Verwendung eines eindeutigen Validierungssatzes werden unnötige versteckte Einheiten eliminiert. Aufgrund der Tatsache, dass die Aktivierungsfunktionen der Knoten mit Hilfe von Kolmogorov-Gabor-Polynomen berechnet werden, waren dies auch die ersten tiefen Netzwerke, die multiplikative Einheiten, manchmal auch als "Gates" bezeichnet, enthielten.
Das erste Deep-Learning-Multilayer-Perzeptron, das mit stochastischem Gradientenabstieg gelernt wurde, wurde von Shun'ichi Amari im Jahr 1967 veröffentlicht. Im Rahmen von Computerexperimenten, die von Saito, einem Schüler von Amari, durchgeführt wurden, lernte ein Multilayer-Perzeptron (MLP) mit fünf Schichten und zwei Schichten, die modifiziert werden konnten, interne Repräsentationen, um nichtlinear trennbare Musterklassen zu identifizieren. Als Ergebnis weiterer Verbesserungen in der Hardware und bei Hyperparameter-Abstimmungen hat sich der End-to-End-stochastische Gradientenabstieg zur derzeit beliebtesten Trainingstechnik entwickelt.
Es war im Jahr 1969, als Kunihiko Fukushima erstmals die ReLU-Aktivierungsfunktion vorstellte, die für die gleichgerichtete Lineareinheit steht. Es ist bereits allgemein anerkannt, dass der Gleichrichter die am weitesten verbreitete Aktivierungsfunktion für Deep Learning ist.
Nichtsdestotrotz kam die Forschung in den Vereinigten Staaten zum Stillstand, bis Minsky und Papert (1969) feststellten, dass grundlegende Perzeptrone nicht in der Lage waren, den Exklusiv-oder-Schaltkreis zu verarbeiten. Im Falle der von Ivakhnenko (1965) und Amari (1967) vorgeschlagenen tiefen...