Kapitel 2 : Maschinelles Lernen
Maschinelles Lernen (ML) ist ein Teilgebiet der Informatik, das sich auf das Studium und die Entwicklung von Techniken konzentriert, die es Computern ermöglichen, zu "lernen", oder genauer gesagt, Techniken, die Daten nutzen, um die Leistung eines Computers bei einer bestimmten Reihe von Aufgaben zu verbessern.
Maschinelles Lernen, wenn es zur Lösung geschäftlicher Herausforderungen eingesetzt wird, wird auch als Predictive Analytics bezeichnet.
Lernende Algorithmen basieren auf der Hypothese, dass Methoden, Algorithmen und Urteile, die in der Vergangenheit erfolgreich waren, wahrscheinlich auch in Zukunft erfolgreich sein werden. Diese Schlussfolgerungen mögen manchmal selbstverständlich sein, etwa wenn man sagt: "Weil die Sonne in den letzten 10.000 Tagen jeden Morgen aufgegangen ist, besteht eine gute Chance, dass sie morgen früh wieder aufgeht." In anderen Fällen können diese Erklärungen subtiler sein, wie z.B. "X Prozent der Familien haben geografisch unterschiedliche Arten mit Farbvariationen, was bedeutet, dass es eine Wahrscheinlichkeit von Y Prozent gibt, dass unbekannte schwarze Schwäne existieren.".
Arthur Samuel, ein Arbeiter bei IBM und ein Pionier auf dem Gebiet der Computerspiele und der künstlichen Intelligenz, gilt als derjenige, der 1959 als erster den Begriff "maschinelles Lernen" verwendete.
Die Suche nach künstlicher Intelligenz führte zur Entwicklung des Feldes des maschinellen Lernens als Forschungsfeld (KI). In der Anfangsphase der Entwicklung der KI als akademisches Feld bekundeten eine Reihe von Akademikern Interesse daran, Computern beizubringen, aus Daten zu lernen. Sie versuchten, das Problem mit einer Vielzahl von symbolischen Methoden zu lösen, zusätzlich zu den damals so genannten "neuronalen Netzen". Diese "neuronalen Netze" bestanden hauptsächlich aus Perzeptronen und verschiedenen anderen Modellen, die sich später als Neuerfindungen der verallgemeinerten linearen Modelle der Statistik herausstellten.
Während maschinelles Lernen und Data Mining häufig die gleichen Methoden verwenden und sich erheblich überschneiden, liegt der Schwerpunkt des maschinellen Lernens auf der Vorhersage, basierend auf den bekannten Eigenschaften, die aus den Trainingsdaten gelernt wurden, während der Hauptfokus des Data Mining auf der Entdeckung von (bisher unbekannten) Eigenschaften in den Daten liegt (dies ist der Analyseschritt der Wissensentdeckung in Datenbanken). Data Mining bedient sich zahlreicher Techniken des maschinellen Lernens, aber seine Ziele unterscheiden sich von denen des maschinellen Lernens. Auf der anderen Seite bedient sich maschinelles Lernen Data-Mining-Methoden in Form von "unüberwachtem Lernen" oder als Vorverarbeitungsschritt, um die Genauigkeit der Lernenden zu erhöhen. Diese beiden Forschungsgruppen (die häufig unterschiedliche Konferenzen und getrennte Publikationen haben, wobei ECML PKDD ein wichtiges Beispiel ist) werden oft miteinander verwechselt, was auf die grundlegenden Annahmen zurückzuführen ist, die beide wie folgt lauten: Im Bereich des maschinellen Lernens wird die Leistung oft an der Fähigkeit einer Person gemessen, zuvor gelerntes Material zu wiederholen, Im Bereich der Wissensentdeckung und des Data Mining (KDD) besteht das Hauptziel jedoch darin, Informationen zu finden, die zuvor nicht bekannt waren. Eine uninformierte (unüberwachte) Technik wird bei der Bewertung im Hinblick auf vorhandene Informationen leicht von anderen überwachten Methoden übertroffen werden; Überwachte Methoden können jedoch nicht in einem typischen KDD-Auftrag eingesetzt werden, da nicht genügend Trainingsdaten vorhanden sind.
Viele Lernprobleme werden als Minimierung einer Verlustfunktion anhand eines Trainingssatzes von Beispielen dargestellt, was ein Beispiel für eine der engen Verknüpfungen zwischen maschinellem Lernen und Optimierung ist. Die Abweichung, die zwischen den Vorhersagen des Modells, das trainiert wird, und den tatsächlichen Vorkommen des Problems besteht, wird durch die Verlustfunktion dargestellt (z. B. möchte man bei der Klassifizierung Instanzen eine Beschriftung zuweisen, und Modelle werden trainiert, um die vorab zugewiesenen Beschriftungen einer Reihe von Beispielen korrekt vorherzusagen).
Das Ziel der Generalisierung ist das, was Optimierung von maschinellem Lernen unterscheidet; Während Optimierungstechniken den Verlust bei einem Trainingssatz reduzieren können, geht es beim maschinellen Lernen darum, den Verlust bei Stichproben zu verringern, die noch nie zuvor gesehen wurden. Derzeit wird an einer Reihe von aktuellen Themen geforscht, darunter die Charakterisierung der Verallgemeinerung verschiedener Lernalgorithmen, insbesondere von Deep-Learning-Algorithmen.
Das Hauptziel der Statistik besteht darin, auf der Grundlage von Informationen aus einer Stichprobe Rückschlüsse auf eine Grundgesamtheit zu ziehen, während das Ziel des maschinellen Lernens darin besteht, verallgemeinerbare Vorhersagemuster zu identifizieren. Obwohl die beiden Bereiche in Bezug auf die verwendeten Methoden eng miteinander verwandt sind, unterscheiden sie sich grundlegend. wobei sich "algorithmisches Modell" mehr oder weniger auf die Algorithmen des maschinellen Lernens wie Random Forest bezieht.
Einige Statistiker haben sich Techniken aus dem Bereich des maschinellen Lernens zu eigen gemacht, was zur Schaffung einer hybriden Disziplin geführt hat, die diese Statistiker als statistisches Lernen bezeichnen.
Analyse- und Berechnungstechniken, die aus der tief verwurzelten Physik ungeordneter Systeme abgeleitet sind, können auf großskalige Probleme ausgeweitet werden, wie z. B. solche, die maschinelles Lernen betreffen. Mit diesen Techniken lässt sich beispielsweise der Gewichtsraum tiefer neuronaler Netze analysieren. Darüber hinaus können diese Techniken auf großräumige Probleme angewendet werden.
In der Lage zu sein, aus konkreten Beispielen umfassende Schlussfolgerungen zu ziehen, ist eines der primären Ziele eines Lernenden. Generalisierung ist die Fähigkeit einer lernenden Maschine, bei neuen Instanzen oder Aufgaben ordnungsgemäß auszuführen, nachdem sie auf einen Lerndatensatz gestoßen ist. In diesem Zusammenhang bezieht sich die Verallgemeinerung auf die Fähigkeit einer lernenden Maschine, genau zu arbeiten. Die Trainingsbeispiele stammen aus einer allgemein unbekannten Wahrscheinlichkeitsverteilung, von der man annimmt, dass sie repräsentativ für den Raum der Ereignisse ist. Der Lernende hat die Aufgabe, ein allgemeines Modell über diesen Raum zu entwickeln, das es ihm ermöglicht, in neuen Fällen Vorhersagen zu treffen, die ausreichend genau sind.
Die Computational Learning Theory ist ein Bereich der theoretischen Informatik, der die Leistung von Algorithmen des maschinellen Lernens durch die Linse des Probably Approx Correct Learning (PAC)-Modells analysiert. Diese Art der Studie wird als computergestützte Analyse von Algorithmen des maschinellen Lernens bezeichnet. In den meisten Fällen bietet die Lerntheorie keine Zusicherungen über die Leistungsfähigkeit von Algorithmen. Dies liegt daran, dass die Trainingssätze begrenzt sind und die Zukunft nicht absehbar ist. Stattdessen werden häufig probabilistische Grenzwerte für die Leistung verwendet. Eine Technik zur Messung von Generalisierungsfehlern ist die Verwendung der Bias-Varianz-Zerlegung.
Es ist wichtig, dass die Komplexität der Hypothese mit der Komplexität der Funktion vergleichbar ist, die den Daten zugrunde liegt, um die größtmögliche Leistung im Kontext der Generalisierung zu erzielen. Falls die Hypothese einfacher ist als die Funktion, deutet dies darauf hin, dass das Modell die Daten unzureichend abgeglichen hat. Wenn die Komplexität des Modells als Reaktion darauf erhöht wird, führt dies zu einer entsprechenden Verringerung der Menge an Trainingsfehlern. Wenn die Hypothese jedoch sehr kompliziert ist, kann das Modell anfällig für eine Überanpassung sein, und die Ergebnisse der Verallgemeinerung sind weniger genau.
Lerntheoretikerinnen und Lerntheoretiker untersuchen eine Vielzahl von Themen, darunter Leistungseinschränkungen, die zeitliche Komplexität des Lernens und die Machbarkeit des Lernens. Im Bereich der Computational Learning Theory wird die Machbarkeit einer Berechnung dadurch bestimmt, ob sie in polynomialer Zeit abgeschlossen werden kann oder nicht. Es gibt zwei unterschiedliche Arten von Erkenntnissen in Bezug auf ihre zeitliche Komplexität: Der erfolgreiche Abschluss des Experiments zeigt, dass eine bestimmte Klasse von Funktionen in einer polynomialen Zeitspanne gelernt werden kann. Nach den negativen Befunden können einige Klassen nicht in einer polynomialen Zeitspanne gelernt werden.
Traditionelle Methoden des maschinellen Lernens lassen sich grob in eine von drei Gruppen einteilen, die unterschiedlichen Lernparadigmen entsprechen. Diese Kategorien werden durch die Art des "Signals" oder "Feedbacks" bestimmt, das dem lernenden System zugänglich gemacht wird:
Der Zweck des überwachten Lernens besteht darin, dass der Computer eine allgemeine Regel lernt, die Eingaben auf Ausgaben abbildet, indem ihm Beispiele für Eingaben und die beabsichtigten Ausgaben für diese Eingaben gezeigt werden. Diese Beispiele werden von einem "Lehrer" auf den Computer geliefert.
Unüberwachtes Lernen ist eine Art des maschinellen Lernens, bei der der Lernalgorithmus keine Labels erhält und stattdessen die Struktur innerhalb der Daten, mit denen er gefüttert wird, selbst entdecken muss. Das Entdecken zuvor verborgener Muster in Daten kann an und für sich ein Zweck des unüberwachten Lernens sein, oder es kann ein Mittel zum Zweck sein (Feature Learning).
Lernen durch Verstärkung tritt auf, wenn ein Computerprogramm mit einer...