Datengewinnung

Name: Datengewinnung | Erkenntnisse gewinnen durch algorithmische Intelligenz und maschinelles Lernen
Brand: Eine Milliarde Sachkundig [German]
Price: 4.49 EUR
Availability: OnlineOnly

Erkenntnisse gewinnen durch algorithmische Intelligenz und maschinelles Lernen

Fouad Sabry(Autor*in)

Eine Milliarde Sachkundig [German] (Verlag)

1. Auflage

Erschienen am 17. Dezember 2024

327 Seiten

E-Book

ePUB mit Adobe-DRM

Systemvoraussetzungen

6610000686193 (EAN)

4,49 €inkl. 7% MwSt.

Systemvoraussetzungen

für ePUB mit Adobe-DRM

E-Book Einzellizenz

Als Download verfügbar

Beschreibung

Data Mining: Dieses Kapitel führt in die Grundlagen des Data Mining ein und konzentriert sich darauf, wie Algorithmen und Tools zur Analyse großer Datensätze in der Robotik eingesetzt werden.

Maschinelles Lernen: Erforscht die Schnittstelle zwischen Data Mining und maschinellem Lernen und zeigt, wie Modelle trainiert werden können, um Muster zu erkennen und Vorhersagen in Robotersystemen zu treffen.

Text Mining: Befasst sich mit Text Mining und zeigt, wie Robotersysteme nützliche Informationen aus unstrukturierten Textdaten extrahieren können.

Assoziationsregellernen: Stellt Assoziationsregel-Mining-Techniken vor, um verborgene Beziehungen in Daten aufzudecken, die für die Verbesserung der Entscheidungsfindung bei Robotern von entscheidender Bedeutung sind.

Unstrukturierte Daten: Bespricht die Herausforderungen und Methoden für den Umgang mit unstrukturierten Daten wie Bildern oder Audio im Kontext der Robotik.

Konzeptdrift: Dieses Kapitel erklärt, wie sich Modelle des maschinellen Lernens im Laufe der Zeit anpassen, wenn neue Daten Änderungen mit sich bringen, die sich auf die Leistung des Roboters auswirken.

Weka (Software): Behandelt die Verwendung von Weka, einer beliebten Open-Source-Software für Data Mining, zur Implementierung verschiedener Mining-Algorithmen in Roboteranwendungen.

Profiling (Informationswissenschaft): Konzentriert sich auf Profiling-Techniken, die zum Verständnis des Verhaltens von Systemen und zur Vorhersage zukünftiger Aktionen verwendet werden, um die Entscheidungsfindung von Robotern zu verbessern.

Datenanalyse zur Betrugserkennung: Untersucht, wie Data Mining Robotern helfen kann, Betrug und Anomalien in verschiedenen Bereichen wie Finanzen oder Sicherheit zu erkennen.

ELKI: Bietet einen tiefen Einblick in das ELKI-Framework, das für fortgeschrittene Data Mining-Techniken nützlich ist und auf Robotersysteme angewendet wird.

Pädagogisches Data Mining: Untersucht, wie pädagogisches Data Mining robotergestützte Lernumgebungen und personalisierte Bildung verbessern kann.

Wissensextraktion: Untersucht den Prozess der Extraktion wertvoller Erkenntnisse aus großen Datensätzen, um Robotern zu besseren Entscheidungen zu verhelfen.

Datenwissenschaft: Stellt die Datenwissenschaft als integralen Bestandteil der Robotik vor und bietet die Grundlage für den Bau intelligenterer, leistungsfähigerer Roboter.

Massive Online-Analyse: Bespricht Techniken zur Verarbeitung riesiger Datensätze in Echtzeit, um sicherzustellen, dass sich Roboter sofort an neue Informationen anpassen können.

Beispiele für Data Mining: Dieses Kapitel präsentiert Beispiele aus der Praxis für Data Mining-Anwendungen in der Robotik und zeigt deren praktischen Nutzen.

Künstliche Intelligenz: Untersucht, wie künstliche Intelligenz in Data Mining-Techniken integriert wird, um Robotern erweiterte Entscheidungsfähigkeiten zu verleihen.

Überwachtes Lernen: Konzentriert sich auf überwachte Lernmodelle und wie sie verwendet werden, um Roboter anhand gekennzeichneter Daten für bestimmte Aufgaben zu trainieren.

Neuronales Netzwerk (Maschinelles Lernen): Stellt neuronale Netzwerke vor und zeigt, wie sie menschliche Gehirnfunktionen nachahmen, was für fortschrittliche Robotik und autonome Systeme unerlässlich ist.

Mustererkennung: Bespricht Mustererkennungstechniken, mit denen Roboter Objekte, Gesten oder Sprache anhand von Rohdaten identifizieren können.

Unüberwachtes Lernen: Behandelt unüberwachte Lerntechniken, mit denen Roboter aus Daten ohne vordefinierte Kennzeichnungen lernen und so eine größere Autonomie erreichen können.

Trainings-, Validierungs- und Testdatensätze: Erklärt die entscheidende Rolle von Datensätzen bei der Auswertung und Verfeinerung von Modellen des maschinellen Lernens sowie bei der Verbesserung der Genauigkeit und Zuverlässigkeit von Robotern.

Weitere Details

Personen

Inhalt

Kapitel 2 : Maschinelles Lernen

Maschinelles Lernen (ML) ist ein Teilgebiet der Informatik, das sich auf das Studium und die Entwicklung von Techniken konzentriert, die es Computern ermöglichen, zu "lernen", oder genauer gesagt, Techniken, die Daten nutzen, um die Leistung eines Computers bei einer bestimmten Reihe von Aufgaben zu verbessern.

Maschinelles Lernen, wenn es zur Lösung geschäftlicher Herausforderungen eingesetzt wird, wird auch als Predictive Analytics bezeichnet.

Lernende Algorithmen basieren auf der Hypothese, dass Methoden, Algorithmen und Urteile, die in der Vergangenheit erfolgreich waren, wahrscheinlich auch in Zukunft erfolgreich sein werden. Diese Schlussfolgerungen mögen manchmal selbstverständlich sein, etwa wenn man sagt: "Weil die Sonne in den letzten 10.000 Tagen jeden Morgen aufgegangen ist, besteht eine gute Chance, dass sie morgen früh wieder aufgeht." In anderen Fällen können diese Erklärungen subtiler sein, wie z.B. "X Prozent der Familien haben geografisch unterschiedliche Arten mit Farbvariationen, was bedeutet, dass es eine Wahrscheinlichkeit von Y Prozent gibt, dass unbekannte schwarze Schwäne existieren.".

Arthur Samuel, ein Arbeiter bei IBM und ein Pionier auf dem Gebiet der Computerspiele und der künstlichen Intelligenz, gilt als derjenige, der 1959 als erster den Begriff "maschinelles Lernen" verwendete.

Die Suche nach künstlicher Intelligenz führte zur Entwicklung des Feldes des maschinellen Lernens als Forschungsfeld (KI). In der Anfangsphase der Entwicklung der KI als akademisches Feld bekundeten eine Reihe von Akademikern Interesse daran, Computern beizubringen, aus Daten zu lernen. Sie versuchten, das Problem mit einer Vielzahl von symbolischen Methoden zu lösen, zusätzlich zu den damals so genannten "neuronalen Netzen". Diese "neuronalen Netze" bestanden hauptsächlich aus Perzeptronen und verschiedenen anderen Modellen, die sich später als Neuerfindungen der verallgemeinerten linearen Modelle der Statistik herausstellten.

Während maschinelles Lernen und Data Mining häufig die gleichen Methoden verwenden und sich erheblich überschneiden, liegt der Schwerpunkt des maschinellen Lernens auf der Vorhersage, basierend auf den bekannten Eigenschaften, die aus den Trainingsdaten gelernt wurden, während der Hauptfokus des Data Mining auf der Entdeckung von (bisher unbekannten) Eigenschaften in den Daten liegt (dies ist der Analyseschritt der Wissensentdeckung in Datenbanken). Data Mining bedient sich zahlreicher Techniken des maschinellen Lernens, aber seine Ziele unterscheiden sich von denen des maschinellen Lernens. Auf der anderen Seite bedient sich maschinelles Lernen Data-Mining-Methoden in Form von "unüberwachtem Lernen" oder als Vorverarbeitungsschritt, um die Genauigkeit der Lernenden zu erhöhen. Diese beiden Forschungsgruppen (die häufig unterschiedliche Konferenzen und getrennte Publikationen haben, wobei ECML PKDD ein wichtiges Beispiel ist) werden oft miteinander verwechselt, was auf die grundlegenden Annahmen zurückzuführen ist, die beide wie folgt lauten: Im Bereich des maschinellen Lernens wird die Leistung oft an der Fähigkeit einer Person gemessen, zuvor gelerntes Material zu wiederholen, Im Bereich der Wissensentdeckung und des Data Mining (KDD) besteht das Hauptziel jedoch darin, Informationen zu finden, die zuvor nicht bekannt waren. Eine uninformierte (unüberwachte) Technik wird bei der Bewertung im Hinblick auf vorhandene Informationen leicht von anderen überwachten Methoden übertroffen werden; Überwachte Methoden können jedoch nicht in einem typischen KDD-Auftrag eingesetzt werden, da nicht genügend Trainingsdaten vorhanden sind.

Viele Lernprobleme werden als Minimierung einer Verlustfunktion anhand eines Trainingssatzes von Beispielen dargestellt, was ein Beispiel für eine der engen Verknüpfungen zwischen maschinellem Lernen und Optimierung ist. Die Abweichung, die zwischen den Vorhersagen des Modells, das trainiert wird, und den tatsächlichen Vorkommen des Problems besteht, wird durch die Verlustfunktion dargestellt (z. B. möchte man bei der Klassifizierung Instanzen eine Beschriftung zuweisen, und Modelle werden trainiert, um die vorab zugewiesenen Beschriftungen einer Reihe von Beispielen korrekt vorherzusagen).

Das Ziel der Generalisierung ist das, was Optimierung von maschinellem Lernen unterscheidet; Während Optimierungstechniken den Verlust bei einem Trainingssatz reduzieren können, geht es beim maschinellen Lernen darum, den Verlust bei Stichproben zu verringern, die noch nie zuvor gesehen wurden. Derzeit wird an einer Reihe von aktuellen Themen geforscht, darunter die Charakterisierung der Verallgemeinerung verschiedener Lernalgorithmen, insbesondere von Deep-Learning-Algorithmen.

Das Hauptziel der Statistik besteht darin, auf der Grundlage von Informationen aus einer Stichprobe Rückschlüsse auf eine Grundgesamtheit zu ziehen, während das Ziel des maschinellen Lernens darin besteht, verallgemeinerbare Vorhersagemuster zu identifizieren. Obwohl die beiden Bereiche in Bezug auf die verwendeten Methoden eng miteinander verwandt sind, unterscheiden sie sich grundlegend. wobei sich "algorithmisches Modell" mehr oder weniger auf die Algorithmen des maschinellen Lernens wie Random Forest bezieht.

Einige Statistiker haben sich Techniken aus dem Bereich des maschinellen Lernens zu eigen gemacht, was zur Schaffung einer hybriden Disziplin geführt hat, die diese Statistiker als statistisches Lernen bezeichnen.

Analyse- und Berechnungstechniken, die aus der tief verwurzelten Physik ungeordneter Systeme abgeleitet sind, können auf großskalige Probleme ausgeweitet werden, wie z. B. solche, die maschinelles Lernen betreffen. Mit diesen Techniken lässt sich beispielsweise der Gewichtsraum tiefer neuronaler Netze analysieren. Darüber hinaus können diese Techniken auf großräumige Probleme angewendet werden.

In der Lage zu sein, aus konkreten Beispielen umfassende Schlussfolgerungen zu ziehen, ist eines der primären Ziele eines Lernenden. Generalisierung ist die Fähigkeit einer lernenden Maschine, bei neuen Instanzen oder Aufgaben ordnungsgemäß auszuführen, nachdem sie auf einen Lerndatensatz gestoßen ist. In diesem Zusammenhang bezieht sich die Verallgemeinerung auf die Fähigkeit einer lernenden Maschine, genau zu arbeiten. Die Trainingsbeispiele stammen aus einer allgemein unbekannten Wahrscheinlichkeitsverteilung, von der man annimmt, dass sie repräsentativ für den Raum der Ereignisse ist. Der Lernende hat die Aufgabe, ein allgemeines Modell über diesen Raum zu entwickeln, das es ihm ermöglicht, in neuen Fällen Vorhersagen zu treffen, die ausreichend genau sind.

Die Computational Learning Theory ist ein Bereich der theoretischen Informatik, der die Leistung von Algorithmen des maschinellen Lernens durch die Linse des Probably Approx Correct Learning (PAC)-Modells analysiert. Diese Art der Studie wird als computergestützte Analyse von Algorithmen des maschinellen Lernens bezeichnet. In den meisten Fällen bietet die Lerntheorie keine Zusicherungen über die Leistungsfähigkeit von Algorithmen. Dies liegt daran, dass die Trainingssätze begrenzt sind und die Zukunft nicht absehbar ist. Stattdessen werden häufig probabilistische Grenzwerte für die Leistung verwendet. Eine Technik zur Messung von Generalisierungsfehlern ist die Verwendung der Bias-Varianz-Zerlegung.

Es ist wichtig, dass die Komplexität der Hypothese mit der Komplexität der Funktion vergleichbar ist, die den Daten zugrunde liegt, um die größtmögliche Leistung im Kontext der Generalisierung zu erzielen. Falls die Hypothese einfacher ist als die Funktion, deutet dies darauf hin, dass das Modell die Daten unzureichend abgeglichen hat. Wenn die Komplexität des Modells als Reaktion darauf erhöht wird, führt dies zu einer entsprechenden Verringerung der Menge an Trainingsfehlern. Wenn die Hypothese jedoch sehr kompliziert ist, kann das Modell anfällig für eine Überanpassung sein, und die Ergebnisse der Verallgemeinerung sind weniger genau.

Lerntheoretikerinnen und Lerntheoretiker untersuchen eine Vielzahl von Themen, darunter Leistungseinschränkungen, die zeitliche Komplexität des Lernens und die Machbarkeit des Lernens. Im Bereich der Computational Learning Theory wird die Machbarkeit einer Berechnung dadurch bestimmt, ob sie in polynomialer Zeit abgeschlossen werden kann oder nicht. Es gibt zwei unterschiedliche Arten von Erkenntnissen in Bezug auf ihre zeitliche Komplexität: Der erfolgreiche Abschluss des Experiments zeigt, dass eine bestimmte Klasse von Funktionen in einer polynomialen Zeitspanne gelernt werden kann. Nach den negativen Befunden können einige Klassen nicht in einer polynomialen Zeitspanne gelernt werden.

Traditionelle Methoden des maschinellen Lernens lassen sich grob in eine von drei Gruppen einteilen, die unterschiedlichen Lernparadigmen entsprechen. Diese Kategorien werden durch die Art des "Signals" oder "Feedbacks" bestimmt, das dem lernenden System zugänglich gemacht wird:

Der Zweck des überwachten Lernens besteht darin, dass der Computer eine allgemeine Regel lernt, die Eingaben auf Ausgaben abbildet, indem ihm Beispiele für Eingaben und die beabsichtigten Ausgaben für diese Eingaben gezeigt werden. Diese Beispiele werden von einem "Lehrer" auf den Computer geliefert.

Unüberwachtes Lernen ist eine Art des maschinellen Lernens, bei der der Lernalgorithmus keine Labels erhält und stattdessen die Struktur innerhalb der Daten, mit denen er gefüttert wird, selbst entdecken muss. Das Entdecken zuvor verborgener Muster in Daten kann an und für sich ein Zweck des unüberwachten Lernens sein, oder es kann ein Mittel zum Zweck sein (Feature Learning).

Lernen durch Verstärkung tritt auf, wenn ein Computerprogramm mit einer...

Systemvoraussetzungen

Als PDF speichern Als Link merken