Language Models kompakt

Name: Language Models kompakt | Praxisorientierte Sprachmodellierung mit PyTorch
Brand: O'Reilly
Price: 29.9 EUR
Availability: OnlineOnly

Praxisorientierte Sprachmodellierung mit PyTorch

Andriy Burkov(Autor*in)

O'Reilly (Verlag)

1. Auflage

Erschienen am 24. September 2025

197 Seiten

E-Book

ePUB mit Wasserzeichen-DRM

Systemvoraussetzungen

978-3-96010-941-9 (ISBN)

29,90 €inkl. 7% MwSt.

Systemvoraussetzungen

für ePUB mit Wasserzeichen-DRM

E-Book Einzellizenz

Als Download verfügbar

Beschreibung

Weitere Details

Weitere Ausgaben

Personen

Inhalt

Kapitel 1 Grundlagen des Machine Learning

Dieses Kapitel beginnt mit einem kurzen Überblick darüber, wie sich künstliche Intelligenz entwickelt hat, erklärt, was ein Machine-Learning-Modell ist, und stellt die vier Schritte des Machine-Learning-Prozesses vor. Anschließend erläutert es einige mathematische Grundkonzepte wie Vektoren und Matrizen, führt neuronale Netze ein und behandelt schließlich Optimierungsmethoden wie Gradientenabstieg und automatische Differenzierung.

KI und Machine Learning

Der Begriff der künstlichen Intelligenz (KI; engl. Artificial Intelligence, AI) wurde erstmals 1955 auf einem Workshop unter der Leitung von John McCarthy eingeführt, der sich mit der Frage beschäftigte, wie Maschinen per Sprache Konzepte bilden, Probleme in der Art und Weise eines Menschen lösen und sich im Laufe der Zeit verbessern könnten. Auf diesen Ideen aufbauend, entwickelte Joseph Weizenbaum 1966 mit ELIZA den ersten Chatbot. Das Programm ELIZA simulierte Unterhaltungen, indem es Muster in den Benutzereingaben erkannte und mit vorprogrammierten Antworten reagierte, die den Eindruck erweckten, dass ELIZA die Fragen versteht.

In den Anfangsjahren der KI waren die Forscher zu optimistisch, was das Erreichen von Intelligenz auf menschlichem Niveau anging. Herbert Simon, Träger des Turing-Preises, sagte 1965 voraus, dass »Maschinen innerhalb von 20 Jahren in der Lage sein werden, jegliche Arbeiten zu verrichten, die ein Mensch erledigen kann«. Allerdings stellten sich die Fortschritte langsamer als erwartet ein, was zu Perioden mit geringerer Finanzierung und geringerem Interesse führte, die als »KI-Winter« bekannt sind.

Interessanterweise haben die Experten seit den 1950er-Jahren durchgängig vorausgesagt, dass KI auf menschlichem Niveau in etwa 25 Jahren erreicht sein wird, wie Abbildung 1.1 veranschaulicht.

Abbildung 1.1: Vorhersage und Erreichen von KI auf menschlichem Niveau

Zwischen 1975 und 1980 sowie erneut zwischen 1987 und 2000 durchliefen wir zwei »Winter«, in denen der Enthusiasmus und die Finanzierung der KI zurückgingen. Die Forschungsergebnisse entsprachen nicht den großen Hoffnungen, die durch die ersten Erfolge geweckt worden waren, sodass Investoren und politische Entscheidungsträger das Vertrauen verloren. Viele Projekte wurden gestoppt oder gebremst, was zu einem erheblichen Rückgang der KI-Forschung und -Entwicklung in Wissenschaft und Industrie führte.

Während des ersten KI-Winters war sogar der Begriff »KI« ein Tabu geworden. Viele Forscher ordneten ihre Arbeiten Kategorien wie »Informatik«, »wissensbasierte Systeme« oder »Mustererkennung« zu, um eine Assoziation mit den vermeintlichen Fehlern der KI zu vermeiden.

Die Begeisterung für KI ist seit den frühen 1990er-Jahren stetig gewachsen. Um 2012 wuchs das Interesse insbesondere an Machine Learning, angetrieben von Fortschritten bei der Rechenleistung, dem Zugang zu großen Datensätzen und Verbesserungen bei Algorithmen und Frameworks für neuronale Netze. Diese Entwicklungen führten zu einem Anstieg der Finanzmittel und einem bedeutenden KI-Boom.

Obwohl sich der Schwerpunkt der Forschung im Bereich der künstlichen Intelligenz verlagert hat, bleibt das Kernziel dasselbe: Methoden zu entwickeln, durch die Maschinen Probleme lösen können, die bisher nur von Menschen gelöst werden konnten. In diesem Sinne wird der Begriff in diesem Buch verwendet.

Den Begriff Machine Learning hat Arthur Samuel 1959 eingeführt. In seinem Paper »Some Studies in Machine Learning Using the Game of Checkers« hat er ihn als »Programmieren von Computern, um aus Erfahrung zu lernen« beschrieben.

Die frühen KI-Forscher konzentrierten sich in erster Linie auf symbolische Methoden und regelbasierte Systeme - ein Ansatz, der später als gute altmodische KI (Good Old-Fashioned AI, GOFAI) - betitelt wurde -, doch im Laufe der Zeit wandte sich das Gebiet zunehmend dem Machine Learning zu, wobei sich neuronale Netze (Neural Networks) als besonders leistungsfähige Technik herausstellten.

Die von Forschungen am Gehirn inspirierten neuronalen Netze zielen darauf ab, Muster direkt aus Beispielen zu lernen. Frank Rosenblatt stellte 1958 mit dem Perzeptron ein wegweisendes Modell und einen entsprechenden Algorithmus vor, um es zu trainieren. Es war ein entscheidender Schritt in Richtung späterer Fortschritte. Das Perzeptron definiert eine Entscheidungsgrenze, eine Linie, die Vertreter zweier Klassen (zum Beispiel »Spam« und »kein Spam«) voneinander trennt (siehe Abbildung 1.2).

Abbildung 1.2: Trennen zweier Klassen mithilfe eines Perzeptrons

Entscheidungsbäume und Random Forests stellen wichtige Evolutionsschritte im Machine Learning dar. Die 1963 von John Sonquist und James Morgan eingeführten und später durch den ID3-Algorithmus von Ross Quinlan im Jahr 1986 weiterentwickelten Decision Trees (Entscheidungsbäume) teilen die Daten durch eine baumartige Struktur in Teilmengen auf. Jeder Knoten verkörpert eine Frage über die Daten, jeder Zweig ist eine Antwort, und jedes Blatt liefert eine Vorhersage. Diese Modelle sind zwar leicht zu verstehen, dennoch haben sie mit Überanpassung (Overfitting) zu kämpfen, d.h., sie passen sich zu stark an die Trainingsdaten an, was ihre Vorhersageleistung bei bisher nicht gesehenen Daten verringert.

Um dieser Einschränkung zu begegnen, hat Leo Breiman 2001 den Random-Forest-Algorithmus eingeführt. Ein Random Forest (deutsch Zufallswald) erstellt mehrere Decision Trees aus zufälligen Teilmengen der Daten und kombiniert deren Ergebnisse. Dieser Ansatz verbessert die Vorhersagegenauigkeit und verringert die Überanpassung. Aufgrund ihrer Zuverlässigkeit und Performance werden Random Forests nach wie vor häufig eingesetzt.

Support Vector Machines (SVMs), die Vladimir Vapnik und seine Kollegen 1992 einführten, sind ein weiterer Schritt nach vorn. SVMs ermitteln die optimale Hyperebene, die Datenpunkte verschiedener Klassen mit dem größten Abstand voneinander trennt. Die Einführung von Kernel-Methoden hat es SVMs ermöglicht, komplexe, nicht lineare Muster zu erkennen, indem sie Daten in höherdimensionale Räume abbilden, was die Suche nach einer geeigneten Trennungshyperebene erleichtert. Diese Fortschritte haben SVMs zu einem zentralen Bestandteil der Forschung im Bereich des Machine Learning gemacht.

Heute ist Machine Learning ein Teilbereich der künstlichen Intelligenz, der sich mit der Entwicklung von Algorithmen beschäftigt, die aus Sammlungen von Beispielen lernen. Diese Beispiele können aus der Natur stammen, von Menschen entworfen sein oder durch andere Algorithmen erzeugt werden. Alles in allem geht es dabei darum, einen Datensatz zu erfassen, dafür ein Modell zu erstellen und es dann zu verwenden, um ein Problem zu lösen.

Die Begriffe Lernen, maschinelles Lernen und Machine Learning werden hier synonym verwendet.

Modelle

Ein Modell wird normalerweise durch eine mathematische Gleichung dargestellt:

y = f(x)

Hier ist x die Eingabe, y die Ausgabe, und f steht für eine Funktion von x. Eine Funktion ist eine benannte Regel, die beschreibt, wie eine Menge von Werten mit einer anderen in Beziehung steht. Formal bildet eine Funktion f die Eingaben aus der Domäne auf Ausgaben in der Codomäne ab, wobei sichergestellt ist, dass jeder Eingabe genau eine Ausgabe zugeordnet ist. Die Funktion verwendet eine spezifische Regel oder Formel, um die Eingabe in die Ausgabe zu transformieren.

Im Machine Learning besteht das Ziel darin, einen Datensatz mit Beispielen anzulegen und daraus f zu erstellen, sodass bei Anwendung von f auf eine neue, noch nicht gesehene Eingabe x ein y erzeugt wird, das aussagekräftige Erkenntnisse über x liefert.

Um den Preis eines Hauses anhand seiner Fläche zu schätzen, könnte der Datensatz aus (Fläche, Preis)-Paaren wie {(150,200), (200,600), .} bestehen. Hier wird die Fläche in Quadratmetern (m2 gemessen und der Preis in Tausenden Dollar angegeben.

Geschweifte Klammern kennzeichnen eine Menge. Eine Menge mit N Elementen, die von x1 bis xN reichen, wird als { xi }i=1N ausgedrückt.

Angenommen, wir besitzen ein Haus mit einer Fläche von 250 m2. Um eine Funktion f zu finden, die einen angemessenen Preis für dieses Haus liefert, wäre es unzumutbar, jede mögliche Funktion zu testen. Stattdessen wählen wir eine bestimmte Struktur für f und konzentrieren uns auf Funktionen, die dieser Struktur entsprechen.

Für f definieren wir eine Struktur als:

f(x)=defwx+b (1.1)

die eine lineare Funktion von x ist. Die Formel wx + b ist eine lineare...

Systemvoraussetzungen

Als PDF speichern Als Link merken