Bestärkendes Lernen

Name: Bestärkendes Lernen | Intelligente Entscheidungsfindung für autonome Maschinen meistern
Brand: Eine Milliarde Sachkundig [German]
Price: 4.49 EUR
Availability: OnlineOnly

Intelligente Entscheidungsfindung für autonome Maschinen meistern

Fouad Sabry(Autor*in)

Eine Milliarde Sachkundig [German] (Verlag)

1. Auflage

Erschienen am 25. Dezember 2024

234 Seiten

E-Book

ePUB mit Adobe-DRM

Systemvoraussetzungen

6610000689644 (EAN)

4,49 €inkl. 7% MwSt.

Systemvoraussetzungen

für ePUB mit Adobe-DRM

E-Book Einzellizenz

Als Download verfügbar

Beschreibung

Im sich rasch entwickelnden Bereich der Robotik gilt Reinforcement Learning als eine der vielversprechendsten Methoden zum Aufbau autonomer Systeme. Dieses Buch, Reinforcement Learning, bietet eine eingehende Untersuchung dieser leistungsstarken Technik und führt die Leser von ihren Grundprinzipien bis hin zu ihren neuesten Fortschritten. Dieses Buch ist perfekt für Fachleute, Doktoranden und Enthusiasten gleichermaßen und bietet einen detaillierten und dennoch zugänglichen Ansatz zum Verständnis von Reinforcement Learning im Kontext der Robotik

Reinforcement Learning-Stellt das Kernkonzept von Reinforcement Learning vor und betont seine Rolle in autonomen Systemen

Markov-Entscheidungsprozess-Erklärt den mathematischen Rahmen für Entscheidungsfindung unter Unsicherheit, eine wichtige Grundlage für Reinforcement Learning

Zeitdifferenzlernen-Erforscht Methoden zum Lernen aus Erfahrung ohne ein Modell der Umgebung zu benötigen

Bellman-Gleichung-Erörtert die kritische rekursive Beziehung, die vielen Reinforcement-Learning-Algorithmen zugrunde liegt

Qlearning-Konzentriert sich auf einen Off-Policy-Reinforcement-Learning-Algorithmus, der optimale Aktionen ohne ein Modell der Umgebung lernt

Mehrarmiger Bandit-Behandelt ein einfacheres Problem des bestärkenden Lernens, das Entscheidungsfindung in unsicheren Umgebungen modelliert

Teilweise beobachtbarer Markow-Entscheidungsprozess-Erweitert traditionelle Markow-Entscheidungsprozesse durch die Einbeziehung verborgener Zustände

Gittins-Index-Führt eine Strategie zum Ausgleich von Exploration und Ausbeutung bei Problemen mit mehrarmigen Banditen ein

Zustand-Aktion-Belohnung-Zustand-Aktion-Befasst sich mit den zeitlichen Mustern des bestärkenden Lernens, die Entscheidungsfindungsstrategien beeinflussen

Protowertfunktion-Erforscht Methoden zur Annäherung von Wertfunktionen, die die Effizienz des Lernens unterstützen

Automatische Basisfunktionskonstruktion-Konzentriert sich auf automatische Methoden zur Konstruktion von Merkmalen zur Verbesserung der Lerneffizienz

Meanfield-Spieltheorie-Bespricht ein Framework zur Modellierung von Interaktionen in groß angelegten Multiagentensystemen

Multiagenten-Pfadfindung-Führt Algorithmen zur Koordination mehrerer Agenten ein, damit diese ihre Ziele effizient erreichen

Modellfrei (Verstärkendes Lernen)-Bespricht Methoden, die beim Lernen nicht auf ein Modell der Umgebung angewiesen sind

Tiefes verstärkendes Lernen-Kombiniert tiefes Lernen und verstärkendes Lernen, um komplexe, hochdimensionale Umgebungen zu handhaben

Multiagenten-verstärkendes Lernen-Konzentriert sich auf Strategien zum Lernen in Umgebungen mit mehreren interagierenden Agenten

Selbstspiel-Erforscht das Konzept von Agenten, die durch Wettbewerb mit sich selbst lernen, eine entscheidende Komponente fortgeschrittener Lernstrategien

Proximale Richtlinienoptimierung-Führt einen Algorithmus zur Optimierung von Richtlinien beim verstärkenden Lernen mit verbesserter Stabilität und Leistung ein

Explorations-/Ausbeutungsdilemma-Bespricht die grundlegende Herausforderung, die Erforschung neuer Strategien mit der Ausnutzung bekannter Strategien in Einklang zu bringen

Verstärkendes Lernen aus menschlichem Feedback-Untersucht Methoden zur Verbesserung des verstärkenden Lernens durch menschliche Eingaben

Imitationslernen-Konzentriert sich auf Techniken, bei denen Agenten lernen, indem sie die Aktionen menschlicher Experten nachahmen

Weitere Details

Personen

Inhalt

Kapitel 2 : Markov-Entscheidungsprozess

Ein zeitdiskreter stochastischer Regelungsprozess wird in der Mathematik als Markov-Entscheidungsprozess (MDP) bezeichnet. Es bietet einen mathematischen Rahmen für die Modellierung der Entscheidungsfindung in Szenarien, in denen die Ergebnisse teilweise von einem Entscheidungsträger gesteuert und teilweise durch Zufall bestimmt werden. Die Untersuchung von Optimierungsproblemen, die durch dynamische Programmierung behandelt werden können, eignet sich gut für den Einsatz von MDPs. Zumindest gibt es MDPs seit den 1950er Jahren. Heutzutage finden sie Anwendung in einer Vielzahl von Bereichen, darunter Robotik, automatisierte Steuerung, Wirtschaft und Fertigung. Da Markov-Entscheidungsprozesse eine Erweiterung von Markov-Ketten sind, wird dem russischen Mathematiker Andrey Markov zugeschrieben, den Begriff für diese Entscheidungsstrukturen geliefert zu haben.

Zu jedem einzelnen Zeitpunkt befindet sich der Prozess in einem bestimmten Zustand , und der Entscheidungsträger kann jede Aktion auswählen, die im Zustand verfügbar ist .

Der Prozess reagiert im nächsten Zeitschritt, indem er zufällig in einen neuen Zustand wechselt und dem Entscheidungsträger eine entsprechende Belohnung gibt .

Die Wahrscheinlichkeit, dass der Prozess in seinen neuen Zustand übergeht, wird durch die gewählte Aktion beeinflusst.

Konkret ist sie durch die Zustandsübergangsfunktion gegeben.

Der nächste Zustand hängt also vom aktuellen Zustand und der Handlung des Entscheidungsträgers ab.

Aber bei gegebenem und ist es bedingt unabhängig von allen anderen Zuständen und Handlungen, die in der Vergangenheit stattgefunden haben; um es anders auszudrücken: Die Markov-Eigenschaft kann durch die Zustandsübergänge eines MDP als erfüllt gezeigt werden.

Die Unterscheidung zwischen Markov-Entscheidungsprozessen und Markov-Ketten ist die Einbeziehung von Aktionen (die eine Wahl ermöglichen) und Belohnungen. Markov-Entscheidungsprozesse sind eine Erweiterung von Markov-Ketten (die Motivation geben). Auf der anderen Seite kann ein Markov-Entscheidungsprozess auf eine Markov-Kette reduziert werden, wenn für jeden Zustand nur eine Aktion möglich ist (z. B. "warten") und alle Belohnungen gleich sind (z. B. "null").

Ein Markov-Entscheidungsprozess ist ein 4-Tupel , wobei:

ist eine Menge von Zuständen, die als Zustandsraum bezeichnet wird, ist eine Menge von Aktionen, die als Aktionsraum bezeichnet wird (alternativ ist die Menge der Aktionen, die aus dem Zustand verfügbar sind ), ist die Wahrscheinlichkeit, dass eine Aktion im Zustand zum Zeitpunkt zum Zustand führt , ist die unmittelbare Belohnung (oder die erwartete unmittelbare Belohnung), die nach dem Übergang von Zustand zu Zustand erhalten wird, aufgrund von Maßnahmen

Sowohl der Zustands- als auch der Aktionsraum haben das Potenzial, entweder begrenzt oder unendlich zu sein, am Beispiel der Menge der reellen Zahlen. Einige Prozesse, die Zustands- und Aktionsräume haben, die abzählbar unendlich sind, können auf solche vereinfacht werden, die Zustands- und Aktionsräume haben, die endlich sind.

Eine Richtlinienfunktion ist eine (potenziell probabilistische) Zuordnung vom Zustandsraum ( ) zum Aktionsraum ().

Das Ziel in einem Markov-Entscheidungsprozess ist es, eine gute "Richtlinie" für den Entscheidungsträger zu finden: eine Funktion , die die Aktion angibt, die der Entscheidungsträger im Zustand wählen wird .

Wenn eine Richtlinie auf diese Weise in einen Markov-Entscheidungsprozess integriert wird, ist das Ergebnis a, dies legt die Aktion für jeden Zustand fest und die resultierende Kombination verhält sich wie eine Markov-Kette (da die im Zustand gewählte Aktion vollständig von bestimmt ist und auf reduziert wird, (Dies wird als Markov-Übergangsmatrix bezeichnet).

Das Ziel ist es, eine Richtlinie zu wählen , die eine kumulative Funktion der zufälligen Belohnungen maximiert, eine übliche Darstellung des vorhergesagten Betrags nach Diskontierung über einen möglicherweise unendlichen Zeitraum:

(wo wir wählen , d.h.

Rechtsakte, die in der Verordnung vorgeschrieben sind).

Und die Erwartung wird übernommen

wobei der Diskontierungsfaktor zufriedenstellend ist , der oft ziemlich nahe bei 1 liegt (z. B . für einen gewissen Diskontsatz r).

Der Entscheidungsträger wird durch einen geringeren Diskontfaktor motiviert, Maßnahmen in einem frühen Stadium des Prozesses zu bevorzugen, anstatt die Dinge auf unbestimmte Zeit aufzuschieben.

Eine Richtlinie, die die obige Funktion maximiert, wird als optimale Richtlinie bezeichnet und wird normalerweise als bezeichnet.

Ein bestimmtes MDP kann über zahlreiche einzigartige optimale Richtlinien verfügen.

Die Markov-Eigenschaft ist dafür verantwortlich, Es kann gezeigt werden, dass die beste Vorgehensweise von den vorhandenen Bedingungen abhängt, wie zuvor erwartet wurde.

Häufig kann es schwierig sein, die Wahrscheinlichkeitsverteilungen des Übergangs explizit genau zu charakterisieren .

In diesem Fall kann die indirekte Modellierung des MDP durch die Verwendung eines Simulators erreicht werden, indem Stichproben aus den Übergangsverteilungen gegeben werden.

Ein episodischer Umgebungssimulator ist ein Beispiel für eine typische Art von implizitem Modell für das multidimensionale grafische Problem (MDP). Dieser Modelltyp kann von einem Anfangszustand aus gestartet werden und erzeugt jedes Mal, wenn er eine Aktionseingabe erhält, einen nachfolgenden Zustand zusammen mit einer Belohnung.

Da dies der Fall ist, ist es möglich, Verläufe von Situationen und Bedingungen, Aktionen und Belohnungen zu erstellen, die oft als Episoden bezeichnet werden.

Ein generatives Modell ist ein Beispiel für eine zusätzliche Art von Simulator, einen einstufigen Simulator, der bei jedem Zustand und jeder Aktion Stichproben des nachfolgenden Zustands und der Belohnung erstellen kann.

(Es ist wichtig zu beachten, dass sich die Definition des Begriffs "generatives Modell" im Zusammenhang mit der statistischen Kategorisierung von dieser Interpretation unterscheidet.) Wenn es um Algorithmen geht, die durch Pseudocode dargestellt werden, wird häufig verwendet, um ein generatives Modell darzustellen.

Zum Beispiel könnte der Ausdruck die Aktion der Stichprobenentnahme aus dem generativen Modell bezeichnen, wobei und der aktuelle Zustand und die aktuelle Aktion und und und der neue Zustand und die Belohnung sind.

Im Vergleich zu einem episodischen Simulator besteht einer der Vorteile der Verwendung eines generativen Modells darin, dass es Ergebnisse mit Daten aus jedem Bundesstaat liefern kann, nicht nur mit denen, die im Laufe einer Reiseroute erreicht wurden.

Eine Hierarchie des Informationsgehalts wird durch diese Modellklassen gebildet: Ein explizites Modell kann leicht ein generatives Modell erzeugen, indem es aus den Verteilungen stichproben, und die wiederholte Anwendung eines generativen Modells kann einen episodischen Simulator erzeugen. In der anderen Richtung ist die einzige Möglichkeit, Approximationsmodelle zu trainieren, die Regression. Dies liegt an der Art der Daten. Die Vielfalt der Modelle, die zur Analyse eines bestimmten MDP verwendet werden können, spielt einen großen Einfluss darauf, herauszufinden, welche Lösungsmethoden für dieses Problem am besten geeignet sind. Zum Beispiel benötigen die dynamischen Programmieralgorithmen, die im folgenden Abschnitt besprochen werden, ein explizites Modell, und der Monte-Carlo-Baum-Suchalgorithmus benötigt ein generatives Modell (oder einen episodischen Simulator, der in jedem Zustand kopiert werden kann), aber die Mehrheit der Reinforcement-Learning-Algorithmen benötigt nur einen episodischen Simulator, um ordnungsgemäß zu funktionieren.

Eine Reihe verschiedener Ansätze, wie z. B. dynamische Programmierung, können verwendet werden, um Antworten auf die Probleme zu finden, die von MDPs aufgeworfen werden, die endliche Zustands- und Aktionsräume haben. Die Algorithmen, die in diesem Abschnitt vorgestellt werden, sind auf MDPs anwendbar, die über endliche Zustands- und Aktionsräume sowie explizit gegebene Übergangswahrscheinlichkeiten und Belohnungsfunktionen verfügen. Trotzdem können die grundlegenden Konzepte erweitert werden, um andere Problemklassen zu behandeln, z. B. durch Approximation von Funktionen.

Die Standardfamilie von Algorithmen zur Berechnung optimaler Richtlinien für MDPs mit endlichem Zustand und Aktion erfordert Speicher für zwei Arrays, die nach Zustand indiziert sind: Wert , Es besteht aus wahren Werten und Richtlinie , die das Ausführen dieser Aktivitäten einschließen.

An diesem Punkt im Prozess des Algorithmus, enthält die Lösung und enthält die diskontierte Summe der Belohnungen, die (im Durchschnitt) verdient werden sollen, indem diese Lösung aus dem Zustand folgt .

Die Methode besteht aus zwei Phasen: (1) einer Aktualisierung des Werts und (2) einer Aktualisierung der Richtlinie. Diese Schritte werden in einer bestimmten Reihenfolge für jeden der Zustände wiederholt, bis keine Änderungen mehr vorgenommen werden müssen. Beide verfeinern kontinuierlich eine vorhandene Schätzung des besten Policen- und Zustandswerts auf der Grundlage einer früheren Version dieser Berechnung.

Ihre Reihenfolge wird durch die jeweilige Iteration des verwendeten Algorithmus bestimmt. Alternativ können sie für alle Zustände gleichzeitig oder nacheinander ausgeführt werden, wobei bestimmte Zustände mehr Aufmerksamkeit erhalten als andere. Solange in keiner der Phasen ein Zustand in einer...

Systemvoraussetzungen

Als PDF speichern Als Link merken