Einstieg in Deep Reinforcement Learning

Name: Einstieg in Deep Reinforcement Learning | KI-Agenten mit Python und PyTorch programmieren
Brand: Hanser
Price: 39.99 EUR
Availability: OnlineOnly

KI-Agenten mit Python und PyTorch programmieren

Alexander Zai Brandon Brown(Author)

Hanser (Publisher)

1st Edition

Published on 12. October 2020

400 pages

E-Book

PDF with digital watermarking

System requirements

978-3-446-46608-1 (ISBN)

€39.99incl. 7% vat

System requirements

for PDF with digital watermarking

E-Book Single Licence

Available for download

Description

More details

Other editions

Persons

Content

Intro
Inhalt
Vorwort
Danksagung
Die Autoren
Über dieses Buch
Teil?I: Grundlagen
1 Was ist Reinforcement Learning?
1.1 Das "Tiefe" beim Deep Reinforcement Learning
1.2 Reinforcement Learning
1.3 Dynamische Programmierung versus?Monte Carlo
1.4 Das Reinforcement-Learning-Framework
1.5 Was kann ich mit Reinforcement Learning anfangen?
1.6 Warum Deep Reinforcement Learning?
1.7 Unser didaktisches Werkzeug: String-Diagramme
1.8 Wie geht es weiter?
1.9 Zusammenfassung
2 Modellierung von Reinforcement-Learning-Problemen: Markov?Decision Processes
2.1 String-Diagramme und?unsere?Lehrmethoden
2.2 Multi-Armed-Bandit-Problem
2.2.1 Erkundung und Ausnutzung
2.2.2 Epsilon-greedy-Strategie
2.2.3 Softmax-Auswahlverfahren
2.3 Anwendung von Banditen zur Optimierung von Anzeigenplatzierungen
2.3.1 Kontextabhängige Banditen
2.3.2 Zustände, Aktionen, Belohnungen
2.4 Netzwerke mit PyTorch erstellen
2.4.1 Automatische Differenzierung
2.4.2 Modelle erstellen
2.5 Lösen kontextabhängiger Banditen
2.6 Die Markov-Eigenschaft
2.7 Vorhersage zukünftiger Belohnungen: Value- und Policy-Funktionen
2.7.1 Policy-Funktionen
2.7.2 Optimale Policy
2.7.3 Wert-Funktionen
2.8 Zusammenfassung
3 Vorhersage der besten Zustände und Aktionen: Deep Q-Networks
3.1 Die Q-Funktion
3.2 Navigieren mit Q-Learning
3.2.1 Was ist Q-Learning?
3.2.2 Gridworld bewältigen
3.2.3 Hyperparameter
3.2.4 Diskontierungsfaktor
3.2.5 Aufbau des Netzwerks
3.2.6 Einführung in die Gridworld-Spiele-Engine
3.2.7 Ein neuronales Netz als Q-Funktion
3.3 Verhinderung katastrophalen Vergessens: Auf Erfahrung basiertes Wiederholungsspiel
3.3.1 Katastrophales Vergessen
3.3.2 Auf Erfahrung basiertes Wiederholungsspiel
3.4 Verbesserung der Stabilität mit?einem?Target Network
3.4.1 Lerninstabilität
3.5 Rückblick
3.6 Zusammenfassung
4 Lernen, die beste Policy auszuwählen: Policy-Gradient-Methoden
4.1 Policy-Funktion mit neuronalen Netzen
4.1.1 Neuronales Netz als Policy-Funktion
4.1.2 Stochastischer Policy-Gradient
4.1.3 Erkundung
4.2 Verstärkung guter Aktionen: Der?Policy-Gradient-Algorithmus
4.2.1 Definieren eines Ziels
4.2.2 Verstärkung der Aktionen
4.2.3 Log-Wahrscheinlichkeit
4.2.4 Anerkennungszuweisung
4.3 Arbeiten mit OpenAI Gym
4.3.1 CartPole
4.3.2 Die OpenAI Gym-API
4.4 Der REINFORCE-Algorithmus
4.4.1 Erstellen des Policy-Netzwerks
4.4.2 Interaktion des Agenten mit der Umgebung
4.4.3 Das Modell trainieren
4.4.4 Die vollständige Trainingsschleife
4.4.5 Schlussfolgerung
4.5 Zusammenfassung
5 Bewältigung komplexerer Probleme mit Actor-Critic-Methoden
5.1 Die Kombination von Wert- und Policy-Funktion
5.2 Verteiltes Training
5.3 Advantage-Actor-Critic
5.4 N-step-Actor-Critic
5.5 Zusammenfassung
Teil?II: Darüber?hinaus
6 Alternative Optimierungsmethoden: Evolutionäre Algorithmen
6.1 Ein anderer Ansatz für das Reinforcement Learning
6.2 Reinforcement Learning mit?Evolutionsstrategien
6.2.1 Evolution in der Theorie
6.2.2 Entwicklung in der Praxis
6.3 Ein genetischer Algorithmus für CartPole
6.4 Vor- und Nachteile von evolutionären Algorithmen
6.4.1 Evolutionäre Algorithmen erforschen mehr
6.4.2 Evolutionäre Algorithmen sind unglaublich testintensiv
6.4.3 Simulatoren
6.5 Evolutionäre Algorithmen als skalierbare Alternative
6.5.1 Skalierung evolutionärer Algorithmen
6.5.2 Parallele vs. serielle Verarbeitung
6.5.3 Skalierungseffizienz
6.5.4 Kommunikation zwischen Knoten
6.5.5 Lineare Skalierung
6.5.6 Auf Gradienten basierte Ansätze zur Skalierung
6.6 Zusammenfassung
7 Verteilungs-DQN: Die?ganze Geschichte
7.1 Was ist falsch an Q-Learning?
7.2 Wahrscheinlichkeitsrechnung und?Statistik
7.2.1 A priori und A posteriori
7.2.2 Erwartung und Varianz
7.3 Die Bellman-Gleichung
7.4 Verteilungs-Q-Learning
7.4.1 Darstellung einer Wahrscheinlichkeitsverteilung in Python
7.4.2 Implementierung des Dist-DQN
7.5 Vergleich von Wahrscheinlichkeitsverteilungen
7.6 Dist-DQN auf simulierten Daten
7.7 Verwendung von Verteilungs-Q-Learning zum Spielen von Freeway
7.8 Zusammenfassung
8 Von Neugierde getriebene Erkundung
8.1 Mit prädiktiver Kodierung gegen spärliche Belohnungen vorgehen
8.2 Vorhersage der inversen Dynamik
8.3 Implementierung von Super Mario Bros.
8.4 Vorverarbeitung und das Q-Netz
8.5 Einrichten des Q-Netz und?der?Policy-Funktion
8.6 Intrinsisches Neugierde-Modul
8.7 Alternative intrinsische Belohnungsmechanismen
8.8 Zusammenfassung
9 Lernen mit Multi-Agent Reinforcement Learning
9.1 Von einem zu vielen Agenten
9.2 Nachbarschafts-Q-Learning
9.3 Das 1D-Ising-Modell
9.4 Mean-Field-Q-Learning und?das?2D-Ising-Modell
9.5 Gemischte kooperativ-konkurrierende Spiele
9.6 Zusammenfassung
10 Interpretierbares Reinforcement Learning: Aufmerksamkeitsmodelle und relationale Modelle
10.1 Interpretierbarkeit von Machine Learning mit Aufmerksamkeit und?relationalen?Verzerrungen
10.1.1 Invarianz und Äquivarianz
10.2 Relationale Argumentation mit?Aufmerksamkeit
10.2.1 Aufmerksamkeitsmodelle
10.2.2 Relationale Argumentation
10.2.3 Self-Attention-Modelle
10.3 Implementierung der Self-Attention für?MNIST
10.3.1 Transformiertes MNIST
10.3.2 Das relationale Modul
10.3.3 Tensorverjüngungen und Einstein-Notation
10.3.4 Training des relationalen Moduls
10.4 Multi-Head Attention und relationales DQN
10.5 Double Q-Learning
10.6 Training und Aufmerksamkeitsvisualisierung
10.6.1 Maximum Entropy Learning
10.6.2 Curriculum Learning
10.6.3 Visualisierung von Aufmerksamkeitsgewichten
10.7 Zusammenfassung
11 Abschließend: Rückblick und Fahrplan
11.1 Was haben wir gelernt?
11.2 Die unergründeten Themen des?Deep?Reinforcement Learning
11.2.1 Priorisiertes auf Erfahrung basiertes Wiederholungsspiel
11.2.2 Proximal-Policy-Optimierung (PPO)
11.2.3 Hierarchisches Reinforcement Learning und?das?Options?Framework
11.2.4 Modellbasierte Planung
11.2.5 Monte-Carlo-Baumsuche (MCTS)
11.3 Das Ende
Anhang: Mathematik,?Deep Learning, PyTorch
A.1 Lineare Algebra
A.2 Analysis
A.3 Deep Learning
A.4 PyTorch
Literaturverzeichnis
Stichwortverzeichnis

Content (PDF)

System requirements

Save as PDF Copy link into clipboard

Schweitzer Fachinformationen

Einstieg in Deep Reinforcement Learning

Description

More details

Other editions

Additional editions

Persons

Content

System requirements