
Einstieg in Deep Reinforcement Learning
Description
Alles über E-Books | Antworten auf Fragen rund um E-Books, Kopierschutz und Dateiformate finden Sie in unserem Info- & Hilfebereich.
More details
Other editions
Additional editions


Persons
ISNI: 0000 0000 9977 8680
Content
- Intro
- Inhalt
- Vorwort
- Danksagung
- Die Autoren
- Über dieses Buch
- Teil?I: Grundlagen
- 1 Was ist Reinforcement Learning?
- 1.1 Das "Tiefe" beim Deep Reinforcement Learning
- 1.2 Reinforcement Learning
- 1.3 Dynamische Programmierung versus?Monte Carlo
- 1.4 Das Reinforcement-Learning-Framework
- 1.5 Was kann ich mit Reinforcement Learning anfangen?
- 1.6 Warum Deep Reinforcement Learning?
- 1.7 Unser didaktisches Werkzeug: String-Diagramme
- 1.8 Wie geht es weiter?
- 1.9 Zusammenfassung
- 2 Modellierung von Reinforcement-Learning-Problemen: Markov?Decision Processes
- 2.1 String-Diagramme und?unsere?Lehrmethoden
- 2.2 Multi-Armed-Bandit-Problem
- 2.2.1 Erkundung und Ausnutzung
- 2.2.2 Epsilon-greedy-Strategie
- 2.2.3 Softmax-Auswahlverfahren
- 2.3 Anwendung von Banditen zur Optimierung von Anzeigenplatzierungen
- 2.3.1 Kontextabhängige Banditen
- 2.3.2 Zustände, Aktionen, Belohnungen
- 2.4 Netzwerke mit PyTorch erstellen
- 2.4.1 Automatische Differenzierung
- 2.4.2 Modelle erstellen
- 2.5 Lösen kontextabhängiger Banditen
- 2.6 Die Markov-Eigenschaft
- 2.7 Vorhersage zukünftiger Belohnungen: Value- und Policy-Funktionen
- 2.7.1 Policy-Funktionen
- 2.7.2 Optimale Policy
- 2.7.3 Wert-Funktionen
- 2.8 Zusammenfassung
- 3 Vorhersage der besten Zustände und Aktionen: Deep Q-Networks
- 3.1 Die Q-Funktion
- 3.2 Navigieren mit Q-Learning
- 3.2.1 Was ist Q-Learning?
- 3.2.2 Gridworld bewältigen
- 3.2.3 Hyperparameter
- 3.2.4 Diskontierungsfaktor
- 3.2.5 Aufbau des Netzwerks
- 3.2.6 Einführung in die Gridworld-Spiele-Engine
- 3.2.7 Ein neuronales Netz als Q-Funktion
- 3.3 Verhinderung katastrophalen Vergessens: Auf Erfahrung basiertes Wiederholungsspiel
- 3.3.1 Katastrophales Vergessen
- 3.3.2 Auf Erfahrung basiertes Wiederholungsspiel
- 3.4 Verbesserung der Stabilität mit?einem?Target Network
- 3.4.1 Lerninstabilität
- 3.5 Rückblick
- 3.6 Zusammenfassung
- 4 Lernen, die beste Policy auszuwählen: Policy-Gradient-Methoden
- 4.1 Policy-Funktion mit neuronalen Netzen
- 4.1.1 Neuronales Netz als Policy-Funktion
- 4.1.2 Stochastischer Policy-Gradient
- 4.1.3 Erkundung
- 4.2 Verstärkung guter Aktionen: Der?Policy-Gradient-Algorithmus
- 4.2.1 Definieren eines Ziels
- 4.2.2 Verstärkung der Aktionen
- 4.2.3 Log-Wahrscheinlichkeit
- 4.2.4 Anerkennungszuweisung
- 4.3 Arbeiten mit OpenAI Gym
- 4.3.1 CartPole
- 4.3.2 Die OpenAI Gym-API
- 4.4 Der REINFORCE-Algorithmus
- 4.4.1 Erstellen des Policy-Netzwerks
- 4.4.2 Interaktion des Agenten mit der Umgebung
- 4.4.3 Das Modell trainieren
- 4.4.4 Die vollständige Trainingsschleife
- 4.4.5 Schlussfolgerung
- 4.5 Zusammenfassung
- 5 Bewältigung komplexerer Probleme mit Actor-Critic-Methoden
- 5.1 Die Kombination von Wert- und Policy-Funktion
- 5.2 Verteiltes Training
- 5.3 Advantage-Actor-Critic
- 5.4 N-step-Actor-Critic
- 5.5 Zusammenfassung
- Teil?II: Darüber?hinaus
- 6 Alternative Optimierungsmethoden: Evolutionäre Algorithmen
- 6.1 Ein anderer Ansatz für das Reinforcement Learning
- 6.2 Reinforcement Learning mit?Evolutionsstrategien
- 6.2.1 Evolution in der Theorie
- 6.2.2 Entwicklung in der Praxis
- 6.3 Ein genetischer Algorithmus für CartPole
- 6.4 Vor- und Nachteile von evolutionären Algorithmen
- 6.4.1 Evolutionäre Algorithmen erforschen mehr
- 6.4.2 Evolutionäre Algorithmen sind unglaublich testintensiv
- 6.4.3 Simulatoren
- 6.5 Evolutionäre Algorithmen als skalierbare Alternative
- 6.5.1 Skalierung evolutionärer Algorithmen
- 6.5.2 Parallele vs. serielle Verarbeitung
- 6.5.3 Skalierungseffizienz
- 6.5.4 Kommunikation zwischen Knoten
- 6.5.5 Lineare Skalierung
- 6.5.6 Auf Gradienten basierte Ansätze zur Skalierung
- 6.6 Zusammenfassung
- 7 Verteilungs-DQN: Die?ganze Geschichte
- 7.1 Was ist falsch an Q-Learning?
- 7.2 Wahrscheinlichkeitsrechnung und?Statistik
- 7.2.1 A priori und A posteriori
- 7.2.2 Erwartung und Varianz
- 7.3 Die Bellman-Gleichung
- 7.4 Verteilungs-Q-Learning
- 7.4.1 Darstellung einer Wahrscheinlichkeitsverteilung in Python
- 7.4.2 Implementierung des Dist-DQN
- 7.5 Vergleich von Wahrscheinlichkeitsverteilungen
- 7.6 Dist-DQN auf simulierten Daten
- 7.7 Verwendung von Verteilungs-Q-Learning zum Spielen von Freeway
- 7.8 Zusammenfassung
- 8 Von Neugierde getriebene Erkundung
- 8.1 Mit prädiktiver Kodierung gegen spärliche Belohnungen vorgehen
- 8.2 Vorhersage der inversen Dynamik
- 8.3 Implementierung von Super Mario Bros.
- 8.4 Vorverarbeitung und das Q-Netz
- 8.5 Einrichten des Q-Netz und?der?Policy-Funktion
- 8.6 Intrinsisches Neugierde-Modul
- 8.7 Alternative intrinsische Belohnungsmechanismen
- 8.8 Zusammenfassung
- 9 Lernen mit Multi-Agent Reinforcement Learning
- 9.1 Von einem zu vielen Agenten
- 9.2 Nachbarschafts-Q-Learning
- 9.3 Das 1D-Ising-Modell
- 9.4 Mean-Field-Q-Learning und?das?2D-Ising-Modell
- 9.5 Gemischte kooperativ-konkurrierende Spiele
- 9.6 Zusammenfassung
- 10 Interpretierbares Reinforcement Learning: Aufmerksamkeitsmodelle und relationale Modelle
- 10.1 Interpretierbarkeit von Machine Learning mit Aufmerksamkeit und?relationalen?Verzerrungen
- 10.1.1 Invarianz und Äquivarianz
- 10.2 Relationale Argumentation mit?Aufmerksamkeit
- 10.2.1 Aufmerksamkeitsmodelle
- 10.2.2 Relationale Argumentation
- 10.2.3 Self-Attention-Modelle
- 10.3 Implementierung der Self-Attention für?MNIST
- 10.3.1 Transformiertes MNIST
- 10.3.2 Das relationale Modul
- 10.3.3 Tensorverjüngungen und Einstein-Notation
- 10.3.4 Training des relationalen Moduls
- 10.4 Multi-Head Attention und relationales DQN
- 10.5 Double Q-Learning
- 10.6 Training und Aufmerksamkeitsvisualisierung
- 10.6.1 Maximum Entropy Learning
- 10.6.2 Curriculum Learning
- 10.6.3 Visualisierung von Aufmerksamkeitsgewichten
- 10.7 Zusammenfassung
- 11 Abschließend: Rückblick und Fahrplan
- 11.1 Was haben wir gelernt?
- 11.2 Die unergründeten Themen des?Deep?Reinforcement Learning
- 11.2.1 Priorisiertes auf Erfahrung basiertes Wiederholungsspiel
- 11.2.2 Proximal-Policy-Optimierung (PPO)
- 11.2.3 Hierarchisches Reinforcement Learning und?das?Options?Framework
- 11.2.4 Modellbasierte Planung
- 11.2.5 Monte-Carlo-Baumsuche (MCTS)
- 11.3 Das Ende
- Anhang: Mathematik,?Deep Learning, PyTorch
- A.1 Lineare Algebra
- A.2 Analysis
- A.3 Deep Learning
- A.4 PyTorch
- Literaturverzeichnis
- Stichwortverzeichnis
System requirements
File format: PDF
Copy protection: Watermark-DRM (Digital Rights Management)
System requirements:
- Computer (Windows; MacOS X; Linux): Use the free software Adobe Reader, Adobe Digital Editions, or any other PDF viewer of your choice (see eBook Help).
- Tablet/Smartphone (Android; iOS): Install the free app Adobe Digital Editions or another reading app for eBooks, e.g., PocketBook (see eBook Help).
- E-reader: Bookeen, Kobo, Pocketbook, Sony, Tolino and many more (only limited: Kindle).
The file format PDF always displays a book page identically on any hardware. This makes PDF suitable for complex layouts such as those used in textbooks and reference books (images, tables, columns, footnotes). Unfortunately, on the small screens of e-readers or smartphones, PDFs are rather annoying, requiring too much scrolling.
This eBook uses Watermark-DRM, a „soft” copy protection. This means that there are no technical restrictions to prevent illegal distribution. However, there is a personalised watermark embedded in the eBook that can be used to identify the purchaser of the eBook in the event of misuse and to provide evidence for legal purposes.
For more information, see our eBook Help page.