Apprendimento tramite rinforzo

Name: Apprendimento tramite rinforzo | Padroneggiare il processo decisionale intelligente per le macchine autonome
Brand: Un Miliardo Di Ben Informato [Italian]
Price: 4.49 EUR
Availability: OnlineOnly

Padroneggiare il processo decisionale intelligente per le macchine autonome

Fouad Sabry(Autor*in)

Un Miliardo Di Ben Informato [Italian] (Verlag)

1. Auflage

Erschienen am 25. Dezember 2024

234 Seiten

E-Book

ePUB mit Adobe-DRM

Systemvoraussetzungen

6610000691586 (EAN)

4,49 €inkl. 7% MwSt.

Systemvoraussetzungen

für ePUB mit Adobe-DRM

E-Book Einzellizenz

Als Download verfügbar

Beschreibung

Nel campo in rapida evoluzione della robotica, l'apprendimento per rinforzo è uno dei metodi più promettenti per la creazione di sistemi autonomi. Questo libro, Reinforcement Learning, fornisce un'esplorazione approfondita di questa potente tecnica, guidando i lettori attraverso i suoi principi fondamentali fino ai suoi ultimi progressi. Perfetto per professionisti, studenti laureati e appassionati, questo libro offre un approccio dettagliato ma accessibile per comprendere l'apprendimento per rinforzo nel contesto della robotica.

Breve panoramica dei capitoli:

1: Apprendimento per rinforzo: introduce il concetto fondamentale dell'apprendimento per rinforzo, sottolineandone il ruolo nei sistemi autonomi.

2: Processo decisionale di Markov: spiega il quadro matematico per il processo decisionale in condizioni di incertezza, un fondamento fondamentale per l'apprendimento per rinforzo.

3: Apprendimento delle differenze temporali: esplora metodi per apprendere dall'esperienza senza aver bisogno di un modello dell'ambiente.

4: Equazione di Bellman: discute la relazione ricorsiva critica che sta alla base di molti algoritmi di apprendimento per rinforzo.

5: Qlearning: si concentra su un algoritmo di apprendimento di rinforzo offpolicy che apprende azioni ottimali senza un modello dell'ambiente.

6: Multiarmed bandit: copre un problema di apprendimento di rinforzo più semplice che modella il processo decisionale in ambienti incerti.

7: Processo decisionale di Markov parzialmente osservabile: espande i tradizionali processi decisionali di Markov incorporando stati nascosti.

8: Indice di Gittins: introduce una strategia per bilanciare esplorazione e sfruttamento nei problemi multiarmed bandit.

9: Stato-azione-ricompensa-stato-azione: approfondisce i modelli temporali nell'apprendimento di rinforzo che informano le strategie decisionali.

10: Funzione protovalore: esplora metodi per approssimare le funzioni valore, aiutando nell'efficienza dell'apprendimento.

11: Costruzione automatica della funzione di base: si concentra sui metodi automatici per costruire funzionalità per migliorare l'efficienza dell'apprendimento.

12: Teoria dei giochi Meanfield: discute un framework per la modellazione delle interazioni in sistemi multiagente su larga scala.

13: Multiagent pathfinding: introduce algoritmi per coordinare più agenti per raggiungere le loro destinazioni in modo efficiente.

14: Modelfree (apprendimento per rinforzo): discute metodi che non si basano su un modello dell'ambiente per l'apprendimento.

15: Deep reinforcement learning: combina apprendimento profondo e apprendimento per rinforzo per gestire ambienti complessi e ad alta dimensione.

16: Multiagent reinforcement learning: si concentra sulle strategie per l'apprendimento in ambienti con più agenti interagenti.

17: Selfplay: esplora il concetto di agenti che apprendono attraverso la competizione con se stessi, una componente critica delle strategie di apprendimento avanzate.

18: Ottimizzazione delle policy prossimali: introduce un algoritmo per ottimizzare le policy nell'apprendimento per rinforzo con stabilità e prestazioni migliorate.

19: Dilemma di esplorazione-sfruttamento: discute la sfida fondamentale di bilanciare l'esplorazione di nuove strategie con lo sfruttamento di quelle note.

20: Apprendimento per rinforzo da feedback umano: esamina metodi per migliorare l'apprendimento per rinforzo utilizzando input umani.

21: Apprendimento per imitazione: si concentra sulle tecniche in cui gli agenti apprendono imitando le azioni degli esperti umani.

Weitere Details

Personen

Inhalt

Capitolo 1 : Apprendimento per rinforzo

L'apprendimento per rinforzo, a volte noto come RL, è un sottocampo dell'apprendimento automatico che indaga il modo in cui gli agenti intelligenti dovrebbero comportarsi in un ambiente al fine di massimizzare il concetto di ricompensa cumulativa. Uno dei tre modelli fondamentali dell'apprendimento automatico è noto come apprendimento per rinforzo. Gli altri due modelli sono l'apprendimento supervisionato e l'apprendimento non supervisionato.

La differenza fondamentale tra l'apprendimento supervisionato e l'apprendimento per rinforzo è che il primo non ha bisogno di accoppiamenti input/output etichettati per essere forniti, mentre il secondo non richiede che i comportamenti sub-ottimali siano corretti in modo esplicito. Invece, l'enfasi è posta sul raggiungimento di un sano equilibrio tra lo sfruttamento delle risorse esistenti e la scoperta di nuove (in terreni inesplorati) (delle conoscenze attuali).

Poiché molti algoritmi di apprendimento per rinforzo progettati per questo contesto utilizzano metodi di programmazione dinamica, l'ambiente è generalmente espresso sotto forma di un processo decisionale di Markov, noto anche come MDP. La distinzione principale tra i metodi tradizionali di programmazione dinamica e gli algoritmi di apprendimento per rinforzo è che questi ultimi non presuppongono una conoscenza preliminare di un modello matematico esatto dell'MDP e mirano a risolvere MDP su larga scala, che vanno oltre l'ambito dei metodi tradizionali a causa dell'impraticabilità delle soluzioni esatte.

L'apprendimento per rinforzo è studiato in un'ampia varietà di campi a causa della sua natura generica. Alcuni esempi di questi campi includono la teoria dei giochi, la teoria del controllo, la ricerca operativa, la teoria dell'informazione, l'ottimizzazione basata sulla simulazione, i sistemi multi-agente, l'intelligenza dello sciame e la statistica. Nella letteratura accademica relativa alla ricerca e al controllo operativo, l'apprendimento per rinforzo è indicato come programmazione neurodinamica o programmazione dinamica di approssimazione. I problemi che sono di interesse nell'apprendimento per rinforzo sono stati studiati anche nella teoria del controllo ottimo. La teoria del controllo ottimo si occupa principalmente dell'esistenza e della caratterizzazione di soluzioni ottimali, così come degli algoritmi per il calcolo esatto di tali soluzioni, ed è meno interessata all'apprendimento o all'approssimazione, in particolare in assenza di un modello matematico dell'ambiente. L'apprendimento per rinforzo è un metodo che può essere utilizzato nei campi dell'economia e della teoria dei giochi per spiegare come l'equilibrio possa emergere da una razionalità limitata.

Il tipo più fondamentale di apprendimento, noto come apprendimento per rinforzo, è rappresentato come un processo decisionale di Markov (MDP):

un insieme di stati detenuti sia dall'ambiente che dagli agenti, S; un gruppo di atti dell'agente, indicati con "A."; è la probabilità di transizione (a volte ) da stato a stato in azione .

è la ricompensa immediata dopo la transizione da a con l'azione .

L'obiettivo dell'apprendimento per rinforzo è che l'agente impari una politica ottimale, o quasi ottimale, che massimizzi la "funzione di ricompensa" o un altro segnale di rinforzo fornito dall'utente che si accumula dalle ricompense immediate. Ciò può essere ottenuto imparando una politica ottimale che massimizzi la "funzione di ricompensa" o un altro segnale di rinforzo fornito dall'utente. Questo è analogo ai meccanismi che sembrano aver luogo nella psicologia animale. Ad esempio, i cervelli biologici sono programmati per comprendere segnali come il dolore e la fame come rinforzi negativi. D'altra parte, i cervelli biologici sono anche programmati per interpretare il piacere e il consumo di cibo come rinforzi positivi. Gli animali possono acquisire la capacità di partecipare ad attività che massimizzano i benefici che ottengono in determinate condizioni. Ciò suggerisce che gli animali sono in grado di acquisire abilità attraverso il rinforzo positivo.

Una semplice intelligenza artificiale che utilizza l'apprendimento per rinforzo interagirebbe con l'ambiente circostante in incrementi di tempo discreti.

Ad ogni volta t, l'agente riceve lo stato attuale e la ricompensa.

Quindi sceglie un'azione dall'insieme delle azioni disponibili, che viene poi scaricata sull'ambiente circostante.

L'ambiente passa a un nuovo stato e viene determinata la ricompensa associata alla transizione .

L'obiettivo di un agente di apprendimento per rinforzo è quello di apprendere una politica: , che massimizza la ricompensa cumulativa attesa.

Quando il problema viene presentato sotto forma di MDP, si presume che l'agente osservi direttamente lo stato corrente dell'ambiente. Quando questo è il caso, diciamo che il problema ha una completa osservabilità. Se l'agente può vedere solo un sottoinsieme degli stati o se gli stati visti sono contaminati dal rumore, allora si dice che l'agente ha un'osservabilità parziale e il problema deve essere formalizzato come un processo decisionale di Markov parzialmente osservabile per essere risolto. In entrambi gli scenari, esiste la possibilità che la scelta delle azioni dell'agente sia limitata. Ad esempio, lo stato del saldo di un conto potrebbe essere limitato a esistere solo in territorio positivo; Se il valore dello stato al momento è 3 e la transizione di stato tenta di ridurre il valore di 4, la transizione non sarà consentita.

Il concetto di rimpianto si realizza quando le prestazioni dell'agente sono contrapposte a quelle di un agente che opera nel modo più efficace possibile. È necessario che l'agente pensi agli effetti a lungo termine delle sue azioni (cioè massimizzi le entrate future) in modo da comportarsi in modo vicino all'ottimale, nonostante il fatto che la ricompensa immediata associata a ciò possa essere sfavorevole.

Pertanto, le situazioni che comportano un compromesso tra le ricompense ricevute a breve e lungo termine sono particolarmente adatte per l'apprendimento per rinforzo. È stato utilizzato in modo efficace per un'ampia varietà di sfide, tra cui il controllo dei robot e Go (AlphaGo).

L'apprendimento per rinforzo è così efficace a causa di due fattori distinti: in primo luogo, l'utilizzo di campioni per migliorare le prestazioni complessive e, in secondo luogo, l'utilizzo dell'approssimazione delle funzioni per gestire situazioni espansive. L'apprendimento per rinforzo è applicabile in vasti contesti grazie a queste due componenti fondamentali nei seguenti scenari:

Esiste un modello dell'ambiente, ma non esiste ancora una soluzione che possa essere derivata analiticamente da esso; L'unico modello dell'ambiente fornito è una simulazione di esso (oggetto di ottimizzazione basata sulla simulazione); Interagire con l'ambiente circostante è l'unico metodo per acquisire conoscenze su quell'ambiente.

Le prime due di queste sfide possono essere classificate come sfide di pianificazione (dato che esiste un qualche tipo di modello disponibile), tuttavia la terza sfida potrebbe essere classificata come una vera sfida di apprendimento. L'apprendimento per rinforzo, d'altra parte, trasforma entrambe queste difficoltà di pianificazione in problemi di apprendimento automatico.

Il compromesso tra esplorazione e sfruttamento è stato esaminato in modo approfondito attraverso l'uso del problema dei banditi multi-armati e per MDP con spazio statale limitato in Burnetas e Katehakis (1997).

L'apprendimento attraverso il rinforzo richiede l'uso di metodi di esplorazione ingegnosi; Le scarse prestazioni potrebbero derivare dalla scelta di azioni casuali senza fare riferimento a una distribuzione di probabilità stimata. C'è una buona dose di comprensione dello scenario MDP (piccolo) finito. Tuttavia, a causa dell'assenza di algoritmi che scalano efficacemente con il numero di stati (o scalano a problemi con spazi di stati infiniti), gli approcci di esplorazione di base sono i più applicabili praticamente.

Uno di questi metodi è -greedy, dove è un parametro che controlla la quantità di esplorazione vs.

sfruttamento.

Con probabilità , viene selezionata la pratica dello sfruttamento, e l'agente sceglierà la linea d'azione che ritiene avrà l'impatto più positivo a lungo termine (i legami tra le azioni vengono interrotti uniformemente in modo casuale).

In alternativa, con probabilità , Viene presa l'opzione di esplorazione e l'azione viene selezionata in modo standardizzato a caso.

è di solito un parametro fisso, ma può essere regolato in base a un programma (facendo sì che l'agente esplori progressivamente meno), sia in modo adattabile in base all'euristica, o entrambi.

Anche se la difficoltà dell'esplorazione viene trascurata e anche se lo stato era visibile (cosa che verrà assunta in seguito), la sfida di determinare quali comportamenti portano a ricompense cumulative più grandi utilizzando l'esperienza precedente è ancora una preoccupazione.

La policy funge da modello per il processo decisionale dell'agente in merito alla selezione delle azioni:

La mappa dei criteri fornisce la probabilità di agire quando si è in stato .: 61 Ci sono anche politiche deterministiche.

La funzione valore è definita come, ritorno atteso a partire da state , cioè

, e successivamente seguendo la politica .

Quindi, in parole povere, la funzione valore stima "quanto è buono" essere in un dato stato.: 60

dove la variabile casuale denota il rendimento, È definito come il totale delle ricompense future dopo aver preso in considerazione gli...

Systemvoraussetzungen

Als PDF speichern Als Link merken