Capitolo 1 : Apprendimento per rinforzo
L'apprendimento per rinforzo, a volte noto come RL, è un sottocampo dell'apprendimento automatico che indaga il modo in cui gli agenti intelligenti dovrebbero comportarsi in un ambiente al fine di massimizzare il concetto di ricompensa cumulativa. Uno dei tre modelli fondamentali dell'apprendimento automatico è noto come apprendimento per rinforzo. Gli altri due modelli sono l'apprendimento supervisionato e l'apprendimento non supervisionato.
La differenza fondamentale tra l'apprendimento supervisionato e l'apprendimento per rinforzo è che il primo non ha bisogno di accoppiamenti input/output etichettati per essere forniti, mentre il secondo non richiede che i comportamenti sub-ottimali siano corretti in modo esplicito. Invece, l'enfasi è posta sul raggiungimento di un sano equilibrio tra lo sfruttamento delle risorse esistenti e la scoperta di nuove (in terreni inesplorati) (delle conoscenze attuali).
Poiché molti algoritmi di apprendimento per rinforzo progettati per questo contesto utilizzano metodi di programmazione dinamica, l'ambiente è generalmente espresso sotto forma di un processo decisionale di Markov, noto anche come MDP. La distinzione principale tra i metodi tradizionali di programmazione dinamica e gli algoritmi di apprendimento per rinforzo è che questi ultimi non presuppongono una conoscenza preliminare di un modello matematico esatto dell'MDP e mirano a risolvere MDP su larga scala, che vanno oltre l'ambito dei metodi tradizionali a causa dell'impraticabilità delle soluzioni esatte.
L'apprendimento per rinforzo è studiato in un'ampia varietà di campi a causa della sua natura generica. Alcuni esempi di questi campi includono la teoria dei giochi, la teoria del controllo, la ricerca operativa, la teoria dell'informazione, l'ottimizzazione basata sulla simulazione, i sistemi multi-agente, l'intelligenza dello sciame e la statistica. Nella letteratura accademica relativa alla ricerca e al controllo operativo, l'apprendimento per rinforzo è indicato come programmazione neurodinamica o programmazione dinamica di approssimazione. I problemi che sono di interesse nell'apprendimento per rinforzo sono stati studiati anche nella teoria del controllo ottimo. La teoria del controllo ottimo si occupa principalmente dell'esistenza e della caratterizzazione di soluzioni ottimali, così come degli algoritmi per il calcolo esatto di tali soluzioni, ed è meno interessata all'apprendimento o all'approssimazione, in particolare in assenza di un modello matematico dell'ambiente. L'apprendimento per rinforzo è un metodo che può essere utilizzato nei campi dell'economia e della teoria dei giochi per spiegare come l'equilibrio possa emergere da una razionalità limitata.
Il tipo più fondamentale di apprendimento, noto come apprendimento per rinforzo, è rappresentato come un processo decisionale di Markov (MDP):
un insieme di stati detenuti sia dall'ambiente che dagli agenti, S; un gruppo di atti dell'agente, indicati con "A."; è la probabilità di transizione (a volte ) da stato a stato in azione .
è la ricompensa immediata dopo la transizione da a con l'azione .
L'obiettivo dell'apprendimento per rinforzo è che l'agente impari una politica ottimale, o quasi ottimale, che massimizzi la "funzione di ricompensa" o un altro segnale di rinforzo fornito dall'utente che si accumula dalle ricompense immediate. Ciò può essere ottenuto imparando una politica ottimale che massimizzi la "funzione di ricompensa" o un altro segnale di rinforzo fornito dall'utente. Questo è analogo ai meccanismi che sembrano aver luogo nella psicologia animale. Ad esempio, i cervelli biologici sono programmati per comprendere segnali come il dolore e la fame come rinforzi negativi. D'altra parte, i cervelli biologici sono anche programmati per interpretare il piacere e il consumo di cibo come rinforzi positivi. Gli animali possono acquisire la capacità di partecipare ad attività che massimizzano i benefici che ottengono in determinate condizioni. Ciò suggerisce che gli animali sono in grado di acquisire abilità attraverso il rinforzo positivo.
Una semplice intelligenza artificiale che utilizza l'apprendimento per rinforzo interagirebbe con l'ambiente circostante in incrementi di tempo discreti.
Ad ogni volta t, l'agente riceve lo stato attuale e la ricompensa.
Quindi sceglie un'azione dall'insieme delle azioni disponibili, che viene poi scaricata sull'ambiente circostante.
L'ambiente passa a un nuovo stato e viene determinata la ricompensa associata alla transizione .
L'obiettivo di un agente di apprendimento per rinforzo è quello di apprendere una politica: , che massimizza la ricompensa cumulativa attesa.
Quando il problema viene presentato sotto forma di MDP, si presume che l'agente osservi direttamente lo stato corrente dell'ambiente. Quando questo è il caso, diciamo che il problema ha una completa osservabilità. Se l'agente può vedere solo un sottoinsieme degli stati o se gli stati visti sono contaminati dal rumore, allora si dice che l'agente ha un'osservabilità parziale e il problema deve essere formalizzato come un processo decisionale di Markov parzialmente osservabile per essere risolto. In entrambi gli scenari, esiste la possibilità che la scelta delle azioni dell'agente sia limitata. Ad esempio, lo stato del saldo di un conto potrebbe essere limitato a esistere solo in territorio positivo; Se il valore dello stato al momento è 3 e la transizione di stato tenta di ridurre il valore di 4, la transizione non sarà consentita.
Il concetto di rimpianto si realizza quando le prestazioni dell'agente sono contrapposte a quelle di un agente che opera nel modo più efficace possibile. È necessario che l'agente pensi agli effetti a lungo termine delle sue azioni (cioè massimizzi le entrate future) in modo da comportarsi in modo vicino all'ottimale, nonostante il fatto che la ricompensa immediata associata a ciò possa essere sfavorevole.
Pertanto, le situazioni che comportano un compromesso tra le ricompense ricevute a breve e lungo termine sono particolarmente adatte per l'apprendimento per rinforzo. È stato utilizzato in modo efficace per un'ampia varietà di sfide, tra cui il controllo dei robot e Go (AlphaGo).
L'apprendimento per rinforzo è così efficace a causa di due fattori distinti: in primo luogo, l'utilizzo di campioni per migliorare le prestazioni complessive e, in secondo luogo, l'utilizzo dell'approssimazione delle funzioni per gestire situazioni espansive. L'apprendimento per rinforzo è applicabile in vasti contesti grazie a queste due componenti fondamentali nei seguenti scenari:
Esiste un modello dell'ambiente, ma non esiste ancora una soluzione che possa essere derivata analiticamente da esso; L'unico modello dell'ambiente fornito è una simulazione di esso (oggetto di ottimizzazione basata sulla simulazione); Interagire con l'ambiente circostante è l'unico metodo per acquisire conoscenze su quell'ambiente.
Le prime due di queste sfide possono essere classificate come sfide di pianificazione (dato che esiste un qualche tipo di modello disponibile), tuttavia la terza sfida potrebbe essere classificata come una vera sfida di apprendimento. L'apprendimento per rinforzo, d'altra parte, trasforma entrambe queste difficoltà di pianificazione in problemi di apprendimento automatico.
Il compromesso tra esplorazione e sfruttamento è stato esaminato in modo approfondito attraverso l'uso del problema dei banditi multi-armati e per MDP con spazio statale limitato in Burnetas e Katehakis (1997).
L'apprendimento attraverso il rinforzo richiede l'uso di metodi di esplorazione ingegnosi; Le scarse prestazioni potrebbero derivare dalla scelta di azioni casuali senza fare riferimento a una distribuzione di probabilità stimata. C'è una buona dose di comprensione dello scenario MDP (piccolo) finito. Tuttavia, a causa dell'assenza di algoritmi che scalano efficacemente con il numero di stati (o scalano a problemi con spazi di stati infiniti), gli approcci di esplorazione di base sono i più applicabili praticamente.
Uno di questi metodi è -greedy, dove è un parametro che controlla la quantità di esplorazione vs.
sfruttamento.
Con probabilità , viene selezionata la pratica dello sfruttamento, e l'agente sceglierà la linea d'azione che ritiene avrà l'impatto più positivo a lungo termine (i legami tra le azioni vengono interrotti uniformemente in modo casuale).
In alternativa, con probabilità , Viene presa l'opzione di esplorazione e l'azione viene selezionata in modo standardizzato a caso.
è di solito un parametro fisso, ma può essere regolato in base a un programma (facendo sì che l'agente esplori progressivamente meno), sia in modo adattabile in base all'euristica, o entrambi.
Anche se la difficoltà dell'esplorazione viene trascurata e anche se lo stato era visibile (cosa che verrà assunta in seguito), la sfida di determinare quali comportamenti portano a ricompense cumulative più grandi utilizzando l'esperienza precedente è ancora una preoccupazione.
La policy funge da modello per il processo decisionale dell'agente in merito alla selezione delle azioni:
La mappa dei criteri fornisce la probabilità di agire quando si è in stato .: 61 Ci sono anche politiche deterministiche.
La funzione valore è definita come, ritorno atteso a partire da state , cioè
, e successivamente seguendo la politica .
Quindi, in parole povere, la funzione valore stima "quanto è buono" essere in un dato stato.: 60
dove la variabile casuale denota il rendimento, È definito come il totale delle ricompense future dopo aver preso in considerazione gli...