Chapitre 1 : Apprentissage par renforcement
L'apprentissage par renforcement, parfois connu sous le nom de RL, est un sous-domaine de l'apprentissage automatique qui étudie comment les agents intelligents devraient se comporter dans un environnement afin de maximiser le concept de récompense cumulative. L'un des trois modèles fondamentaux de l'apprentissage automatique est connu sous le nom d'apprentissage par renforcement. Les deux autres modèles sont l'apprentissage supervisé et l'apprentissage non supervisé.
La principale différence entre l'apprentissage supervisé et l'apprentissage par renforcement est que le premier n'a pas besoin d'être donné d'appariements entrées/sorties étiquetés, et le second n'exige pas que les comportements sous-optimaux soient explicitement corrigés. Au lieu de cela, l'accent est mis sur la recherche d'un équilibre sain entre l'exploitation des ressources existantes et la découverte de nouvelles ressources (en terrain inexploré) (des connaissances actuelles).
Étant donné que de nombreux algorithmes d'apprentissage par renforcement conçus pour ce contexte utilisent des méthodes de programmation dynamique, l'environnement est généralement exprimé sous la forme d'un processus de décision de Markov, également connu sous le nom de MDP. La principale distinction entre les méthodes traditionnelles de programmation dynamique et les algorithmes d'apprentissage par renforcement est que ces derniers ne présument pas la connaissance préalable d'un modèle mathématique exact du MDP et visent à résoudre des MDP à grande échelle, qui sont au-delà de la portée des méthodes traditionnelles en raison de l'impraticabilité des solutions exactes.
L'apprentissage par renforcement est étudié dans une grande variété de domaines en raison de sa nature générique. Parmi ces domaines, citons la théorie des jeux, la théorie du contrôle, la recherche opérationnelle, la théorie de l'information, l'optimisation basée sur la simulation, les systèmes multi-agents, l'intelligence en essaim et les statistiques. Dans la littérature académique relative à la recherche opérationnelle et au contrôle, l'apprentissage par renforcement est appelé programmation neurodynamique ou programmation dynamique d'approximation. Les problèmes d'intérêt de l'apprentissage par renforcement ont également été étudiés dans la théorie du contrôle optimal. La théorie du contrôle optimal s'intéresse principalement à l'existence et à la caractérisation de solutions optimales, ainsi qu'à des algorithmes pour le calcul exact de ces solutions, et s'intéresse moins à l'apprentissage ou à l'approximation, en particulier en l'absence d'un modèle mathématique de l'environnement. L'apprentissage par renforcement est une méthode qui peut être utilisée dans les domaines de l'économie et de la théorie des jeux pour expliquer comment l'équilibre peut émerger d'une rationalité limitée.
Le type d'apprentissage le plus fondamental, connu sous le nom d'apprentissage par renforcement, est décrit comme un processus de décision de Markov (MDP) :
un ensemble d'états détenus à la fois par l'environnement et les agents, S ; un groupe d'actes de l'agent, désigné par « A. » ; est la probabilité de transition (à l'instant ) d'un état à l'autre sous l'action .
est la récompense immédiate après le passage de à avec l'action .
L'objectif de l'apprentissage par renforcement est que l'agent apprenne une politique optimale, ou presque optimale, qui maximise la « fonction de récompense » ou un autre signal de renforcement fourni par l'utilisateur qui s'accumule à partir des récompenses immédiates. Cela peut être accompli en apprenant une politique optimale qui maximise la « fonction de récompense » ou un autre signal de renforcement fourni par l'utilisateur. C'est analogue aux mécanismes qui semblent avoir lieu en psychologie animale. Par exemple, les cerveaux biologiques sont programmés pour comprendre des signaux tels que la douleur et la faim comme des renforts négatifs. D'autre part, les cerveaux biologiques sont également câblés pour interpréter le plaisir et la consommation de nourriture comme des renforcements positifs. Les animaux peuvent acquérir la capacité de participer à des activités qui maximisent les avantages qu'ils obtiennent dans certaines conditions. Cela suggère que les animaux sont capables d'acquérir des compétences par renforcement positif.
Une simple intelligence artificielle qui utilise l'apprentissage par renforcement interagirait avec son environnement par incréments de temps discrets.
À chaque fois t, l'agent reçoit l'état actuel et la récompense .
Il choisit ensuite une action dans l'ensemble des actions disponibles, qui est ensuite déchargée sur l'environnement environnant.
L'environnement passe à un nouvel état et la récompense associée à la transition est déterminée.
L'objectif d'un agent d'apprentissage par renforcement est d'apprendre une politique : , qui maximise la récompense cumulative attendue.
Lorsque le problème est présenté sous la forme d'un MDP, on suppose que l'agent observe directement l'état actuel de l'environnement. Lorsque c'est le cas, on dit que le problème est totalement observable. Si l'agent ne peut voir qu'un sous-ensemble des états ou si les états vus sont contaminés par le bruit, alors l'agent est dit avoir une observabilité partielle, et le problème doit être formalisé comme un processus de décision de Markov partiellement observable pour être résolu. Dans les deux cas, il est possible que le choix d'actions de l'agent soit limité. Par exemple, l'état du solde d'un compte peut être limité à n'exister qu'en territoire positif ; Si la valeur de l'état à l'instant est 3 et que la transition d'état tente de réduire la valeur de 4, la transition ne sera pas autorisée.
Le concept de regret est mis en jeu lorsque la performance de l'agent est opposée à celle d'un agent qui agit de la manière la plus efficace possible. Il est nécessaire que l'agent réfléchisse aux effets à long terme de ses actions (c'est-à-dire maximiser les revenus futurs) afin qu'il se comporte d'une manière proche de l'optimal, malgré le fait que la récompense immédiate associée à cela peut être défavorable.
Par conséquent, les situations qui impliquent un compromis entre les récompenses reçues à court terme et à long terme sont particulièrement bien adaptées à l'apprentissage par renforcement. Il a été utilisé efficacement pour une grande variété de défis, y compris le contrôle du robot et le Go (AlphaGo).
L'apprentissage par renforcement est si efficace en raison de deux facteurs distincts : premièrement, l'utilisation d'échantillons pour améliorer les performances globales, et deuxièmement, l'utilisation de l'approximation de fonction pour gérer des situations expansives. L'apprentissage par renforcement est applicable dans de vastes contextes en raison de ces deux composantes fondamentales dans les scénarios suivants :
Il existe un modèle de l'environnement, mais il n'y a pas encore de solution qui puisse en être dérivée analytiquement ; Le seul modèle de l'environnement fourni est une simulation de celui-ci (le sujet de l'optimisation basée sur la simulation) ; Interagir avec son environnement est la seule méthode pour acquérir des connaissances sur cet environnement.
Les deux premiers de ces défis peuvent être classés comme des défis de planification (étant donné qu'il existe une sorte de modèle disponible), mais le troisième défi pourrait être classé comme un véritable défi d'apprentissage. L'apprentissage par renforcement, en revanche, transforme ces deux difficultés de planification en problèmes d'apprentissage automatique.
Le compromis entre l'exploration et l'exploitation a été examiné en profondeur par l'utilisation du problème des bandits à plusieurs bras et des MDP à espace d'État limité dans Burnetas et Katehakis (1997).
L'apprentissage par renforcement nécessite l'utilisation de méthodes d'exploration ingénieuses ; De mauvaises performances peuvent résulter de la sélection d'actions au hasard sans faire référence à une distribution de probabilité estimée. Il y a une bonne compréhension du scénario MDP (petit) fini. Néanmoins, en raison de l'absence d'algorithmes qui s'adaptent efficacement au nombre d'états (ou aux problèmes d'espaces d'états infinis), les approches d'exploration de base sont les plus applicables dans la pratique.
L'une de ces méthodes est -greedy, où est un paramètre contrôlant la quantité d'exploration vs.
exploitation.
Avec la probabilité , la pratique de l'exploitation est sélectionnée, et l'agent choisira le plan d'action qui, selon lui, aura l'impact le plus positif à long terme (les liens entre les actions sont rompus uniformément au hasard).
Alternativement, avec probabilité , L'option d'exploration est prise, et l'action est sélectionnée de manière standardisée au hasard.
est généralement un paramètre fixe mais peut être ajusté soit selon un calendrier (ce qui rend l'exploration de l'agent progressivement moins importante), soit de manière adaptable sur la base d'heuristiques, soit les deux.
Même si la difficulté de l'exploration est négligée et même si l'état était visible (ce qui sera supposé par la suite), le défi de déterminer quels comportements conduisent à des récompenses cumulatives plus importantes à l'aide de l'expérience précédente reste une préoccupation.
La politique sert de modèle pour le processus de prise de décision de l'agent concernant la sélection...