Apprentissage par renforcement

Name: Apprentissage par renforcement | Maîtriser la prise de décision intelligente pour les machines autonomes
Brand: Un Milliard De Personnes Informées [French]
Price: 4.49 EUR
Availability: OnlineOnly

Maîtriser la prise de décision intelligente pour les machines autonomes

Fouad Sabry(Autor*in)

Un Milliard De Personnes Informées [French] (Verlag)

1. Auflage

Erschienen am 24. Dezember 2024

234 Seiten

E-Book

ePUB mit Adobe-DRM

Systemvoraussetzungen

6610000689576 (EAN)

4,49 €inkl. 7% MwSt.

Systemvoraussetzungen

für ePUB mit Adobe-DRM

E-Book Einzellizenz

Als Download verfügbar

Beschreibung

Dans le domaine en évolution rapide de la robotique, l'apprentissage par renforcement est l'une des méthodes les plus prometteuses pour construire des systèmes autonomes. Ce livre, Reinforcement Learning, propose une exploration approfondie de cette technique puissante, guidant les lecteurs à travers ses principes fondamentaux jusqu'à ses dernières avancées. Parfait pour les professionnels, les étudiants diplômés et les passionnés, ce livre offre une approche détaillée mais accessible pour comprendre l'apprentissage par renforcement dans le contexte de la robotique

Apprentissage par renforcement-présente le concept de base de l'apprentissage par renforcement, en soulignant son rôle dans les systèmes autonomes

Processus de décision de Markov-explique le cadre mathématique de la prise de décision dans l'incertitude, un fondement essentiel de l'apprentissage par renforcement

Apprentissage par différence temporelle-explore les méthodes d'apprentissage par l'expérience sans avoir besoin d'un modèle de l'environnement

Équation de Bellman-discute de la relation récursive critique qui sous-tend de nombreux algorithmes d'apprentissage par renforcement

Qlearning-se concentre sur un algorithme d'apprentissage par renforcement hors politique qui apprend des actions optimales sans modèle d'environnement

Bandit multi-bras-couvre un problème d'apprentissage par renforcement plus simple qui modélise la prise de décision dans des environnements incertains

Processus de décision de Markov partiellement observable-développe les processus de décision de Markov traditionnels en incorporant des états cachés

Indice de Gittins-présente une stratégie pour équilibrer l'exploration et l'exploitation dans les problèmes de bandit multi-bras

État-action-récompense-état-action-explore les modèles temporels de l'apprentissage par renforcement qui éclairent les stratégies de prise de décision

Fonction proto-valeur-explore les méthodes d'approximation des fonctions de valeur, contribuant à l'efficacité de l'apprentissage

Construction automatique de fonctions de base-se concentre sur les méthodes automatiques de construction de fonctionnalités pour améliorer l'efficacité de l'apprentissage

Théorie des jeux Meanfield-discute d'un cadre de modélisation des interactions dans les systèmes multi-agents à grande échelle

Recherche de chemin multi-agents-présente des algorithmes permettant de coordonner plusieurs agents pour atteindre efficacement leurs destinations

Sans modèle (apprentissage par renforcement)-présente des méthodes qui ne reposent pas sur un modèle de l'environnement pour l'apprentissage

Apprentissage par renforcement profond-combine l'apprentissage profond et l'apprentissage par renforcement pour gérer des environnements complexes et à haute dimension

Apprentissage par renforcement multi-agents-se concentre sur les stratégies d'apprentissage dans des environnements avec plusieurs agents en interaction

Jeu en soi-explore le concept d'agents apprenant par compétition avec eux-mêmes, un élément essentiel des stratégies d'apprentissage avancées

Optimisation de la politique proximale-présente un algorithme permettant d'optimiser les politiques dans l'apprentissage par renforcement avec une stabilité et des performances améliorées

Dilemme exploration-exploitation-discute du défi fondamental consistant à équilibrer l'exploration de nouvelles stratégies avec l'exploitation de stratégies connues

Apprentissage par renforcement à partir de commentaires humains-examine les méthodes permettant d'améliorer l'apprentissage par renforcement à l'aide de l'apport humain

Apprentissage par imitation-se concentre sur les techniques où les agents apprennent en imitant les actions d'experts humains

Weitere Details

Personen

Inhalt

Chapitre 1 : Apprentissage par renforcement

L'apprentissage par renforcement, parfois connu sous le nom de RL, est un sous-domaine de l'apprentissage automatique qui étudie comment les agents intelligents devraient se comporter dans un environnement afin de maximiser le concept de récompense cumulative. L'un des trois modèles fondamentaux de l'apprentissage automatique est connu sous le nom d'apprentissage par renforcement. Les deux autres modèles sont l'apprentissage supervisé et l'apprentissage non supervisé.

La principale différence entre l'apprentissage supervisé et l'apprentissage par renforcement est que le premier n'a pas besoin d'être donné d'appariements entrées/sorties étiquetés, et le second n'exige pas que les comportements sous-optimaux soient explicitement corrigés. Au lieu de cela, l'accent est mis sur la recherche d'un équilibre sain entre l'exploitation des ressources existantes et la découverte de nouvelles ressources (en terrain inexploré) (des connaissances actuelles).

Étant donné que de nombreux algorithmes d'apprentissage par renforcement conçus pour ce contexte utilisent des méthodes de programmation dynamique, l'environnement est généralement exprimé sous la forme d'un processus de décision de Markov, également connu sous le nom de MDP. La principale distinction entre les méthodes traditionnelles de programmation dynamique et les algorithmes d'apprentissage par renforcement est que ces derniers ne présument pas la connaissance préalable d'un modèle mathématique exact du MDP et visent à résoudre des MDP à grande échelle, qui sont au-delà de la portée des méthodes traditionnelles en raison de l'impraticabilité des solutions exactes.

L'apprentissage par renforcement est étudié dans une grande variété de domaines en raison de sa nature générique. Parmi ces domaines, citons la théorie des jeux, la théorie du contrôle, la recherche opérationnelle, la théorie de l'information, l'optimisation basée sur la simulation, les systèmes multi-agents, l'intelligence en essaim et les statistiques. Dans la littérature académique relative à la recherche opérationnelle et au contrôle, l'apprentissage par renforcement est appelé programmation neurodynamique ou programmation dynamique d'approximation. Les problèmes d'intérêt de l'apprentissage par renforcement ont également été étudiés dans la théorie du contrôle optimal. La théorie du contrôle optimal s'intéresse principalement à l'existence et à la caractérisation de solutions optimales, ainsi qu'à des algorithmes pour le calcul exact de ces solutions, et s'intéresse moins à l'apprentissage ou à l'approximation, en particulier en l'absence d'un modèle mathématique de l'environnement. L'apprentissage par renforcement est une méthode qui peut être utilisée dans les domaines de l'économie et de la théorie des jeux pour expliquer comment l'équilibre peut émerger d'une rationalité limitée.

Le type d'apprentissage le plus fondamental, connu sous le nom d'apprentissage par renforcement, est décrit comme un processus de décision de Markov (MDP) :

un ensemble d'états détenus à la fois par l'environnement et les agents, S ; un groupe d'actes de l'agent, désigné par « A. » ; est la probabilité de transition (à l'instant ) d'un état à l'autre sous l'action .

est la récompense immédiate après le passage de à avec l'action .

L'objectif de l'apprentissage par renforcement est que l'agent apprenne une politique optimale, ou presque optimale, qui maximise la « fonction de récompense » ou un autre signal de renforcement fourni par l'utilisateur qui s'accumule à partir des récompenses immédiates. Cela peut être accompli en apprenant une politique optimale qui maximise la « fonction de récompense » ou un autre signal de renforcement fourni par l'utilisateur. C'est analogue aux mécanismes qui semblent avoir lieu en psychologie animale. Par exemple, les cerveaux biologiques sont programmés pour comprendre des signaux tels que la douleur et la faim comme des renforts négatifs. D'autre part, les cerveaux biologiques sont également câblés pour interpréter le plaisir et la consommation de nourriture comme des renforcements positifs. Les animaux peuvent acquérir la capacité de participer à des activités qui maximisent les avantages qu'ils obtiennent dans certaines conditions. Cela suggère que les animaux sont capables d'acquérir des compétences par renforcement positif.

Une simple intelligence artificielle qui utilise l'apprentissage par renforcement interagirait avec son environnement par incréments de temps discrets.

À chaque fois t, l'agent reçoit l'état actuel et la récompense .

Il choisit ensuite une action dans l'ensemble des actions disponibles, qui est ensuite déchargée sur l'environnement environnant.

L'environnement passe à un nouvel état et la récompense associée à la transition est déterminée.

L'objectif d'un agent d'apprentissage par renforcement est d'apprendre une politique : , qui maximise la récompense cumulative attendue.

Lorsque le problème est présenté sous la forme d'un MDP, on suppose que l'agent observe directement l'état actuel de l'environnement. Lorsque c'est le cas, on dit que le problème est totalement observable. Si l'agent ne peut voir qu'un sous-ensemble des états ou si les états vus sont contaminés par le bruit, alors l'agent est dit avoir une observabilité partielle, et le problème doit être formalisé comme un processus de décision de Markov partiellement observable pour être résolu. Dans les deux cas, il est possible que le choix d'actions de l'agent soit limité. Par exemple, l'état du solde d'un compte peut être limité à n'exister qu'en territoire positif ; Si la valeur de l'état à l'instant est 3 et que la transition d'état tente de réduire la valeur de 4, la transition ne sera pas autorisée.

Le concept de regret est mis en jeu lorsque la performance de l'agent est opposée à celle d'un agent qui agit de la manière la plus efficace possible. Il est nécessaire que l'agent réfléchisse aux effets à long terme de ses actions (c'est-à-dire maximiser les revenus futurs) afin qu'il se comporte d'une manière proche de l'optimal, malgré le fait que la récompense immédiate associée à cela peut être défavorable.

Par conséquent, les situations qui impliquent un compromis entre les récompenses reçues à court terme et à long terme sont particulièrement bien adaptées à l'apprentissage par renforcement. Il a été utilisé efficacement pour une grande variété de défis, y compris le contrôle du robot et le Go (AlphaGo).

L'apprentissage par renforcement est si efficace en raison de deux facteurs distincts : premièrement, l'utilisation d'échantillons pour améliorer les performances globales, et deuxièmement, l'utilisation de l'approximation de fonction pour gérer des situations expansives. L'apprentissage par renforcement est applicable dans de vastes contextes en raison de ces deux composantes fondamentales dans les scénarios suivants :

Il existe un modèle de l'environnement, mais il n'y a pas encore de solution qui puisse en être dérivée analytiquement ; Le seul modèle de l'environnement fourni est une simulation de celui-ci (le sujet de l'optimisation basée sur la simulation) ; Interagir avec son environnement est la seule méthode pour acquérir des connaissances sur cet environnement.

Les deux premiers de ces défis peuvent être classés comme des défis de planification (étant donné qu'il existe une sorte de modèle disponible), mais le troisième défi pourrait être classé comme un véritable défi d'apprentissage. L'apprentissage par renforcement, en revanche, transforme ces deux difficultés de planification en problèmes d'apprentissage automatique.

Le compromis entre l'exploration et l'exploitation a été examiné en profondeur par l'utilisation du problème des bandits à plusieurs bras et des MDP à espace d'État limité dans Burnetas et Katehakis (1997).

L'apprentissage par renforcement nécessite l'utilisation de méthodes d'exploration ingénieuses ; De mauvaises performances peuvent résulter de la sélection d'actions au hasard sans faire référence à une distribution de probabilité estimée. Il y a une bonne compréhension du scénario MDP (petit) fini. Néanmoins, en raison de l'absence d'algorithmes qui s'adaptent efficacement au nombre d'états (ou aux problèmes d'espaces d'états infinis), les approches d'exploration de base sont les plus applicables dans la pratique.

L'une de ces méthodes est -greedy, où est un paramètre contrôlant la quantité d'exploration vs.

exploitation.

Avec la probabilité , la pratique de l'exploitation est sélectionnée, et l'agent choisira le plan d'action qui, selon lui, aura l'impact le plus positif à long terme (les liens entre les actions sont rompus uniformément au hasard).

Alternativement, avec probabilité , L'option d'exploration est prise, et l'action est sélectionnée de manière standardisée au hasard.

est généralement un paramètre fixe mais peut être ajusté soit selon un calendrier (ce qui rend l'exploration de l'agent progressivement moins importante), soit de manière adaptable sur la base d'heuristiques, soit les deux.

Même si la difficulté de l'exploration est négligée et même si l'état était visible (ce qui sera supposé par la suite), le défi de déterminer quels comportements conduisent à des récompenses cumulatives plus importantes à l'aide de l'expérience précédente reste une préoccupation.

La politique sert de modèle pour le processus de prise de décision de l'agent concernant la sélection...

Systemvoraussetzungen

Als PDF speichern Als Link merken