Aprendizaje por refuerzo

Name: Aprendizaje por refuerzo | Dominando la toma de decisiones inteligente para máquinas autónomas
Brand: Mil Millones De Conocimientos [Spanish]
Price: 4.99 EUR
Availability: OnlineOnly

Dominando la toma de decisiones inteligente para máquinas autónomas

Fouad Sabry(Autor*in)

Mil Millones De Conocimientos [Spanish] (Verlag)

1. Auflage

Erschienen am 24. Dezember 2024

234 Seiten

E-Book

ePUB mit Adobe-DRM

Systemvoraussetzungen

6610000689491 (EAN)

4,99 €inkl. 7% MwSt.

Systemvoraussetzungen

für ePUB mit Adobe-DRM

E-Book Einzellizenz

Als Download verfügbar

Beschreibung

En el campo de la robótica, que evoluciona rápidamente, el aprendizaje por refuerzo se erige como uno de los métodos más prometedores para construir sistemas autónomos. Este libro, Reinforcement Learning, ofrece una exploración en profundidad de esta poderosa técnica, guiando a los lectores a través de sus principios fundamentales hasta sus últimos avances. Perfecto para profesionales, estudiantes de posgrado y entusiastas por igual, este libro ofrece un enfoque detallado pero accesible para comprender el aprendizaje por refuerzo en el contexto de la robótica

Aprendizaje por refuerzo-presenta el concepto central del aprendizaje por refuerzo, enfatizando su papel en los sistemas autónomos

Proceso de decisión de Markov-explica el marco matemático para la toma de decisiones en condiciones de incertidumbre, una base clave para el aprendizaje por refuerzo

Aprendizaje por diferencia temporal-explora métodos para aprender de la experiencia sin necesidad de un modelo del entorno

Ecuación de Bellman-analiza la relación recursiva crítica que subyace a muchos algoritmos de aprendizaje por refuerzo

Qlearning-se centra en un algoritmo de aprendizaje por refuerzo fuera de política que aprende acciones óptimas sin un modelo del entorno

Multiarmed bandit-cubre un problema de aprendizaje de refuerzo más simple que modela la toma de decisiones en entornos inciertos

Proceso de decisión de Markov parcialmente observable-amplía los procesos de decisión de Markov tradicionales al incorporar estados ocultos

Índice de Gittins-presenta una estrategia para equilibrar la exploración y la explotación en problemas de multiarmed bandit

Estado-acción-recompensa-estado-acción-profundiza en los patrones temporales en el aprendizaje de refuerzo que informan las estrategias de toma de decisiones

Función protovalor-explora métodos para aproximar funciones de valor, lo que ayuda a la eficiencia del aprendizaje

Construcción automática de funciones base-se centra en métodos automáticos para construir características para mejorar la eficiencia del aprendizaje

Teoría de juegos de campo medio-analiza un marco para modelar interacciones en sistemas multiagente a gran escala

Búsqueda de rutas multiagente-presenta algoritmos para coordinar múltiples agentes para llegar a sus destinos de manera eficiente

Modelfree (reinforcement learning)-analiza métodos que no dependen de un modelo del entorno para aprender

Deep reinforced learning-combina el aprendizaje profundo y el aprendizaje de refuerzo para manejar entornos complejos y de alta dimensión

Multiagent reinforced learning-se centra en estrategias para aprender en entornos con múltiples agentes que interactúan

Selfplay-explora el concepto de los agentes que aprenden a través de la competencia consigo mismos, un componente crítico de las estrategias de aprendizaje avanzadas

Optimización de políticas proximales-presenta un algoritmo para optimizar políticas en el aprendizaje de refuerzo con estabilidad y rendimiento mejorados

Dilema de exploración-explotación-analiza el desafío fundamental de equilibrar la exploración de nuevas estrategias con la explotación de las conocidas

Aprendizaje de refuerzo a partir de la retroalimentación humana-examina métodos para mejorar el aprendizaje de refuerzo utilizando la participación humana

Aprendizaje por imitación-se centra en técnicas en las que los agentes aprenden imitando las acciones de expertos humanos

El aprendizaje por refuerzo no es solo una guía técnica, sino un recurso esencial para comprender cómo los sistemas autónomos pueden adaptarse y tomar decisiones en una amplia variedad de entornos.

Weitere Details

Personen

Inhalt

CapÃtulo 1 : Aprendizaje por refuerzo

El aprendizaje por refuerzo, a veces conocido como RL, es un subcampo del aprendizaje automático que investiga cómo deben comportarse los agentes inteligentes en un entorno para maximizar el concepto de recompensa acumulativa. Uno de los tres modelos fundamentales del aprendizaje automático se conoce como aprendizaje por refuerzo. Los otros dos modelos son el aprendizaje supervisado y el aprendizaje no supervisado.

La diferencia clave entre el aprendizaje supervisado y el aprendizaje por refuerzo es que el primero no necesita que se den emparejamientos de entrada/salida etiquetados, y el segundo no requiere que se corrijan explícitamente comportamientos subóptimos. En cambio, el énfasis está en lograr un equilibrio saludable entre la explotación de los recursos existentes y el descubrimiento de otros nuevos (en terreno inexplorado) (del conocimiento actual).

Debido a que muchos algoritmos de aprendizaje por refuerzo diseñados para este contexto hacen uso de métodos de programación dinámica, el entorno generalmente se expresa en forma de un proceso de decisión de Markov, también conocido como MDP. La principal distinción entre los métodos tradicionales de programación dinámica y los algoritmos de aprendizaje por refuerzo es que estos últimos no presuponen el conocimiento previo de un modelo matemático exacto del MDP y tienen como objetivo resolver MDP a gran escala, que están más allá del alcance de los métodos tradicionales debido a la impracticabilidad de las soluciones exactas.

El aprendizaje por refuerzo se investiga en una amplia variedad de campos como resultado de su naturaleza genérica. Algunos ejemplos de estos campos incluyen la teoría de juegos, la teoría de control, la investigación de operaciones, la teoría de la información, la optimización basada en simulación, los sistemas multiagente, la inteligencia de enjambre y la estadística. En la literatura académica relacionada con la investigación de operaciones y el control, el aprendizaje por refuerzo se conoce como programación neurodinámica o programación dinámica de aproximación. Los problemas que son de interés en el aprendizaje por refuerzo también se han estudiado en la teoría del control óptimo. La teoría del control óptimo se ocupa principalmente de la existencia y caracterización de soluciones óptimas, así como de algoritmos para el cálculo exacto de esas soluciones, y se ocupa menos del aprendizaje o la aproximación, especialmente en ausencia de un modelo matemático del entorno. El aprendizaje por refuerzo es un método que puede utilizarse en los campos de la economía y la teoría de juegos para explicar cómo podría surgir el equilibrio a partir de una racionalidad limitada.

El tipo más fundamental de aprendizaje, conocido como aprendizaje por refuerzo, se describe como un proceso de decisión de Markov (MDP):

una colección de estados sostenidos tanto por el medio ambiente como por los agentes, S; un grupo de actos del agente, denotados por "A."; es la probabilidad de transición (en el tiempo ) de un estado a otro bajo acción .

es la recompensa inmediata después de la transición de a con acción .

El objetivo del aprendizaje por refuerzo es que el agente aprenda una política óptima, o casi óptima, que maximice la "función de recompensa" u otra señal de refuerzo proporcionada por el usuario que se acumula a partir de las recompensas inmediatas. Esto se puede lograr aprendiendo una política óptima que maximice la "función de recompensa" u otra señal de refuerzo proporcionada por el usuario. Esto es análogo a los mecanismos que parecen tener lugar en la psicología animal. Por ejemplo, los cerebros biológicos están programados para entender señales como el dolor y el hambre como refuerzos negativos. Por otro lado, los cerebros biológicos también están programados para interpretar el placer y el consumo de alimentos como refuerzos positivos. Los animales pueden adquirir la capacidad de participar en actividades que maximicen los beneficios que obtienen bajo ciertas condiciones. Esto sugiere que los animales son capaces de adquirir habilidades a través del refuerzo positivo.

Una inteligencia artificial simple que utiliza el aprendizaje por refuerzo interactuaría con su entorno en incrementos de tiempo discretos.

En cada momento t, el agente recibe el estado actual y la recompensa .

A continuación, elige una acción del conjunto de acciones disponibles, que luego se descarga en el entorno circundante.

El entorno pasa a un nuevo estado y se determina la recompensa asociada a la transición.

El objetivo de un agente de aprendizaje por refuerzo es aprender una política: , que maximiza la recompensa acumulativa esperada.

Cuando el problema se presenta en forma de MDP, se supone que el agente observa directamente el estado actual del entorno. Cuando este es el caso, decimos que el problema tiene total observabilidad. Si el agente solo puede ver un subconjunto de los estados o si los estados vistos están contaminados por el ruido, entonces se dice que el agente tiene observabilidad parcial, y el problema debe formalizarse como un proceso de decisión de Markov parcialmente observable para que se resuelva. En cualquiera de los dos escenarios, existe la posibilidad de que la elección de acciones del agente sea limitada. Por ejemplo, el estado del saldo de una cuenta podría limitarse a existir únicamente en territorio positivo; Si el valor del estado en este momento es 3 y la transición de estado intenta reducir el valor en 4, no se permitirá la transición.

El concepto de arrepentimiento se produce cuando el desempeño del agente se contrasta con el de un agente que opera de la manera más efectiva posible. Es necesario que el agente piense en los efectos a largo plazo de sus acciones (es decir, maximizar los ingresos futuros) para que se comporte de una manera cercana al óptimo, a pesar de que la recompensa inmediata asociada con esto pueda ser desfavorable.

Por lo tanto, las situaciones que implican un compromiso entre las recompensas recibidas a corto plazo y a largo plazo son especialmente adecuadas para el aprendizaje por refuerzo. Se ha utilizado de manera efectiva para una amplia variedad de desafíos, incluido el control de robots y Go (AlphaGo).

El aprendizaje por refuerzo es tan eficaz debido a dos factores distintos: en primer lugar, la utilización de muestras para mejorar el rendimiento general y, en segundo lugar, la utilización de la aproximación de funciones para gestionar situaciones expansivas. El aprendizaje por refuerzo es aplicable en contextos amplios debido a estos dos componentes fundamentales en los siguientes escenarios:

Existe un modelo del medio ambiente, pero todavía no hay una solución que pueda derivarse analíticamente de él; El único modelo del entorno proporcionado es una simulación del mismo (el tema de la optimización basada en simulación); La interacción con el entorno es el único método para adquirir conocimientos sobre ese entorno.

Los dos primeros de estos desafíos pueden categorizarse como desafíos de planificación (dado que existe algún tipo de modelo disponible), sin embargo, el tercer desafío podría categorizarse como un verdadero desafío de aprendizaje. El aprendizaje por refuerzo, por otro lado, transforma estas dos dificultades de planificación en problemas de aprendizaje automático.

El equilibrio entre la exploración y la explotación se ha examinado en profundidad mediante el uso del problema de los bandidos multiarmados y los MDP para el espacio de estado limitado en Burnetas y Katehakis (1997).

El aprendizaje por refuerzo requiere el uso de ingeniosos métodos de exploración; Un rendimiento deficiente puede ser el resultado de seleccionar acciones al azar sin hacer referencia a una distribución de probabilidad estimada. Hay una buena dosis de comprensión del (pequeño) escenario finito de MDP. Sin embargo, debido a la ausencia de algoritmos que escalen efectivamente con el número de estados (o que escalen a problemas con espacios de estados infinitos), los enfoques básicos de exploración son los más aplicables en la práctica.

Uno de estos métodos es -greedy, donde es un parámetro que controla la cantidad de exploración vs.

explotación.

Con probabilidad , se selecciona la práctica de la explotación, y el agente elegirá el curso de acción que considere que tendrá el impacto más positivo a largo plazo (los lazos entre las acciones se rompen uniformemente al azar).

Alternativamente, con la probabilidad, se toma la opción de exploración y la acción se selecciona de manera estandarizada al azar.

suele ser un parámetro fijo pero se puede ajustar ya sea de acuerdo a un horario (haciendo que el agente explore cada vez menos), ya sea de forma adaptable en base a heurísticas, o ambos.

Incluso si se pasa por alto la dificultad de la exploración e incluso si el estado era visible (lo que se asumirá más adelante), el desafío de determinar qué comportamientos conducen a mayores recompensas acumulativas utilizando la experiencia previa sigue siendo una preocupación.

La política sirve como modelo para el proceso de toma de decisiones del agente sobre la selección de acciones:

El mapa de políticas da la probabilidad de tomar medidas cuando se está en el estado .: 61 También hay políticas deterministas.

La función de valor se define como, rendimiento esperado que comienza con el estado , es decir,

, y seguir sucesivamente la política .

Por lo tanto, a grandes rasgos, la función de valor estima "qué tan bueno" es estar en un...

Systemvoraussetzungen

Als PDF speichern Als Link merken