CapÃtulo 1 : Aprendizaje por refuerzo
El aprendizaje por refuerzo, a veces conocido como RL, es un subcampo del aprendizaje automático que investiga cómo deben comportarse los agentes inteligentes en un entorno para maximizar el concepto de recompensa acumulativa. Uno de los tres modelos fundamentales del aprendizaje automático se conoce como aprendizaje por refuerzo. Los otros dos modelos son el aprendizaje supervisado y el aprendizaje no supervisado.
La diferencia clave entre el aprendizaje supervisado y el aprendizaje por refuerzo es que el primero no necesita que se den emparejamientos de entrada/salida etiquetados, y el segundo no requiere que se corrijan explícitamente comportamientos subóptimos. En cambio, el énfasis está en lograr un equilibrio saludable entre la explotación de los recursos existentes y el descubrimiento de otros nuevos (en terreno inexplorado) (del conocimiento actual).
Debido a que muchos algoritmos de aprendizaje por refuerzo diseñados para este contexto hacen uso de métodos de programación dinámica, el entorno generalmente se expresa en forma de un proceso de decisión de Markov, también conocido como MDP. La principal distinción entre los métodos tradicionales de programación dinámica y los algoritmos de aprendizaje por refuerzo es que estos últimos no presuponen el conocimiento previo de un modelo matemático exacto del MDP y tienen como objetivo resolver MDP a gran escala, que están más allá del alcance de los métodos tradicionales debido a la impracticabilidad de las soluciones exactas.
El aprendizaje por refuerzo se investiga en una amplia variedad de campos como resultado de su naturaleza genérica. Algunos ejemplos de estos campos incluyen la teoría de juegos, la teoría de control, la investigación de operaciones, la teoría de la información, la optimización basada en simulación, los sistemas multiagente, la inteligencia de enjambre y la estadística. En la literatura académica relacionada con la investigación de operaciones y el control, el aprendizaje por refuerzo se conoce como programación neurodinámica o programación dinámica de aproximación. Los problemas que son de interés en el aprendizaje por refuerzo también se han estudiado en la teoría del control óptimo. La teoría del control óptimo se ocupa principalmente de la existencia y caracterización de soluciones óptimas, así como de algoritmos para el cálculo exacto de esas soluciones, y se ocupa menos del aprendizaje o la aproximación, especialmente en ausencia de un modelo matemático del entorno. El aprendizaje por refuerzo es un método que puede utilizarse en los campos de la economía y la teoría de juegos para explicar cómo podría surgir el equilibrio a partir de una racionalidad limitada.
El tipo más fundamental de aprendizaje, conocido como aprendizaje por refuerzo, se describe como un proceso de decisión de Markov (MDP):
una colección de estados sostenidos tanto por el medio ambiente como por los agentes, S; un grupo de actos del agente, denotados por "A."; es la probabilidad de transición (en el tiempo ) de un estado a otro bajo acción .
es la recompensa inmediata después de la transición de a con acción .
El objetivo del aprendizaje por refuerzo es que el agente aprenda una política óptima, o casi óptima, que maximice la "función de recompensa" u otra señal de refuerzo proporcionada por el usuario que se acumula a partir de las recompensas inmediatas. Esto se puede lograr aprendiendo una política óptima que maximice la "función de recompensa" u otra señal de refuerzo proporcionada por el usuario. Esto es análogo a los mecanismos que parecen tener lugar en la psicología animal. Por ejemplo, los cerebros biológicos están programados para entender señales como el dolor y el hambre como refuerzos negativos. Por otro lado, los cerebros biológicos también están programados para interpretar el placer y el consumo de alimentos como refuerzos positivos. Los animales pueden adquirir la capacidad de participar en actividades que maximicen los beneficios que obtienen bajo ciertas condiciones. Esto sugiere que los animales son capaces de adquirir habilidades a través del refuerzo positivo.
Una inteligencia artificial simple que utiliza el aprendizaje por refuerzo interactuaría con su entorno en incrementos de tiempo discretos.
En cada momento t, el agente recibe el estado actual y la recompensa .
A continuación, elige una acción del conjunto de acciones disponibles, que luego se descarga en el entorno circundante.
El entorno pasa a un nuevo estado y se determina la recompensa asociada a la transición.
El objetivo de un agente de aprendizaje por refuerzo es aprender una política: , que maximiza la recompensa acumulativa esperada.
Cuando el problema se presenta en forma de MDP, se supone que el agente observa directamente el estado actual del entorno. Cuando este es el caso, decimos que el problema tiene total observabilidad. Si el agente solo puede ver un subconjunto de los estados o si los estados vistos están contaminados por el ruido, entonces se dice que el agente tiene observabilidad parcial, y el problema debe formalizarse como un proceso de decisión de Markov parcialmente observable para que se resuelva. En cualquiera de los dos escenarios, existe la posibilidad de que la elección de acciones del agente sea limitada. Por ejemplo, el estado del saldo de una cuenta podría limitarse a existir únicamente en territorio positivo; Si el valor del estado en este momento es 3 y la transición de estado intenta reducir el valor en 4, no se permitirá la transición.
El concepto de arrepentimiento se produce cuando el desempeño del agente se contrasta con el de un agente que opera de la manera más efectiva posible. Es necesario que el agente piense en los efectos a largo plazo de sus acciones (es decir, maximizar los ingresos futuros) para que se comporte de una manera cercana al óptimo, a pesar de que la recompensa inmediata asociada con esto pueda ser desfavorable.
Por lo tanto, las situaciones que implican un compromiso entre las recompensas recibidas a corto plazo y a largo plazo son especialmente adecuadas para el aprendizaje por refuerzo. Se ha utilizado de manera efectiva para una amplia variedad de desafíos, incluido el control de robots y Go (AlphaGo).
El aprendizaje por refuerzo es tan eficaz debido a dos factores distintos: en primer lugar, la utilización de muestras para mejorar el rendimiento general y, en segundo lugar, la utilización de la aproximación de funciones para gestionar situaciones expansivas. El aprendizaje por refuerzo es aplicable en contextos amplios debido a estos dos componentes fundamentales en los siguientes escenarios:
Existe un modelo del medio ambiente, pero todavía no hay una solución que pueda derivarse analíticamente de él; El único modelo del entorno proporcionado es una simulación del mismo (el tema de la optimización basada en simulación); La interacción con el entorno es el único método para adquirir conocimientos sobre ese entorno.
Los dos primeros de estos desafíos pueden categorizarse como desafíos de planificación (dado que existe algún tipo de modelo disponible), sin embargo, el tercer desafío podría categorizarse como un verdadero desafío de aprendizaje. El aprendizaje por refuerzo, por otro lado, transforma estas dos dificultades de planificación en problemas de aprendizaje automático.
El equilibrio entre la exploración y la explotación se ha examinado en profundidad mediante el uso del problema de los bandidos multiarmados y los MDP para el espacio de estado limitado en Burnetas y Katehakis (1997).
El aprendizaje por refuerzo requiere el uso de ingeniosos métodos de exploración; Un rendimiento deficiente puede ser el resultado de seleccionar acciones al azar sin hacer referencia a una distribución de probabilidad estimada. Hay una buena dosis de comprensión del (pequeño) escenario finito de MDP. Sin embargo, debido a la ausencia de algoritmos que escalen efectivamente con el número de estados (o que escalen a problemas con espacios de estados infinitos), los enfoques básicos de exploración son los más aplicables en la práctica.
Uno de estos métodos es -greedy, donde es un parámetro que controla la cantidad de exploración vs.
explotación.
Con probabilidad , se selecciona la práctica de la explotación, y el agente elegirá el curso de acción que considere que tendrá el impacto más positivo a largo plazo (los lazos entre las acciones se rompen uniformemente al azar).
Alternativamente, con la probabilidad, se toma la opción de exploración y la acción se selecciona de manera estandarizada al azar.
suele ser un parámetro fijo pero se puede ajustar ya sea de acuerdo a un horario (haciendo que el agente explore cada vez menos), ya sea de forma adaptable en base a heurísticas, o ambos.
Incluso si se pasa por alto la dificultad de la exploración e incluso si el estado era visible (lo que se asumirá más adelante), el desafío de determinar qué comportamientos conducen a mayores recompensas acumulativas utilizando la experiencia previa sigue siendo una preocupación.
La política sirve como modelo para el proceso de toma de decisiones del agente sobre la selección de acciones:
El mapa de políticas da la probabilidad de tomar medidas cuando se está en el estado .: 61 También hay políticas deterministas.
La función de valor se define como, rendimiento esperado que comienza con el estado , es decir,
, y seguir sucesivamente la política .
Por lo tanto, a grandes rasgos, la función de valor estima "qué tan bueno" es estar en un...