CapÃtulo 1 : Aprendizagem por reforço
A aprendizagem por reforço, às vezes conhecida como RL, é um subcampo do aprendizado de máquina que investiga como os agentes inteligentes devem se comportar em um ambiente, a fim de maximizar o conceito de recompensa cumulativa. Um dos três modelos fundamentais de aprendizagem automática é conhecido como aprendizagem por reforço. Os outros dois modelos são a aprendizagem supervisionada e a aprendizagem não supervisionada.
A principal diferença entre a aprendizagem supervisionada e a aprendizagem por reforço é que a primeira não precisa de ser dada a combinação de entrada/saída rotulada, e a segunda não requer que comportamentos subótimos sejam explicitamente corrigidos. Em vez disso, a tónica é colocada na procura de um equilíbrio saudável entre a exploração dos recursos existentes e a descoberta de novos recursos (em terrenos inexplorados) (dos conhecimentos atuais).
Como muitos algoritmos de aprendizagem por reforço projetados para este contexto fazem uso de métodos de programação dinâmica, o ambiente é geralmente expresso na forma de um processo de decisão de Markov, também conhecido como MDP. A principal distinção entre métodos tradicionais de programação dinâmica e algoritmos de aprendizagem por reforço é que estes últimos não pressupõem o conhecimento prévio de um modelo matemático exato do MDP e visam resolver MDPs em larga escala, que estão além do escopo dos métodos tradicionais devido à impraticabilidade de soluções exatas.
A aprendizagem por reforço é investigada numa grande variedade de campos como resultado da sua natureza genérica. Alguns exemplos desses campos incluem teoria dos jogos, teoria do controle, pesquisa operacional, teoria da informação, otimização baseada em simulação, sistemas multiagentes, inteligência de enxame e estatística. Na literatura acadêmica referente à pesquisa operacional e controle, a aprendizagem por reforço é referida como programação neurodinâmica ou programação dinâmica de aproximação. Os problemas que são de interesse na aprendizagem por reforço também têm sido estudados na teoria do controle ótimo. A teoria do controle ótimo está preocupada principalmente com a existência e caracterização de soluções ótimas, bem como algoritmos para a computação exata dessas soluções, e está menos preocupada com a aprendizagem ou aproximação, particularmente na ausência de um modelo matemático do ambiente. A aprendizagem por reforço é um método que pode ser usado nos campos da economia e da teoria dos jogos para explicar como o equilíbrio pode emergir da racionalidade limitada.
O tipo mais fundamental de aprendizagem, conhecido como aprendizagem por reforço, é descrito como um processo de decisão de Markov (MDP):
um conjunto de estados detidos tanto pelo ambiente como pelos agentes, S; um conjunto de atos do agente, denotado por "A."; é a probabilidade de transição (no momento ) de estado para estado sob ação .
é a recompensa imediata após a transição da ação para a ação .
O objetivo da aprendizagem por reforço é que o agente aprenda uma política ótima, ou quase ótima, que maximize a "função de recompensa" ou outro sinal de reforço fornecido pelo usuário que se acumule a partir das recompensas imediatas. Isso pode ser conseguido aprendendo uma política ideal que maximiza a "função de recompensa" ou outro sinal de reforço fornecido pelo usuário. Isto é análogo aos mecanismos que parecem ocorrer na psicologia animal. Por exemplo, os cérebros biológicos são programados para entender sinais como dor e fome como reforços negativos. Por outro lado, os cérebros biológicos também estão programados para interpretar o prazer e o consumo de alimentos como reforços positivos. Os animais podem adquirir a capacidade de participar em atividades que maximizem os benefícios que obtêm sob certas condições. Isso sugere que os animais são capazes de adquirir habilidades através do reforço positivo.
Uma simples inteligência artificial que usa a aprendizagem por reforço interagiria com o seu ambiente em incrementos de tempo discretos.
A cada vez que t, o agente recebe o estado atual e recompensa .
Em seguida, ele escolhe uma ação do conjunto de ações disponíveis, que é então descarregada no ambiente ao redor.
O ambiente move-se para um novo estado e a recompensa associada à transição é determinada.
O objetivo de um agente de aprendizagem de reforço é aprender uma política: , que maximiza a recompensa cumulativa esperada.
Quando a questão é apresentada na forma de um MDP, assume-se que o agente observa diretamente o estado atual do ambiente. Quando assim é, dizemos que a questão tem total observabilidade. Se o agente só pode ver um subconjunto dos estados ou se os estados vistos são contaminados pelo ruído, então o agente é dito ter observabilidade parcial, e a questão deve ser formalizada como um processo de decisão de Markov parcialmente observável para ser resolvido. Em ambos os cenários, existe a possibilidade de a escolha de ações do agente ser limitada. Por exemplo, o estado do saldo de uma conta pode ser limitado a existir apenas em território positivo; Se o valor do estado no momento for 3, e a transição de estado tentar reduzir o valor em 4, a transição não será permitida.
O conceito de arrependimento surge quando a atuação do agente é contrastada com a de um agente que opera da maneira mais eficaz possível. É necessário que o agente pense nos efeitos a longo prazo de suas ações (ou seja, maximizar a receita futura) para que ele se comporte de uma maneira próxima do ideal, apesar do fato de que a recompensa imediata associada a isso pode ser desfavorável.
Portanto, situações que envolvem um trade-off entre as recompensas recebidas a curto e longo prazo são especialmente adequadas para a aprendizagem por reforço. Ele tem sido usado de forma eficaz para uma ampla variedade de desafios, incluindo controle de robô e Go (AlphaGo).
A aprendizagem por reforço é tão eficaz devido a dois fatores distintos: primeiro, a utilização de amostras para melhorar o desempenho geral e, segundo, a utilização da aproximação de funções para gerenciar situações expansivas. A aprendizagem por reforço é aplicável em vastos contextos devido a estas duas componentes fundamentais nos seguintes cenários:
Existe um modelo de ambiente, mas ainda não há uma solução que possa ser derivada analiticamente dele; O único modelo do ambiente fornecido é uma simulação do mesmo (o assunto da otimização baseada em simulação); Interagir com o meio envolvente é o único método para adquirir conhecimento sobre esse ambiente.
Os dois primeiros desafios podem ser categorizados como desafios de planejamento (dado que há algum tipo de modelo disponível), no entanto, o terceiro desafio pode ser categorizado como um verdadeiro desafio de aprendizagem. A aprendizagem por reforço, por outro lado, transforma ambas essas dificuldades de planejamento em problemas de aprendizado de máquina.
O compromisso entre a prospeção e a exploração foi examinado em grande profundidade através da utilização do problema dos bandidos multiarmados e dos MDP limitados do espaço estatal em Burnetas e Katehakis (1997).
A aprendizagem através do reforço requer a utilização de métodos de exploração engenhosos; O fraco desempenho pode resultar da seleção aleatória de ações sem fazer referência a uma distribuição de probabilidade estimada. Há uma boa compreensão do (pequeno) cenário finito do MDP. No entanto, devido à ausência de algoritmos que escalam efetivamente com o número de estados (ou escala para problemas com espaços de estado infinitos), as abordagens básicas de exploração são as mais praticamente aplicáveis.
Um desses métodos é -ganancioso, onde é um parâmetro que controla a quantidade de exploração vs.
exploração.
Com probabilidade , seleciona-se a prática da exploração, e o agente escolhe o curso de ação que sente que terá o impacto mais positivo a longo prazo (os laços entre as ações são quebrados uniformemente ao acaso).
Alternativamente, com probabilidade , a opção de exploração é tomada, e a ação é selecionada de forma padronizada aleatoriamente.
é geralmente um parâmetro fixo, mas pode ser ajustado de acordo com um cronograma (fazendo com que o agente explore progressivamente menos), seja de forma adaptável com base na heurística, ou ambos.
Mesmo que a dificuldade de exploração seja negligenciada e mesmo que o estado fosse visível (o que será assumido posteriormente), o desafio de determinar quais comportamentos levam a maiores recompensas cumulativas usando a experiência anterior ainda é uma preocupação.
A política serve de modelo para o processo de tomada de decisão do agente sobre a seleção de ações:
O mapa de políticas dá a probabilidade de tomar medidas quando no estado .: 61 Existem também políticas deterministas.
A função de valor é definida como, retorno esperado começando com o estado , ou seja,
e, sucessivamente, seguindo a política .
Assim, grosso modo, a função de valor estima "quão bom" é estar em um determinado estado.: 60
onde a variável aleatória denota o retorno, define-se como o total de recompensas futuras depois de ter em conta os descontos:
onde está a recompensa no passo , é a taxa de desconto.
Gama é um número negativo, Portanto, eventos que estão muito longe no futuro recebem menos peso do que ocorrências que são relativamente...