Capítulo 1 : Rede bayesiana
Uma rede bayesiana é um modelo gráfico probabilístico que representa um conjunto de variáveis e suas dependências condicionais através de um gráfico acíclico dirigido. Também é conhecida como uma rede Bayes, rede Bayes, rede de crenças, ou rede de decisão. Outros nomes para este tipo de modelo incluem uma rede Bayes e uma rede Bayes (DAG). As redes bayesianas são perfeitas para determinar a probabilidade de que qualquer uma das múltiplas causas potenciais conhecidas foi o elemento contribuinte em um evento que já ocorreu e fazer uma previsão com base nessa probabilidade. Por exemplo, as ligações probabilísticas que existem entre doenças e sintomas podem ser representadas por uma rede bayesiana. A rede pode ser usada para calcular as probabilidades da existência de uma variedade de doenças com base nos sintomas que são fornecidos.
As redes bayesianas são capazes de fazer inferência e aprendizagem com o uso de algoritmos eficientes. As redes bayesianas que modelam sequências de variáveis (como sequências de proteínas ou sinais de voz, por exemplo) são referidas como redes bayesianas dinâmicas. Generalizações de redes bayesianas que podem retratar questões de decisão sob incerteza e fornecer soluções para tais problemas são referidas como diagramas de influência.
Formalmente, as redes bayesianas são uma espécie de grafo acíclico dirigido (DAG), e os nós de uma rede bayesiana representam variáveis no sentido bayesiano. Estas variáveis podem ser coisas observáveis, variáveis latentes, parâmetros ou teorias que não são conhecidas.
As arestas representam dependências condicionais; Os nós que não estão ligados entre si (o que significa que não há nenhuma rota que conduza de um nó para outro) refletem variáveis que são condicionalmente independentes umas das outras.
Cada nó está ligado a uma função de probabilidade que considera as entradas que recebe, como entrada, uma coleção específica de valores para cada uma das variáveis pai do nó, Ela produz (como resultado) a probabilidade (ou a distribuição de probabilidade), se relevante) da variável que o nó está tentando representar.
Por exemplo, se os nós pai representam variáveis booleanas, então a função de probabilidade pode ser representada por uma tabela de entradas, uma entrada para cada uma das combinações pai possíveis.
É possível aplicar conceitos comparáveis a gráficos não direcionados, e talvez até cíclicos, como as redes Markov também contam.
Vamos usar um exemplo para mostrar os pontos sobre o que é uma rede bayesiana e como ela funciona. Digamos que queremos representar as dependências que existem entre três variáveis: o aspersor (ou, mais precisamente, o seu estado, que se refere a estar ligado ou desligado), a presença ou ausência de chuva e se a relva está ou não húmida. É importante notar que há duas coisas que podem fazer com que a grama fique molhada: um aspersor operacional ou chuva. A eficácia do sistema de aspersão é diretamente influenciada pela chuva (ou seja, quando chove, o aspersor geralmente não está ativo). Uma rede bayesiana é uma ferramenta de modelagem apropriada para este cenário (mostrada à direita). Cada variável pode assumir os valores T (que significa verdadeiro) ou F (que significa falso) (para falso).
A regra da cadeia de probabilidade pode ser usada para obter a função de probabilidade conjunta como,
onde G significa "Grass wet (true/false)", S significa "Sprinkler switched on (true/false)" e R significa "Raining (true/false)".
O modelo é capaz de fornecer respostas a perguntas sobre a existência de uma causa dada a existência de um efeito (também conhecido como "probabilidade inversa"), como "Qual é a chance de estar chovendo, dado que a grama está molhada?" com o uso da fórmula de probabilidades condicionais e o acúmulo de todos os fatores de incômodo:
Usando a expansão para a função de probabilidade conjunta e as probabilidades condicionais das tabelas de probabilidade condicional (CPTs) declaradas no diagrama, é possível fazer uma análise sobre cada frase que está incluída nas somas no numerador e denominador.
Por exemplo
A etapa subsequente é anotar os resultados numéricos, que são então subscritos pelos valores das variáveis relacionadas.
A fim de fornecer uma solução para um inquérito intervencionista, como "Qual é a chance de chover, dado que encharcamos a grama?" A solução é determinada pela função de distribuição articular após a intervenção.
obtida através da remoção do fator da distribuição pré-intervenção.
O uso do operador do garante que o valor de G seja sempre verdadeiro.
A ação não terá qualquer impacto na probabilidade de precipitação:
Para estimar os resultados da ativação do sistema de aspersão:
com o termo removido, demonstrando que o movimento não tem um efeito sobre a chuva, mas tem um efeito sobre a grama.
Dada a existência de fatores invisíveis, é possível que essas previsões não possam ser realizadas, como é o caso da maioria das questões de avaliação de políticas.
O efeito da ação ainda pode ser previsto, no entanto, uma vez que os critérios estabelecidos através da porta dos fundos são cumpridos.
(ou bloqueia) todas e quaisquer outras rotas que levam de X a Y, então
Uma definição de estrada de porta dos fundos é aquela que, em última análise, leva à letra X.
Conjuntos que são "adequados" ou "admissíveis" são os termos usados para descrever aqueles que atendem à condição de porta dos fundos. Por exemplo, para efeitos de antecipação da influência de S = T sobre G, o conjunto Z = R pode ser considerado, porque R d-separa o (único) caminho da porta traseira S R G.
No entanto, no caso de S não ser visto, não há outro conjunto que d-separa esta rota, e o impacto que a ativação do aspersor (S = T) terá na grama (G) não pode ser deduzido da observação passiva da grama.
Neste cenário específico, a variável P(G | do(S = T)) não pode ser "reconhecida.".
Esta é uma indicação do fato de que, uma escassez de dados sobre intervenções, A confiança observada entre S e G pode ser explicada por uma relação causal, ou pode ser explicada como espúria (uma dependência aparente proveniente de uma fonte compartilhada), R).
(ver o dilema de Simpson)
Usando os três princípios do "do-calculus", pode-se estabelecer se um nexo causal pode ou não ser descoberto com base em uma rede bayesiana arbitrária que contém variáveis não observadas.
Quando comparado com o uso de tabelas de probabilidade extensivas, usando uma rede Bayesiana pode salvar uma grande quantidade de memória, se houver poucas dependências na distribuição conjunta, diz-se que tem uma estrutura esparsa.
Por exemplo, uma maneira ingênua de armazenar as probabilidades condicionais de 10 variáveis de dois valores como uma tabela requer espaço de armazenamento para valores.
Se a distribuição local de nenhuma variável é dependente de mais de três de suas variáveis pai, então, a representação de rede Bayesiana armazena no máximo valores.
Um dos benefícios das redes bayesianas é que é mais intuitivamente simples para um ser humano compreender (uma coleção esparsa de) distribuições locais e relações diretas do que entender distribuições conjuntas inteiras.
As redes bayesianas são responsáveis por três tipos principais de trabalho de inferência:
É possível utilizar uma rede bayesiana para responder a questões probabilísticas sobre suas variáveis e as interações entre elas, uma vez que é um modelo abrangente para essas variáveis e relações. Por exemplo, a rede pode ser usada para rever a compreensão do estado atual de um subconjunto de variáveis se outro conjunto de dados, conhecido como variáveis de evidência, for visto. A inferência probabilística refere-se ao processo de determinação da distribuição posterior das variáveis com base nas evidências apresentadas. Ao selecionar valores para o subconjunto de variáveis que minimizam alguma função de perda esperada, como a probabilidade de erro de decisão, o posterior fornece uma estatística que é universalmente suficiente para uso em aplicações de deteção. Essa estatística pode ser usada para determinar se um evento foi detetado ou não. Uma maneira de pensar em uma rede bayesiana é como um método para aplicar automaticamente o teorema de Bayes a tarefas difíceis.
Os métodos de inferência exata mais comuns incluem condicionamento recursivo e pesquisa E/OR, que permitem uma compensação espaço-tempo e correspondem à eficiência da eliminação de variáveis. propagação da árvore de clique, que armazena em cache o cálculo para que muitas variáveis possam ser consultadas ao mesmo tempo e novas evidências possam ser propagadas rapidamente. eliminação de variáveis, que elimina (por integração ou soma) as variáveis não consultadas não observadas, uma a uma, distribuindo a soma sobre o produto. A complexidade de cada uma dessas abordagens aumenta a uma taxa proporcional à largura da árvore da rede. As técnicas mais amplamente utilizadas para inferência de aproximação são chamadas de eliminação de mini-balde, amostragem de significância, simulação estocástica de MCMC, propagação de crenças loopy, propagação de crenças estendidas e abordagens variacionais.
É necessário, a fim de descrever adequadamente a distribuição de probabilidade conjunta e definir completamente a rede bayesiana, declarar para cada nó X a distribuição de...