Chapitre 1 : Réseau bayésien
Un réseau bayésien est un modèle graphique probabiliste qui représente un ensemble de variables et leurs dépendances conditionnelles via un graphe acyclique dirigé. Il est également connu sous le nom de réseau de Bayes, de réseau de Bayes, de réseau de croyances ou de réseau de décision. D'autres noms pour ce type de modèle incluent un réseau de Bayes et un réseau de Bayes (DAG). Les réseaux bayésiens sont parfaits pour déterminer la probabilité que l'une des multiples causes potentielles connues ait été l'élément contributif d'un événement qui a déjà eu lieu et pour faire une prédiction basée sur cette probabilité. Par exemple, les liens probabilistes qui existent entre les maladies et les symptômes peuvent être représentés par un réseau bayésien. Le réseau peut être utilisé pour calculer les probabilités d'existence d'une variété de maladies en fonction des symptômes fournis.
Les réseaux bayésiens sont capables de faire de l'inférence et de l'apprentissage à l'aide d'algorithmes efficaces. Les réseaux bayésiens qui modélisent des séquences de variables (telles que des séquences de protéines ou des signaux vocaux, par exemple) sont appelés réseaux bayésiens dynamiques. Les généralisations des réseaux bayésiens qui peuvent décrire des problèmes de décision dans l'incertitude et fournir des solutions à de tels problèmes sont appelées diagrammes d'influence.
Formellement, les réseaux bayésiens sont une sorte de graphe acyclique dirigé (DAG), et les nouds d'un réseau bayésien représentent des variables au sens bayésien. Ces variables peuvent être des choses observables, des variables latentes, des paramètres ou des théories qui ne sont pas connus.
Les arêtes représentent des dépendances conditionnelles ; Les nouds qui ne sont pas liés les uns aux autres (c'est-à-dire qu'il n'y a pas de route qui mène d'un noud à un autre) reflètent des variables qui sont conditionnellement indépendantes les unes des autres.
Chaque noud est connecté à une fonction de probabilité qui considère les entrées qu'il reçoit, en entrée, une collection spécifique de valeurs pour chacune des variables parentes du noud, Il produit (comme résultat) la probabilité (ou la distribution de probabilité), le cas échéant) de la variable que le noud tente de représenter.
Par exemple, si les nouds parents représentent des variables booléennes, la fonction de probabilité peut être représentée par une table d' entrées, une entrée pour chacune des combinaisons parentes possibles.
Il est possible d'appliquer des concepts comparables à des graphiques non orientés, et peut-être même cycliques, comme les réseaux de Markov comptent également.
Prenons un exemple pour expliquer ce qu'est un réseau bayésien et comment il fonctionne. Supposons que nous souhaitions représenter les dépendances qui existent entre trois variables : l'arroseur (ou, plus précisément, son état, qui fait référence au fait qu'il soit allumé ou éteint), la présence ou l'absence de pluie et le fait que l'herbe soit humide ou non. Il est important de noter qu'il y a deux choses qui peuvent mouiller l'herbe : un arroseur en fonctionnement ou la pluie. L'efficacité du système d'arrosage est directement influencée par la pluie (à savoir que lorsqu'il pleut, l'arroseur n'est généralement pas actif). Un réseau bayésien est un outil de modélisation approprié pour ce scénario (illustré à droite). Chaque variable peut prendre les valeurs T (qui signifie vrai) ou F (qui signifie faux) (pour faux).
La règle de probabilité en chaîne peut être utilisée pour obtenir la fonction de probabilité conjointe comme,
où G signifie « Herbe mouillée (vrai/faux) », S signifie « Arroseur allumé (vrai/faux) » et R signifie « Pluie (vrai/faux) ».
Le modèle est capable d'apporter des réponses à des questions sur l'existence d'une cause compte tenu de l'existence d'un effet (également connu sous le nom de « probabilité inverse »), telles que « Quelle est la probabilité qu'il pleuve, étant donné que l'herbe est mouillée ? » avec l'utilisation de la formule des probabilités conditionnelles et l'accumulation de tous les facteurs de nuisance :
En utilisant le développement de la fonction de probabilité conjointe et les probabilités conditionnelles des tables de probabilités conditionnelles (CPT) énoncées dans le diagramme, on est capable d'effectuer une analyse sur chaque phrase incluse dans les sommes du numérateur et du dénominateur.
Par exemple
L'étape suivante consiste à noter les résultats numériques, qui sont ensuite indiqués par les valeurs des variables associées.
Afin d'apporter une solution à une enquête interventionnelle, telle que « Quelle est la probabilité qu'il pleuve, étant donné que nous avons trempé l'herbe ? » La solution est déterminée par la fonction de distribution conjointe après l'intervention.
obtenu en retirant le facteur de la distribution avant l'intervention.
L'utilisation de l'opérateur do garantit que la valeur de G est toujours vraie.
L'action n'aura pas d'impact sur la probabilité de précipitations :
Afin d'estimer les résultats de l'activation du système de gicleurs :
avec le terme enlevé, démontrant que le mouvement n'a pas d'effet sur la pluie mais a un effet sur l'herbe.
Étant donné l'existence de facteurs invisibles, il est possible que ces prédictions ne puissent pas se réaliser, comme c'est le cas pour la majorité des questions d'évaluation des politiques.
L'effet de l'action peut toujours être prédit, cependant, une fois que les critères établis par la porte dérobée sont remplis.
(ou bloque) toutes les autres routes menant de X à Y, puis
Une définition d'une route détournée est celle qui mène finalement à la lettre X.
Les ensembles qui sont « adéquats » ou « admissibles » sont les termes utilisés pour décrire ceux qui satisfont à la condition de la porte dérobée. Par exemple, dans le but d'anticiper l'influence de S = T sur G, l'ensemble Z = R peut être considéré, car R d-sépare le (seul) chemin de porte dérobée S R G.
Cependant, dans le cas où S n'est pas vu, il n'y a pas d'autre ensemble qui sépare ce trajet, et l'impact que l'activation de l'arroseur (S = T) aura sur l'herbe (G) ne peut pas être déduit de l'observation passive de l'herbe.
Dans ce cas particulier, la variable P(G | do(S = T)) ne peut pas être « reconnue. ».
C'est une indication du fait que, en raison de la rareté des données sur les interventions, la confiance observée entre S et G peut s'expliquer par une relation de cause à effet, ou elle peut être expliquée comme fallacieuse (une dépendance apparente provenant d'une source partagée), R).
(voir le dilemme de Simpson)
En utilisant les trois principes du « do-calcul », on est en mesure d'établir si un lien de causalité peut être découvert ou non sur la base d'un réseau bayésien arbitraire qui contient des variables non observées.
Par rapport à l'utilisation de tables de probabilité extensives, l'utilisation d'un réseau bayésien peut économiser une grande quantité de mémoire, s'il y a peu de dépendances dans la distribution conjointe, on dit qu'il a une structure clairsemée.
Par exemple, une manière naïve de stocker les probabilités conditionnelles de 10 variables à deux valeurs sous forme de table nécessite de l'espace de stockage pour les valeurs.
Si la distribution locale d'aucune variable dépend de plus de trois de ses variables parentes, la représentation du réseau bayésien stocke au plus grand nombre de valeurs.
L'un des avantages des réseaux bayésiens est qu'il est plus intuitivement simple pour un humain de saisir (une collection clairsemée de) distributions locales et de relations directes que de comprendre des distributions conjointes entières.
Les réseaux bayésiens sont responsables de trois principaux types de travail d'inférence :
Il est possible d'utiliser un réseau bayésien pour répondre à des questions probabilistes sur ses variables et les interactions entre elles, car il s'agit d'un modèle complet pour ces variables et relations. Par exemple, le réseau peut être utilisé pour réviser sa compréhension de l'état actuel d'un sous-ensemble de variables si un autre ensemble de données, connu sous le nom de variables de preuve, est visible. L'inférence probabiliste fait référence au processus de détermination de la distribution a posteriori des variables en fonction des preuves présentées. Lors de la sélection de valeurs pour le sous-ensemble de variables qui minimisent une fonction de perte attendue, telle que la probabilité d'erreur de décision, le postériste donne une statistique qui est universellement suffisante pour être utilisée dans des applications de détection. Cette statistique peut être utilisée pour déterminer si un événement a été détecté ou non. Une façon de penser à un réseau bayésien est d'appliquer automatiquement le théorème de Bayes à des tâches difficiles.
Les méthodes d'inférence exacte les plus courantes comprennent le conditionnement récursif et la recherche ET/OR, qui permettent un compromis espace-temps et correspondent à l'efficacité de l'élimination des variables. La propagation de l'arbre de clique, qui met en cache le calcul de sorte que de nombreuses variables peuvent être interrogées à la fois et que de nouvelles preuves peuvent être propagées rapidement. l'élimination de variables, qui élimine (par...