Capitolo 1 : Rete bayesiana
Una rete bayesiana è un modello grafico probabilistico che rappresenta un insieme di variabili e le loro dipendenze condizionali tramite un grafo aciclico diretto. È anche conosciuta come rete di Bayes, rete di Bayes, rete di credenze o rete decisionale. Altri nomi per questo tipo di modello includono una rete di Bayes e una rete di Bayes (DAG). Le reti bayesiane sono perfette per determinare la probabilità che una qualsiasi delle molteplici potenziali cause note sia stata l'elemento che ha contribuito a un evento che ha già avuto luogo e per fare una previsione basata su tale probabilità. Ad esempio, i legami probabilistici che esistono tra malattie e sintomi possono essere rappresentati da una rete bayesiana. La rete può essere utilizzata per calcolare le probabilità dell'esistenza di una varietà di malattie in base ai sintomi forniti.
Le reti bayesiane sono in grado di fare inferenza e apprendimento con l'uso di algoritmi efficienti. Le reti bayesiane che modellano sequenze di variabili (come sequenze proteiche o segnali vocali, ad esempio) sono indicate come reti bayesiane dinamiche. Le generalizzazioni delle reti bayesiane che possono rappresentare problemi decisionali in condizioni di incertezza e fornire soluzioni a tali problemi sono indicate come diagrammi di influenza.
Formalmente, le reti bayesiane sono una sorta di grafo aciclico diretto (DAG) e i nodi di una rete bayesiana rappresentano variabili in senso bayesiano. Queste variabili potrebbero essere cose osservabili, variabili latenti, parametri o teorie che non sono note.
Gli archi rappresentano le dipendenze condizionali; I nodi che non sono collegati tra loro (il che significa che non esiste un percorso che porta da un nodo all'altro) riflettono variabili che sono condizionatamente indipendenti l'una dall'altra.
Ogni nodo è collegato ad una funzione di probabilità che considera gli input che riceve, come input, una specifica raccolta di valori per ciascuna delle variabili madri del nodo, produce (come risultato) la probabilità (o la distribuzione di probabilità), se rilevante) della variabile che il nodo sta tentando di rappresentare.
Ad esempio, se i nodi padre rappresentano variabili booleane, la funzione di probabilità potrebbe essere rappresentata da una tabella di voci, una voce per ciascuna delle possibili combinazioni padre.
È possibile applicare concetti comparabili a grafi non diretti, e forse anche ciclici, come le reti di Markov.
Usiamo un esempio per chiarire cos'è una rete bayesiana e come funziona. Supponiamo di voler rappresentare le dipendenze che esistono tra tre variabili: l'irrigatore (o, più precisamente, il suo stato, che si riferisce al fatto che sia acceso o spento), la presenza o l'assenza di pioggia e se l'erba è umida o meno. È importante notare che ci sono due cose che potrebbero far bagnare l'erba: un irrigatore in funzione o la pioggia. L'efficacia del sistema di irrigazione è direttamente influenzata dalla pioggia (vale a dire che quando piove, l'irrigatore di solito non è attivo). Una rete bayesiana è uno strumento di modellazione appropriato per questo scenario (mostrato a destra). Ogni variabile può assumere i valori T (che sta per vero) o F (che sta per falso) (per falso).
La regola della catena di probabilità può essere utilizzata per ottenere la funzione di probabilità congiunta come,
dove G sta per "Erba bagnata (vero/falso)", S sta per "Sprinkler acceso (vero/falso)" e R sta per "Piove (vero/falso)".
Il modello è in grado di fornire risposte a domande sull'esistenza di una causa data l'esistenza di un effetto (noto anche come "probabilità inversa"), come "Qual è la probabilità che piova, dato che l'erba è bagnata?" con l'uso della formula per le probabilità condizionali e l'accumulo di tutti i fattori di disturbo:
Utilizzando l'espansione per la funzione di probabilità congiunta e le probabilità condizionali dalle tabelle di probabilità condizionale (CPT) indicate nel diagramma, si è in grado di fare un'analisi su ogni frase inclusa nelle somme al numeratore e al denominatore.
Per esempio
Il passo successivo consiste nell'annotare i risultati numerici, che vengono poi sottoscritti dai relativi valori delle variabili.
Al fine di fornire una soluzione a un'indagine interventistica, come "Qual è la probabilità che piova, dato che abbiamo inzuppato l'erba?" La soluzione è determinata dalla funzione di distribuzione articolare dopo l'intervento.
ottenuto rimuovendo il fattore dalla distribuzione pre-intervento.
L'uso dell'operatore do garantisce che il valore di G sia sempre vero.
L'azione non avrà alcun impatto sulla probabilità di precipitazioni:
Per stimare i risultati dell'attivazione del sistema sprinkler:
con il termine rimosso, dimostrando che il movimento non ha un effetto sulla pioggia ma ha un effetto sull'erba.
Data l'esistenza di fattori invisibili, è possibile che queste previsioni non possano essere realizzate, come nel caso della maggior parte delle questioni di valutazione delle politiche.
L'effetto dell'azione può ancora essere previsto, tuttavia, una volta soddisfatti i criteri stabiliti dalla porta di servizio.
(o blocca) tutti gli altri percorsi che portano da X a Y, quindi
Una definizione di strada dalla porta di servizio è quella che alla fine porta alla lettera X.
Gli insiemi "adeguati" o "ammissibili" sono i termini usati per descrivere quelli che soddisfano la condizione della porta di servizio. Ad esempio, allo scopo di anticipare l'influenza di S = T su G, l'insieme Z = R può essere considerato, perché R d-separa il (solo) percorso della porta di servizio S R G.
Tuttavia, nel caso in cui S non venga visto, non esiste un altro set che d-separa questo percorso, e l'impatto che l'attivazione dell'irrigatore (S = T) avrà sull'erba (G) non può essere dedotto dall'osservazione passiva dell'erba.
In questo particolare scenario, la variabile P(G | do(S = T)) non può essere "riconosciuta".
Questa è un'indicazione del fatto che, una scarsità di dati sugli interventi, La dipendenza osservata tra S e G può essere spiegata da una relazione causale, o può essere spiegata come spuria (un'apparente dipendenza proveniente da una fonte condivisa), R).
(vedi il dilemma di Simpson)
Utilizzando i tre principi del "do-calcolo", si è in grado di stabilire se un nesso causale può essere scoperto o meno sulla base di una rete bayesiana arbitraria che contiene variabili non osservate.
Rispetto all'utilizzo di tabelle di probabilità estese, l'utilizzo di una rete bayesiana può far risparmiare una grande quantità di memoria, se ci sono poche dipendenze nella distribuzione congiunta, si dice che abbia una struttura sparsa.
Ad esempio, un modo ingenuo di memorizzare le probabilità condizionali di 10 variabili a due valori come tabella richiede spazio di archiviazione per i valori.
Se la distribuzione locale di nessuna variabile dipende da più di tre delle sue variabili madri, la rappresentazione di rete bayesiana memorizza la maggior parte dei valori.
Uno dei vantaggi delle reti bayesiane è che è più intuitivamente semplice per un essere umano comprendere (una raccolta sparsa di) distribuzioni locali e relazioni dirette piuttosto che comprendere intere distribuzioni congiunte.
Le reti bayesiane sono responsabili di tre tipi principali di lavoro di inferenza:
È possibile utilizzare una rete bayesiana per rispondere a domande probabilistiche sulle sue variabili e sulle interazioni tra di esse, poiché si tratta di un modello completo per tali variabili e relazioni. Ad esempio, la rete può essere utilizzata per rivedere la propria comprensione dello stato attuale di un sottoinsieme di variabili se viene visualizzato un altro insieme di dati, noti come variabili di evidenza. L'inferenza probabilistica si riferisce al processo di determinazione della distribuzione a posteriori delle variabili in base all'evidenza che è stata presentata. Quando si selezionano valori per il sottoinsieme di variabili che minimizzano alcune funzioni di perdita attesa, come la probabilità di errore decisionale, il posteriore fornisce una statistica universalmente sufficiente per l'uso nelle applicazioni di rilevamento. Questa statistica può essere utilizzata per determinare se un evento è stato rilevato o meno. Un modo per pensare a una rete bayesiana è come un metodo per applicare automaticamente il teorema di Bayes a compiti difficili.
I metodi di inferenza esatta più comuni includono il condizionamento ricorsivo e la ricerca AND/OR, che consentono un compromesso spazio-tempo e corrispondono all'efficienza dell'eliminazione delle variabili. propagazione dell'albero delle cricche, che memorizza nella cache il calcolo in modo che molte variabili possano essere interrogate contemporaneamente e nuove prove possano essere propagate rapidamente. Eliminazione delle variabili, che elimina (mediante integrazione o sommatoria) le variabili non di query non osservate una per una distribuendo la somma sul prodotto. La complessità di ciascuno di questi approcci aumenta a un tasso proporzionale alla larghezza dell'albero della rete. Le tecniche più utilizzate per l'inferenza di approssimazione sono chiamate eliminazione mini-bucket, campionamento di significatività, simulazione MCMC stocastica, propagazione di credenze loopy, propagazione di credenze estese e approcci variazionali.
È necessario, al fine di descrivere correttamente la distribuzione di probabilità congiunta e di definire completamente la rete bayesiana, di indicare per ogni nodo X la distribuzione di probabilità per X condizionata dai...