Un certo test sanitario per valutare la presenza (esito positivo) o assenza (esito negativo) della malattia X ha attendibilità del 95% (in caso di presenza c'è il 95% di probabilità che l'esito sia positivo , in caso di assenza il 95% di probabilità che sia negativo). Si sa da statistiche serie che l'1% della popolazione è affetta dalla malattia X. Se per una persona il test dà esito positivo, qual è la probabilità che essa sia realmente malata?

Devo determinare Pr("essere malato" | "risultare positivo"):

 Pr("essere malato" AND "risultare positivo")
 ————————————————————————————————————————————
         Pr("risultare positivo")

Per calcolare il rapporto devo trovare il valore dei "?" della seguente tabella a 2 entrate (il valore di ogni casella dipende da due input: la condizione rispetto al test - riga - e quella rispetto alla malattia - colonna):
metto i dati sulla popolazione (prime 2 colonne dell'ultima riga), poi utilizzo il dato sull'attendibilità del test (per ottenere le prime 2 colonne della 1ª riga: 1·95%=0.95, 99·5%=4.95), infine completo la 1ª riga: 0.95+4.95=5.90).

malatisanitotalemalatisanitotalemalatisanitotale
positivi 
? ?
   
199100
0.954.95?
   
199100
0.954.955.90
   
199100
negativi 
totale

    La probabilità cercata è dunque 0.95% / 5.90% = 16%, molto meno di 95%, come si sarebbe potuto pensare.
    In alternativa all'uso della tabella, per trovare Pr("risultare positivo") potevo usare un grafo ad albero, come si è fatto a lato.

 

    Questo esempio evidenzia il ruolo del calcolo delle probabilità nella razionalizzazione delle situazioni "incerte".
    Esso non è tuttavia sempre sufficiente: si pensi ai vaccini, che a volte hanno una certa probabilità di causare l'insorgere delle malattie stesse; per decidere se rendere obbligatoria una vaccinazione non basta trovare che tale probabilità è bassa rispetto alla diffusione della malattia: imporre a chi potrebbe rimanere sano una vaccinazione che può causare una malattia comporta valutazioni anche di tipo morale.
    Vi sono anche casi in cui si ricorre a valutazioni probabilistiche erronee perché basate su campioni mal scelti o per altri difetti metodologici:  tipico è l'esempio di un sondaggio telefonico che può avere come risposta A o B in cui si tenga conto solo di chi accetta di rispondere senza considerare il fatto che coloro che non vogliono rispondere potrebbero, per la natura della questione, essere più inclini a una delle due risposte.
    E vi sono casi in cui se ne fa un uso improprio, ad es. quando si confonde la presenza di una relazione di dipendenza probabilistica con la presenza di un legame di causa-effetto:  se X è una certa malattia o un certo comportamento, il fatto che esso si riscontri più facilmente tra familiari, più precisamente il fatto che Pr("avere X" | "avere genitori o fratelli con X") > Pr("avere X" | NOT "avere genitori o fratelli con X"), non permette di concludere che all'origine di X vi siano essenzialmente fattori genetici; infatti i fattori principali potrebbero essere di tipo ambientale o sociale, e la relazione probabilistica trovata potrebbe essere dovuta al fatto che è più facile condividere usi, costumi e ambienti con un familiare che con un estraneo.