>>>>>

Scheda 3 - Probabilità condizionata, legge di distribuzione binomiale

3. Tabelle di CONTINGENZA. Probabilita` CONDIZIONATA. Formula di BAYES. LIMITI del calcolo delle probabilita`.

    Affrontiamo un ulteriore quesito, che ci fornirà lo spunto per approfondire il concetto di dipendenza/indipendenza di eventi e variabili casuali.

7

  Per svolgere alcuni mestieri, molto diffusi, occorre affrontare un test sanitario che accerti l'eventuale presenza (esito positivo) o l'assenza (esito negativo) della malattia X. Il test ha un'attendibilità del 95% (nel senso che in caso di presenza c'è il 95% di probabilità che si ottenga un esito positivo e in caso di assenza c'è il 95% di probabilità che si ottenga un esito negativo). Si sa, da statistiche serie, che l'1% della popolazione in età lavorativa è affetta da tale malattia.
    Se per una persona il test dà esito positivo, qual è la probabilità che essa sia affetta dalla malattia X?

    Nell'affrontare il quesito abbiamo utilizzato una tabella analoga a quella impiegata in §1 per introdurre il concetto di indipendenza stocastica. Tabelle a due entrate come queste, in cui sono rappresentate contemporaneamente le probabilità (o le frequenze relative) di due sistemi completi di eventi incompatibili vengono dette tabelle di contingenza.
    In §1 i due sistemi di eventi erano "la persona ha capelli biondi" e "la persona ha capelli non biondi" il primo, "la persona è un maschio" e "la persona è una femmina" il secondo.
    Nei commenti al quesito 7 i due sistemi di eventi erano uno: "la persona ha avuto esito del test positivo" e "la … negativo", l'altro: "la persona ha la malattia X" e "la … non ha …".

    Queste tabelle possono essere utili per semplificare, in analogia con l'uso dei grafi:

  il ricorso alle proprietà delle misure di probabilità (come si è fatto per il quesito 7: sommare le righe equivale ad applicare la proprietà additiva, fare complementi equivale ad applicare la proprietà Pr(not A)=1–Pr(A), …),

  l'applicazione della regola del prodotto quando le due variabili siano indipendenti (come si è fatto nel paragrafo 1),

  la verifica, nel caso in cui la tabella sia già completa, dell'indipendenza delle due variabili (basta controllare se le righe o le colonne sono tra loro proporzionali).

8

   Utilizzando la tabella a lato, valuta se sesso e settore di attività (classificato in "agricoltura", "industria", "altre attività") in cui una persona (in Italia nel 1991) era occupata possono essere ritenuti stocasticamente indipendenti e, in caso negativo, se, almeno, l'occupazione in agricoltura o l'occupazione nell'industria o quella in "altre attività" è indipendente dal sesso.
 
settoreMF
agricoltura1.170.66
industria5.261.66
altre attiv.7.685.18
totale14.107.49
(1991; dati in milioni)

 

    Affrontando il quesito 7 abbiamo introdotto il concetto di probabilità condizionata, definendolo in questo modo:

                Pr(A and B)
       Pr(A|B) = ——————————
                   Pr(B)

    Osserviamo che, come è verificabile immediatamente usando le definizioni:

A e B sono indipendenti se e solo se Pr(A|B)=Pr(A) [ovvero se e solo se Pr(B|A)=Pr(B)]

    Il problema «qual è la probabilità che estraendo 2 carte queste abbiano lo stesso colore?», già risolto usando le "caselle" ( quesito 5), può essere risolto anche usando i grafi.

    I grafi possono essere impiegati anche per studiare eventi riferiti a variabili U1 e U2 non indipendenti, come qui, se U1 e U2 indicano il colore uscito alla 1ª e alla 2ª estrazione.

    In questi casi, le diramazioni da archi dello stesso livello non sono le stesse, ma dipendono dall'arco da cui escono.

    "In formule", utilizzando la definizione di probabilità condizionata, avremmo:

  

Pr(U1="R" and U2="R")  +  Pr(U1="N" and U2="N")  =
Pr(U2="R" | U1="R") · Pr(U1="R")  +  Pr(U2="N" | U1="N") · Pr(U1="N")  =

[A volte questa immediata applicazione della definizione di probabilità condizionata viene chiamata teorema della probabilità totale ]

    Anche per il calcolo di Pr("essere positivo"), nella soluzione del quesito 7, si poteva utilizzare una grafo ad albero ( grafo a fianco).

 

Nota. Se sostituiamo i sistemi di eventi della soluzione del quesito 7) con i generici sistemi di eventi A, not A e B, not B, e sintetizziamo il procedimento svolto sotto forma di equazione, otteniamo la seguente formula, nota come formula di Bayes (o come teorema delle ipotesi):

       
Pr(A|B) = 

          Pr(A)·Pr(B|A) 
————————————————————————————— = 
 Pr(A) · Pr(B|A) + Pr(NOT A) · Pr(B | NOT A)

    1%·95%
————————————— 
1%·95% + 99%·5%

che può essere generalizzata dal gruppo completo di 2 eventi incompatibili A, not A a un gruppo completo di n eventi incompatibili A1, …, An:

se Pr(Ai)>0 (per i=1,…n) e Pr(B)>0 si ha:   Pr(A1|B) = Pr(A1)·Pr(B|A1) / ΣiPr(Ai)·Pr(B|Ai)

 
    Il quesito 7 ha messo bene in luce il ruolo che il calcolo delle probabilità può svolgere per affrontare razionalmente l'analisi di situazioni che presentano elementi di incertezza e, di conseguenza, comportarsi in modo consapevole, non emotivo. È importante sottilineare questo aspetto anche agli alunni, così come il ruolo che statistica e probabilità possono avere nell'interpretazione corretta delle informazioni che provengono dai mass-media o da altre fonti. In particolare è opportuno far osservare che spesso si ritengono "strani" (e si attribuiscono a magie, miracoli, presenze extraterrestri, …) fenomeni che sono solo poco probabili o, a volte, non sono neanche poco probabili. Un problema "tipico" che illustra questa considerazione è: "Qual è la probabilità che in una classe di 25 alunni almeno 2 siano nati nello stesso giorno dell'anno?". In prima battuta sembra che si tratti di un evento piuttosto raro, ma:

–   la probabilità che gli alunni siano nati in giorni tutti diversi è Q=364/365·…·341/365 = 43%, infatti:

Sia Gn il giorno di nascita dell'alunno n-esimo nel registro di classe.
- La probabilità che G2 sia diverso da G1 è 364/365 (364 possibilità su 365).
- La probabilità che G3 sia diverso da G1 e da G2 è 363/365 e quella che, inoltre, G2 sia diverso da G1 è (364/365)·(363/365)=364/365·363/365
- …
- La probabilità che G25 sia diverso da G1, G2, … e G24 è 341/365 e quella che tutti i Gn (n=1,…,25) siano diversi tra loro è 364/365·…·341/365

–   da cui la probabilità che almeno 2 siano nati nello stesso giorno è 1–43% = 57%.

9

  (1)   X, noto professionista, arriva alla stazione per prendere il treno per un importante viaggio di lavoro quando si accorge di aver dimenticato la carta di credito e di aver nel portafoglio solo 50 mila lire, insufficienti per il biglietto: mancano 30 mila lire. Allora X decide di scommettere 50 mila lire (con un'altra persona) che giocando a bim-bum-bam esca un numero multiplo di 3. La decisione di X è conveniente?
(2)   Un gruppo di medici, utilizzando indagini statistiche, ha concluso che la malattia X (che fino ad allora si riteneva fosse causata dal tipo di alimentazione) è essenzialmente dovuta a fattori genetici. Infatti dalle statistiche ha dedotto che:
 Pr("avere X" | "avere genitori o fratelli con X") > Pr("avere X" | not "avere genitori o fratelli con X")
È corretta questa conclusione? Perché?

 
    La parte (1) del quesito 9 mette in luce che, se è vero che il calcolo delle probabilità permette di razionalizzare le situazioni "incerte" in modo da rendere le scelte più consapevoli, tuttavia esso non è sufficiente a stabilire qual è la scelta più "conveniente": nella decisione possono intervenire altri ragionamenti.

    Anche giocando a "7 e 1/2" e ad altri giochi in cui ha un ruolo importante l'"azzardo", non si usa solo la probabilità come criterio per decidere le mosse: si può bluffare o, se si fanno delle scommesse, l'ammontare dell'eventuale vincita può influire sulla valutazione di che cosa è più conveniente fare. Anche nelle lotterie si è di fronte a situazioni simili: dal punto di vista probabilistico giocare è sempre sconveniente: solo una parte dell'incasso derivante dalla vendita dei biglietti viene utilizzata per pagare le vincite, per cui la vincita media è inferiore al prezzo del biglietto; ma nella decisione di acquistare un biglietto la valutazione probabilistica può essere controbilanciata da altre valutazioni di tipo economico, di tipo edonistico, …

    Per un altro esempio si pensi ai vaccini contro le malattie. Molti di essi hanno una certa probabilità di causare l'insorgere della malattia. Nella valutazione se è il caso di rendere obbligatoria la vaccinazione occorre tener conto sia di questa probabilità che della diffusione della malattia.

    Ad esempio se al momento la malattia ha una diffusione del 20%, se il vaccino ha il 4% di probabilità di provocare l'insorgere della malattia, il 90% di rendere immuni e il 6% di non avere effetti, possiamo ritenere statisticamente conveniente imporre la vaccinazione (a regime, si passerebbe dal 20% di malati al 4%+6%·20%=5.2%).

    Ma imporre a delle persone, che potrebbero comunque rimanere sane, una vaccinazione che può causare una malattia comporta valutazioni anche di tipo morale.

    Nell'insegnamento è opportuno mettere in luce i limiti del calcolo delle probabilità, sia nel senso, appena visto, che in molte situazioni il ricorso al calcolo delle probabilità non è risolutivo, sia nel senso che è facile incontrare situazioni in cui, per giustificare scelte o conclusioni, si ricorre a valutazioni probabilistiche in modo errato o a sproposito.

    La parte (2) del quesito 9 ha illustrato un errore frequente: quello di confondere la presenza di una relazione di dipendenza probabilistica con la presenza di un legame di causa-effetto. Su ciò (e sul concetto di correlazione, più forte di quello della dipendenza probabilistica) ritorneremo nella scheda 7.

    Un altro errore frequente è illustrato dal seguente esempio:

Gli "esperti" della trasmissione televisiva "Come la pensano gli italiani" effettuano un sondaggio telefonico tra gli abitanti della città X sulle future elezioni del sindaco, carica a cui sono candidati i politici A e B.

Mediante il programma:

 10 PRINT "pagina:"; FIX(RND*563)+1, "posto:"; FIX(RND*360)+1: GOTO 10

scelgono dall'elenco telefonico (costituito da 563 pagine, ciascuna con 360 nominativi) i nominativi delle persone da chiamare. Su 730 persone che rispondono al telefono, 243 dichiarano di preferire il candidato A, 226 dichiarano di preferire il candidato B, gli altri sono incerti o preferiscono non rispondere. Nella trasmissione viene detto che dal sondaggio effettuato risulta che il 52% degli abitanti voterà il candidato A. Infatti è stato calcolato il rapporto tra 243 e il totale di coloro che hanno compiuto una scelta tra A e B. Ma non facendo valutazioni probabilistiche suffragate da qualche altra indagine su come, al momento del voto, potrebbero distribuirsi i, molti, voti degli incerti e di chi preferisce non comunicare le sue opinioni, non si può formulare una previsione seria.

    Per una sintesi degli argomenti affrontati nei primi paragrafi della scheda 3 puoi vedere la voce Dipendenza e indipendenza de Gli Oggetti Matematici.

<<<     Paragrafo precedente Paragrafo successivo     >>>