Leggi di distribuzione (variabili discrete)
Il calcolo delle probabilità
studia situazioni in cui, accanto a condizioni che si riescono a valutare, intervengono fattori difficili da determinare che, per semplificare, si dicono essere
dovuti al caso.
Ad esempio se devo chiedere un'informazione per telefono e voglio valutare quanto mi costerà
la telefonata, posso tener conto che la tariffa prevede un costo fisso di CF cent. per chiamata e un costo di CS cent. per ogni
secondo di conversazione; i valori di CF e CS li posso conoscere a priori (mi basta consultare le condizioni del
contratto con la compagnia telefonica) mentre la durata della telefonata dipende da molti fattori (la persona che ha l'informazione risponde direttamente lei alla chiamata? quanto impiega a reperire l'informazione? con che
velocità parla?
).
Se T è il tempo in secondi per cui durerà la telefonata posso esprime il costo in centesimi col termine
In questa formula CF e CS sono variabili deterministiche, ossia variabili usuali, di cui
(note le condizioni del contratto) si può
determinare il valore; invece T è una variabile
T rappresenta una durata temporale, può assumere valori reali positivi qualunque. Nel caso del lancio di un dado la variabile U che esprime il numero uscito può assumere invece solo i valori 1, 2, 3,
, 6.
Variabili casuali che, come T, possono variare, con continuità, su tutto un intervallo di numeri reali
vengono dette variabili casuali continue, mentre quelle che, come U, possono assumere solo valori
"separati" l'uno dall'altro, elencabili in una successione, vengono dette variabili casuali discrete
("discretus", in latino, è il participio passato di "discernere", che significa "distinguere, separare").
In questa voce approfondiremo lo studio di queste ultime (clicca le immagini
per ingrandirle).
Istogrammi di distribuzione teorica di variabili casuali discrete
Nel caso statistico la media di una distribuzione X la possiamo ottenere (
Indici di posizione)
sommando i prodotti dei valori xk per le loro frequenze relative frk (corrispondenti alle aree delle colonne dell'istogramma sperimentale),
nel caso di una variabile casuale X che possa assumere N valori x1,
,xN faremo
analogamente la somma dei prodotti dei valori xk per le loro probabilità
|
diventa: |
|
Dunque, per il dado non equo ho:
M(U) = (8.5%·1+19.4%·2+12.1%·3+12.1%·4+17.5%·5+30.4%·6) =
(8.5·1+19.4·2+12.1·3+12.1·4+17.5·5+30.4·6)/100 = 4.019 = 4.02 [arrotondando
a 3 cifre]
La media di una variabile casuale X a volte viene chiamata anche speranza matematica o valore atteso
("expected value" in inglese) di X, e indicata
Qual è la media nel caso del numero N dei lanci da effettuare per ottenere testa considerato sopra?
1/2 | +2·1/(22) | +3·1/(23) | +4·1/(24) | +5·1/(25) | ... | +10·1/(210) | +... = 2 |
1/2 | 1 | 1.375 | 1.625 | 1.78125 | ... | 1.98828125 |
M(N) = 2. Se appendessimo un "ipotetico" istogramma di cartoncino di dimensioni infinite come quello di N per un forellino praticato in corrispondenza dell'ascissa 2, esso starebbe in equilibrio.
Nota. In questo esempio l'ultimo "..." sta ad indicare che la somma può
proseguire all'infinito. È un'estensione del concetto di somma che, anche se implicitamente, abbiamo già
incontrato più volte. Ad esempio la scrittura 1.111
, ad intendere che il numero prosegue con una successione infinita
di "1", potrebbe essere sostituita da
Nel caso dell'uscita U del lancio di due dadi equi
l'istogramma di distribuzione di U ha forma simmetrica rispetto alla retta di ascissa 7: quindi la media è M(U) = 7.
Osserviamo che le distribuzioni U1 e U2 delle uscite dei due singoli dadi hanno media
In effetti potevamo dedurre che M(U) = 7 da una proprietà più generale:
se X e Y sono due variabili casuali numeriche aventi medie
Questa proprietà vale sia nel caso sperimentale che in quello teorico, ed è abbastanza evidente; si pensi ad un esperimento con n prove:
M(X+Y) = ((x1+y1)+...+(xn+yn)) / n =
(x1+...+xn)/n +
Data una variabile casuale numerica X diciamo che
la media dei valori assunti da X in un certo numero n di "prove" è una
media sperimentale (o media empirica o media statistica)
di X. A volte questo numero viene indicato con
Ad esempio se U è l'uscita di un dado e faccio
20 lanci, la media dei valori così ottenuti è una media sperimentale di U e posso indicarla con
Se chiamo T la tabellina che associa ad 1,
2, 3,
, 6 le rispettive frequenze ottenute con queste 20 prove, T è una distribuzione statistica (ai valori sono associate le frequenze invece delle probabilità) la cui media
non è altro che uno dei possibili valori che (in un esperimento di lancio dei dadi) può assumere la media sperimentale di U considerata sopra:
Osserviamo che il simbolo M(
) viene usato indifferentemente per le medie "teoriche" e per le medie "sperimentali": dal contesto si comprende quale interpretazione darne,
ossia quando
In modo del tutto analogo avviene il passaggio dalla
varianza sperimentale a quella teorica,
sostituendo le probabilità alle frequenze relative.
Considerazioni analoghe valgono per la
mediana.
Per esemplificare il calcolo esaminiamo la variabile casuale U = "uscita del lancio di un dado equo".
• La mediana è un valore u tale che, nel caso sperimentale,
ha al più il 50% di uscite minori di esso e al più il 50% maggiori; nel caso teorico
la condizione diventa:
• Calcoliamo la varianza: V(U) =
Quindi lo scarto quadratico medio è σ(U) = √(35/12) = 1.7078251.
Nel caso del dado non equo la mediana è 4 in quanto:
Pr(U < 4) = 8.5%+19.4%+12.1% = 40%
Pr(U > 4) = 30.4%+17.5% = 47.9%
Nota. Per la rappresentazioni grafiche delle leggi di distribuzione e per il calcolo di medie e varianze puoi usare R. Qui trovi come studiare la distribuzione del "dado non equo" considerata sopra.
Nel caso dell'uscita U del lancio di due dadi equi, qual è la varianza?
Anche per la varianza si ha:
Var(U1+U2) = Var(U1)+Var(U2) = 35/12 + 35/12 = 35/6.
Questa proprietà vale, però, se X e Y sono indipendenti, non in generale.
Si pensi, come "controesempio", al caso in cui X sia
il numero sulla faccia superiore di un dado equo e Y sia quello sulla faccia inferiore. Se lancio il dado sia X che Y di distribuiscono uniformemente,
con media 3.5 e varianza 35/12. Le facce opposte di un dado hanno numeri
che sommati danno 7, per cui X+Y vale sempre 7. La media è dunque 7,
in accordo col fatto che 3.5+3.5=7, ma la varianza è 0 in quanto
X+Y ha valore costante.
Non dimostriamo questa proprietà. Possiamo controllarla sperimentalmente con R
mediante i comandi a cui puoi accedere da qui
(o con questo script; esamina il codice
sorgente per vedere come è realizzato; lo script è riferito al caso dei due dadi equi; puoi modificarlo per studiare altre leggi).
Analogamente si può controllare sperimentalmente che se X e Y sono indipendenti vale anche
Consideriamo una situazione abbastanza simile a quella delle successive alzate di un mazzo di carte ( dipendenza e indipendenza):
lanciamo una moneta equa 10 volte;
qual è la legge di distribuzione della
variabile casuale:
Sembra un problema stupido, ma vedremo che è il punto di partenza per
affrontare problemi più significativi, come:
un forno automatico
produce mediamente 1 biscotto bruciacchiato ogni 8, e i biscotti sono successivamente mescolati e impacchettati
automaticamente
in confezioni da 6,
• qual è la probabilità
che in una confezione non vi siano biscotti bruciacchiati,
o che ve ne sia 1,
, o che siano tutti bruciacchiati?,
• cioè qual è la legge di distribuzione della
variabile casuale
Proviamo prima a studiare il problema con una simulazione. L'idea è generare 10 volte un numero a caso equamente distribuito tra 0 e 1, pensando 0 come "croce" e 1 come "testa", e prendere come N la somma di questi 10 numeri; infatti tale somma è uguale a numero delle volte che è uscito 1, cioè "testa".
Ecco qua sotto l'analisi (mediante il programma R) degli esiti di una tale simulazione:
n <- 10000; dati <- NULL; for (i in 1:n) dati[i]=sum(floor(runif(10)*2))
hist(dati, seq(-1/2, 10.5, 1), probability=TRUE, col="yellow")
abline(h=seq(0.05,0.25,0.05),lty=3)
summary(dati)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 4.000 5.000 4.982 6.000 10.000
dev.new()
boxplot(dati,horizontal=TRUE, col="yellow", range=0)
# la visulizzazione sul boxplot del 5° e del 95° percentile:
points(quantile(dati,0.05),1,pch=20); points(quantile(dati,0.95),1,pch=20)
Effettuiamo, ora, lo studio teorico. Dobbiamo trovare i valori di Pr(N=0), Pr(N=1), ..., Pr(N=10).
Iniziamo a considerare, per es.,
• Valutiamo la probabilità che testa esca esattamente nei primi 5 lanci (vedi figura a lato).
La probabilità che esca T in un lancio è 1/2, la stessa che esca C. Poiché i dieci lanci sono indipendenti, posso moltiplicare le probabilità. Ottengo che
la probabilità cercata è |
|
• Ottengo lo stesso valore per la probabilità che testa esca nei lanci tra il 2° e il 6° (vedi figura a lato), e per qualunque altra collocazione dei 5 lanci in cui esce testa. | |
• I modi in cui posso scegliere i 5 posti sono C(10,5), dove C(n,k) indica quante sono le combinazioni di n elementi k a k, cioè la quantità dei sottoinsiemi di k elementi di un insieme di n elementi ( calcolo combinatorio). | |
• C(10,5) = 10/5 · 9/4 · 8/3 · 7/2 · 6/1 = 9·4·7 | |
• Quindi, la probabilità cercata, per la proprietà additiva, è la somma di C(10,5) termini uguali a 2–10: | |
Pr(N=5) = C(10,5) · 2-10 = 9·4·7 / 210 = 24.6% |
In generale: | Pr(N = i) = C(10, i) / 210 (i = 0, 1, , 10) |
Per controllare il nostro ragionamento
teorico confrontiamoci con gli esiti della simulazione: dall'istogramma sperimentale
abbiamo, ad es.,
Se lanciassi n volte la moneta avrei, del tutto analogamente:
Pr(N = i) = C(n, i) / 2n (i = 0, 1, …, n)
È un caso particolare di legge di distribuzione binomiale,
discussa più in generale tra un paio di paragrafi. Il nome deriva dalla presenza del
coefficiente binomiale
Ecco l'istogramma di distribuzione teorico nel caso n = 10, che coincide con quello sperimentale nel caso in cui T sia uscita in k lanci esattamente C(n,k) volte: 1 volta 0 teste, 10 volte 1 testa, 45 volte 2 teste, ..., 210 volte 4 teste, 252 volte 5 teste, 210 volte 6 teste, ..., 10 volte 9 teste, 1 volta 10 teste. L'istogramma ha un asse di simmetria verticale, così come il triangolo di Tartaglia.
L'istogramma teorico realizzato con R ("choose" calcola il nostro "C") e (tratteggiato e di colore giallo) quello sperimentale relativo a 2000 lanci. "var" è la varianza. |
|
n <- 2000; dati <- NULL; for (i in 1:n) dati[i]=sum(floor(runif(10)*2)) hist(dati, seq(-1/2, 10.5, 1), probability=TRUE, col="yellow", border="red", lty=3) dati2 <- NULL; for (i in 0:10) dati2 <- c(dati2,rep(i,choose(10,i))) hist(dati2, seq(-1/2, 10.5, 1), probability=TRUE, add=TRUE) abline(h=seq(0.05,0.25,0.05),lty=3) var <- sum( (dati2-mean(dati2))^2 ) / length(dati2); var 2.5 |
L'elaborazione è stata realizzata al computer, come la seguente, per n = 9:
dati3 <- rep(0,choose(9,0)) for (i in 1:9) dati3 <- c(dati3,rep(i,choose(9,i))) hist(dati3, seq(-1/2, 9.5, 1), probability=TRUE) abline(h=seq(0.05,0.25,0.05),lty=3) var <- sum( (dati3-mean(dati3))^2 ) / length(dati3); var 2.25 |
La media, per simmetria, è evidentemente n/2. È naturale congetturare, da questi esempi in cui i calcoli sono stati effettuati dal computer, che la varianza sia n/4 (ho ottenuto 2.5 per n=10, 2.25 per n=9) e che, quindi, lo scarto quadratico medio sia σ = √n/2. La cosa può essere effettivamente dimostrata:
• N = u1 + u2 + ... + un dove
per tutti gli
• i lanci sono indipendenti, quindi la "varianza della somma è la somma delle varianze";
• M(u k) = 1/2; Var(u k) = 1/2 (0-1/2)2 + 1/2 (1-1/2)2 = 1/4; ...
• Var(N) = Var(u1) + ... + Var(un) = 1/4·n = n/4
Torniamo all'esempio del forno, così sintetizzabile:
se un forno
produce mediamente 1 biscotto bruciacchiato ogni 8, qual è la legge di distribuzione della
variabile casuale
Ragioniamo in modo simile a quanto fatto nel caso delle monete.
Sia N la variabile casuale a valori in {0, 1, ..., 6} che rappresenta il numero di biscotti difettosi.
È sensato ritenere (dato il rimescolamento presente prima del confezionamento) che le estrazioni dei biscotti siano una indipendente dall'altra. Quindi la probabilità che esattamente i primi k biscotti estratti siano difettosi è data dal prodotto:
(1/8)·(1/8)· ·(1/8)·(7/8)· ·(7/8) = (1/8)k·(7/8)6-k.
Poiché non ci interessa la disposizione dei biscotti difettosi, abbiamo: Pr(N=k) = C(6,k)·(1/8)k·(7/8)6–k. |
|
Ecco, a sinistra e sotto, elaborazioni grafiche e calcoli effettuati con l'ausilio del computer: | |
media: 0.75 mediana = 0.6331092204 moda: [-0.5,0.5) freq.rel.massima: 44.8795% varianza = 0.65625 |
Qual è la probabilità che una confezione presenti biscotti bruciacchiati?
Trovare la probabilità che vi sia almeno
un biscotto difettoso vuol dire
calcolare
1 C(6,0)·(1/8)0·(7/8)6 = 1 1·1·(7/8)10 = 1 0.4487953... = 55.1% [valore arrotondato]
Generalizzando dal caso di una confezione da 6 ad una da n biscotti, dal caso della difettosità con probabilità di 1/8 a quello della difettosità con probabilità p, abbiamo che la probabilità che in una confezione vi siano k biscotti difettosi è:
Pr(N = k) = C(n, k) · pk · (1 p)nk
Anche questa legge di distribuzione, che generalizza quella considerata nel caso delle monete eque, viene chiamata legge di distribuzione binomiale (o di Bernoulli).
Si applica a tutte le situazioni in cui si ripete n volte la prova su una variabile casuale che può assumere solo due valori, in cui p è la probabilità di uno di questi due valori e N è il numero delle volte in cui questo valore esce.
Possiamo osservare, come già fatto per le monete, che N è interpretabile come
•
•
M(N) = M(Σ i X i) = Σ i M(X i) = p + + p = np e (vedi):
Var(N) = Var(Σ i X i) = Σ i Var(X i) = p(1-p) +
+ p(1-p) =
Nel caso dei biscotti:
in accordo coi valori calcolati direttamente sopra. Si noti che in entrambi i casi la media, np, differisce per meno di un'unità dalla moda (in un caso differisce di 0.6, nell'altro di 0.4). Si può dimostrare che questo accade in generale, per ogni n naturale e per ogni p in (0,1). |
|
Esercizio (e soluzione) |
Il grafico della legge binomiale Bn, p di ordine n e "probabilità di successo nella singola prova" p quando n è molto grande, è pressoché simmetrico rispetto alla retta verticale che ha per ascissa la media, anche se p ≠ 1/2. A lato sono raffigurati per p = 0.2 i casi n = 50, 20, 10 (i punti che rappresentano P(N=k) per k alto hanno ordinata trascurabile rispetto al punto modale, per cui appaiono confusi con l'asse orizzontale). Più n è piccolo, più è evidente la asimmetria, con una "coda" verso destra. |
|
I grafici realizzati con R: | |
n <- 10; plot(0:n,dbinom(0:n,n,0.2),type="h", lwd=3) dev.new(); n <- 20; plot(0:n,dbinom(0:n,n,0.2),type="h", lwd=3) dev.new(); n <- 50; plot(0:n,dbinom(0:n,n,0.2),type="h", lwd=3) |
Nelle situazioni in cui n è molto grande (si pensi a un problema di "pezzi difettosi", come quello dei biscotti, nel caso si debba
valutarne la presenza in una partita di 1000 pezzi), il calcolo dei
coefficienti binomiali diventa molto complicato.
Vedremo, in una voce successiva |
Nota. Il
programma R (in ogni sistema
operativo) ti consente di calcolare e
rappresentare graficamente leggi di distribuzione binomiali (qui trovi come studiare
la distribuzione del "n° di biscotti bruciacchiati per confezione" considerata sopra)
Nell'esercizio 3.13, presente tra gli "altri esercizi" a cui puoi accedere da qui sotto, sono illustrati significato ed uso della legge
di distribuzione multinomiale, che generalizza la legge binomiale.
Vedi qui per un uso di R impiegando la libreria