In questa voce ci occuperemo di alcune (tra le molte) tecniche per prendere delle decisoni sulla base di dati statistici raccolti sperimentalmente.
Verifica della verosimiglianza delle ipotesi
Valutata la probabilità di un evento o individuata una legge di distribuzione o … solo sulla base di dati sperimentali, non abbiamo la certezza di questa conclusione. Possiamo, comunque, porci il problema di quanto sia verosimile l'ipotesi che il valore o la funzione o … individuata sia effettivamente una buona approssimazione, cioè valutare la probabilità che il suo scarto dall'oggetto (valore, funzione, …) "vero" rientri nei margini di aleatorietà dovuta alla limitatezza del materiale statistico a disposizione. In base a questa valutazione, a seconda della situazione (con considerazioni pratiche, legate al contesto, ai rischi sociali, …), potremo stabilire se tale ipotesi è accettabile o è da rifiutare.
Abbiamo affrontato attività di questo tipo alla voce
limiti in probabilità:
all'intervallo frequenza
Se in base a qualche ragionamento ho ipotizzato che Pr(A) sia 3/7 e
trovo che 3/7 sta nell'intervallo frequenza
In questa voce vedremo in particolare come valutare l'attendibilità di una legge di distribuzione.
Verifica della verosimiglianza di una legge di distribuzione.
Il test "chi quadro".
Poniamoci il problema di valutare la conformità tra una distribuzione sperimentale e una teorica.
Per valutare la discordanza tra un valore sperimentale Us e un valore teorico U uso la differenza (o errore o scarto o deviazione) Us–U.
Come valutare la discordanza tra gli esiti di n prove, classificati in nc classi, e una certa legge di distribuzione?
Supponiamo di voler confrontare con la distribuzione Pr(U=2)=1/36, Pr(U=3)=2/36, gli esiti del lancio di una coppia di dadi ripetuto n volte. Indichiamo con FreqOss1, , FreqOss11 le frequenze assolute osservate (FreqOss1 + FreqOss11= n) e con FreqAtt1, , FreqAtt11 le frequenze assolute attese, cioè i valori che si otterrebbero da FrequenzaAssoluta = n · FrequenzaRelativa mettendo Probabilità al posto di FrequenzaRelativa: FreqAtt1 = n·1/36, FreqAtt2 = n·2/36, ….
|
|
Una idea è prendere X =
A parità di valore, uno scarto da una frequenza attesa bassa deve però essere pesato di più di uno da una frequenza attesa alta: la deformazione dall'istogramma teorico è maggiore se si è in un punto in cui il grafico è basso. Per migliorare la valutazione della difformità considero gli scarti quadratici relativi: |
| X = Σ(FreqOssi−FreqAtti)2 / FreqAtti |
Nel caso di un'altra variabile casuale U le frequenze attese in ciascuna delle nc classi (intervallini o altri insiemi) Ii in cui ho classificato gli n dati saranno calcolate analogamente:
FreqAtti = n·pi, dove pi = Pr(U ∈ Ii), i = 1, , nc.
Se U è continua Pr(U ∈ Ii) sarà calcolato integrando su Ii la funzione densità.
X è una variabile aleatoria (ogni volta che effettuo n prove X assume un valore casuale) che,
oltre che dal fenomeno studiato, dipende dal numero delle prove n, dalle classi I1,
, Inc scelte e dai valori
Nel caso di fenomeni che seguano realmente la legge L, X avrà una certa distribuzione teorica. Se confronto il valore X* di X che ottengo per un particolare fenomeno con tale distribuzione teorica, posso valutarne la "normalità": se X* è anormale posso ritenere non verosimile che il fenomeno si manifesti secondo la legge L.
| Indichiamo con χ2 ("chi quadro") X o X*, a seconda dei casi, lasciando al contesto il superamento dell'ambiguità. |
|
Consideriamo ad esempio un dado di cui si sono effettuati 50 lanci ottenendo 9 uno, 11 due, 5 tre, 8 quattro, 10 cinque e 7 sei e, per valutare la discordanza dalla distribuzione uniforme (distribuzione corrispondente ai dadi equi), calcoliamo il relativo χ2. Poniamoci, poi, il problema di individuare la distribuzione χ2 teorica nel caso in cui il dado sia realmente equo, in modo da poter confrontare con essa il χ2 trovato e valutare la verosimiglianza dell'equità del nostro dado.
Potremmo svolgere il calcolo "a mano". Effettuiamolo mediante il programma R. Otteniamo 2.8.
FrOss <- c(9,11,5,8,10,7)
Prob <- c(1/6,1/6,1/6,1/6,1/6,1/6)
n <- sum(FrOss);
sum((FrOss-n*Prob)^2/(n*Prob))
2.8
Effettuato questo calcolo, che cosa possiamo concludere sulla equità del dado?
Studiamo la distribuzione teorica χ2, cioè come si distribuirebbe il valore di χ2 se il dado fosse equo.
| Realizziamo questo studio sperimentalmente, con una simulazione. Ecco l'esito della generazione di 5000 valori, analizzato con R: | |
| Prob <- c(1/6,1/6,1/6,1/6,1/6,1/6); x <- 0 for (prov in 1:5000) { y <- 0; for(i in 1:6) y[i] <- 0; for (i in 1:50) { u <- floor(runif(1)*6+1); y[u] <- y[u]+1} # ho scelto a caso 50 uscite e le ho classificate x[prov] <- sum((y-50*Prob)^2/(50*Prob)) } summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.160 2.800 4.240 5.007 6.640 26.080 hist(x,probability=TRUE,right=FALSE,seq(0,27,1)) abline(h=c(0.05,0.1,0.15),lty=3) |
|
Posso osservare dall'istogramma che 2.8 è un valore abbastanza centrale. Calcolando anche i percentili trovo che 2.8 è il 25° percentile, cioè il limite sinistro del 50% centrale dei dati. Quindi posso ritenere plausibile (cioè non rifiutare) l'ipotesi che il dado sia equo. Se avessi ottenuto un valore verso la coda sinistra o quella destra avrei invece dovuto avere dubbi su tale ipotesi: se è verso la coda destra si tratta di un valore molto alto, che fa supporre un dado non equo; se è verso la coda sinistra si tratta di un valore molto basso, ma un po' troppo "perfetto", che fa supporre che ci sia stato qualche errore (o qualche "imbroglio") nel riportare le frequenze. In tali casi, prima di scartare l'ipotesi, sarebbe stato opportuno, se possibile, ripetere i lanci, ricalcolare χ2 e valutare la posizione del nuovo valore rispetto all'istogramma sopra riprodotto (o rispetto ai percentili).
Nel caso di un'altra legge di distribuzione L, altre classi o un altro numero n di prove, ad esempio nel caso dell'esempio iniziale o del quesito 12, si può procedere analogamente: studiare sperimentalmente con una simulazione la distribuzione del relativo χ2 e confrontare con essa il valore calcolato di χ2.
In genere, tuttavia, si preferisce utilizzare un procedimento standard di tipo generale, che ha il seguente retroterra teorico:
si può dimostrare che, se il numero n delle prove è sufficientemente grande, la legge di distribuzione teorica di χ2 è praticamente indipendente dalla legge di distribuzione L:
|
per n tendente all'infinito tende a una legge χ2(r) che dipende solo dal numero r dei gradi di libertà, cioè dalla quantità delle frequenze sperimentali che devo conoscere direttamente. |
|
Spieghiamo meglio il concetto di "grado di libertà" con alcuni esempi.
Nel caso del dado sopra considerato, sappiamo che le frequenze FrOss1, FrOss2, , FrOss6 devono avere come somma n: questa connessione fa sì che note 5 frequenze la rimanente sia determinata automaticamente. Questa connessione è presente in tutti i casi. Quindi i gradi di libertà sono in ogni caso al più nc−1 (nc = numero delle classi).
Nel caso di una variabile casuale a valori in (0,∞),
se FrOss1,…, FrOss16 sono le frequenze osservate nei 16 intervalli [0,5), [5,10), …
e voglio operare il confronto con la densità esponenziale
[Pr(U∈I1),
Pr(U∈I2),
in questo caso sono gli integrali tra 0 e 5, tra 5 e 10,
della densità,
cioè F(5)–
Se, invece, come w avessi scelto un valore stabilito a priori, non dipendente dai dati sperimentali, non avrei avuto la connessione ΣxiFrOssi/n=M, e i gradi di libertà sarebbero stati 15.
La densità di χ2(r) non è
facile da descrivere analiticamente e non è integrabile elementarmente. Per determinare i percentili
di tale legge possiamo ricorrere alla seguente tabulazione per vari gradi di libertà
o ricorrere all'uso di R, che ha la funzione
grado di percentili libertà 2.5% 5% 10% 20% 30% 50% 70% 80% 90% 95% 97.5% 1 .001 .004 .02 .06 0.1 0.5 1.0 1.6 2.7 3.8 5.0 2 0.05 0.1 0.2 0.4 0.7 1.4 2.4 3.2 4.6 6.0 7.4 3 0.2 0.4 0.6 1.0 1.4 2.4 3.7 4.6 6.3 7.8 9.4 4 0.5 0.7 1.1 1.6 2.2 3.4 4.9 6.0 7.8 9.5 11.1 5 0.8 1.1 1.6 2.3 3.0 4.4 6.1 7.3 9.2 11.1 12.8 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 6 1.2 1.6 2.2 3.1 3.8 5.3 7.2 8.6 10.6 12.6 14.4 7 1.7 2.2 2.8 3.8 4.7 6.3 8.4 9.8 12.0 14.1 16.0 8 2.2 2.7 3.5 4.6 5.5 7.3 9.5 11.0 13.4 15.5 17.5 9 2.7 3.3 4.2 5.4 6.4 8.3 10.7 12.2 14.7 16.9 19.0 10 3.2 3.9 4.9 6.2 7.3 9.3 11.8 13.4 16.0 18.3 20.5 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 11 3.8 4.6 5.6 7.0 8.1 10.3 12.9 14.6 17.3 19.7 21.9 12 4.4 5.2 6.3 7.8 9.0 11.3 14.0 15.8 18.5 21.0 23.3 13 5.0 5.9 7.0 8.6 9.9 12.3 15.1 17.0 19.8 22.4 24.7 14 5.6 6.6 7.8 9.5 10.8 13.3 16.2 18.2 21.1 23.7 26.1 15 6.3 7.3 8.5 10.3 11.7 14.3 17.3 19.3 22.3 25.0 27.5 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 16 6.9 8.0 9.3 11.2 12.6 15.3 18.4 20.5 23.5 26.3 28.8 17 7.6 8.7 10.1 12.0 13.5 16.3 19.5 21.6 24.8 27.6 30.2 18 8.2 9.4 10.9 12.9 14.4 17.3 20.6 22.8 26.0 28.9 31.5 19 8.9 10.1 11.7 13.7 15.4 18.3 21.7 23.9 27.2 30,1 32.9 20 9.6 10.9 12.4 14.6 16.3 19.3 22.8 25.0 28.4 31.4 34.2 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 25 13.1 14.6 16.5 18.9 20.9 24.3 28.2 30.7 34.4 37.7 40.6 30 16.8 18.5 20.6 23.4 25.5 29.3 33.5 36.2 40.3 43.8 47.0 35 20.6 22.5 24.8 27.8 30.2 34.3 38.9 41.8 46.1 49.8 53.2 40 24.4 26.5 29.1 32.3 34.9 39.3 44.2 47.3 51.8 55.8 59.3 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 60 40.5 43.2 46.5 50.6 53.8 59.3 65.2 69.0 74.4 79.1 83.3 80 57.1 60.4 64.3 69.2 72.9 79.3 86.1 90.4 96.6 101.9 106.6 100 74.2 77.9 82.4 87.9 92.1 99.3 106.9 111.7 118.5 123.3 129.6 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 200 163 168 175 183 189 199.3 210 217 226 234 241 |
Ecco come ottenere facilmente con R alcuni percentili
corrispondenti a 6 gradi di libertà:
qchisq(c(2.5,5,10,20,30,50,70,80,90,95,97.5)/100, df=6)
[1] 1.237344 1.635383 2.204131 3.070088 3.827552 5.348121
[7] 7.231135 8.558060 10.644641 12.591587 14.449375
ovvero:
round(qchisq(c(2.5,5,10,20,30,50,70,80,90,95,97.5)/100, df=6),2)
[1] 1.24 1.64 2.20 3.07 3.83 5.35 7.23 8.56 10.64 12.59 14.45
Tornando al nostro dado, se come χ2 invece di 2.8 (che è intorno al 25° percentile di χ2(5) - qchisq(0.25,df=5) = 2.67 - e quindi è abbastanza "normale") avessimo ottenuto 13 avremmo dovuto manifestare qualche dubbio sul fatto che il dado sia equo: c'è una discordanza molto alta rispetto alla legge uniforme; il valore è oltre il 95° percentile.
Nota. L'ordine di un dato percentile e un dato grado di libertà lo posso
trovare facilmente con R. Basta risolvere numericamente delle equazioni usando il
comando uniroot(funzione,intervallo):
# qchisq(o,df=g): percentile di ordine o e grado di liberta' g
# v(x,g): ordine del percentile che vale x (se il grado e' g)
v <- function(x,g) {p <- function(o) qchisq(o,df=g)-x; uniroot(p,c(0,0.99999))$root}
v(2.8, 5)*100 # troviamo l'ordine dei percentili di cui le paragrafo precedente
[1] 26.92139
v(13, 5)*100
[1] 97.66215
Ma anche se avessimo ottenuto una discordanza molto bassa, ad esempio χ2<1, avremmo dovuto avere dei dubbi sulla equità del dado o sulla attendibilità dei dati fornitici: è improbabile (la probabilità è inferiore al 5%: il 5° percentile è 1.1) che si ottenga un valore inferiore a 1.
Un amico mi dice: Questa moneta è equa. Infatti su 1000 lanci ho ottenuto 499 "testa" e 501 "croce". Che cosa possiamo concludere sulla verosimiglianza di quanto raccontato dall'amico?
Trovo χ2 = (499–500)2/500+(501−500)2/500 = 2/500 = 4/1000.
[
FrOss <- c(499,501); Prob <- c(1/2,1/2); n <- sum(FrOss)
sum((FrOss-n*Prob)^2/(n*Prob))
[1] 0.004 ]
Dalla tabulazione ho che 0.004 corrisponde circa al percentile di ordine 5. Si tratta quindi di un valore piuttosto anormale. È sensato ritenere che l'amico ci abbia raccontato una frottola.
Nell'usare la distribuzione del χ2 limite occorre prestare qualche attenzione: occorre che le prove siano numerose (diciamo, almeno un centinaio); occorre, inoltre, che in ogni classe cadano abbastanza valori (diciamo, almeno 5); se in qualche classe cadono poche osservazioni è opportuno unire questa classe ad un'altra.
Il "test χ2" considerato nel paragrafo precedente è un "test di adattamento": è usato per valutare l'adattamento di una certa distribuzione teorica a una serie di dati sperimentali.
Se si assume come regione di non rifiuto (o, meglio, di coerenza o conformità tra dati e teoria) il 95% centrale, cioè l'intervallo compreso tra il percentile di ordine 2.5 e il percentile di ordine 97.5, si dice anche che l'ipotesi viene testata con un livello di confidenza (o di fiducia) del 95%: è la probabilità che, se l'ipotesi fosse "vera", la regione di coerenza contenga il valore di χ2, ovvero il test dia esito positivo.
Il complemento a 1 del livello di confidenza è l'ampiezza della regione complementare, cioè della regione critica (o di incoerenza); tale ampiezza viene invece chiamata livello di significatività (in questo caso è: 195%=5%): è la probabilità che, se l'ipotesi fosse "vera", la regione di incoerenza contenga il valore di χ2, ovvero il test dia ("erroneamente") esito negativo.
Esistono molti altri tipi di test statistici. Vediamone solo un paio.
Nella tabella seguente sono riportati i dati di un'indagine campionaria, relativamente ad alcune regioni e al 1990, sulla distribuzione delle abitazioni secondo la superficie abitata (area espressa in metri quadrati):
|
a) si verifichi l'ipotesi: non c'è differenza significativa (5%) tra le medie delle superfici delle diverse regioni; b) si verifichi l'ipotesi: non c'è differenza significativa (5%) tra le distribuzioni relative alle diverse regioni. | ||||||||||||||||||||||||||
Quesito a. Devo verificare la plausibilità che le medie teoriche
delle superfici abitate delle tre regioni non siano diverse, cioè che due a due abbiano
differenza 0. Devo valutare se lo scarto da 0 della differenza tra le due medie sperimentali è accettabile
come "normale" con confidenza del 95%, cioè se l'intervallo di confidenza al 95% della differenza delle medie
(l'intervallo in cui al 95% cade la differenza teorica, cioè la differenza riferita alla popolazione limite)
contiene 0.
Parlando di differenza significativa si intende dire che si deve assumere 5% come livello di
significatività, cioè come ampiezza della regione di rifiuto, ossia 100%(probabilità di confidenza).
Le medie hanno, tendenzialmente, distribuzione gaussiana. La differenza delle medie è
la media delle differenze, che sarà anch'essa, tendenzialmente, gaussiana. Devo trovare il σ di questa gaussiana.
Per determinare le medie individuo
il valore centrale degli intervalli; nel caso del primo intervallo, 50-95, cioè [50,96),
il valore centrale è 50+semiampiezza = 50+23 = 73; i valori centrali degli altri intervalli sono 103.5, 121, 166.
Considero Campania e Liguria.
Stima della superficie abitata in Liguria: ML = (130·73+11·103.5+…)/(130+ 11+…) =
12184.5/152 = 80.16. Analogamente MC = 102.84=103, MS = 92.85.
La differenza tra le due medie sperimentali è 22.68.
La varianza della differenza è la somma delle varianze; le varianze delle
due medie (calcolate a mano o con STAT, una calcolatrice o un foglio di calcolo) sono 2.593 e 0.147; quindi
σ =
Al 95.4% (significatività del 4.6%) il valore dovrebbe cadere in [m2σ, m+2σ] = [01.66·2, 0+1.66·2] = [3.32, 3.32], che non contiene 22.68. A maggior ragione l'ipotesi è da rifiutare al livello di significatività del 5% (per avere una confidenza al 95% occorre prendere, invece di 2·σ, t·σ con t = 1.96; l'intervallo di confidenza diventa [1.66·1.96, 1.66·1.96] = [3.25, 3.25]).
Quesito b. La richiesta equivale al fatto che le tre distribuzioni siano tendenzialmente proporzionali, cioè al fatto che la modalità "regione" sia indipendente dalla modalità "superficie".
Dobbiamo quindi confrontare le frequenze sperimentali nelle 12 celle della tabella la cella incrocio della riga "Liguria" e della colonna [50,96), …, quella incrocio di "Sicilia" e [131,200) con le frequenze attese i prodotti (frequenza di "Liguria")·(frequenza di [50,96)), , (frequenza di "Sicilia")·(frequenza di [131,200)). Si fa ciò usando il test χ2. Si ottiene χ2=1342.
I gradi di libertà sono (41)·(3-1) = 6; infatti fissate le frequenze totali delle 4 regioni e delle 3 classi di appartamento (sono i valori che uso per calcolare le frequenze attese), di ogni riga mi basta conoscere 3 celle (la quarta la ottengo usando la frequenza totale della riga) e, analogamente, di ogni colonna 31=2 celle. Dalla tabulazione di χ2 si ottiene la non normalità (al 95%) di questo valore: l'intervallo di normalità al 95% dovrebbe essere quello compreso tra i percentili di ordine 2.5 e 97.5, cioè:
round(qchisq(c(2.5, 97.5)/100, df=6),2) [1] 1.24 14.45
Questi sono tipici esempi in cui a occhio, guardando le tabelle, si vede che le ipotesi considerate sono sicuramente da rifiutare. I valori molto grandi di χ2 confermano bene ciò. Sono esempi in cui non è molto "sensato" porsi il problema di usare il test χ2. Li abbiamo fatti solo per esemplificare i test.
Accanto al concetto di livello di confidenza di un test,
richiamato sopra, cioè la probabilità
Accanto al rischio di commettere un cosiddetto errore di tipo I, ossia di ottenere erroneamente esito
negativo (livello di significatività, o α-rischio, già
discusso), si considera anche il rischio di commettere un errore di tipo II, ossia di ottenere erroneamente
esito positivo (β-rischio).
A volte si usa il test χ2 non in modo "bilaterale" come si è fatto qui, cioè rifiutando, come anormali, anche le ipotesi che danno luogo a valori di χ2 "piccoli", ma in modo "unilaterale", rifiutando solo i casi in cui si ottengono χ2 "alti" (ad es. a una significatività del 5% corrisponde un ordine di percentile non tra 2.5 e 97.5 ma sotto a 5).
Testare un'ipotesi H di diseguaglianza, come "k ≤ M(X)",
è più complicato che testarne una di eguaglianza, come
Se H è k ≤ M(X), con testare H con il livello di significatività
p% si intende: prendere M(X)=k come H0 e
Esempio.
(1) Ho 20 dati
(10.4, 9.3, 11.2, 10.1, 10.8, 9.7, 9.7, 8.2, 10.2, 10.6, 9.5, 10.0, 10.1, 10.2, 10.3, 9.2, 10.4, 8.8, 11.0, 8.7)
relativi alla concentrazione X (grammi/litro) di un sale in una soluzione. Assumo che X sia distribuita gaussianamente.
Voglio testare l'ipotesi che
Per trovare intervalli di confidenza della media, come si è visto, si usa il fatto che Mn(X) ha andamento gaussiano. Per trovare intervalli di confidenza per la varianza di una distribuzione gasussiana di s.q.m. σ si utilizza il fatto (che non dimostraiamo) che la variabile statistica Varn(X)·n/σ ha distribuzione χ2(n1).
Coi miei dati ottengo 9.71 come V20(X)·20/(1.1)2, cioè come χ2(19) sperimentale. I percentili di ordine 2.5 e 97.5 sono 8.9 e 32.9; 9.71 sta quindi nella regione di coerenza.
(2) Se invece voglio testare l'ipotesi che
(3) Se invece voglio testare l'ipotesi che
Quindi sia l'ipotesi