Il test χ2

In questa voce ci occuperemo di alcune (tra le molte) tecniche per prendere delle decisoni sulla base di dati statistici raccolti sperimentalmente.

#1   Verifica della verosimiglianza delle ipotesi

    Valutata la probabilità di un evento o individuata una legge di distribuzione o … solo sulla base di dati sperimentali, non abbiamo la certezza di questa conclusione. Possiamo, comunque, porci il problema di quanto sia verosimile l'ipotesi che il valore o la funzione o … individuata sia effettivamente una buona approssimazione, cioè valutare la probabilità che il suo scarto dall'oggetto (valore, funzione, …) "vero" rientri nei margini di aleatorietà dovuta alla limitatezza del materiale statistico a disposizione. In base a questa valutazione, a seconda della situazione (con considerazioni pratiche, legate al contesto, ai rischi sociali, …), potremo stabilire se tale ipotesi è accettabile o è da rifiutare.

    Abbiamo affrontato attività di questo tipo alla voce limiti in probabilità:  all'intervallo frequenza ± 3 σ/√n associo la probabilità di confidenza del 99.7% che esso contenga la probabilità Pr(A) cercata; all'intervallo frequenza ± t σ/√n con t<3 posso associare una probabilità di confidenza più piccola; in altre parole valuto la probabilità che tale l'intervallo sia veramente un intervallo di indeterminazione per Pr(A).

    Se in base a qualche ragionamento ho ipotizzato che Pr(A) sia 3/7 e trovo che 3/7 sta nell'intervallo frequenza ± t σ/√n, posso ritenere attendibile (con una opportuna confidenza) che lo scarto tra 3/7 e frequenza sia "normale", cioè ritenerlo non "significativo", non tale da giustificare il rifiuto dell'ipotesi. Questa terminologia (accettazione/rifiuto dell'ipotesi) in realtà non è fondata: la probabilità dell'ipotesi che Pr(A) sia "esattamente" 3/7 è nulla. Ma è un modo di esprimersi "convenzionale" ormai diffuso.

    In questa voce vedremo in particolare come valutare l'attendibilità di una legge di distribuzione.

#2   Verifica della verosimiglianza di una legge di distribuzione. Il test "chi quadro".

    Poniamoci il problema di valutare la conformità tra una distribuzione sperimentale e una teorica.

    Per valutare la discordanza tra un valore sperimentale Us e un valore teorico U uso la differenza (o errore o scarto o deviazione) Us–U.

    Come valutare la discordanza tra gli esiti di n prove, classificati in nc classi, e una certa legge di distribuzione?

    Supponiamo di voler confrontare con la distribuzione Pr(U=2)=1/36, Pr(U=3)=2/36, … gli esiti del lancio di una coppia di dadi ripetuto n volte. Indichiamo con FreqOss1, …, FreqOss11 le frequenze assolute osservate (FreqOss1 + FreqOss11= n) e con FreqAtt1, …, FreqAtt11 le frequenze assolute attese, cioè i valori che si otterrebbero da  FrequenzaAssoluta = n · FrequenzaRelativa  mettendo  Probabilità al posto di  FrequenzaRelativa:  FreqAtt1 = n·1/36, FreqAtt2 = n·2/36, ….

   

Una idea è prendere  X = Σ(FreqOssi−FreqAtti)2:  l'elevamento al quadrato fa sì che differenze positive (zone punteggiate nella figura a lato) e quelle negative (zone tratteggiate) non si compensino.

    A parità di valore, uno scarto da una frequenza attesa bassa deve però essere pesato di più di uno da una frequenza attesa alta:  la deformazione dall'istogramma teorico è maggiore se si è in un punto in cui il grafico è basso. Per migliorare la valutazione della difformità considero gli scarti quadratici relativi:

X = Σ(FreqOssi−FreqAtti)2 / FreqAtti

    Nel caso di un'altra variabile casuale U le frequenze attese in ciascuna delle nc classi (intervallini o altri insiemi) Ii in cui ho classificato gli n dati saranno calcolate analogamente:

FreqAtti = n·pi,  dove  pi = Pr(U ∈ Ii),  i = 1, …, nc.

Se U è continua  Pr(U ∈ Ii)  sarà calcolato integrando su Ii la funzione densità.

    X è una variabile aleatoria (ogni volta che effettuo n prove X assume un valore casuale) che, oltre che dal fenomeno studiato, dipende dal numero delle prove n, dalle classi I1, …, Inc scelte e dai valori  Pr(U∈Ii), cioè dalla legge di distribuzione teorica L di cui si vuole valutare la verosimiglianza.

    Nel caso di fenomeni che seguano realmente la legge L, X avrà una certa distribuzione teorica. Se confronto il valore X* di X che ottengo per un particolare fenomeno con tale distribuzione teorica, posso valutarne la "normalità":  se X* è anormale posso ritenere non verosimile che il fenomeno si manifesti secondo la legge L.

    Indichiamo con χ2 ("chi quadro") X o X*, a seconda dei casi, lasciando al contesto il superamento dell'ambiguità.  
χ2
nc
Σ
i=1
(FreqOssi − FreqAtti)2
—————————
FreqAtti

    Consideriamo ad esempio un dado di cui si sono effettuati 50 lanci ottenendo 9 uno, 11 due, 5 tre, 8 quattro, 10 cinque e 7 sei e, per valutare la discordanza dalla distribuzione uniforme (distribuzione corrispondente ai dadi equi), calcoliamo il relativo χ2. Poniamoci, poi, il problema di individuare la distribuzione χ2 teorica nel caso in cui il dado sia realmente equo, in modo da poter confrontare con essa il χ2 trovato e valutare la verosimiglianza dell'equità del nostro dado.

    Potremmo svolgere il calcolo "a mano". Effettuiamolo mediante il programma R. Otteniamo 2.8.

FrOss <- c(9,11,5,8,10,7)
Prob <- c(1/6,1/6,1/6,1/6,1/6,1/6)
n <- sum(FrOss); sum((FrOss-n*Prob)^2/(n*Prob))
    2.8

    Effettuato questo calcolo, che cosa possiamo concludere sulla equità del dado?

Studiamo la distribuzione teorica χ2, cioè come si distribuirebbe il valore di χ2 se il dado fosse equo.

Realizziamo questo studio sperimentalmente, con una simulazione. Ecco l'esito della generazione di 5000 valori, analizzato con R:
Prob <- c(1/6,1/6,1/6,1/6,1/6,1/6); x <- 0
for (prov in 1:5000) {
  y <- 0; for(i in 1:6) y[i] <- 0; for (i in 1:50) {
           u <- floor(runif(1)*6+1); y[u] <- y[u]+1}
  # ho scelto a caso 50 uscite e le ho classificate
  x[prov] <- sum((y-50*Prob)^2/(50*Prob)) }
summary(x)
  Min.  1st Qu.  Median   Mean   3rd Qu.  Max.
 0.160   2.800   4.240   5.007   6.640   26.080
hist(x,probability=TRUE,right=FALSE,seq(0,27,1))
abline(h=c(0.05,0.1,0.15),lty=3)

   

    Posso osservare dall'istogramma che 2.8 è un valore abbastanza centrale. Calcolando anche i percentili trovo che 2.8 è il 25° percentile, cioè il limite sinistro del 50% centrale dei dati. Quindi posso ritenere plausibile (cioè non rifiutare) l'ipotesi che il dado sia equo. Se avessi ottenuto un valore verso la coda sinistra o quella destra avrei invece dovuto avere dubbi su tale ipotesi: se è verso la coda destra si tratta di un valore molto alto, che fa supporre un dado non equo; se è verso la coda sinistra si tratta di un valore molto basso, ma un po' troppo "perfetto", che fa supporre che ci sia stato qualche errore (o qualche "imbroglio") nel riportare le frequenze. In tali casi, prima di scartare l'ipotesi, sarebbe stato opportuno, se possibile, ripetere i lanci, ricalcolare χ2 e valutare la posizione del nuovo valore rispetto all'istogramma sopra riprodotto (o rispetto ai percentili).

    Nel caso di un'altra legge di distribuzione L, altre classi o un altro numero n di prove, ad esempio nel caso dell'esempio iniziale o del quesito 12, si può procedere analogamente: studiare sperimentalmente con una simulazione la distribuzione del relativo χ2 e confrontare con essa il valore calcolato di χ2.

    In genere, tuttavia, si preferisce utilizzare un procedimento standard di tipo generale, che ha il seguente retroterra teorico:

si può dimostrare che, se il numero n delle prove è sufficientemente grande, la legge di distribuzione teorica di χ2 è praticamente indipendente dalla legge di distribuzione L:


|
|

per n tendente all'infinito tende a una legge χ2(r) che dipende solo dal numero r dei gradi di libertà, cioè dalla quantità delle frequenze sperimentali che devo conoscere direttamente.

|
|
|

    Spieghiamo meglio il concetto di "grado di libertà" con alcuni esempi.

    Nel caso del dado sopra considerato, sappiamo che le frequenze FrOss1, FrOss2, …, FrOss6 devono avere come somma n: questa connessione fa sì che note 5 frequenze la rimanente sia determinata automaticamente. Questa connessione è presente in tutti i casi. Quindi i gradi di libertà sono in ogni caso al più  nc−1  (nc = numero delle classi).

    Nel caso di una variabile casuale a valori in (0,∞), se FrOss1,…, FrOss16 sono le frequenze osservate nei 16 intervalli [0,5), [5,10), … e voglio operare il confronto con la densità esponenziale x → w·e−wx con w pari al reciproco della media sperimentale M, come connessione imposta, ulteriore rispetto a ΣFrOssi= n, ho che ΣxiFrOssi/n=M  (xi centro dell'intervallo i-esimo: x1=2.5, x2=7.5, …). I gradi di libertà sono 14. Note 14 tra le FrOssi, ad es. FrOss1, FrOss2, …, FrOss14, potrei determinare FrOss15 e FrOss16 risolvendo il sistema (avente FrOss15 e FrOss16 come incognite):   ΣFrOssi = n  AND  ΣxiFrOssi/n = M.

[Pr(U∈I1), Pr(U∈I2), … in questo caso sono gli integrali tra 0 e 5, tra 5 e 10, … della densità, cioè F(5)–F(0), F(10)F(5), … dove F: x → 1−e−wx è la ripartizione cumulata]

    Se, invece, come w avessi scelto un valore stabilito a priori, non dipendente dai dati sperimentali, non avrei avuto la connessione ΣxiFrOssi/n=M, e i gradi di libertà sarebbero stati 15.

    La densità di χ2(r) non è facile da descrivere analiticamente e non è integrabile elementarmente. Per determinare i percentili di tale legge possiamo ricorrere alla seguente tabulazione per vari gradi di libertà o ricorrere all'uso di R, che ha la funzione qchisq(p, df=r) che calcola il quantile - o percentile - di ordine p della densità χ² a r gradi di libertà.


grado di                          percentili
libertà   2.5%   5%   10%   20%   30%   50%   70%   80%   90%   95%   97.5%

1        .001   .004  .02   .06   0.1   0.5   1.0   1.6   2.7   3.8   5.0
2        0.05   0.1   0.2   0.4   0.7   1.4   2.4   3.2   4.6   6.0   7.4
3        0.2    0.4   0.6   1.0   1.4   2.4   3.7   4.6   6.3   7.8   9.4
4        0.5    0.7   1.1   1.6   2.2   3.4   4.9   6.0   7.8   9.5  11.1
5        0.8    1.1   1.6   2.3   3.0   4.4   6.1   7.3   9.2  11.1  12.8
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
6        1.2    1.6   2.2   3.1   3.8   5.3   7.2   8.6  10.6  12.6  14.4
7        1.7    2.2   2.8   3.8   4.7   6.3   8.4   9.8  12.0  14.1  16.0
8        2.2    2.7   3.5   4.6   5.5   7.3   9.5  11.0  13.4  15.5  17.5
9        2.7    3.3   4.2   5.4   6.4   8.3  10.7  12.2  14.7  16.9  19.0
10       3.2    3.9   4.9   6.2   7.3   9.3  11.8  13.4  16.0  18.3  20.5
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
11       3.8    4.6   5.6   7.0   8.1  10.3  12.9  14.6  17.3  19.7  21.9
12       4.4    5.2   6.3   7.8   9.0  11.3  14.0  15.8  18.5  21.0  23.3
13       5.0    5.9   7.0   8.6   9.9  12.3  15.1  17.0  19.8  22.4  24.7
14       5.6    6.6   7.8   9.5  10.8  13.3  16.2  18.2  21.1  23.7  26.1
15       6.3    7.3   8.5  10.3  11.7  14.3  17.3  19.3  22.3  25.0  27.5
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
16       6.9    8.0   9.3  11.2  12.6  15.3  18.4  20.5  23.5  26.3  28.8
17       7.6    8.7  10.1  12.0  13.5  16.3  19.5  21.6  24.8  27.6  30.2
18       8.2    9.4  10.9  12.9  14.4  17.3  20.6  22.8  26.0  28.9  31.5
19       8.9   10.1  11.7  13.7  15.4  18.3  21.7  23.9  27.2  30,1  32.9
20       9.6   10.9  12.4  14.6  16.3  19.3  22.8  25.0  28.4  31.4  34.2
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
25      13.1   14.6  16.5  18.9  20.9  24.3  28.2  30.7  34.4  37.7  40.6
30      16.8   18.5  20.6  23.4  25.5  29.3  33.5  36.2  40.3  43.8  47.0
35      20.6   22.5  24.8  27.8  30.2  34.3  38.9  41.8  46.1  49.8  53.2
40      24.4   26.5  29.1  32.3  34.9  39.3  44.2  47.3  51.8  55.8  59.3
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
60      40.5   43.2  46.5  50.6  53.8  59.3  65.2  69.0  74.4  79.1  83.3
80      57.1   60.4  64.3  69.2  72.9  79.3  86.1  90.4  96.6 101.9 106.6
100     74.2   77.9  82.4  87.9  92.1  99.3 106.9 111.7 118.5 123.3 129.6
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
200    163    168   175   183   189   199.3 210   217   226   234   241

    Ecco come ottenere facilmente con R alcuni percentili corrispondenti a 6 gradi di libertà:
qchisq(c(2.5,5,10,20,30,50,70,80,90,95,97.5)/100, df=6)
  [1] 1.237344 1.635383 2.204131 3.070088 3.827552 5.348121
  [7] 7.231135 8.558060 10.644641 12.591587 14.449375

    ovvero:
round(qchisq(c(2.5,5,10,20,30,50,70,80,90,95,97.5)/100, df=6),2)
  [1] 1.24 1.64 2.20 3.07 3.83 5.35 7.23 8.56 10.64 12.59 14.45

    Tornando al nostro dado, se come χ2 invece di 2.8 (che è intorno al 25° percentile di χ2(5) - qchisq(0.25,df=5) = 2.67 - e quindi è abbastanza "normale") avessimo ottenuto 13 avremmo dovuto manifestare qualche dubbio sul fatto che il dado sia equo: c'è una discordanza molto alta rispetto alla legge uniforme; il valore è oltre il 95° percentile.

Nota.  L'ordine di un dato percentile e un dato grado di libertà lo posso trovare facilmente con R. Basta risolvere numericamente delle equazioni usando il comando uniroot(funzione,intervallo):
# qchisq(o,df=g): percentile di ordine o e grado di liberta' g
# v(x,g): ordine del percentile che vale x (se il grado e' g)
v <- function(x,g) {p <- function(o) qchisq(o,df=g)-x; uniroot(p,c(0,0.99999))$root}
v(2.8, 5)*100   # troviamo l'ordine dei percentili di cui le paragrafo precedente
[1] 26.92139
v(13, 5)*100
[1] 97.66215

    Ma anche se avessimo ottenuto una discordanza molto bassa, ad esempio χ2<1, avremmo dovuto avere dei dubbi sulla equità del dado o sulla attendibilità dei dati fornitici: è improbabile (la probabilità è inferiore al 5%:  il 5° percentile è 1.1) che si ottenga un valore inferiore a 1.

Un amico mi dice:  Questa moneta è equa. Infatti su 1000 lanci ho ottenuto 499 "testa" e 501 "croce".  Che cosa possiamo concludere sulla verosimiglianza di quanto raccontato dall'amico?

Trovo χ2 = (499–500)2/500+(501−500)2/500 = 2/500 = 4/1000.

[ FrOss <- c(499,501); Prob <- c(1/2,1/2); n <- sum(FrOss)
  sum((FrOss-n*Prob)^2/(n*Prob))     [1] 0.004 ]

Dalla tabulazione ho che 0.004 corrisponde circa al percentile di ordine 5. Si tratta quindi di un valore piuttosto anormale. È sensato ritenere che l'amico ci abbia raccontato una frottola.

    Nell'usare la distribuzione del χ2 limite occorre prestare qualche attenzione: occorre che le prove siano numerose (diciamo, almeno un centinaio); occorre, inoltre, che in ogni classe cadano abbastanza valori (diciamo, almeno 5); se in qualche classe cadono poche osservazioni è opportuno unire questa classe ad un'altra.

#3   Altri test di siginifcatività

    Il "test χ2" considerato nel paragrafo precedente è un "test di adattamento": è usato per valutare l'adattamento di una certa distribuzione teorica a una serie di dati sperimentali.

    Se si assume come regione di non rifiuto (o, meglio, di coerenza o conformità tra dati e teoria) il 95% centrale, cioè l'intervallo compreso tra il percentile di ordine 2.5 e il percentile di ordine 97.5, si dice anche che l'ipotesi viene testata con un livello di confidenza (o di fiducia) del 95%:  è la probabilità che, se l'ipotesi fosse "vera", la regione di coerenza contenga il valore di χ2, ovvero il test dia esito positivo.

    Il complemento a 1 del livello di confidenza è l'ampiezza della regione complementare, cioè della regione critica (o di incoerenza); tale ampiezza viene invece chiamata livello di significatività (in questo caso è: 1–95%=5%): è la probabilità che, se l'ipotesi fosse "vera", la regione di incoerenza contenga il valore di χ2, ovvero il test dia ("erroneamente") esito negativo.

    Esistono molti altri tipi di test statistici. Vediamone solo un paio.

Nella tabella seguente sono riportati i dati di un'indagine campionaria, relativamente ad alcune regioni e al 1990, sulla distribuzione delle abitazioni secondo la superficie abitata (area espressa in metri quadrati):

  superficie
regione 50-95   96-110 111-130 131-200
Liguria 130 11 6 5
Campania 362 1805 105 122
Sicilia 1068 430 203 149
  

a)  si verifichi l'ipotesi: non c'è differenza significativa (5%) tra le medie delle superfici delle diverse regioni;

b)  si verifichi l'ipotesi: non c'è differenza significativa (5%) tra le distribuzioni relative alle diverse regioni.

Quesito a.  Devo verificare la plausibilità che le medie teoriche delle superfici abitate delle tre regioni non siano diverse, cioè che due a due abbiano differenza 0. Devo valutare se lo scarto da 0 della differenza tra le due medie sperimentali è accettabile come "normale" con confidenza del 95%, cioè se l'intervallo di confidenza al 95% della differenza delle medie (l'intervallo in cui al 95% cade la differenza teorica, cioè la differenza riferita alla popolazione limite) contiene 0.
    Parlando di differenza significativa si intende dire che si deve assumere 5% come livello di significatività, cioè come ampiezza della regione di rifiuto, ossia 100%–(probabilità di confidenza).
    Le medie hanno, tendenzialmente, distribuzione gaussiana. La differenza delle medie è la media delle differenze, che sarà anch'essa, tendenzialmente, gaussiana. Devo trovare il σ di questa gaussiana.
    Per determinare le medie individuo il valore centrale degli intervalli; nel caso del primo intervallo, 50-95, cioè [50,96), il valore centrale è 50+semiampiezza = 50+23 = 73; i valori centrali degli altri intervalli sono 103.5, 121, 166. Considero Campania e Liguria.
Stima della superficie abitata in Liguria: ML = (130·73+11·103.5+…)/(130+ 11+…) = 12184.5/152 = 80.16. Analogamente MC = 102.84=103, MS = 92.85. La differenza tra le due medie sperimentali è 22.68.

    La varianza della differenza è la somma delle varianze; le varianze delle due medie (calcolate a mano o con STAT, una calcolatrice o un foglio di calcolo) sono 2.593 e 0.147; quindi σ = √(2.593+0.147) = 1.66.

    Al 95.4% (significatività del 4.6%) il valore dovrebbe cadere in [m–2σ, m+2σ] = [0–1.66·2, 0+1.66·2] = [–3.32, 3.32], che non contiene 22.68. A maggior ragione l'ipotesi è da rifiutare al livello di significatività del 5% (per avere una confidenza al 95% occorre prendere, invece di 2·σ, t·σ con t = 1.96; l'intervallo di confidenza diventa [1.66·1.96, 1.66·1.96] = [–3.25, 3.25]).

Quesito b.  La richiesta equivale al fatto che le tre distribuzioni siano tendenzialmente proporzionali, cioè al fatto che la modalità "regione" sia indipendente dalla modalità "superficie".

    Dobbiamo quindi confrontare le frequenze sperimentali nelle 12 celle della tabella – la cella incrocio della riga "Liguria" e della colonna [50,96), …, quella incrocio di "Sicilia" e [131,200) – con le frequenze attese – i prodotti (frequenza di "Liguria")·(frequenza di [50,96)), …, (frequenza di "Sicilia")·(frequenza di [131,200)).  Si fa ciò usando il test χ2. Si ottiene χ2=1342.

    I gradi di libertà sono (4–1)·(3-1) = 6; infatti fissate le frequenze totali delle 4 regioni e delle 3 classi di appartamento (sono i valori che uso per calcolare le frequenze attese), di ogni riga mi basta conoscere 3 celle (la quarta la ottengo usando la frequenza totale della riga) e, analogamente, di ogni colonna 3–1=2 celle. Dalla tabulazione di χ2 si ottiene la non normalità (al 95%) di questo valore: l'intervallo di normalità al 95% dovrebbe essere quello compreso tra i percentili di ordine 2.5 e 97.5, cioè:

round(qchisq(c(2.5, 97.5)/100, df=6),2)
[1]   1.24   14.45

    Questi sono tipici esempi in cui a occhio, guardando le tabelle, si vede che le ipotesi considerate sono sicuramente da rifiutare. I valori molto grandi di χ2 confermano bene ciò. Sono esempi in cui non è molto "sensato" porsi il problema di usare il test χ2. Li abbiamo fatti solo per esemplificare i test.

#4  Note.

  Accanto al concetto di livello di confidenza di un test, richiamato sopra, cioè la probabilità Pr(esito positivo | ipotesi vera) che il test dia "correttamente" esito positivo, si usa quello di potenza di un test, ad indicare la probabilità che il test dia "correttamente" esito negativo: Pr(esito negativo | ipotesi falsa). Ad esempio per il test considerato alla voce Dipendenza e Indipendenza si potrebbe dire che si tratta di un test con livello di confidenza e con potenza entrambi del 95%.
Accanto al rischio di commettere un cosiddetto errore di tipo I, ossia di ottenere erroneamente esito negativo (livello di significatività, o α-rischio, già discusso), si considera anche il rischio di commettere un errore di tipo II, ossia di ottenere erroneamente esito positivo (β-rischio).

  A volte si usa il test χ2 non in modo "bilaterale" come si è fatto qui, cioè rifiutando, come anormali, anche le ipotesi che danno luogo a valori di χ2 "piccoli", ma in modo "unilaterale", rifiutando solo i casi in cui si ottengono χ2 "alti" (ad es. a una significatività del 5% corrisponde un ordine di percentile non tra 2.5 e 97.5 ma sotto a 5).

  Testare un'ipotesi H di diseguaglianza, come "k ≤ M(X)", è più complicato che testarne una di eguaglianza, come "M(X) = M(Y)" (è tale quella del quesito a precedente, che ho ricondotto a M(X–Y)=0): non basta analizzare come un certo valore si colloca rispetto a una data distribuzione. Il problema viene affrontato considerando la corrispondente ipotesi di eguaglianza (M(X)=k nell'esempio fatto), che viene chiamata ipotesi nulla (è l'ipotesi che la differenza tra M(X) e k sia nulla) e indicata con H0, e formulando una opportuna l'ipotesi alternativa H1.

    Se H è k ≤ M(X), con testare H con il livello di significatività p% si intende: prendere M(X)=k come H0 e M(X)>k come H1, e assumere come regione critica di "H0 contro H1" il "p% destro", cioè ritenere non coerenti i dati se la media sperimentale m cade dopo il percentile di ordine 100–p (della gaussiana di media k e s.q.m. della media ricavato dai dati): se m cade "a sinistra" non ho motivo di rifiutare H0 a favore di H1 (in questo caso non ha senso fare un confronto "bilaterale": considero come regione critica per H0 solo una "coda" destra). Se il test per "H0 contro H1" dà esito negativo, si rifiuta H0 e si ritiene coerente l'ipotesi H.

Esempio.

(1)  Ho 20 dati (10.4, 9.3, 11.2, 10.1, 10.8, 9.7, 9.7, 8.2, 10.2, 10.6, 9.5, 10.0, 10.1, 10.2, 10.3, 9.2, 10.4, 8.8, 11.0, 8.7) relativi alla concentrazione X (grammi/litro) di un sale in una soluzione. Assumo che X sia distribuita gaussianamente. Voglio testare l'ipotesi che σ(X)=1.1 con la significatività del 5%.

    Per trovare intervalli di confidenza della media, come si è visto, si usa il fatto che Mn(X) ha andamento gaussiano. Per trovare intervalli di confidenza per la varianza di una distribuzione gasussiana di s.q.m. σ si utilizza il fatto (che non dimostraiamo) che la variabile statistica Varn(X)·n/σ ha distribuzione χ2(n–1).

    Coi miei dati ottengo 9.71 come V20(X)·20/(1.1)2, cioè come χ2(19) sperimentale. I percentili di ordine 2.5 e 97.5 sono 8.9 e 32.9; 9.71 sta quindi nella regione di coerenza.

(2)  Se invece voglio testare l'ipotesi che σ(X)>1.1 considero "σ(X)=1.1 contro σ(X)>1.1" e prendo come sua regione di coerenza l'intervallo corrispondente al 95% sinistro della superficie delimitata dalla distribuzione χ2; il 95° percentile è 30.1; 9.7 sta quindi nelle regione di coerenza: non rifiuto, quindi, "σ(X)=1.1", cioè non ritengo coerente "σ(X)>1.1".

(3)  Se invece voglio testare l'ipotesi che σ(X)<1.1 considero "σ(X)=1.1 contro σ(X)<1.1", la cui regione di coerenza è quella a destra del 5° percentile, cioè 10.1; 9.7 non sta nella regione di coerenza: quindi, rispetto a questo test, ritengo coerente non "σ(X)=1.1" ma "σ(X)<1.1".

    Quindi sia l'ipotesi σ(X)=1.1 (test 1) che l'ipotesi σ(X)<1.1 (test 3) non sono rifiutabili al livello di significatività del 5%. La apparente contraddizione di queste conclusioni mette in luce la natura convenzionale delle definizioni date, oltre che la natura probabilistica delle conclusioni (accettare/non accettare un'ipotesi non significa che essa sia vera/falsa).

Esercizio  (soluz.)       Esercizio  (soluz.)

 altri collegamenti     [nuova pagina]     [wolfram]