3. Sulla STIMA dei PARAMETRI. Stimatori CORRETTI e NON DISTORTI.
Abbiamo già osservato che all'aumentare di n la media statistica Mn(U) di una variabile casuale U ottenuta con n esperimenti converge (in probabilità) alla media teorica
Quando un parametro h della legge di distribuzione di una variabile aleatoria U è stimato con un valore hn che è funzione degli n valori osservati di U (cioè con una "statistica": §1), si dice che hn è una stima corretta (o consistente) di h se, all'aumentare di n, hn converge (in probabilità) a h.
Dunque la media statistica è una stima corretta della media teorica.
Per stimare la varianza e lo scarto quadratico (sulla base di n osservazioni U1, …, Un di U) abbiamo sempre assunto
σn(U) non è altro che lo s.q.m. (nel senso della statistica descrittiva) di dato1, …, daton dove datoi è il valore assunto da Ui nel rilevamento.
Anche questi sono stimatori corretti. Infatti Vn(U )= Mn((U–Mn(U)2) = Mn(U2)–Mn(U)2 che converge in probabilità a
C'è un altro motivo per cui possiamo ritenere "buona" la stima di
Se effettuo 10 lanci di un dado (U è la variabile aleatoria che rappresenta l'uscita numerica del dado) e ripeto ciò più volte, il valore medio M10(U) che di volta in volta ottengo varia casualmente. Tuttavia all'aumentare del numero delle volte per cui ripeto i 10 lanci, la media dei valori M10(U) via via ottenuti converge (in probabilità) a
In altre parole, non solo
Invece la media dei valori V10(U) non converge (in probabilità) a V(U) [= 35/12=2.91666…], come si può verificare facilmente anche sperimentalmente, ad esempio mediante una simulazione al calcolatore: all'aumentare del numero delle volte per cui ripeto i 10 lanci, la media dei valori V10(U) via via ottenuti non tende a stabilizzarsi su V(U), ma su un valore più basso.
1 |
RANDOMIZE TIMER
VT=35/12 ' var. teorica
ne=10 ' num. degli esperimenti
PRINT "Varianza teorica lancio 1 dado equo ="; VT
PRINT "Media della varianza sperimentale con 10 lanci:"
PRINT "n.prove", "media var", "media var / var teor"
S=0 : n=0
10
FOR i=1 TO ne : x(i)=INT(RND*6)+1 : NEXT
MEDIA x(),ne,m
FOR i=1 TO ne : y(i)=(x(i)-m)^2 : NEXT
MEDIA y(),ne,V
n=n+1 : S=S+V
IF n\500=n/500 THEN PRINT n, S/n, S/n/VT
GOTO 10
SUB MEDIA(x(),n,m)
S=0 : FOR i=1 TO n : S=S+x(i) : NEXT
m=S/n
END SUB
Varianza teorica lancio 1 dado equo = 2.916667
Media della varianza sperimentale con 10 lanci:
n.prove media var media var / var teor
1000 2.64462 .9067267
2000 2.632815 .9026794
3000 2.640233 .9052226
4000 2.64536 .9069804
5000 2.636139 .9038191
Le uscite tendono a stabilizzarsi attorno a 2.62…, non attorno al valore teorico; la terza colonna ci permette di congetturare che tendano a stabilizzarsi intorno a 9/10 di esso
Si può in effetti dimostrare che V10(U) converge (in probabilità) a V(U)·9/10 [= 35/12·9/10 = 2.625].
Cioè, se approssimo V(U) con la varianza sperimentale relativa a 10 lanci, V10(U), questa approssimazione non è soggetta solo all'"errore casuale" dovuto alla aleatorietà di V10(U), ma anche a un "errore sistematico", dovuto al fatto che il valore atteso di V10(U) non è V(U) ma V(U)·9/10.
Più in generale, qualunque sia U, comunque prenda n, Mn(U) ha come media teorica
Quando un parametro h della legge di distribuzione di una variabile aleatoria U è stimato correttamente da un valore hn, si dice che hn è una stima non distorta di h se, ripetendo più volte le n prove, la media statistica dei valori hn ottenuti converge (in probabilità) a h, ovvero (equivalentemente, per la legge dei grandi numeri) se
Quindi Mn(U) è una stima corretta e non distorta di
Per ottenere uno stimatore corretto e non distorto di V(U) devo prendere Vn(U) · n/(n–1).
Per σ(U) devo prendere
σn(U) · (n/(n-1)),
cioè
√(Σ(datoi-media)2/n) · √(n/(n-1)) =
√( Σ(datoi media)2 / (n-1) )
Naturalmente, poiché (n–1)/n tende a 1, e l'errore è (n–1)/n–1 = –1/n, per n sufficientemente grande
Nota. A volte, specie sulle calcolatrici, mentre lo scarto quadratico medio statistico viene indicato σn, lo stimatore non distorto viene indicato σn-1, a ricordare che è calcolabile con la stessa espressione con cui si ottiene σn, a patto che a denominatore si metta n–1 invece di n; è una notazione un po' ambigua, perché σn–1 potrebbe essere interpretato come lo s.q.m. relativo a n–1 prove.
Spesso si usa deviazione standard al posto di scarto quadratico medio (teorico) e viene chiamata deviazione standard statistica (o campionaria) lo stimatore corretto e non distorto dello scarto quadratico medio. A volte, però, con deviazione standard statistica viene indicato lo s.q.m. statistico (stimatore corretto ma distorto).
Una spiegazione più semplicistica (ma che, a livello didattico, nella scuola secondaria, forse potrebbe essere sufficiente) per motivare la modifica rispetto alla espressione di Vn(U) è che questa è definita anche per n=1, e vale 0: mentre ha senso dire che un singolo dato ha dispersione nulla, non ha senso prendere questa come indicatore della dispersione della variabile casuale (che, se avesse dispersione nulla, sarebbe una variabile deterministica). La stima mediante Vn(U)·n/(n–1) è invece realizzabile solo se 2≤n. Un altro modo di esprimersi sarebbe dire che dividiamo la somma dei quadrati degli scarti per il numero dei gradi di libertà (nel calcolare la varianza la media è fissata, e pone un vincolo tra i dati, per cui è solo da n-1 di essi che dipende il risultato: vedi §7).
<<< Paragrafo precedente | Paragrafo successivo >>> |