>>>>>

Scheda 6 - Problemi tipici della statistica matematica

1. STATISTICHE (o VARIABILI CAMPIONARIE).

    Nella scheda 1 abbiamo richiamato i concetti principali della statistica descrittiva; nella scheda 2 e in successive abbiamo visto come l'estensione di questi concetti conduca ai concetti probabilistici; nella scheda 5 abbiamo incominciato a vedere come i risultati della teoria della probabilità consentano di riprendere e approfondire lo studio statistico di un problema.

    I teoremi limite della teoria della probabilità (cioè i teoremi che si riferiscono ai valori - come le leggi dei grandi numeri – o alle leggi di distribuzione – come il teorema limite centrale – su cui tendono a stabilizzarsi certi fenomeni casuali) costituiscono gli strumenti concettuali per il passaggio dalla statistica descrittiva alla statistica matematica in senso stretto, detta anche statistica inferenziale (o induttiva), quando si intende distinguerla meglio da quella descrittiva.

    Nel caso della statistica descrittiva ho certe informazioni su tutta una popolazione di individui e le rappresento o sintetizzo mediante strumenti grafici (istogrammi, box-plot o altri grafici) o numerici (percentili, media, …). Nel caso della statistica inferenziale ho informazioni solo su una parte della popolazione o su alcune realizzazioni di un certo fenomeno e cerco di ricavare da esse informazioni relative all'intera popolazione o a come si realizza in generale il fenomeno.

    Ad es. se voglio prevedere quanti saranno i pezzi difettosi su 100 mila pezzi prodotti da un certo macchinario, supponendo che questo non si deteriori nel tempo, posso limitarmi a osservare che cosa accade nella produzione di un migliaio di pezzi. Infatti se U è la variabile che vale 1 quando il pezzo prodotto è difettoso e vale 0 altrimenti, sulla base della osservazione svolta posso stimare (usando la legge dei grandi numeri) quanto vale M(U) (che non è altro che la probabilità che un pezzo sia difettoso). Se moltiplico M(U) per 100 mila ho un valore (detto numero atteso di pezzi difettosi) che posso assumere come stima del numero di pezzi difettosi prodotti totalmente. L'attendibilità della stima, come si è visto, dipende (oltre che dal numero delle osservazioni, 1000 nel nostro caso) anche dallo s.q.m. dei 1000 valori di U rilevati.

    Nel fare questo passaggio abbiamo, in pratica, preso M(U) come frequenza con cui, nel complesso della produzione, si presentano pezzi difettosi, mentre in realtà è la probabilità che un pezzo sia difettoso, cioè il valore su cui tenderebbe a stabilizzarsi la frequenza, nel caso in cui la produzione fosse infinita. Questo passaggio è lecito poiché 100 mila è un valore grande rispetto al migliaio di pezzi osservati, per cui si può assumere che la produzione sia infinita.

    Nei dettagli, il procedimento è questo. Indico con U1, …, U1000 le variabili (distribuite come U) così definite: Ui vale 1 se l'i-esimo pezzo prodotto è difettoso, 0 altrimenti. Osservo che cosa accade (rilevando i valori che assumono le Ui) e calcolo il valore che assume la variabile ΣUi/1000 (è la frequenza relativa di pezzi difettosi che rilevo tra i primi 1000).

    Analogamente, se volessi stimare il peso medio di un pezzo, indicata con U la variabile che esprime il valore del peso di un generico pezzo e con U1, …, U1000 le variabili (distribuite come U) così definite: Ui è il peso dell'i-esimo pezzo prodotto, rileverei i valori che assumono le Ui e calcolerei il valore che assume la variabile ΣUi/1000 (è la media dei pesi dei primi 1000 pezzi).

    La legge dei grandi numeri mi consente di assumere ΣUi/1000 come stima di M(U). Infatti essa mi assicura che la cosiddetta media statistica ΣUi/n – che a volte indicheremo Mn(U) – all'aumentare di n tende a comportarsi come la media M(U).

Nota. Il valore che assume Mn(U) in un rilevamento di U1, …, Un non è altro che la media (nel senso della statistica descrittiva) di dato1, …, daton dove datoi è il valore assunto da Ui nel rilevamento. Viceversa, fare la media di n dati frutto del rilevamento parziale di un certo fenomeno può essere interpretato come fare un rilevamento di Mn(U) se U è la variabile casuale che rappresenta il fenomeno. Noi abbiamo usato STATFILE sia per calcolare medie nel senso della statistica descrittiva (ad es. l'altezza media della popolazione all'inizio della scheda 2) che per calcolare valori della media statistica di una variabile aleatoria U come stime di M(U). Il calcolo che fa STATFILE non cambia: è sempre Σdatoi/n.

    Spesso vengono chiamate variabili statistiche (o statistiche di U) le variabili casuali il cui valore è funzione dei valori assunti da un certo numero di variabili casuali indipendenti e distribuite come una data variabile casuale U. In questo senso si può dire che Mn(U) è una "statistica" di U.

    In campo economico e sociologico in genere si ha a che fare con popolazioni finite, e il ricorso ai teoremi limite passa sempre attraverso l'idealizzazione di supporre che la popolazione sia infinita. In questi casi, se U è la variabile che rappresenta il carattere che si vuole studiare (altezza in una popolazione di persone, peso in un insieme di uova, …) e Ui è il valore che assume il carattere nell'i-esimo individuo tra gli n individui su cui si effettua il rilevamento, Mn(U) viene anche chiamata media campionaria; analogamente le altre variabili statistiche vengono chiamate anche variabili campionarie. Infatti viene chiamato campione l'insieme degli n individui della collettività su cui si effettua il rilevamento.

    Mentre nel caso dell'esempio il rilevamento è semplice (supponendo che le caratteristiche della produzione restino immutate, basta prendere i primi 1000 pezzi), in altre situazioni la cosa non è facile: può accadere che il metodo di rilevamento adottato privilegi individui appartenenti a una sottopopolazione in cui la variabile U è distribuita in modo sensibilmente diverso rispetto a quanto accade nel complesso della popolazione (in questo caso si parla di campione non rappresentativo). Un metodo sicuro consiste nel numerare da 1 a T (con un qualsiasi criterio) i T individui che costituiscono la totalità della popolazione e di estrarne n scegliendo a caso e uniformemente numeri in {1, 2, …,T}, ad es. usando PRINT RND*T+1 ripetutamente. Ma ciò non è sempre possibile (a volte è difficile la numerazione, in altri non è possibile prendere un campione con n sufficientemente grande per avere delle stime adeguate). Occorre allora ricorrere a metodi di campionamento alternativi, il cui studio è molto complesso, e non affronteremo.

    Il campionamento è, in qualche modo, la situazione inversa a quella in cui, di fronte al problema A della scheda 2, si era assunto che l'altezza tra i clienti del mobilificio fosse distribuita come tra l'intera popolazione: era l'ipotesi che essi fossero un campione rappresentativo della popolazione rispetto al carattere-altezza.

Nota. Qualcuno chiama variabili campionarie le variabili statistiche anche nel caso di fenomeni (come ad es. il lancio di un dado) in cui non si è di fronte a una popolazione finita.

<<<     Scheda precedente INDICE Paragrafo successivo     >>>