>>>>>

Scheda 6 - Problemi tipici della statistica matematica

4. Misurazioni ad ALTA SENSIBILITA`. Deviazione standard della media, ERRORE standard.

    Un tipico impiego di quanto visto nel paragrafo §3 è presente nelle attività di misurazione con apparati misuratori ad alta sensibilità.

    Un esempio di apparato di questo genere è costituito dal sistema uomo+cronometro.

    Un cronometro (o un comune orologio al quarzo di tipo digitale) che visualizza i centesimi di secondo è uno strumento a bassa sensibilità: se venisse avviato e arrestato il cronometro più volte, facendo trascorrere sempre lo stesso tempo T tra l'avvio e l'arresto (ad esempio agendo automaticamente sul pulsante con un dispositivo regolato da un fenomeno periodico), sul visore si leggerebbe sempre lo stesso tempo; se ad esempio si leggesse 3.27 vorrebbe dire che T è compreso tra 3.27 sec e 3.28 sec, cioè che [3.27,3.28] è un intervallo di indeterminazione "certo" per la misura di T in secondi. Analogamente, se si usa un doppio decimetro per misurare la lunghezza L di un oggetto, si individua la tacca più vicina alla estremità dell'oggetto e, se ad es. questa rappresenta 13.4 cm, si prende 13.4 cm±1/2 mm come approssimazione certa di L, cioè [13.35,13.45] come intervallo di indeterminazione per il valore (in cm) di L.

    Se invece il cronometro è azionato manualmente, misurando sempre lo stesso intervallo di tempo si possono ottenere valori diversi. Ad esempio se avvio e arresto la misurazione man mano che un altro orologio scatta di 1 sec, non troverò, in genere, esattamente 1 sec, ma potrò trovare, via via che ripeto la misurazione, 1.06, 59.93, 59.99, 1.04, 59.95, … . L'apparato uomo+cronometro è più "sensibile" (termine un po' infelice con cui si vuole indicare che è più soggetto a variazioni) in quanto ogni volta interviene un errore casuale pari alla differenza tra il tempo (casuale) con cui l'uomo ritarda l'avvio del cronometro e il tempo (casuale) con cui l'uomo ritarda l'arresto di esso. Se ci si limitasse a leggere i secondi, l'apparato sarebbe invece a bassa sensibilità: gli errori casuali sono dell'ordine dei centesimi di secondo, per cui sarebbe trascurabile la loro influenza.

    In genere con sensibilità di uno strumento si intende la più piccola variazione apprezzabile con esso, e con precisione un valore che maggiori lo scarto assoluto che può esserci tra il valore letto e il valore vero della misura. Nel caso del cronometro (senza uomo) sensibilità e precisione coincidono: il cronometro scatta ogni centesimo di secondo e il valore letto è una approssimazione per difetto a meno di 1 centesimo di secondo del tempo esattamente trascorso (il cronometro è basato su un oscillatore che ha un periodo molto più piccolo del centesimo di secondo: gli errori casuali sono trascurabili). Nel caso di uomo+cronometro la sensibilità è la stessa ma la precisione è peggiore, cioè ha un valore più alto: lo scarto del valore che leggo dal valore vero può superare il centesimo di secondo.

    Come faccio a decidere in che modo approssimare la misura vera nel caso di un apparato ad alta sensibilità? La cosa non è banale. Per chiarire i problemi vediamo in dettaglio qualche esempio.

    Nel file T-SEC.stf sono registrati i valori in centesimi di secondo ottenuti da una persona misurando manualmente con un orologio il tempo che impiega un altro orologio a scattare in avanti di 1 s. La misura vera è quindi 1 sec. Facciamo finta di non conoscerla e vediamo come potremmo cercare di determinarla. Sotto è riprodotto l'esito dell'analisi di T-Sec mediante STAT (l'istogramma non è normalizzato).

 
47 dati in 47 righe  min,max: 68,129
media: 99.4255319  mediana: 98
moda: [95,105) freq.rel.modale: 48.9362%
5% :80    25% :96    50% :98
95% :115   75% :109    percentili
sc.quad.med.= 10.676569

    Innanzi tutto osserviamo che le misure ottenute con l'orologio sono troncate ai centesimi di secondo. Quindi alla media visualizzata devo aggiungere 0.5, cioè considerare 99.42553+0.5=99.92553. Infatti i singoli dati (ad es. 97, 102, …) sono troncati, cioè hanno tutti errore negativo; per una stima migliore della media sarebbero serviti dati approssimati "al numero più vicino", i cui errori, sommando, in parte si compensano; per far ciò avrei dovuto aggiungere 0.5 ai dati originali; ma ciò equivale ad aggiungere 0.5 alla media.
    Se invece i dati fossero arrotondati non dovrei aggiungere niente alla media; se fossero troncati ai decimi dovrei aggiungere 0.05; se fossero troncati alle decine dovrei aggiungere 5; ecc. .
    Per un approfondimento di questo aspetto vedi Gli Oggetti Matematici.

    La forma dell'istogramma dipende dalla scelta delle classi. Si possono fare tentativi con diverse scelte del numero nc delle classi e prendere l'istogramma che sembra dare un'idea migliore dell'andamento delle misure. Non esiste un criterio rigoroso, ma come primo tentativo si può prendere come nc un valore che approssimi la radice quadrata del numero n dei dati:
si pensi a un istogramma a crocette: una crocetta per ogni dato che cade in una classe; se i dati fossero distribuiti uniformemente e si prendesse nc = n si avrebbe una crocetta per colonna, se si prende ncn si hanno in ogni colonna circa tante crocette quante sono le classi. 

    L'istogramma è abbastanza simmetrico. E, in effetti, ha senso ritenere che il rilevamento manuale dia luogo a scostamenti positivi e negativi dal valore "vero" che si compensano. Aumentando il numero dei rilevamenti vedremmo più chiaramente questa simmetria.

    Nell'ipotesi che le misure si distribuiscano in modo tendenzialmente simmetrico intorno alla misura vera, possiamo assumere la media come stima della misura vera: infatti, se indichiamo con U la variabile casuale che indica l'esito di una misurazione, l'ipotesi ci porta ad affermare che la funzione densità di U ha grafico simmetrico. Ma se esiste un asse di simmetria questo deve intersecare l'asse orizzontale in M(U) (che è l'ascissa del "baricentro"). E M(U), come abbiamo visto, è stimabile con Mn(U), cioè con la media dei dati ottenuti con il rilevamento.

    Come valutare la precisione con cui la media approssima la misura vera?

    Con i nostri rilevamenti in pratica abbiamo determinato i valori che assumono U1, …, U47 variabili casuali distribuite come U; abbiamo poi determinato il valore assunto da M47(U). Se ripetessimo i rilevamenti otterremmo un altro valore di M47(U). La variabile M47(U), che come abbiamo già osservato è uno stimatore corretto e non distorto di M(U), per il teorema limite centrale, ha andamento pressoché gaussiano con media M(U) e s.q.m. σ* = σ(U)/√47.

    Perciò, se stimiamo σ(U) con σ47(U) o, meglio, con σ47(U)·√47(47/46) [ §3], e quindi σ* con σ47(U)/√46, possiamo determinare la probabilità con cui M47(U) dista da M(U) meno di t·σ*, o, il che è lo stesso, la probabilità con cui M(U) dista da M47(U) meno di t·σ* [ §5 della scheda 5]

    Nel nostro caso, supposto – come è ragionevole fare in questo frangente – che l'apparato non sia affetto da errori sistematici (cioè che l'orologio non vada avanti o indietro in modo significativo e che l'uomo non ritardi sistematicamente una della due pressioni – quella di avvio o quella di arresto – maggiormente dell'altra), possiamo dire, ad esempio, che la misura vera è 99.92553±3·10.67…/√47 = 99.92553±4.722523 (cioè che cade in [95.2,104.7]) al 99.7%. Possiamo dire che (con pratica "certezza") è 100±5 (cs).

NotaNei calcoli ci siamo portati dietro tutte le cifre di 99.92553, in quanto poi ci siamo ricondotti a un intervallo che corrisponde a poche cifre significative. Volendo esprimere solo la media dei dati (senza preoccuparsi della stima della misura vera) non ha molto senso dire che la media è 99.92553 in quanto i dati originali erano approssimati alle unità. Dovrei prendere 100 come arrotondamento della media; potrei prendere anche un'approssimazione con una cifra in più rispetto ai dati, cioè considerare 99.9 come arrotondamento ai decimi della media, tenendo conto che i dati sono parecchi (varie decine). Nel caso di dati "esatti" invece potrei prendere la media con tutte le cifre visualizzate. Queste considerazioni (sulla propagazione degli errori) possono essere precisate ricorrendo al teorema limite centrale:
ogni dato approssimato xi differisce dal dato esatto per un errore ei che si distribuisce uniformemente in un intervallo ampio u (se ragioniamo su approssimazioni alla unità uu=1 se le approssimazioni sono agli interi, u=0.1 se sono ai decimi, …); nel fare la media, Σxi/n, l'errore complessivo è Σei/n; è una variabile gaussiana con s.q.m. σ*=σ(ei)/√n: σ(ei)=u/√12; se n=10 σ* è circa u/10; se n=1000 è circa u/100; ….
Ciò giustifica il fatto che la media di dati arrotondati alla cifra di posto J può essere arrotondata alla cifra di posto J–1 se i dati sono almeno una decina, alla cifra di posto J–2 se sono almeno un migliaio, …, cioè avanzando di 1 posto all'aumentare di 2 dell'ordine di grandezza della quantità n dei dati (lo s.q.m. varia come 1/√n).

    Tutto questo (assumere la media come stima della misura vera) vale nell'ipotesi di simmetria attorno alla misura vera fatta inizialmente, che (per quanto osservato già nel §2 della scheda 5) non vale in generale. Supponiamo, ad es., di avere un dispositivo che misuri le velocità di oggetti indirettamente, rilevando il tempo che l'oggetto impiega per percorrere 1 m. Supponiamo che l'oggetto viaggi esattamente alla velocità di 1 m/s, che essa sia misurabile più volte e che i tempi rilevati siano quelli contenuti in t-sec. Il dispositivo ogni volta aggiunge 0.5 centesimi al dato rilevato (in modo da trasformarlo da troncamento in arrotondamento; vedi sopra) e divide 100 per esso, in modo da ottenere velocità in m/s. Nel file VEL.stf sono presenti tali dati. Ecco la loro elaborazione:

    Si può osservare che l'istogramma è meno simmetrico e che la media ha distanza relativa dal valore vero (che in questo caso è 1) maggiore rispetto a quanto accadeva per i tempi. Se prendessi come stima dell'intervallo di indeterminazione della misura vera (con una confidenza del 68.3%) 1.012914±σ* = 1.012914±0.1162…/√47 = 1.013±0.017 otterrei un intervallo che contiene a stento il valore vero. Con più misurazioni avrei l'illusione di ottenere precisioni man mano migliori ma otterrei invece un intervallo di indeterminazione che si stringe attorno a un valore diverso dalla misura vera: la media delle misure rilevate non converge alla misura vera (è una situazione analoga a quella delle distribuzioni di lato e volume di un insieme di cubi discussa nel §2 della scheda 5).

    Se invece faccio 100/99.92553 (100/tempo medio) ho 1.000745. Un corretto intervallo di confidenza al 68.3% avrebbe come estremi 100/t2 e 100/t1 con t1 e t2 estremi dell'intervallo di confidenza per il tempo.

    In conclusione, di fronte a un apparato come quello in questione, si dovrebbe, combinando studi sperimentali e riflessioni teoriche, individuare una legge di distribuzione delle misure e individuare quale variabile statistica, diversa da Mn(U), assumere come stimatore della misura vera.

    Nel caso di pochi dati (10 o 20), comunque, anche se l'andamento non è molto simmetrico (ma neanche troppo "asimmetrico"), poiché σ* rimane grande, si può assumere media±3σ* come intervallo di indeterminazione "praticamente certo" della misura vera.

    Per fare un altro esempio semplice ma reale di misurazione ad alta sensibilità con misure distribuite non gaussianamente né simmetricamente consideriamo un riflettometro per la determinazione del tasso glicemico del sangue (viene depositata una goccia di sangue su una striscetta, che viene inserita nello strumento; questo, mediante un opportuno dispositivo ottico, effettua il rilevamento). In dotazione è presente (per verificare il corretto funzionamento dell'apparecchio) una striscia di controllo trattata in modo da avere caratteristiche corrispondenti a quelle di una goccia di sangue con un certo tasso glicemico.

    Poniamoci il problema di misurare il "tasso glicemico" (espresso in una opportuna unità di misura: mg/dl) della striscia di controllo: con ciò evitiamo i problemi che potrebbe dare il rilevamento del sangue di una persona (anche in brevi intervalli di tempo il tasso può cambiare: ripetendo la prova non è detto che si effettui sempre la misurazione della stessa grandezza). A lato è riprodotto l'istogramma e i valori ottenuti analizzando con STAT l'esito di 89 rilevamenti.
    L'istogramma non è simmetrico, per cui non posso assumere con sicurezza la media come stima della misura vera e associarle una precisione del tipo t·σ*. Posso comunque concludere, sulla base dell'istogramma stesso, che sarà comunque "circa" (a meno di 1 o 2 unità) 78.
       

    Nella pratica si fa un solo rilevamento (a causa della citata variabilità del tasso glicemico e perché non interessano valutazioni precise). In base allo studio sperimentale svolto con la striscia di controllo si può assumere che il tasso vero vari al più di 5 unità dal valore letto (almeno per tassi glicemici che cadono nella zona considerata).

Nota. Spesso il valore che qui abbiamo indicato per comodità con σ*, cioè σ(U)/√n, viene chiamato deviazione standard della media (il suo quadrato è chiamato varianza della media). Infatti esso è la deviazione standard (o s.q.m.) a cui tende la deviazione standard della media statistica (teorema limite centrale). Qualcuno usa invece il termine errore standard, riferendosi al caso delle misurazioni ad alta sensibilità. Si usa deviazione standard statistica (o campionaria) della media per indicare σn(U)/√(n-1), stimatore non distorto di σ*. A volte, però, con deviazione standard statistica della media viene indicato σn(U)/√n.
STAT calcola, oltre a s.q.m. – σn(U) – e varianza – Vn(U) –, la varianza e lo s.q.m. statistici – cioè gli stimatori non distorti Vn(U)·n/(n–1) e σn(U)/√(n/(n-1)) – e la varianza e lo s.q.m. statistici della media – Vn(U)/(n–1) e σn(U)/√(n-1).

2

 Con un apparato misuratore ad alta sensibilità che dà luogo a errori che si distribuiscono normalmente si ottengono le 7 misure (in un'opportuna unità di misura): 7.3, 7.1, 7.2, 6.9, 7.2, 7.3, 7.4. Determinare per il "valore vero" della misura un intervallo di indeterminazione con probabilità di confidenza del 99.7%.

<<<     Paragrafo precedente Paragrafo successivo     >>>