Uno studente misura un certo voltaggio dieci volte ottenendo i seguenti valori, in volt: 0.83, 0.86, 0.83, 0.89, 0.95, 0.88, 0.85, 0.82, 0.84, 0.87. Tutte le misure sono attendibili? Prova a rispondere e ad argomentare la risposta.
Analizziamo i dati con diversi software. Iniziamo col software online WolframAlpha (vedi).
Col comando:
statistics {0.83, 0.86, 0.83, 0.89, 0.95, 0.88, 0.85, 0.82, 0.84, 0.87}
ottengo;
Si intuisce subito che il dato 0.95 è abbastanza anomalo. Possiamo ricorrere anche ad una rappresentazione con uno stem-and-leaf, facilmente realizzabile (anche a mano):
stem-and-leaf plot 0.83, 0.86, 0.83, 0.89, 0.95, 0.88, 0.85, 0.82, 0.84, 0.87
Stem | Leaves
8 | 233456789
9 | 5 units 1/10
Per esaminare meglio la situazione, ed avere una rappresentazione grafica di una funzione che ne approssimi la distribuzione, supponiamo che le misure abbiano andamento gaussiano; i dati sono pochi e non possiamo capirne l'effettivo andamento della distribuzione. Anche se così non è, comunque ci aspettiamo che misure di questo tipo abbiano un andamento abbastanza simile a quello gaussiano.
Ci rendiamo conto meglio (avendo una visualizzazione anche delle probabilità) che, tra così pochi dati, il valore 0.95 è abbastanza strano, per cui possiamo supporre che sia frutto di un errore di misurazione. Conviene rieffettuare le misurazioni o, alla disperata, eliminare il dato: otterremmo una media abbastanza diversa da 0.862:
mean {0.83, 0.86, 0.83, 0.89, 0.88, 0.85, 0.82, 0.84, 0.87}
0.852222
Esistono dei criteri convenzionali per eliminare i dati "strani".
Per approfondimenti cerca outlier in
WolframAlpha o consulta http://en.wikipedia.org/wiki/Outlier.
Uno dei criteri più seguiti è quello di escludere
i valori che cadono prima del 1º quartile o dopo il 3º quartile
più di 1.5 volte la distanza interquartile (interquartile range). Applichiamo questo criterio nel nostro caso:
0.95 è ai limiti di questo intervallo, quindi, secondo questo criterio, sarebbe opportuno rifiutarlo.
È meglio, comunque, seguire un ragionamento come quello iniziale, basato sulla
distribuzione grafica dei dati, piuttosto che ricorrere a "formulette" come questa.
Utilizziamo, ora, R: vedi):
source("http://macosa.dima.unige.it/r.R")
V = c(0.83,0.86,0.83,0.89,0.95,0.88,0.85,0.82,0.84,0.87)
summary(V)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.8200 0.8325 0.8550 0.8620 0.8775 0.9500
Supponiamo (per avere una rappresentazione grafica di una funzione che ne approssimi la distribuzione) che le misure abbiano
andamento gaussiano:
z = function(x) dnorm(x,mean=mean(V),sd=sd(V))
BF=4; HF=3
graph2F(z, 0.86-0.12,0.86+0.12, "brown")
POINT(V,rep(0,length(V)),"blue")
# traccio anche i punti con ascissa che dista 1,2 e 3 volte σ da μ
n=c(1,2,3,-1,-2,-3); x = mean(V)+n*sd(V)
POINT(x,z(x),"red")
Ci rendiamo conto che il valore 0.95 è abbastanza strano (gli altri valori
stanno tra μ−σ e μ+σ, 0.95 supera μ+2σ), per cui possiamo
supporre che sia frutto di un errore di misurazione.
Conviene rieffettuare le misurazioni o, alla disperata, eliminare il dato:
otterremmo quanto segue, con una media abbastanza diversa.
V1 = c(0.83,0.86,0.83,0.89,0.88,0.85,0.82,0.84,0.87)
summary(V1)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.8200 0.8300 0.8500 0.8522 0.8700 0.8900
Vediamo come ricorrere ad una rappresentazione
con uno stem-and-leaf:
stem(V,scale=3)
82 | 0
83 | 00
84 | 0
85 | 0
86 | 0
87 | 0
88 | 0
89 | 0
90 |
91 |
92 |
93 |
94 |
95 | 0
È abbastanza ragionevole ritenere che 0.95 sia da scartare.