Uno studente misura un certo voltaggio dieci volte ottenendo i seguenti valori, in volt: 0.83, 0.86, 0.83, 0.89, 0.95, 0.88, 0.85, 0.82, 0.84, 0.87. Tutte le misure sono attendibili? Prova a rispondere e ad argomentare la risposta.

Analizziamo i dati con diversi software. Iniziamo col software online WolframAlpha (vedi).

Col comando:

statistics {0.83, 0.86, 0.83, 0.89, 0.95, 0.88, 0.85, 0.82, 0.84, 0.87}

ottengo;

mean 0.862 - minimum 0.82 - first quartile 0.83 - median 0.855 - third quartile 0.88 - maximum 0.95
sample standard deviation 0.03853 - interquartile range 0.05

Si intuisce subito che il dato 0.95 è abbastanza anomalo. Possiamo ricorrere anche ad una rappresentazione con uno stem-and-leaf, facilmente realizzabile (anche a mano):

stem-and-leaf plot 0.83, 0.86, 0.83, 0.89, 0.95, 0.88, 0.85, 0.82, 0.84, 0.87
Stem | Leaves
8 | 233456789
9 | 5 units 1/10

Per esaminare meglio la situazione, ed avere una rappresentazione grafica di una funzione che ne approssimi la distribuzione, supponiamo che le misure abbiano andamento gaussiano; i dati sono pochi e non possiamo capirne l'effettivo andamento della distribuzione. Anche se così non è, comunque ci aspettiamo che misure di questo tipo abbiano un andamento abbastanza simile a quello gaussiano.

plot y=exp(-((x-m)/s)^2/2)/(sqrt(2*PI)*s) for s= 0.03853,m=0.862 from x=0.862-3*0.03853 to 0.862+3*0.03853

Ci rendiamo conto meglio (avendo una visualizzazione anche delle probabilità) che, tra così pochi dati, il valore 0.95 è abbastanza strano, per cui possiamo supporre che sia frutto di un errore di misurazione. Conviene rieffettuare le misurazioni o, alla disperata, eliminare il dato: otterremmo una media abbastanza diversa da 0.862:

mean {0.83, 0.86, 0.83, 0.89, 0.88, 0.85, 0.82, 0.84, 0.87}
0.852222

Esistono dei criteri convenzionali per eliminare i dati "strani". Per approfondimenti cerca outlier in WolframAlpha o consulta http://en.wikipedia.org/wiki/Outlier.
Uno dei criteri più seguiti è quello di escludere i valori che cadono prima del 1º quartile o dopo il 3º quartile più di 1.5 volte la distanza interquartile (interquartile range). Applichiamo questo criterio nel nostro caso:

first quartile 0.83 - third quartile 0.88 - interquartile range 0.05 - 0.05*1.5=0.075
0.83-0.075 = 0.755, 0.88+0.075 = 0.955

0.95 è ai limiti di questo intervallo, quindi, secondo questo criterio, sarebbe opportuno rifiutarlo.
È meglio, comunque, seguire un ragionamento come quello iniziale, basato sulla distribuzione grafica dei dati, piuttosto che ricorrere a "formulette" come questa.

Utilizziamo, ora, R: vedi):
source("http://macosa.dima.unige.it/r.R")
V = c(0.83,0.86,0.83,0.89,0.95,0.88,0.85,0.82,0.84,0.87)
summary(V)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.8200 0.8325 0.8550 0.8620 0.8775 0.9500
Supponiamo (per avere una rappresentazione grafica di una funzione che ne approssimi la distribuzione) che le misure abbiano andamento gaussiano:
z = function(x) dnorm(x,mean=mean(V),sd=sd(V))
BF=4; HF=3
graph2F(z, 0.86-0.12,0.86+0.12, "brown")
POINT(V,rep(0,length(V)),"blue")
# traccio anche i punti con ascissa che dista 1,2 e 3 volte σ da μ
n=c(1,2,3,-1,-2,-3); x = mean(V)+n*sd(V)
POINT(x,z(x),"red")

Ci rendiamo conto che il valore 0.95 è abbastanza strano (gli altri valori stanno tra μ−σ e μ+σ, 0.95 supera μ+2σ), per cui possiamo supporre che sia frutto di un errore di misurazione. Conviene rieffettuare le misurazioni o, alla disperata, eliminare il dato: otterremmo quanto segue, con una media abbastanza diversa.
V1 = c(0.83,0.86,0.83,0.89,0.88,0.85,0.82,0.84,0.87)
summary(V1)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.8200 0.8300 0.8500 0.8522 0.8700 0.8900

Vediamo come ricorrere ad una rappresentazione con uno stem-and-leaf:
stem(V,scale=3)
82 | 0
83 | 00
84 | 0
85 | 0
86 | 0
87 | 0
88 | 0
89 | 0
90 |
91 |
92 |
93 |
94 |
95 | 0
È abbastanza ragionevole ritenere che 0.95 sia da scartare.