Uno studente misura 14 volte il periodo di un oscillatore smorzato ottenendo i seguenti valori, in decimi di secondo:  9, 8, 3, 7, 3, 9, 7, 8, 5, 12, 6, 9, 3, 9. Il dato 12 gli sembra poco attendibile. Ha ragione?

Analizziamo i dati con diversi software. Iniziamo col semplice script histogram:

Capiamo subito, intutivamente, che, dato che si tratta di misure che ci attendiamo si distribuiscano grosso modo "a campana", il valore 12 è abbastanza attendibile. Per altro dista 5 dal valore mediano (7) poco più del minimo, 3, che dista 4.

Se poi usiamo questa calcolatrice otteniamo:

median=7   1^,3^ quartile, diff.: 5 9  4    mean=7   experimental standard dev. = 2.71746488

12 dista dalla media meno del doppio della deviazione standard. Non c'è motivo per ritenere 12 poco attendibile.

Analizziamo i dati col software online WolframAlpha (vedi).

Col comando:

statistics {9,8,3,7,3,9,7,8,5,12,6,9,3,9}

ottengo:

mean 7 - minimum 3 - first quartile 5 - median 7.5 - third quartile 9 - maximum 12
sample standard deviation 2.717 - interquartile range 4

Possiamo ricorrere anche ad una rappresentazione con uno stem-and-leaf, facilmente realizzabile (anche a mano):

stem-and-leaf plot 9,8,3,7,3,9,7,8,5,12,6,9,3,9

Vediamo che 12, nonostante le apparenze, dista dal valore mediano quanto il valore minimo, 3, e che non è molto distante dal 3º quartile. Per esaminare meglio la situazione, ed avere una rappresentazione grafica di una funzione che ne approssimi la distribuzione, supponiamo che le misure abbiano andamento gaussiano; i dati sono pochi e non possiamo capirne l'effettivo andamento della distribuzione. Anche se così non è, comunque ci aspettiamo che misure di questo tipo abbiano un andamento abbastanza simile a quello gaussiano.

plot y=exp(-((x-m)/s)^2/2)/(sqrt(2*PI)*s) for s= 2.717,m=7 from x=7-3*2.717 to 7+3*2.717

Ci rendiamo conto, come abbiamo visto bene anche nel diagramma lineare considerato all'inizio, che 12 non è isolato ad una estremità dell'istogramma. Non devo rifiutare il dato 12.

Esistono dei criteri convenzionali per eliminare i dati "strani". Per approfondimenti cerca outlier in WolframAlpha o consulta http://en.wikipedia.org/wiki/Outlier.
Uno dei criteri più seguiti è quello di escludere i valori che cadono prima del 1º quartile o dopo il 3º quartile più di 1.5 volte la distanza interquartile (interquartile range).  Applichiamo questo criterio nel nostro caso:

first quartile 5 - third quartile 9 - interquartile range 4 - 4*1.5=6
5-6 = -1,  9+6 = 15

12 è ben all'interno di questo intervallo, quindi, secondo questo criterio, non sarebbe opportuno rifiutarlo.
È meglio, comunque, seguire un ragionamento come quello iniziale, basato sulla distribuzione grafica dei dati, piuttosto che ricorrere a "formulette" come questa.

Analizziamo statisticamente le misure ottenute anche con R (vedi).

source("http://macosa.dima.unige.it/r.R")
T = c(9,8,3,7,3,9,7,8,5,12,6,9,3,9)
summary(T)
# Min. 1st Qu. Median  Mean  3rd Qu.  Max. 
# 3.00   5.25   7.50   7.00   9.00  12.00

Vediamo che 12, nonostante le apparenze, dista dal valore mediano quanto il valore minimo, 3, e che non è molto distante dal 3º quartile.
    Supponiamo, per avere una rappresentazione grafica, che le misure abbiano andamento gaussiano. Anche se così non è, comunque ci aspettiamo che misure di questo tipo abbiano un andamento abbastanza simile a quello gasussiano.

z = function(x) dnorm(x,mean=mean(T),sd=sd(T))
BF=4; HF=3
graph2F(z, 7-10,7+10, "brown")
POINT(T, rep(0,length(T)), "blue")
# traccio anche i punti con ascissa che dista 1,2 e 3 volte σ da μ
n = c(1,2,3,-1,-2,-3); x = mean(T)+n*sd(T)
POINT(x,z(x),"red")

    Mi rendo conto che il valore 12 è inferiore a μ+2σ e che anche gli altri valori non sono concentrati attorno ai valori centrali. Non devo rifiutare il dato 12.

Vediamo come ricorrere ad una rappresentazione con uno stem-and-leaf, che è facile realizzare:

stem(T,scale=2)
#   3 | 000
#   4 | 
#   5 | 0
#   6 | 0
#   7 | 00
#   8 | 00
#   9 | 0000
#  10 | 
#  11 | 
#  12 | 0

La distribuzione dei dati, che ha un picco in 9, non fa ritenere che 12 sia da scartare.