Il docente di matematica di una classe (poco numerosa) vuole confrontare i voti (in centesimi) che i singoli studenti hanno avuto nell'ultimo compito a casa e nell'ultimo compito in classe. Quali strumenti semplici potrebbe usare per studiare la "vicinanza" delle due votazioni? Usali.
a casa  16   22   53   29   72   86   91   62   45   100   93   68 
 in classe  46 59 76 84 100 81 92 70 64 100 85 76

1)  Possiamo rispondere ad un primo livello rappresentando graficamente le coppie ("a casa", "in classe") e calcolando il coefficiente di regressione.
A fianco il grafico, realizzato con questo script.
Sotto il calcolo del coefficiente di regressione con questo script.
 
    

Il coefficiente di correlazione è abbastanza vicino ad 1. E i punti non sono pochi e appaiono abbastanza allineati. L'insegnante può, per fortuna, ritenere che chi lavora bene a casa tende a fare bene il compito in classe.

Si noti che il coefficiente di correlazione non tiene conto della quantità dei dati. Se avessi solo le 4 coppie di dati seguenti avrei:

casa: 16,22,93,68  classe: 26,59,85,76  coeff. correlaz.: 0.8822211372612357
Con molti meno dati avrei un coefficiente migliore, ma dovrei tener conto che è più facile che pochi dati siano allineati (se estraessi solo due coppie, qualunque, otterrei il coefficiente 1: ovviamente due punti qualunque sono allineati).
    

2)  Per precisare queste considerazioni possiamo utilizzare il software online WolframAlpha. Vediamo come.  Se introduco:

plot (16,46);(22,59);(53,76);(29,84);(72,100);(86,81);(91,92);(62,70);(45,64);(100,100);(93,85);(68,76) color blue
correlation coefficient [(16,22,53,29,72,86,91,62,45,100,93,68),(46,59,76,84,100,81,92,70,64,100,85,76)]

Ottengo:   result   0.781329
The null hypothesis that the populations are independent is rejected at the 5 percent level based on the Pearson Correlation test.
p-value   0.00269157

Se invece introduco:

correlation coefficient [(16,22,93,68),(26,59,85,76)]

Ottengo:   result   0.882221    p-value   0.117779

Che cos'è "p-value"?  È la probabilità di ottenere, con una data quantità di dati (12 in un caso, 4 nell'altro), il coefficiente di correlazione (0.781329 o 0.882221) nell'ipotesi che le due variabili fossero totalmente scorrelate (ossia che il coefficiente di correlazione fosse effettivamente 0).
Nel primo caso abbiamo ottenuto 0.269%, nel secondo 17.9%:  nel caso iniziale c'è una probabilità bassa che i dati siano scorrelati,  nel secondo caso c'è una probabilità abbastanza alta che, nonostante le apparenze, i dati siano scorrelati.
Spesso si assume come soglia convenzionale per l'esistenza di una correlazione un p-value non superiore al 5%.

Per altre informazioni vedi o cerca http://en.wikipedia.org/wiki/P-value.

I calcoli con R.

casa =   c(16,22,53,29,72,86,91,62,45,100,93,68)
classe = c(46,59,76,84,100,81,92,70,64,100,85,76)
cor(casa, classe)
# 0.7813288
casa2 =   c(16,22,93,68)
classe2 = c(0.8822216,59,85,76)
cor(casa2, classe2)
# 0.882221
Per avere una valutazione che tenga conto della quantità dei dati occorre battere:
cor.test(casa, classe)
# Pearson's product-moment correlation
# data:  casa and classe
# t = 3.9588,                    df = 10, p-value = 0.002692
# alternative hypothesis: true correlation is not equal to 0
# 95 % confidence interval:      0.3760503 0.9356703
# sample estimates:              cor 0.7813288 
Vediamo come leggere queste uscite:
df sta per "degrees of freedom" (gradi di libertà): è la quantità dei dati diminuita di due;
il p-value (in questo caso 0.269%) è la probabilità di ottenere, con una tale quantità di dati, questo coefficiente di correlazione (0.7813288) nell'ipotesi che le due variabili fossero totalmente scorrelate (ossia che il coefficiente di correlazione fosse effettivamente 0);
l'intervallo di confidenza al 95% è l'intervallo in cui, con la probabilità del 95%, cade il valore esatto del coefficiente di correlazione.
In definitiva per i nostri dati c'è una bassissima probabilità che non siano correlati e, con probabilità del 95%, il coeff. di correlazione è circa tra 0.38 e 0.94.
Avremmo potuto considerare anche altri intervalli di confidenza. Es.:
cor.test(casa, classe, conf.level = 0.90)
# Pearson's product-moment correlation
# data:  casa and classe
# t = 3.9588,                   df = 10, p-value = 0.002692
# alternative hypothesis: true correlation is not equal to 0
# 90 % confidence interval:     0.4625010 0.9212244
# sample estimates:             cor 0.7813288

Per approfondimenti sull'uso di R vedi qui.