Il docente di matematica di una classe (poco numerosa) vuole confrontare i voti (in centesimi) che i singoli studenti hanno avuto nell'ultimo compito a casa e nell'ultimo compito in classe. Quali strumenti semplici potrebbe usare per studiare la "vicinanza" delle due votazioni? Usali.
a casa | 16 | 22 | 53 | 29 | 72 | 86 | 91 | 62 | 45 | 100 | 93 | 68 |
in classe | 46 | 59 | 76 | 84 | 100 | 81 | 92 | 70 | 64 | 100 | 85 | 76 |
1) Possiamo rispondere ad un primo livello rappresentando graficamente le coppie ("a casa", "in classe") e calcolando
il coefficiente di regressione. A fianco il grafico, realizzato con questo script. Sotto il calcolo del coefficiente di regressione con questo script. |
Il coefficiente di correlazione è abbastanza vicino ad 1. E i punti non sono pochi e appaiono abbastanza allineati. L'insegnante può, per fortuna, ritenere che chi lavora bene a casa tende a fare bene il compito in classe. Si noti che il coefficiente di correlazione non tiene conto della quantità dei dati. Se avessi solo le 4 coppie di dati seguenti avrei: casa: 16,22,93,68 classe: 26,59,85,76 coeff. correlaz.: 0.8822211372612357Con molti meno dati avrei un coefficiente migliore, ma dovrei tener conto che è più facile che pochi dati siano allineati (se estraessi solo due coppie, qualunque, otterrei il coefficiente 1: ovviamente due punti qualunque sono allineati). |
2) Per precisare queste considerazioni possiamo utilizzare il software online WolframAlpha. Vediamo come. Se introduco:
plot (16,46);(22,59);(53,76);(29,84);(72,100);(86,81);(91,92);(62,70);(45,64);(100,100);(93,85);(68,76) color blue
correlation coefficient [(16,22,53,29,72,86,91,62,45,100,93,68),(46,59,76,84,100,81,92,70,64,100,85,76)]
Ottengo: result 0.781329
The null hypothesis that the populations are independent is rejected at the 5 percent level based on the Pearson Correlation test.
p-value 0.00269157
Se invece introduco:
correlation coefficient [(16,22,93,68),(26,59,85,76)]
Ottengo: result 0.882221 p-value 0.117779
Che cos'è "p-value"? È la probabilità di ottenere, con una data quantità di dati (12 in un caso, 4 nell'altro), il coefficiente di correlazione (0.781329 o 0.882221) nell'ipotesi che le due variabili fossero totalmente scorrelate (ossia che il coefficiente di correlazione fosse effettivamente 0).
Nel primo caso abbiamo ottenuto 0.269%, nel secondo 17.9%: nel caso iniziale c'è una probabilità bassa che i dati siano scorrelati,
nel secondo caso c'è una probabilità abbastanza alta che, nonostante le apparenze, i dati siano scorrelati.
Spesso si assume come soglia convenzionale per l'esistenza di una correlazione un p-value non superiore al 5%.
Per altre informazioni vedi o cerca http://en.wikipedia.org/wiki/P-value.
I calcoli con R.
casa = c(16,22,53,29,72,86,91,62,45,100,93,68) classe = c(46,59,76,84,100,81,92,70,64,100,85,76) cor(casa, classe) # 0.7813288
casa2 = c(16,22,93,68) classe2 = c(0.8822216,59,85,76) cor(casa2, classe2) # 0.882221Per avere una valutazione che tenga conto della quantità dei dati occorre battere:
cor.test(casa, classe) # Pearson's product-moment correlation # data: casa and classe # t = 3.9588, df = 10, p-value = 0.002692 # alternative hypothesis: true correlation is not equal to 0 # 95 % confidence interval: 0.3760503 0.9356703 # sample estimates: cor 0.7813288Vediamo come leggere queste uscite:
cor.test(casa, classe, conf.level = 0.90) # Pearson's product-moment correlation # data: casa and classe # t = 3.9588, df = 10, p-value = 0.002692 # alternative hypothesis: true correlation is not equal to 0 # 90 % confidence interval: 0.4625010 0.9212244 # sample estimates: cor 0.7813288
Per approfondimenti sull'uso di R vedi qui.