In uno studio su una popolazione di marassi ("marasso" è il nome comune della "vipera berus") un gruppo di ricercatori ha misurato nove femmine adulte ottenendo:

lungh. (cm)     60  69  66  64  54  67  59  65  63
peso (g)       136 198 194 140  93 172 116 174 145

Come puoi studiare la relazione tra queste due variabili?

In breve:  rappresento i dati graficamente,  osservo che sono abbastanza allineati,  cerco la retta di regressione,  studio anche la correlazione lineare tra le due variabili.

 

Analizzando i dati, a mano, con una calcolatrice, ... o con questo script ottengo quanto segue. A sinistra la rappresentazione grafica ottenuta con questo script.


x:   60, 69, 66, 64, 54, 67, 59, 65, 63
y:   136,198,194,140,93,172,116,174,145
y = 7.19186046511628 * x - 301.0872093023256
0.9436756133322943

Il fatto che i dati sono abbastanza allineati è confermato dal fatto che il coeffciente di correlazione (0.944) è abbastanza vicina ad 1. Ovviamente non basta questo per dire che c'è una buona correlazione numerica: questa dipende anche dalla quantità dei dati: se i dati sono due, essi sono sempre allineati; e il fatto che ci siano 20 coppie di dati abbastanza allineate è un indicatore di un legame lineare maggiore che se le coppie di dati fossero 5.  Possiamo precisare le cose determinando il p-value. Vediamo come farlo e vediamo che cos'è. Non è molto complesso determinarlo "a mano", ma possiamo molto più facilmente usare del software online. Si può farlo su Internet ma impieghiamo del software sicuramente affidabile: WolframAlpha:

correlation test [(60, 69, 66, 64, 54, 67, 59, 65, 63),(136,198,194,140,93,172,116,174,145)]
correlation:  0.943676     p-value:  0.000132114

Che cos'è "p-value"?  È la probabilità di ottenere, con una data quantità di dati, il coefficiente di correlazione nell'ipotesi che le due variabili fossero totalmente scorrelate (ossia che il coefficiente di correlazione fosse effettivamente 0). In genere si assume come soglia convenzionale per la possibile esistenza di una correlazione un p-value non superiore al 5%.
Nel nostro caso ottengo 0.0132114%.  C'è una correlazione molto forte tra i dati!

Se i dati fossero stati (60, 69, 54) e (136,198, 93) avrei ottenuto:  correl.: 0.999941,  p-value: 0.691728%: una correlazione maggiore ma una discreta probabilità che i dati siano totalmente scorrelati. Per approfondimenti vedi.

I dati sono tratti da Statistics for the Life Sciences, di M.L. Samuels e J.A. Witmer.

Usando il software R potrei trovare:

L = c(60, 69, 66, 64, 54, 67, 59, 65, 63)
W = c(136,198,194,140,93,172,116,174,145)
range(L); range(W)
#  54 69    93 198
BF=3; HF=3; Plane(50,75, 85,205)
POINT(L,W, "brown")
regression1(L,W)
# 7.192 * x + -301.1 
H = function(x) 7.192 * x - 301.1
graph1(H, 50,75, "brown")
cor(L,W)
# 0.9436756
cor.test(L,W, conf.level=0.9)
# 90 percent confidence interval:
# 0.8001739  0.9849836
  

L'intervallo di confidenza al 90% (calcolato da cor.test) tiene conto del numero delle coppie di dati, e rappresenta l'intervallo in cui, con probabilità del 90%, sta effettivamente la correlazione (se fosse calcolata su tutti i possibili dati).  Se i dati fossero meno otterremmo un intervallo molto più ampio:

L1 = c(69,54,64,66)
W1 = c(198,93,140,194)
cor(L1,W1)
# 0.9445005
cor.test(L1,W1, conf.level=0.9)
# 90 percent confidence interval:
# 0.1325545 0.9978751