Si consideri la tabella a lato, tratta da un libro di biologia.
Si tracci il diagramma di dispersione (gestazione, vita media) e, sullo stesso sistema di assi, la retta di regressione, specificandone l'equazione.
 
 animale gestazione
(giorni)
vita media
(anni)
 coniglio 315
asino36512gatto6312
cane6112maiale11210
capra1518mucca 284  15 
cavallo33020pecora15412

Affrontiamo l'esercizio con degli script, poi vedremo come farlo con R.

L'immagine a destra è stata ottenuta con questo script,  avendo calcolato la retta di regressione  y = 0.0227*x+7.873  (vedi sotto)  con questo altro script.
Ovviamente la retta di regressione ottenuta è solo indicativa; possiamo concludere solo che la relazione tendenzialmente è crescente.

Per altri commenti: Correlazione tra variabili casuali neGli Oggetti Matematici.

   

Per avere un'idea di quanto sia attendibile questa indicazione posso far ricorso al software online WolframAlpha usando il comando "correlation test":

correlation test [(365,61,151,330,31,63,112,284,154), (12, 12, 8, 20, 5, 12, 10, 15, 12)]
correlation   0.668479     p-value   0.0490225

Che cos'è "p-value"?  È la probabilità di ottenere, con una data quantità di dati (9 nel nostro caso), il coefficiente di correlazione (0.668479) nell'ipotesi che le due variabili fossero totalmente scorrelate (ossia che il coefficiente di correlazione fosse effettivamente 0).
Ottengo 4.90225%:  non c'è una forte correlazione tra i dati, come avevamo già intuito.
Spesso si assume come soglia convenzionale per la possibile esistenza di una correlazione un p-value non superiore al 5% (nel nostro caso siamo leggeremente sotto). Per approfondimenti vedi.


Come procedere con R (vedi).

source("http://macosa.dima.unige.it/r.R")   # se non lo hai gia' caricato
G = c(365,61,151,330,31,63,112,281,154)
V = c(12, 12, 8, 20, 5, 12, 10, 15, 12)
range(G); range(V)
# 31 365   5 20
BF=4; HF=3; Plane(0,370, 0,20)
pointO(G,V,"brown"); regression1(G,V)
# 0.0227 * x + 7.873 
R = function(x) 0.0227 * x + 7.873; graph1(R,0,370, "brown")

Nota. Volendo potremmo specificare l'intervallo di confidenza al 90% e al 50%.

# la linea di regressione potrei trovarla anche con
LR(G,V)
# 7.87296147 0.02270242       y = 0.02270242*x+7.87296147
confInt(V,G, 90/100)                  # V in funzione di G (ordine rovesciato)
#                     5 %        95 %
# (Intercept) 4.108414035 11.63750891
# Conf        0.004590187  0.04081465
confInt(V,G, 50/100)
#                   25 %       75 %
# (Intercept) 6.45991534 9.28600760
# Conf        0.01590388 0.02950096