Si consideri la tabella a lato, tratta da un libro di biologia.
Si tracci il diagramma di dispersione (gestazione, vita media) e, sullo stesso sistema di assi, la retta di regressione, specificandone l'equazione.

animale gestazione
(giorni) vita media
(anni) coniglio 31 5

asino 365 12 gatto 63 12

cane 61 12 maiale 112 10

capra 151 8 mucca 284 15

cavallo 330 20 pecora 154 12

Affrontiamo l'esercizio con degli script, poi vedremo come farlo con R.

L'immagine a destra è stata ottenuta con questo script, avendo calcolato la retta di regressione y = 0.0227*x+7.873 (vedi sotto) con questo altro script.
Ovviamente la retta di regressione ottenuta è solo indicativa; possiamo concludere solo che la relazione tendenzialmente è crescente.

Per altri commenti: Correlazione tra variabili casuali neGli Oggetti Matematici.

Per avere un'idea di quanto sia attendibile questa indicazione posso far ricorso al software online WolframAlpha usando il comando "correlation test":

correlation test [(365,61,151,330,31,63,112,284,154), (12, 12, 8, 20, 5, 12, 10, 15, 12)]
correlation 0.668479 p-value 0.0490225

Che cos'è "p-value"? È la probabilità di ottenere, con una data quantità di dati (9 nel nostro caso), il coefficiente di correlazione (0.668479) nell'ipotesi che le due variabili fossero totalmente scorrelate (ossia che il coefficiente di correlazione fosse effettivamente 0).
Ottengo 4.90225%: non c'è una forte correlazione tra i dati, come avevamo già intuito.
Spesso si assume come soglia convenzionale per la possibile esistenza di una correlazione un p-value non superiore al 5% (nel nostro caso siamo leggeremente sotto). Per approfondimenti vedi.

Come procedere con R (vedi).

source("http://macosa.dima.unige.it/r.R") # se non lo hai gia' caricato G = c(365,61,151,330,31,63,112,281,154) V = c(12, 12, 8, 20, 5, 12, 10, 15, 12) range(G); range(V) # 31 365 5 20 BF=4; HF=3; Plane(0,370, 0,20) pointO(G,V,"brown"); regression1(G,V) # 0.0227 * x + 7.873 R = function(x) 0.0227 * x + 7.873; graph1(R,0,370, "brown")

Nota. Volendo potremmo specificare l'intervallo di confidenza al 90% e al 50%.

# la linea di regressione potrei trovarla anche con
LR(G,V)
# 7.87296147 0.02270242       y = 0.02270242*x+7.87296147
confInt(V,G, 90/100)                  # V in funzione di G (ordine rovesciato)
#                     5 %        95 %
# (Intercept) 4.108414035 11.63750891
# Conf        0.004590187  0.04081465
confInt(V,G, 50/100)
#                   25 %       75 %
# (Intercept) 6.45991534 9.28600760
# Conf        0.01590388 0.02950096