Si consideri la tabella a lato, tratta da un libro di biologia. Si tracci il diagramma di dispersione (gestazione, vita media) e, sullo stesso sistema di assi, la retta di regressione, specificandone l'equazione. |
|
Affrontiamo l'esercizio con degli script, poi vedremo come farlo con R. L'immagine a destra è stata ottenuta con questo script,
avendo calcolato la retta di regressione y = 0.0227*x+7.873 (vedi sotto) con questo altro script. Per altri commenti: Correlazione tra variabili casuali neGli Oggetti Matematici. |
Per avere un'idea di quanto sia attendibile questa indicazione posso far ricorso al software online WolframAlpha usando il comando "correlation test":
Che cos'è "p-value"? È la probabilità di ottenere, con una data quantità di dati (9 nel nostro caso), il coefficiente di correlazione (0.668479) nell'ipotesi che le due variabili fossero totalmente scorrelate (ossia che il coefficiente di correlazione fosse effettivamente 0).
Ottengo 4.90225%: non c'è una forte correlazione tra i dati, come avevamo già intuito.
Spesso si assume come soglia convenzionale per la possibile esistenza di una correlazione un p-value non superiore al 5% (nel nostro caso siamo leggeremente sotto). Per approfondimenti vedi.
Come procedere con R (vedi).
source("http://macosa.dima.unige.it/r.R") # se non lo hai gia' caricato G = c(365,61,151,330,31,63,112,281,154) V = c(12, 12, 8, 20, 5, 12, 10, 15, 12) range(G); range(V) # 31 365 5 20 BF=4; HF=3; Plane(0,370, 0,20) pointO(G,V,"brown"); regression1(G,V) # 0.0227 * x + 7.873 R = function(x) 0.0227 * x + 7.873; graph1(R,0,370, "brown") |
Nota. Volendo potremmo specificare l'intervallo di confidenza al 90% e al 50%.
# la linea di regressione potrei trovarla anche con LR(G,V) # 7.87296147 0.02270242 y = 0.02270242*x+7.87296147 confInt(V,G, 90/100) # V in funzione di G (ordine rovesciato) # 5 % 95 % # (Intercept) 4.108414035 11.63750891 # Conf 0.004590187 0.04081465 confInt(V,G, 50/100) # 25 % 75 % # (Intercept) 6.45991534 9.28600760 # Conf 0.01590388 0.02950096