>>>>>

Scheda 7- Analisi bivariata

5. Rette di REGRESSIONE. Assi PRINCIPALI.

    Di fronte a dati sperimentali relativi a un sistema (X,Y) per cui si ritiene che Y vari in funzione di X, si può cercare di trovare una funzione F tale che il suo grafico approssimi i punti sperimentali. Nel §6 della scheda 6 abbiamo già affrontato questo problema nel caso in cui X sia una variabile deterministica. È simile il modo in cui si affronta il caso in cui anche X sia casuale.

    In base ai dati (con una delle tecniche viste nella scheda 6) e, possibilmente, in base a considerazioni teoriche, si cerca di individuare il tipo di funzione (lineare, polinomiale, esponenziale, …) che si vuole utilizzare. Se si ipotizza che ci sia una relazione lineare che esprima Y in funzione di X, e non si hanno altre informazioni, la tecnica in genere usata è quella dei minimi quadrati, già impiegata (scheda 6, §7) per introdurre la variabile χ2:

si cerca F: x ax+b (cioè si cercano a e b) per cui sia minimo (F(X1)–Y1)2+(F(X2)–Y2)2+… +(F(Xn)–Yn)2, cioè la somma dei quadrati degli scarti tra i valori Yi sperimentali e quelli che si avrebbero applicando F ai corrispondenti Xi (n è il numero dei rilevamenti, (Xi, Yi) è l'esito dell'i-mo rilevamento).

    È facile (a livello adulto) ricavare usando il calcolo differenziale a 2 argomenti (o con tecniche algebriche) i valori di a e di b. Si ottengono rispettivamente (qui espressi in forma sintetica, intendendo che Cov, V, M sono da considerare nel significato sperimentale, cioè come Covn, Vn, Mn):

aX,Y 
Cov(X,Y)
————
V(X)
 = 
M( (X-M(X))(Y-M(Y)) )
——————————
M( (X-M(X))2 )
      bX,Y = M(Y) – aX,YM(X)

    Le scritture aX,Y e bX,Y ricordano il fatto che si sta pensando Y come funzione di X.

    La retta y = aX,Y x + bX,Y viene detta retta di regressione o di regresso (aX,Y è chiamato coefficiente di regressione); passa per il "baricentro" (M(X), M(Y)) (ricordata la formula per aX,Y è quindi facile ricavare quella per bX,Y).

    Le stesse formule vengono impiegate anche nel caso teorico e possono essere motivate direttamente con altre argomentazioni. All'aumentare dei rilevamenti le rette di regressione sperimentali tendono (con una convergenza in probabilità) a coincidere con la retta di regressione teorica.

    Analogamente si avranno aY,X e bY,X se si pensa X in funzione di Y.

    Se Y e X sono in relazione lineare le rette y = aX,Y x + bX,Y e x = aY,X y + bY,X ovviamente coincidono.

    Se Y e X sono indipendenti o totalmente scorrelate, le due rette sono parallele agli assi coordinati (aY,X e aY,X sono 0 essendo tale la covarianza).

8

 Utilizza STAT per trovare le rette di regressione di B1.tab e B2.tab (sono file che contengono punti generati con BERSAGL1 e BERSAGL2) e del file TERRARIA.tab (leggi i commenti e, prima di trovare la retta di "distanza lungo la strada" in funzione di "distanza in linea d'aria", cerca di trovare con un ragionamento teorico una funzione che approssimi la relazione tra queste due variabili).

    Un modo più semplice (se non si vuole affrontare un problema di minimo bivariato) per dedurre la formula di aX,Y può essere quello di imporre a priori (in base a considerazioni geometrico-meccaniche) la condizione che la retta passi per il baricentro e ridursi a trovare la pendenza per cui è minimizzata la somma dei quadrati degli scarti (in questo modo ci si riconduce a un problema di minimo in una variabile).

    STAT consente di tracciare anche la retta che "meglio approssima" i punti quando lo scarto da essi sia misurato con la sommatoria dei quadrati delle distanze dei punti sperimentali dalla retta (le rette di regressione sono invece ottenute considerando non le distanze, ma le loro proiezioni, orizzontali o verticali). Questo si ottiene chiedendo il tracciamento degli assi principali di dispersione: questa retta, passante anch'essa per il baricentro, e la sua perpendicolare nel baricentro vengono chiamate così perché per alcune elaborazioni statistiche vengono assunte come nuovo sistema di riferimento (per facilitare calcoli e forme di ragionamento). Esse corrispondono agli assi di simmetria delle curve di livello nel caso dell'ultima funzione di densità considerata nel §2 (vedi l'analisi del file Ellisse.tab nel prossimo quesito).

    Questo fatto e la differenza tra le due rette di regressione dovrebbero suggerire qualche cautela didattica nel descrivere una retta di regressione come retta che meglio approssima i punti.

    È facile verificare che rX,Y2 = aX,Y·aY,X, cioè che rX,Y = (aX,Y·aY,X) o rX,Y = –(aX,Y·aY,X).

    In altre parole, il coefficiente di correlazione è uguale, in valore assoluto, alla media geometrica dei due coefficienti di correlazione. Ciò conferma che quanto più le due rette di regressione sono vicine tanto più le due variabili sono correlate, positivamente o negativamente: quanto più ciò accade tanto più i due coefficienti di regressione tendono ad essere uno il reciproco dell'altro (infatti da y=ax+… segue x=1/a·y+…) e quindi la loro media geometrica tende ad essere 1.

Nota. Volendo, a livello didattico, si potrebbe prima introdurre il concetto di retta di regressione e poi quello di correlazione, come media geometrica dei coefficienti di correlazione. Ma ci sembra più significativa l'introduzione diretta, attraverso il concetto di covarianza.

    Anche per la regressione valgono considerazioni analoghe a quelle svolte per la correlazione alla fine di §4. STAT fornisce anche intervalli di confidenza per i coefficienti di regressione e per le coordinate del baricentro, dai quali, volendo, si possono trovare intervalli di confidenza anche per bX,Y e bY,X.

9

 Utilizza STAT per analizzare il file LEVA.tab. In particolare confronta i coefficienti di correlazione, i grafici di dispersione e le coppie delle rette di regressione di (altezza, peso) e (torace, peso) rappresentati in due sistemi monometrici. Analizza anche il file ELLISSE.tab rappresentandolo in scala monometrica insieme alle rette di regressione e agli assi principali.

<<<     Paragrafo precedente Paragrafo successivo     >>>