>>>>>

Scheda 7- Analisi bivariata

4. Uso del programma STAT. Limiti e usi distorti della correlazione.

    A questo punto proviamo ad impiegare il programma STAT per analizzare coppie (e n-uple) di variabili casuali, di cui abbiamo già visto vari esempi d'uso nel §2.

    Come nel caso "univariato", i dati possono essere introdotti direttamente o essere letti da file (che possono essere realizzati con un editor o generati con un programma o redatti con un foglio di calcolo, e poi salvati in formato testo, indicando di usare il punto e virgola come delimitatore) in cui le righe (record) indicano i soggetti su cui si è effettuato il rilevamento e le colonne (campi) indicano le variabili casuali (o modalità) rilevate.

    I file devono avere nome con estensione tab ("TAB" deriva da "tabella").

    Ecco, ad es., la parte iniziale del file BATTITO.tab (il file è nella cartella STF, ma è anche incorporato nel programma Stat: basta scrivere "battito" e cliccare [Imp] per caricarlo: vedi l'Help):

'tabella (indagine sui 92 studenti di un corso universitario - dati
'tratti da un esempio riportato nel manuale di MiniTab)
'a: battiti prima di eventuale corsa di 1 min
'b: battiti dopo
'c: fatta corsa (1 si`;0 no; a seconda di esito di lancio moneta)
'd: fumatore (1 si`;0 no)
'e: sesso (1 M; 2 F)
'f: altezza
'g: peso
'h: attivita` fisica (0 nulla;1 poca;2 media; 3 molta)
64;88;1;0;1;168;64;2
58;70;1;0;1;183;66;2
...

    Se raccolti su un foglio di calcolo i dati assumerebbero questo aspetto:

bat bat.dopo corsa fumo sesso alt peso attiv
64 88 1 0 1 168 64 2
58 70 1 0 1 183 66 2
... ... ... ... ... ... ... ...

    I dati sono stati rilevati durante una lezione di un corso universitario (almeno così viene detto nel manuale del software statistico MiniTab da cui sono stati tratti e parzialmente rielaborati – per presentarli nel sistema metrico decimale – ; al dire il vero, se, per es., si calcola il χ2 per le altezze dei maschi confrontate con la gaussiana o per gli esiti del lancio della moneta confrontati con la uniforme – si può usare il programma TestChi2 applicato ai file Atl.chi e Monet.chi, già pronti – si trovano valori non molto normali). La colonna B ("battiti dopo") si riferisce a un secondo rilevamento del battito cardiaco effettuato dopo che gli studenti a cui (lanciando una moneta) è uscito testa (1 in colonna C) hanno fatto una corsa di un minuto.

    Nella cartella STF sono registrati come B1.tab e B2.tab i file corrispondenti all'impiego dei procedimenti Bersagl1 e Bersagl2 del §1.

    STAT accetta solo codifiche numeriche.

    Si possono utilizzare anche file con dati dotati di frequenza (in fondo a ogni record è aggiunto, preceduto da "*", il numero di individui per i quali le variabili casuali assumono i valori indicati; anche la riga in cui è indicato il numero dei record termina con "*"). Nel §2 era illustrato il caso del file SettSess.tab contenente le informazioni su SettoreOccupazionale/Sesso.

    Il programma consente di tracciare diagrammi di dispersione e costruire (ed esportare per la visualizzazione nel programma TreDim) istogrammi di distribuzione, di calcolare coefficienti di correlazione, di estrarre dati di singole variabili casuali, oltre ad effettuare altre operazioni su cui ci sofferemeremo dopo. Per altre informazioni esamina l'help. Lì trovi (nella sezione "esempi in più variabili") come realizzare l'istogramma di SettSess riportato nel paragrafo 2 e altre informazioni su file già incorporati nel programma. Ad esempio a destra è riprodotto l'istogramma di distribuzione (in forma poliedrica invece che come unione di parallelepipedi) del file incorporato Gauss2:

1500 uscite di (X,Y), X e Y gaussiane μ=0 σ=1

 

6

 Utilizzando STAT studia le correlazioni tra le diverse variabili di BATTITO: genera la matrice dei coefficienti di correlazione (dovresti ottenere una uscita simile a quella riportata sotto) e traccia il grafico di dispersione di alcune coppie di variabili casuali, cercando di cogliere i collegamenti tra forma delle "nuvole" di punti e coefficiente di correlazione. Prova anche a confrontare l'istogramma di distribuzione delle altezze dei maschi e quello delle femmine costruendo un istogramma tridimensionale che abbia come "X" il sesso e come "Y" l'altezza.

ba .616
ca .052  cb .577
da .129  db .046  dc .066
ea .285  eb .309  ec-.107  ed-.129
fa-.211  fb-.153  fc .224  fd .043  fe-.709
ga-.203  gb-.166  gc .224  gd .201  ge-.710  gf .783
ha-.063  hb-.141  hc .007  hd-.120  he-.105  hf .089  hg-.004

    Tra altezza e peso vi è un alto coefficiente di correlazione: 0.78. Se ci restringiamo a una sottopopolazione più omogenea ci potremmo aspettare di ottenere un coefficiente maggiore. Ma se estraiamo la popolazione femminile (negli esempi dell'help di Stat è spiegato come farlo) otteniamo 0.52. Perché?

7

 Cerca di individuare il motivo di questo fatto tracciando, con STAT, in rettangoli cartesiani uguali, i grafici di dispersione (altezza,peso) della popolazione femminile e di quella maschile e confrontandoli. [dovresti ottenere grafici come i sottostanti; il grafico a sinistra è riferito alla intera popolazione]

    Questo esempio mette in luce come le statistiche che si ottengono sono spesso ingannevoli. In casi come questo, abbastanza frequenti, il problema è dovuto alla presenza di due sottopopolazioni con caratteristiche differenti.

    Un altro problema è legato al fatto che le statistiche ottenute su una certa popolazione possono essere utilizzate considerando questa come un campione di una popolazione più estesa. In tal caso, come discusso nelle schede 5 (§5) e 6 (§1-§3), alle statistiche ottenute occorre associare degli intervalli di confidenza e, se il campione è piccolo, devono essere opportunamente corrette.

    Anche nel caso della covarianza, per avere uno stimatore non distorto del valore riferito alla eventuale popolazione "limite", occorre moltiplicare per n/(n–1), essendo n la numerosità del campione (vedi scheda 6, §3).

    La determinazione di intervalli di confidenza è più complicata. Osserviamo, ad es., che nel caso della correlazione 0.52 tra Altezza e Peso tra le femmine del file BATTITO si otterrebbe [0.22, 0.73] come intervallo di confidenza al 95%, e dovrei tenerne conto se volesi usare questi dati per individuare la correlazione tra altezza e peso dell'intera popolazione femminile.

    Infine, come già osservato nella scheda 3 (§3), occorre tener conto che quelle individuate sono solo relazioni statistiche, non di causa-effetto: mentre nel caso della correlazione tra le colonne A e C di BATTITO c'è effettivamente una relazione causale (l'aver fatto la corsa influenza il battito cardiaco), il fatto che emerga una correlazione positiva tra il "peso" e l'essere stata sorteggiata la "corsa" non significa che ci sia qualche fattore fisico che faccia sì che l'uscita di testa sia influenzata dalla massa della persona. Purtroppo, specie nei campi medico e socio-psicologico, spesso si fanno collegamenti di questo genere.

<<<     Paragrafo precedente Paragrafo successivo     >>>