4. Uso del programma STAT. Limiti e usi distorti della correlazione.
A questo punto proviamo ad impiegare il programma STAT per analizzare coppie (e n-uple) di variabili casuali, di cui abbiamo già visto vari esempi d'uso nel §2.
Come nel caso "univariato", i dati possono essere introdotti direttamente o essere letti da file (che possono essere realizzati con un editor o generati con un programma o redatti con un foglio di calcolo, e poi salvati in formato testo, indicando di usare il punto e virgola come delimitatore) in cui le righe (record) indicano i soggetti su cui si è effettuato il rilevamento e le colonne (campi) indicano le variabili casuali (o modalità) rilevate.
I file devono avere nome con estensione tab ("TAB" deriva da "tabella").
Ecco, ad es., la parte iniziale del file BATTITO.tab (il file è nella cartella STF, ma è anche incorporato nel programma Stat: basta scrivere "battito" e cliccare [Imp] per caricarlo: vedi l'Help):
'tabella (indagine sui 92 studenti di un corso universitario - dati 'tratti da un esempio riportato nel manuale di MiniTab) 'a: battiti prima di eventuale corsa di 1 min 'b: battiti dopo 'c: fatta corsa (1 si`;0 no; a seconda di esito di lancio moneta) 'd: fumatore (1 si`;0 no) 'e: sesso (1 M; 2 F) 'f: altezza 'g: peso 'h: attivita` fisica (0 nulla;1 poca;2 media; 3 molta) 64;88;1;0;1;168;64;2 58;70;1;0;1;183;66;2 ...
Se raccolti su un foglio di calcolo i dati assumerebbero questo aspetto:
bat | bat.dopo | corsa | fumo | sesso | alt | peso | attiv |
64 | 88 | 1 | 0 | 1 | 168 | 64 | 2 |
58 | 70 | 1 | 0 | 1 | 183 | 66 | 2 |
... | ... | ... | ... | ... | ... | ... | ... |
I dati sono stati rilevati durante una lezione di un corso universitario (almeno così viene detto nel manuale del software statistico MiniTab da cui sono stati tratti e parzialmente rielaborati – per presentarli nel sistema metrico decimale – ; al dire il vero, se, per es., si calcola il χ2 per le altezze dei maschi confrontate con la gaussiana o per gli esiti del lancio della moneta confrontati con la uniforme – si può usare il programma TestChi2 applicato ai file Atl.chi e Monet.chi, già pronti – si trovano valori non molto normali). La colonna B ("battiti dopo") si riferisce a un secondo rilevamento del battito cardiaco effettuato dopo che gli studenti a cui (lanciando una moneta) è uscito testa (1 in colonna C) hanno fatto una corsa di un minuto.
Nella cartella STF sono registrati come B1.tab e B2.tab i file corrispondenti all'impiego dei procedimenti Bersagl1 e Bersagl2 del §1.
STAT accetta solo codifiche numeriche.
Si possono utilizzare anche file con dati dotati di frequenza (in fondo a ogni record è aggiunto, preceduto da "*", il numero di individui per i quali le variabili casuali assumono i valori indicati; anche la riga in cui è indicato il numero dei record termina con "*"). Nel §2 era illustrato il caso del file SettSess.tab contenente le informazioni su SettoreOccupazionale/Sesso.
Il programma consente di tracciare diagrammi di dispersione e costruire
(ed esportare per la visualizzazione nel programma TreDim) istogrammi
di distribuzione, di calcolare coefficienti di correlazione, di estrarre dati di singole
variabili casuali, oltre ad effettuare altre operazioni su cui ci sofferemeremo dopo.
Per altre informazioni esamina l'help. Lì trovi (nella sezione "esempi in più
variabili") come realizzare l'istogramma di
SettSess riportato nel paragrafo 2 e altre informazioni su file già incorporati nel programma.
Ad esempio a destra è riprodotto l'istogramma di distribuzione (in forma poliedrica invece che
come unione di parallelepipedi)
del file incorporato Gauss2: 1500 uscite di (X,Y), X e Y gaussiane μ=0 σ=1 |
6 |
ba .616 ca .052 cb .577 da .129 db .046 dc .066 ea .285 eb .309 ec-.107 ed-.129 fa-.211 fb-.153 fc .224 fd .043 fe-.709 ga-.203 gb-.166 gc .224 gd .201 ge-.710 gf .783 ha-.063 hb-.141 hc .007 hd-.120 he-.105 hf .089 hg-.004
Tra altezza e peso vi è un alto coefficiente di correlazione: 0.78. Se ci restringiamo a una sottopopolazione più omogenea ci potremmo aspettare di ottenere un coefficiente maggiore. Ma se estraiamo la popolazione femminile (negli esempi dell'help di Stat è spiegato come farlo) otteniamo 0.52. Perché?
7 |
Questo esempio mette in luce come le statistiche che si ottengono sono spesso ingannevoli. In casi come questo, abbastanza frequenti, il problema è dovuto alla presenza di due sottopopolazioni con caratteristiche differenti.
Un altro problema è legato al fatto che le statistiche ottenute su una certa popolazione possono essere utilizzate considerando questa come un campione di una popolazione più estesa. In tal caso, come discusso nelle schede 5 (§5) e 6 (§1-§3), alle statistiche ottenute occorre associare degli intervalli di confidenza e, se il campione è piccolo, devono essere opportunamente corrette.
Anche nel caso della covarianza, per avere uno stimatore non distorto del valore riferito alla eventuale popolazione "limite", occorre moltiplicare per n/(n–1), essendo n la numerosità del campione (vedi scheda 6, §3).
La determinazione di intervalli di confidenza è più complicata. Osserviamo, ad es., che nel caso della correlazione 0.52 tra Altezza e Peso tra le femmine del file BATTITO si otterrebbe [0.22, 0.73] come intervallo di confidenza al 95%, e dovrei tenerne conto se volesi usare questi dati per individuare la correlazione tra altezza e peso dell'intera popolazione femminile.
Infine, come già osservato nella scheda 3 (§3), occorre tener conto che quelle individuate sono solo relazioni statistiche, non di causa-effetto: mentre nel caso della correlazione tra le colonne A e C di BATTITO c'è effettivamente una relazione causale (l'aver fatto la corsa influenza il battito cardiaco), il fatto che emerga una correlazione positiva tra il "peso" e l'essere stata sorteggiata la "corsa" non significa che ci sia qualche fattore fisico che faccia sì che l'uscita di testa sia influenzata dalla massa della persona. Purtroppo, specie nei campi medico e socio-psicologico, spesso si fanno collegamenti di questo genere.
<<< Paragrafo precedente | Paragrafo successivo >>> |