Le statistiche
Alcuni modelli per la rappresentazione dei dati
Scheda 3
Lo sviluppo corporeo
0. Introduzione
1. Istogrammi di distribuzione
2. Media
aritmetica, moda, mediana
3. Campionamento
4. Percentili, ”normalità”
5. Concludendo
6. Esercizi
Sintesi
0. Introduzione
«Giovanni è basso», «Maria è troppo
alta»,
. A volte sono semplici osservazioni, altre
volte sono giudizi un po' maligni. Ma
che cosa vuol dire
"basso", che cosa vuol dire "alta"? In base a
quale valutazione riusciamo a distinguere quando una persona è
alta, bassa o di altezza normale?
Sicuramente siamo in grado di esprimere con un numero l'altezza di
una persona («Giovanni è alto 155 cm»). C'è
un modello matematico che ci permetta di stabilire quando l'altezza
di una persona è normale?
Non si può rispondere nettamente con un "sì"
o con un "no". Possiamo tuttavia affermare che la
matematica ci permette di affrontare la questione e di metterne in
luce la complessità. Questa scheda sarà dedicata
a questo argomento.
Vedremo che non può esistere una definizione assoluta di
"normalità" ma che esistono degli strumenti
matematici per valutare la relazione tra l'altezza di una persona e
quella del complesso delle altre persone e, più in generale,
per valutare la relazione tra un particolare aspetto di un certo
oggetto (ad esempio il peso di un uovo) e il modo in cui tale aspetto
si manifesta nella collettività di cui quell'oggetto fa parte
(ad esempio il complesso delle uova prodotte dall'allevamento da cui
l'uovo considerato proviene).
In cent'anni l'altezza media è aumentata più di 10 cm. La crescita è stata particolarmente rapida negli anni 70, cioè per gli uomini nati negli anni 50 e che hanno trascorso la loro infanzia negli anni della ripresa e dello sviluppo economico che sono seguiti alla seconda guerra mondiale (dal 1971 al 1981 vi è stato un aumento medio di 2.7 mm/anno). Negli ultimi anni la crescita tende a rallentare; probabilmente si stabilizzerà, centimetro più centimetro meno, intorno ai 175 cm. Un fenomeno analogo (forte crescita nel XX secolo, con rallentamento negli ultimi decenni) si è verificato in tutti i paesi industrializzati, anche tra le donne.
L'aumento dell'altezza media è dovuto essenzialmente al miglioramento delle condizioni di vita, soprattutto nell'alimentazione (per ricordare alcuni dati, nel 1880 l’"italiano medio" ha consumato 15 kg di carne, 29 nel 1960 e 54 nel 1970), ma anche nell'assistenza sanitaria e nell'attività fisica (si pensi all'elevamento dell'obbligo scolastico e alla progressiva riduzione del fenomeno del lavoro minorile): questi miglioramenti hanno fatto sì che i bambini e gli adolescenti abbiano avuto sempre più modo di sfruttare al massimo le potenzialità di crescita presenti nel patrimonio genetico ereditato dai genitori. Il miglioramento nell'assistenza sanitaria ha inciso su questo aumento anche in altri modi; ad es. le donne longilinee un tempo incontravano più difficoltà nel parto e quindi mediamente avevano meno figli; pian piano questo "svantaggio" è stato colmato ed è aumentata la trasmissione del patrimonio genetico da parte delle donne più alte.
| Abbiamo dunque visto un primo aspetto che rende relativo il significato di "essere basso": l'altezza media è variata nel tempo. Un maschio nato nel 1941 (cioè ventenne nel '61) e alto 165 cm di quanto è sotto all'altezza media dei suoi coetanei? |
Ma non basta calcolare la distanza dell'altezza di una persona dall'altezza media. Bisogna anche vedere se, ad esempio, sono molte o sono poche le persone nate nel 1972 e con altezza inferiore di 9 o più centimetri rispetto all'altezza media. Per fare questa valutazione possiamo riferirci agli istogrammi della figura 2, che rappresentano le percentuali dei ventenni maschi le cui altezze cadono in alcuni intervalli di misure. Questi istogrammi sono stati realizzati impiegando dati pubblicati dall'Istat e già classificati negli intervalli di altezza indicati: altezze fino a 149 cm, altezze da 150 a 154 cm, , altezze da 180 cm in su, per il 1881 e il 1961; altezze fino a 159 cm, altezze da 160 a 164 cm, , altezze da 190 cm in su, per il 1992. Gli istogrammi man mano si sono spostati verso destra, ma hanno mantenuto più o meno la stessa forma. Ciò visualizza il fatto che le diversità genetiche all'interno della popolazione si sono mantenute e che il miglioramento delle condizioni di vita ha fatto sì che tutti, ciascuno con le potenzialità ereditate, sviluppassero maggiormente l'altezza.
|
figura 2 |
In figura 2 con "170-174" abbiamo indicato l'intervallo di misure i cui valori troncati ai centimetri sono 170, 171, 172, 173 o 174, cioè le misure che vanno da 170.0 cm a 174.9 cm. Nel disegno a fianco sono i valori che cadono tra le due frecce, cioè i valori maggiori o uguali a 170.000 e minori di 175.000 . |
Quando di un intervallo di valori numerici si vogliono descrivere esattamente gli estremi si usano scritture come la seguente: [170,175). Essa indica l'insieme dei numeri che sono maggiori o uguali a 170 e che sono minori di 175; cioè l'insieme dei numeri x tali che 170≤x<175.
Si usa anche la scrittura: ; il pallino pieno [vuoto] indica che l'estremo è [non è] compreso.
Nel caso in cui avessimo voluto includere 175 avremmo scritto [170,175] o .
| (a) Come rappresenteresti l'insieme dei numeri x tali che
170<x≤175? (b) e l'insieme dei numeri x tali che 14<x<17? (c) Come completeresti questa frase "l'insieme dei numeri x tali che " in modo da descrivere l'intervallo rappresentabile con [4.1,4.3]? (d) e in modo da descrivere l'intervallo rappresentabile con (4.1,4.3]? (e) Se 48 cm è la lunghezza arrotondata ai centimetri di un oggetto, in quale tra i seguenti intervalli puoi concludere che cade la lunghezza "esatta"? (48, 49] (47.5, 48.5) [48, 49) [47.5, 48.5) (47, 48] |
Tornando a figura 2, come sono state ottenute le percentuali rappresentate mediante gli istogrammi?
Le altezze dei ventenni sono state classificate negli intervalli raffigurati a fianco. Il termine classificare in questo caso non significa "mettere in graduatoria, assegnare un posto della classifica", ma significa "ripartire in classi (cioè collezioni, insiemi, aggregati, ) opportunamente definite". Le classi in cui vengono distribuiti i dati vengono spesso chiamate anche modalità. |
Per fare un altro esempio, se si volesse fare una statistica sul quartiere di provenienza degli alunni di una scuola, le modalità sarebbero i vari quartieri.
Il numero delle altezze che cade in un certo intervallo viene chiamato frequenza di quell'intervallo. Nel caso dell'indagine sulla provenienza degli alunni la frequenza di un quartiere è il numero degli alunni che proviene da esso. Più in generale, se considero un certo insieme di "oggetti" (ventenni, alunni di una scuola, ) e per ciascuno di essi raccolgo una particolare informazione (altezza, quartiere di provenienza, ), la frequenza di una modalità è il numero delle informazioni che vengono classificate in quella modalità o, in altre parole, è il numero delle volte che quella modalità si manifesta.
|
|
Classificazione: | Frequenze: | ||||||||||||||||||||||||||
|
|
Dopo aver classificato i dati e stabilito la frequenza delle varie
modalità, per calcolare le percentuali rappresentate in
istogrammi come quelli di figura 2, ogni frequenza viene divisa per
il numero totale dei dati.
Nel caso di figura 2 la frequenza di ogni intervallo è stata divisa per il numero totale dei ventenni ed espressa in forma percentuale.
Un rapporto di questo genere, cioè il rapporto tra la frequenza di una modalità e il numero totale delle informazioni classificate, viene chiamato frequenza relativa; infatti non esprime direttamente il numero delle volte con cui la modalità si è verificata ma lo "relativizza", ne esprime la relazione quantitativa con il totale delle informazioni classificate.
Quando la frequenza relativa è espressa in forma percentuale viene chiamata anche frequenza percentuale.
Nel caso della provenienza degli alunni dire che per il quartiere X si è ottenuta una frequenza relativa del 29% significa che il rapporto tra gli alunni provenienti da X e il totale degli alunni è 0.29.
Per meglio distinguerla dalla frequenza relativa, la frequenza (non relativizzata) viene spesso chiamata frequenza assoluta.
frequenza assoluta di una modalità = | quantità delle
informazioni che vengono classificate in tale modalità |
frequenza relativa di una modalità = | frequenza assoluta di tale modalità |
| |
totale delle informazioni classificate |
| (a) Qual è la frequenza relativa della
modalità "fare uno sport praticabile sia in squadra che
individualmente" di cui al quesito 5? (esprimila in forma
percentuale) (b) Qual è la frequenza relativa dell'intervallo di altezze (in cm) [165,170) nel 1961 ( fig. 2)? |
Una tabella che associ ad ogni modalità le corrispondenti frequenze con cui si manifesta un certo fenomeno viene detta distribuzione di frequenza (o più semplicemente distribuzione) di quel fenomeno (rispetto alle modalità scelte).
Ad esempio la tabella (1.1) è la distribuzione di frequenza degli sport praticati dagli alunni del quesito 5 rispetto alle modalità indicate (I sta per "praticabile individualmente", S sta per "praticabile a squadra").
La tabella (1.2) è la distribuzione di frequenza delle altezze degli italiani maschi ventenni nel 1992 rispetto agli intervalli indicati. Per essere più precisi nel questo caso dovremmo parlare di distribuzione di frequenza relativa o di distribuzione percentuale.
Gli istogrammi di figura 2 vengono quindi chiamati istogrammi di distribuzione (percentuale).
(1.1) | sport che è sia I che S |
sport che è I ma non S |
sport che è S ma non I |
nessuno sport |
frequenza | 4 | 3 | 8 | 5 |
(1.2) | [0,160) | [160,165) | [165,170) | [170,175) | [175,180) | [180,185) | [185,190) | [190,∞) |
freq. relativa | 2% | 7% | 18% | 29% | 25% | 13% | 5% | 1% |
Il simbolo "∞" (che si legge "infinito") impiegato per l'ultimo intervallo indica una quantità infinita, cioè [190,∞) rappresenta l'intervallo costituito da tutti i numeri maggiori o uguali a 190.
Anche gli istogrammi relativi ai consumi impiegati nella scheda 1 sono istogrammi di distribuzione: gli "oggetti" sono le lire o euro spesi in consumi, le "informazioni" sono i beni o i servizi per cui le varie lire sono state spese, le modalità sono le categorie di beni e di servizi considerate.
Si parla di istogrammi di ripartizione (o distribuzione) assoluta dei consumi se sulla scala verticale sono rappresentati i dati assoluti , di istogrammi di ripartizione percentuale se sono rappresentate le percentuali.
Gli istogrammi possono essere usati per visualizzare il confronto tra due o più quantità, ma non sempre si tratta di istogrammi di distribuzione. A differenza del caso raffigurato a sinistra (ripartizione della popolazione italiana nelle tre zone geografiche), a destra (popolazione ligure in vari anni) non siamo di fronte a un istogramma di distribuzione: i rettangoli non rappresentano le parti che compongono un totale (un abitante conteggiato nel 2001 può essere stato conteggiato anche nel 1991, nel 1981, ). |
|
2. Media, moda,
mediana
Tra la distribuzione delle altezze e quella delle zone di provenienza degli alunni vi è una diversità di fondo. In un caso abbiamo modalità di tipo numerico (valori numerici che vengono classificati in intervalli di numeri), nell'altro no (località che vengono classificate in quartieri).
Nel primo caso quindi sull'istogramma le modalità devono essere rappresentate con un certo ordine, nel secondo caso l'ordine non è particolarmente significativo: i due istogrammi di distribuzione di frequenza assoluta della figura 3 possono essere considerati equivalenti.
Inoltre, mentre nel primo caso ha senso parlare di media aritmetica dei dati, nel secondo non ha senso parlare di quartiere medio di provenienza. In entrambi i casi si può considerare la modalità più frequente. Essa viene detta moda o classe modale. Nel caso dei quartieri di provenienza la moda è il quartiere C. Nel caso delle altezze abbiamo già individuato le classi modali nel quesito 3. |
figura 3 (clicca per ingrandire) |
| Nel caso della distribuzione rappresentata dalla tabella (1.1)
trova, se è possibile, la moda e la media aritmetica. |
Nelle situazioni, come quella delle altezze, in cui le modalità sono numeri o intervalli numerici, la moda indica un valore medio, così come la media aritmetica, cioè un valore (o un intervallo di valori) che riassume, caratterizza quantitativamente il modo complessivo in cui si è manifestato il fenomeno in questione. Ad esempio per il 1992 possiamo dire (esprimendosi in cm) sia che l'altezza media dei ventenni era di 174.1, sia che la classe modale è [170,175) ( figura 2).
figura 4 |
A differenza della media, la moda (e più in generale la forma dell'istogramma) non dipende solo dai dati ma anche dalla scelta degli intervalli in cui classificare i dati. Ad esempio in figura 4 sono riportati due istogrammi della distribuzione percentuale delle altezze dei ventenni nel 1992 alternativi a quello della figura 2.
|
|
Riproduci qui a fianco gli istogrammi (corretti) che hai tracciato su carta quadrettata |
|
Si sono eleborati i dati relativi alle altezze delle alunne del quesito 9
utilizzando il programma R (scheda 1 di Le
statistiche, quesiti 33, e23). Spiega
che cosa si è fatto. alu <- c(156,168,162,150,167,157,170,157,159,164,157,165, 163,165,166,160,163,162,155) length(alu); range(alu); sort(alu); mean(alu); median(alu) 19 150 170 150 155 156 157 157 157 159 160 162 162 163 163 164 165 165 166 167 168 170 161.3684 162 stem(alu) 15 | 0 15 | 567779 16 | 022334 16 | 55678 17 | 0 |
La situazione analizzata nei quesiti 9 e 10 mette in luce alcuni problemi.
Un primo problema è che si possono ottenere istogrammi con andamento abbastanza diverso da quello degli istogrammi di fig. 2. In questo caso ciò è dovuto al fatto che abbiamo considerato solo le informazioni relative alle diciassettenni di una particolare scuola mentre nel caso di fig. 2 avevamo a disposizione la totalità dei ventenni. Se la scuola fosse stata di dimensioni molto maggiori si sarebbero ottenuti istogrammi dall'andamento simile a quello degli istogrammi di fig. 2.
Un secondo problema è che ci possono essere più mode: la scelta del numero degli intervalli, influenzando la forma dell'istogramma, può anche condizionare la quantità delle classi modali che si ottengono.
Val la pena di osservare che vi sono situazioni in cui la forma dell'istogramma è diversa da quelle "a campana" degli istogrammi di fig. 2 per motivi di fondo, non perché sono poche le informazioni raccolte o perché non si sono scelti in modo opportuno gli intervalli. Ad esempio in figura 5 sono riportati gli istogrammi di distribuzione (di frequenza assoluta) delle altezze degli alunni (maschi) delle classi - due prime e due terze - presenti nella succursale di una scuola secondaria superiore. L'istogramma a sinistra si riferisce agli alunni delle prime, quello al centro agli alunni delle terze, quello a destra al totale degli alunni.
| Discutete la relazione tra la forma dell'istogramma relativo all'intera succursale e quella degli altri due. |
figura 5 |
Un terzo problema è che l'altezza media delle alunne del quesito 9 (161 cm, arrotondando) non cade nella moda 162-164 cm. In questo caso ciò dipende dal numero delle alunne, piccolo rispetto al totale delle diciassettenni. Ma vi sono fenomeni che danno comunque luogo a istogrammi di distribuzione con moda molto diversa dalla media.
figura 6 |
Ad es. nel caso della distribuzione dell'età di laurea presso l'Università di Genova nel triennio 1984-86 (figura 6) la media è 28 anni mentre la moda è 26 anni (attualmente, a causa dell'introduzione di due successivi livelli di laurea, l'età della conclusione degli studi si alzata di circa un anno). Infatti il valore della media subisce l'influenza della "coda" costituita dalle persone che si laureavano con grande ritardo (studenti lavoratori, "perdigiorno" mantenuti dalla famiglia benestante, ). E questa coda, che sta alla destra della classe modale, fa aumentare il valore della media rispetto a quello della moda. |
Se nella scuola del quesito 9 l'alunna alta 150 cm si ritira e, contemporaneamente, si iscrive una diciassettenne spilungona, brava giocatrice di pallacanestro, alta 182 cm, l'altezza media diventa 163.1 cm: la distribuzione delle altezze non cambia particolarmente, ma il nuovo valore di 182 cm, anomalo rispetto alla altre altezze (figura 7), influisce non poco sul valore della media, che aumenta di quasi 2 cm. figura 7 |
Questo esempio e quello relativo all'età di conclusione degli studi universitari mettono in luce che la media aritmetica è un valore medio che non è sempre significativo.
Nel caso delle altezze delle alunne diciassettenni abbiamo visto che il piccolo numero di esse fa sì che neanche la moda sia particolarmente indicativa. Ciò si vede bene anche dall'istogramma di distribuzione (fig.7 in alto): la classe 159-161 cm, che è "centrale" rispetto all'istogramma, ha una colonna più bassa rispetto a classi più "laterali", mentre per le altezze di coetanei dello stesso sesso ci aspettiamo un andamento più a campana, come per gli istogrammi di fig. 2.
In situazioni come quelle di questi due esempi può essere utile impiegare un ulteriore tipo di valore medio: il valore del dato al centro dell'elenco dei dati ordinati, o mediana.
Nel caso delle 19 diciassettenni ordinando le loro altezze (cioè passando dalla prima alla seconda riga della tabella seguente) troviamo che l'altezza centrale, cioè quella al 10° posto, è di 162 cm. Dopo lo "scambio" di alunne (terza riga) l'altezza centrale è diventata 163 cm. Se fosse venuta un'ipotetica superspilungona di 2 metri la mediana non sarebbe ulteriormente aumentata. La media aritmetica, invece, come si vede nella colonna finale, sarebbe aumentata di un altro centimetro.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | media |
156 | 168 | 162 | 150 | 167 | 157 | 170 | 157 | 159 | 164 | 157 | 165 | 163 | 165 | 166 | 160 | 163 | 162 | 155 | |
150 | 155 | 156 | 157 | 157 | 157 | 159 | 160 | 162 | 162 | 163 | 163 | 164 | 165 | 165 | 166 | 167 | 168 | 170 | 161.4 |
155 | 156 | 157 | 157 | 157 | 159 | 160 | 162 | 162 | 163 | 163 | 164 | 165 | 165 | 166 | 167 | 168 | 170 | 182 | 163.1 |
155 | 156 | 157 | 157 | 157 | 159 | 160 | 162 | 162 | 163 | 163 | 164 | 165 | 165 | 166 | 167 | 168 | 170 | 200 | 164.0 |
Vediamo come interpretare graficamente la mediana.
Nella figura 8 a sinistra è riprodotto l'istogramma di
distribuzione delle altezze delle alunne in classi di altezza ampie 3
cm, questa volta realizzato rappresentando le varie modalità
una attaccata alla successiva, senza lasciare spazio in mezzo; in
questo modo la base dell'istogramma rappresenta l'intervallo di
altezze che va da 150 cm a 170 cm.
Nella parte centrale della figura è indicato qual è il
quadretto corrispondente a ciascuna alunna nel caso in cui
l'istogramma fosse costruito seguendo l'elenco dei dati ordinati
(seconda riga della tabella precedente), ed è evidenziato il
quadretto corrispondente al dato centrale, cioè alla mediana:
è il 10° quadretto, che è preceduto e seguito dallo
stesso numero di quadretti (9).
Nella parte destra è tratteggiata la linea verticale che
suddivide l'istogramma in due parti di uguale area. Essa passa per
l'intervallo 162-164, come ci dovevamo aspettare da quanto visto
sopra: il quadretto corrispondente al dato centrale sta nella colonna
162-164 cm.
figura 8 |
Nel caso dell'età di laurea non dispongo dei dati dei singoli studenti ma solo dell'istogramma di distribuzione di fig. 6 (riprodotto a lato: figura 9-A). Non posso quindi procedere come ho fatto per l'altezza media delle alunne. Posso tuttavia individuare la mediana, seguendo due diversi procedimenti: | A figura 9 | B | |
(1) Sommo le frequenze percentuali delle varie età a partire dall'età minore (cioè dalla colonna più a sinistra dell'istogramma) e mi fermo quando raggiungo il 50%. Mentre nel caso delle altezze delle alunne si sono ordinati i dati in una tabella e si è presa la casella centrale, qui è come se appilassi i rettangolini che formano l'istogramma (passando da figura 9-A a figura 9-B) e considerassi quello che sta a metà della striscia ottenuta, cioè il rettangolino per cui passa la quota che indica il 50%: l'età mediana di laurea è dunque di 27 anni. In altre parole il 50% degli studenti si laurea entro i 27 anni e l'altro 50% si laurea a un'età non inferiore ai 27 anni. (2) Opero sull'istogramma di figura 6: la linea di divisione verticale che lo taglia in due parti di area uguale (fig. 10) passa per l'intervallo che rappresenta i 27 anni. | |||
figura 10 |
Consideriamo l'altezza dei ventenni nel 1976 (anno intermedio tra il 1961 e il 1992 considerati all'inizio della scheda) in cui l'altezza media era di 172.0. Procedendo con il metodo (2) posso capire che la verticale che ne divide a metà l'istogramma (figura 11) passa per il rettangolo indicato dalla freccia, cioè che l'altezza mediana è compresa tra 170 e 175 cm. Per procedere con il metodo (1) posso considerare la tabella (2.2), in cui è riprodotta la distribuzione percentuale dei ventenni nel 1976, rappresentata graficamente in fig. 11. "Cumulando" (cioè sommando man mano) tali frequenze, si ottiene la tabella (2.3), i cui valori vengono detti frequenze percentuali cumulate. Il passaggio dalla tabella (2.2) alla tabella (2.3) non è altro che la traduzione "numerica" dell'"appilamento" con cui da un istogramma di distribuzione (come fig. 9-A) si passa a quello a striscia (come fig. 9-B). |
figura 11 |
(2.2) | [150,155) | [155,160) | [160,165) | [165,170) | [170,175) | [175,180) | [180,185) | [185,190) | [190,195) |
frequenza % | 0.7% | 2.9% | 11.2% | 24.0% | 28.9% | 20.4% | 8.9% | 2.5% | 0.5% |
(2.3) | [150,155) | [155,160) | [160,165) | [165,170) | [170,175) | [175,180) | [180,185) | [185,190) | [190,195) |
freq. % cumulata | 0.7% | 3.6% | 14.8% | 38.8% | 67.7% | 88.1% | 97.0% | 99.5% | 100.0% |
Sotto [165,170) è riportata la percentuale di ventenni con altezza minore di 170 cm: 38.8% è la somma di 0.7%, 2.9%, 11.2% e 24.0%. La colonna successiva ci dice che il 67.7% ha altezza minore di 175 cm. Quindi il valore che separa le altezze (in cm) del 50% dei ventenni più bassi da quelle del 50% dei ventenni più alti, cioè la mediana, cade in [170, 175).
3.
Campionamento
Facciamo un'ultima osservazione a proposito della tabella (2.1). Essa non è il frutto di un esame che ha riguardato tutte le ragazze diciasettenni italiane, ma solo una parte di esse. Si tratta, comunque, di un numero non troppo piccolo di ragazze, che ci consente di fare delle deduzioni su come è distribuita l'altezza del complesso delle diciasettenni italiane.
Quando per studiare un certo aspetto di un particolare insieme di "oggetti" (persone, animali, prodotti, ) si compiono osservazioni solo su una parte di essi, questa parte "estratta" dall'insieme totale degli oggetti viene chiamata campione; l'analisi statistica così effettuata viene chiamata indagine campionaria; il procedimento con cui si sono "estratti" gli oggetti di cui raccogliere le informazioni, viene chiamato campionamento.
Un famoso esempio di indagine non campionaria sulla popolazione italiana è costituito dai censimenti, che vengono effettuati ogni dieci anni ( , 1971, 1981, 1991, ) intervistando attraverso opportuni questionari tutti gli italiani.
| Se chiedeste a ciascuno studente delle classi prime della vostra scuola quale numero di scarpa porta e analizzaste i dati così raccolti, che cosa realizzereste? | ||||||||||
|
| Supponiamo
che con l'indagine del quesito 12 si voglia effettuare un'analisi
statistica sui ragazzi italiani di 14-15 anni. Il campione scelto ti
sembra "rappresentativo", cioè adeguato a fornire
informazioni estendibili all'intera popolazione italiana di 14-15
anni? |
I termini "campionaria", "campionamento", derivano dalla parola "campione" intesa come "esemplare rappresentativo" (pensa al rappresentante che mostra campioni dei beni prodotti dalle ditte per cui lavora). La parola è stata poi estesa al significato statistico di "parte rappresentativa" di un certo insieme di soggetti.
E` importante fissare l'attenzione sull'aggettivo rappresentativa: non basta prendere un po' di soggetti e fare su questi i calcoli per ottenere delle informazioni significative sulla totalità dei soggetti.
Supponiamo che l'Istat voglia analizzare un particolare aspetto delle condizioni di vita degli italiani tra un censimento e l'altro, ad esempio il numero dei componenti delle famiglie, e non abbia il tempo e i mezzi per fare un'indagine completa su tutti gli italiani. Può estrarre un campione di famiglie e analizzare i dati di queste. Ma deve fare l'estrazione non privilegiando una zona geografica, una fascia di età dei genitori, una condizione economica, rispetto ad altre: infatti il fenomeno si presenta in maniera diversa al variare della regione, dell'epoca e dell'età in cui si sono sposati i genitori, delle condizioni sociali ed economiche, ; un campione che fosse fatto quasi tutto di famiglie dell'Italia centrale o che privilegiasse le famiglie di recente formazione rappresenterebbe poco fedelmente il complesso delle famiglie italiane.
Inoltre il campione deve essere sufficientemente numeroso. Ad esempio se una fabbrica di dischetti per calcolatori vuole fare un'indagine sulla quantità di letture/registrazioni che si possono fare sui dischetti prodotti prima che questi si danneggino (e, ovviamente, non sottopone ad una prova di durata tutti i dischetti: così facendo distruggerebbe tutta la propria produzione!) deve decidere quanti dischetti prendere "a caso" durante, ad esempio, una particolare giornata di produzione: prenderne il 10% sarebbe troppo dispendioso (occorrerebbe impiegare troppi dispositivi di lettura/scrittura su disco magnetico); prenderne lo 0.5% è sufficiente? Non è facile rispondere a questa domanda: occorre tener conto di altri fattori e utilizzare concetti matematici che per adesso non abbiamo ancora affrontato.
Riprenderai il problema del campionamento più avanti nel corso degli studi, dopo che avrai imparato i primi elementi di calcolo delle probabilità, cioè della parte della matematica che si occupa dei fenomeni casuali.
4. Percentili e
”normalità”
Abbiamo visto che la mediana delle altezze dei ventenni del 1976 cade tra 170 e 175 cm: i ventenni del 1976 più bassi di 170 cm sono il 38.8% e quelli più bassi di 175 cm sono il 67.7%, quindi l'altezza che delimita il 50% dei ventenni più bassi è compresa tra queste due misure (figura 12). In altre parole, messi in ordine di altezza i ventenni, quello che sta a metà è stato classificato nell'intervallo [170,175).
|
figura 12 |
Per determinare con più precisione il valore della altezza mediana posso osservare (vedi figura 13, che rappresenta l'appilamento dei rettangoli dell'istogramma) che il 50% è più vicino a 38.8% che a 67.7%, e quindi supporre che la mediana sia più vicina a 170 che a 175.
figura 13 |
La figura a lato fa supporre che la mediana sia circa 172 cm. È un valore stimato: non sono certo che sia l'arrotondamento a 3 cifre della mediana. Infatti ho diviso [170,175) in 5 parti uguali, come se le altezze che cadono in questo intervallo si distribuissero uniformemente, ripartendosi equamente tra [170,171), [171,172), , [174,175). Per una valutazione senza incertezze dovrei conoscere come le altezze si distribuiscono effettivamente in tali intervalli. |
Come avrei potuto stimare il valore della mediana senza ricorrere a queste rappresentazioni grafiche?
Devo trovare un metodo numerico per associare a 50% la posizione corrispondente nell'intervallo [170,175), cioè il valore che lo suddivide allo stesso modo in cui 50 suddivide l'intervallo che va da 38.8 a 67.7.
Quindi la distanza tra 170 e ? è pari all'ampiezza di [170,175) per R (= 11.2/28.9 = 0.3875 = 38.75 %), cioè 5·R.
Per trovare "?" devo aggiungere all'estremo sinistro
dell'intervallo tale distanza: |
figura 14 |
Con la CT posso eseguire il calcolo nel modo a fianco: 5 11.2 28.9 170
L'assunzione che le altezze si distribuiscano uniformemente tra
170 e 175 equivale a considerare le variazioni di altezza
proporzionali alle variazioni della frequenza cumulata.
Quindi (vedi figura 15 - clicca per ingradirla) potevo anche procedere così k = fattore di proporzionalità = pendenza =
Quindi alla variazione della frequenza percentuale cumulata da 38.8 a 50 (= 11.2) corrisponde: VariazioneAltezza = 11.2 · k = 11.2 · 5/28.9 = 1.937 |
Analogamente a come ho proceduto per la mediana (il valore che delimita superiormente il primo 50% dei dati ordinati), posso trovare per ogni percentuale p il valore che delimita superiormente il primo p% dei dati.
Ad es. da fig.9-B posso ricavare che il 10% degli studenti si laurea entro i 25 anni (e il 90% si laurea dopo il compimento dei 25 anni) e che il 75% degli studenti si laurea entro i 29 (e il 25% si laurea avendo già compiuto i 29 anni). Infatti tagliando il diagramma a striscia alle quote 10% e 75% vado a cadere nei rettangoli che rappresentano le età di 25 anni e 29 anni, rispettivamente.
| Usando fig.9-B completa la seguente tabella (4.1), dove età indica l'età che separa il primo p% degli studenti (ordinati per età al momento della laurea) dai rimanenti. |
(4.1) |
|
Il valore corrispondente a una frequenza cumulata del p% viene detto p-esimo percentile o percentile di ordine p. Ad es. nel nostro caso il 50° percentile (cioè la mediana) è 27, il 10° percentile è 25, il 75° è 29.
Tabelle come (4.1), o quelle che si ottengono con una diversa scelta delle percentuali, possono essere considerate un'alternativa agli istogrammi di distribuzione percentuale.
Ad esempio la forma allungata verso destra dell'istogramma di fig.10 (o fig.9-A) trova corrispondenza nel fatto che il 40% che segue la mediana (cioè gli studenti che vanno dal 50° al 90° percentile) spaziano dai 27 ai 31 anni, mentre il 40% che precede la mediana (cioè gli studenti che vanno dal 10° al 50° percentile) spaziano in un intervallo molto più piccolo, dai 25 ai 27 anni.
La differenza tra l'intervallo che va dal 5° al 50° percentile e quello che va dal 50° al 95° è ancora maggiore: nel primo caso si spazia su 4 anni di età, dall'età di 24 anni a quella di 27, nel secondo si spazia su 8 anni, dall'età di 27 a quella di 34.
| Anche nel caso delle altezze dei ventenni (nel 1976) possiamo calcolare i percentili, procedendo con metodi simili a quelli impiegati per la mediana. Possiamo ottenere ad esempio la tabella (4.2), dove l'ultima riga indica i valori che poi sono stati arrotondati nei dati riportati nella seconda. Confrontate la forma dell'istogramma relativo a questi dati ( figura 11) con le informazioni ricavabili dalla tabella dei percentili. |
(4.2) |
|
| Secondo voi è normale che, alla fine degli anni '80, uno studente si laureasse a 28 anni (mentre ci sono studenti che si laureavano a 22 e 23 anni)? Secondo voi è basso un adulto alto 168 cm (mentre l'altezza media dei maschi che avevano 20 anni nel 1992 è 174 cm - figura 2)? |
In figura 16 sono evidenziati i percentili di ordine 5,
25, 50, 75 e 95 (stimati fino ai decimi) della distribuzione
dell'età di laurea alla fine degli anni '80 ( tabella 4.1).
Sotto all'istogramma è raffigurata una rappresentazione
grafica alternativa, chiamata box-and-whiskers-plot
("diagramma a scatola e baffi") o, più in breve,
box-plot. È una figura "lineare"
(si sviluppa solo orizzontalmente, non in due dimensioni, come
gli istogrammi) che sintetizza in modo efficace come si
distribuiscono i dati. |
figura 16 |
| A lato sono raffigurati i box plot relativi alle altezze dei ventenni italiani nel 1881, nel 1961 e nel 1976. I dati utilizzati per il 1881 erano classificati in [140,145), , [185,190), per il 1961 in [145,150), , [185,190), per il 1976 in [150,155), , [190,195). Questo spiega i diversi punti di partenza/arrivo dei baffi.
Qual è l'intervallo (con estremi arrotondati
ai centimetri) in cui cade il 90% centrale delle altezze dei
ventenni del
1881? |
(clicca per ingrandire) |
I percentili permettono di affrontare in modo serio questioni come: «che cosa vuol dire essere di altezza normale?». Ad esempio che cosa si intende dicendo che una persona è bassa? Che la sua altezza è inferiore all'altezza mediana? Ma in tal caso le persone si dividerebbero quasi tutte in alte o basse, e sarebbero normali solo poche persone.
Per dare un significato "oggettivo" alla valutazione dell'altezza dobbiamo fissare delle convenzioni. Ad esempio potremmo dire che sono "nella media" le altezze che cadono entro il 50% centrale dei dati, cioè tra il 25° e il 75° percentile, e che sono "basse" quelle inferiori al 25° percentile e "alte" quelle che superano il 75° percentile. Considerazioni analoghe si potrebbero fare per l'età di laurea.
Si tratta, comunque, sempre di valutazioni statistiche basate su scelte convenzionali e che devono essere riferite a valutazioni più generali della situazione che si sta considerando.
Facciamo due esempi.
(1) Se ritenessimo "statisticamente" normale laurearsi tra il 25° e il 75° percentile, cioè, nel caso considerato, tra i 26 e i 29 anni, non potremmo certo considerare "anormale" (nel senso di "tipo strano") uno studente che si laurea a 25 anni o ritenere che chi si iscrive all'università possa preventivare come "normale" (cioè come obiettivo "accettabile") la conclusione degli studi a 29 anni.
(2) Se un pediatra dispone della tabella a fianco dei percentili per le altezze delle bambine di 12 mesi e, visitando una bimba di 1 anno, trova che è alta circa 68 cm, può supporre che vi sia qualche ritardo nella crescita. Infatti la sua altezza è inferiore al 3° percentile: il 97% delle bimbe della sua età ha un' altezza superiore. |
| ||||||||||||||
Ovviamente in questa valutazione il pediatra deve tener conto
dell'altezza dei genitori: se anche la loro altezza cadesse tra i
primi percentili il fenomeno non sarebbe particolarmente
preoccupante. Inoltre deve effettuare la misura con cura, eventualmente ripetendola più volte: già con un adulto da una misurazione all'altra ci può essere lo scarto di un paio di centimetri (sulla misura incidono la posizione della colonna vertebrale, che può variare anche in relazione alla stanchezza della persona, la posizione della testa, la cura con cui viene letta la scala graduata, ); con un bimbo piccolo, che è difficile da tener fermo, lo scarto può essere anche maggiore. |
A questo punto dovrebbe essere chiaro che il concetto di normalità è convenzionale e dipende dal contesto. Ad esempio se un regista cerca per una parte un uomo né troppo alto né troppo basso può dare l'incarico di cercare un uomo la cui altezza rientri in quella della maggioranza degli uomini. Questa espressione informale può essere tradotta dai collaboratori del regista nella ricerca di una persona la cui altezza cada nel 50% centrale delle altezze, cioè tra il 25° e il 75° percentile.
In altre situazioni si possono assumere come altezze "normali" intervalli più piccoli (ad es. tra il 30° e il 70° percentile, cioè il 40% centrale dei dati) o più grandi (ad es. dal 3° al 97° percentile, cioè il 94% centrale).
Veniamo, infine, a dati che vi riguardano più da vicino. Le tabelle (4.3) e (4.4) contengono alcuni percentili relativi alle altezze a varie età dei ragazzi e delle ragazze italiane nate intorno al 1980. |
|
| Discutete
le principali differenze tra maschi e femmine messe in luce dalle
tabelle (4.3) e (4.4). |
| (approfondimenti) Supponiamo
che il film discusso prima del quesito 18 si ambienti in Italia nel 2006 e che la parte sia quella
di un italiano cinquantenne. Allora i collaboratori del regista
possono utilizzare la tabella (4.2). Tra quali valori deve
essere compresa l'altezza della persona che deve sostenere tale
parte? |
Le figure 1 e 2 e le tabelle (4.2), (4.3) e (4.4) sono riferite al complesso degli italiani. In zone diverse del paese la distribuzione delle altezze si può manifestare in maniera piuttosto differente. Ad esempio l'altezza media dei maschi ventenni nel 1976, che sul totale dell'Italia era 172.0 cm, in Sardegna era 168.5 cm, in Abruzzo 171.1 cm e in Friuli-Venezia Giulia 175.6 cm.
L'altezza di una ragazza o di un ragazzo che risiede in Abruzzo (regione che presenta una distribuzione delle altezze quasi uguale a quella del complesso dell'Italia) ma ha i genitori originari della Sardegna o del Friuli dovrebbe essere riferita più ai dati di questa regione che a quelli nazionali, cioè a dati che sono slittati in un caso di quasi 4 cm in meno, nell'altro di quasi 4 cm in più rispetto a quelli delle tabelle (4.3)-(4.4).
Le tabelle (4.3)-(4.4) sono da interpretare tenendo conto oltre che di questo aspetto anche del fatto che i tempi dello sviluppo dell'altezza possono variare da individuo a individuo. Vi può essere il ragazzo alto 170 cm a 15 anni (oltre il 50° percentile) e che negli anni successi non cresce più (scendendo sotto al 25° percentile) e quello che a 15 anni è alto 160 cm (sotto al 25° percentile) ma che continua a crescere e a 18 anni raggiunge i 175 cm (oltre il 50° percentile).
I tempi dello sviluppo dell'altezza sono cambiati nel corso degli anni: oltre all'altezza media ( fig. 1) è cambiata anche l'età in cui ciascuno raggiunge la propria altezza massima. Attualmente in Italia praticamente tutti i maschi ( tabella (4.3)) oltre i 18 anni non aumentano più in altezza e praticamente tutte le femmine ( tabella (4.4)) a 16 hanno già raggiunto l'altezza massima. Agli inizi del Novecento queste età erano spostate in avanti di 5 o 6 anni.
Differenze tra maschi e femmine, tra individuo e individuo e tra epoche diverse analoghe a quelle osservate per lo sviluppo dell'altezza valgono anche per lo sviluppo sessuale. Ad esempio nel 1890 in Europa una donna era in grado di procreare figli mediamente a partire dai 16 anni; nel 1990 questa età media era scesa a 13 anni. Per i maschi queste età vanno spostate in avanti di circa 2 anni.
Pure in questo caso si tratta di valori medi: anche per queste età si potrebbero considerare istogrammi di distribuzione o tabelle di percentili. Ad esempio vi può essere la ragazza che è sessualmente "adulta" a 11 anni e quella che lo diventa a 16.
4b. Approfondimenti
Proponiamoci di fare anche noi un'indagine statistica, ad
esempio su due aspetti: le altezze dei ragazzi e delle ragazze tra i
14 e i 18 anni, per operare un confronto con i dati delle tabelle
(4.3) e (4.4), e sulla lunghezza dei capelli dei ragazzi e delle
ragazze della vostra età.
| Precisate meglio gli obiettivi della vostra indagine e discutete come organizzarla affinché si possano ottenere informazioni utili e attendibili. |
Per adesso potrete accontentarvi di prendere come campione i ragazzi delle classi della vostra scuola, restringendovi alla sola vostra classe per quanto riguarda la lunghezza dei capelli. Eventualmente potrete confrontare i risultati della vostra indagine con quelli ottenuti con un'indagine simile da alunni di altre scuole e con i risultati che si ottengono mettendo insieme tutti i dati.
| Raccolti
i dati, registrateli e analizzateli opportunamente, ad esempio usando il
programma R ( quesito e9). Se fate copia dei vostri dati e la stessa operazione viene fatta da altre classi,
mettendo poi insieme i dati raccolti otterrete un
campione più numeroso su cui ripetere l'analisi. |
5. Concludendo
Con questa scheda abbiamo visto ulteriori modelli matematici usati per fare statistiche e abbiamo esaminato alcuni problemi relativi al loro impiego.
Le ultime osservazioni sul campionamento ci offrono lo spunto per sottolineare che l'uso dei modelli statistici è soggetto a interpretazioni erronee o distorte più di altri modelli matematici. Il motivo risiede nel fatto che con essi spesso non si rappresentano tanto le caratteristiche di un particolare oggetto o persona quanto le condizioni che riguardano una collettività, le caratteristiche essenziali dell'andamento complessivo di un fenomeno che varia nel tempo, : il modo in cui vengono raccolte le informazioni (su tutta la popolazione o su quanta parte di essa? ogni quanto tempo? con quale modalità di rilevamento? ) e il fatto che le caratterisitiche delle persone o degli eventi singoli possono discostarsi molto dalla valutazione complessiva che emerge, introducono notevoli elementi di approssimatività.
Alcuni degli esercizi seguenti offrono occasioni per esemplificare e approfondire questa riflessione.
6. Esercizi
| Nel
caso delle rappresentazioni "procapite" (kg di carne
consumata per abitante, m² di superficie per abitante, m³ di spazio
abitativo per famiglia, € di reddito per lavoratore,
) la
media può essere interpretata come rapporto tra due grandezze:
un totale espresso in una data unità di misura (kg, €,
m², m³,
) e una "popolazione" (di persone,
famiglie,
). Nel caso dell'altezza media questa interpretazione non ha senso: è vero che faccio la somma delle altezze e la divido per il numero delle persone, ma questa somma non la posso interpretare come "altezza totale" delle persone! non posso dire che l'altezza media è di 174 cm per abitante! | ||
Posso tuttavia dare anche questa interpretazione: l'altezza media di due persone è pari all'altezza di una terza persona che abbia lo stesso dislivello dalla prima e dalla seconda. Ad es. 170 cm è la media di 162 e 178 cm; infatti (162+178)/2=340/2= 170. Ma 170 è anche il valore a metà tra 162 e 178: 162+8=170, 1788=170. Leggi la spiegazione generale di questo fatto presente alla prima voce "valori medi" de Gli oggetti matematici. Poi osserva la figura seguente, che illustra due modi per trovare la lunghezza media M di due segmenti lunghi a e b: | |||
uno è usare la formula: M = (a+b)/2; l'altro è usare: M = a+.................... [completa] | |||
Prova
a calcolare a mente lo stipendio medio mensile (m) di una
famiglia composta solo da marito e moglie, lei con
stipendio di 2 milioni e 400 mila (x), lui con
stipendio di 2 milioni e 500 mila lire (y), usando le
formule: (1) m = (x+y)/2 (2) m = x+(yx)/2 Quale procedimento trovi più conveniente? Perché? | |||
La località C è esattamente a metà strada tra una
località posta al 34° km (x) di una certa strada
statale e una località B posta al 112° km (y).
Calcola a quale chilometro (m) si trova C. Quale procedimento tra (1) e (2) trovi più conveniente? Perché? |
| Per controllare attraverso un procedimento "numerico" la dimostrazione "geometrica" dell'equivalenza delle formule (1) e (2) ( quesito e1) per il calcolo della media tra x e y, completate i seguenti passaggi: | |||||||||||||||||
|
| Indica tra i seguenti istogrammi quale può rappresentare la distribuzione: (1) dell'età dei morti in un paese sviluppato, (2) dell'età dei morti in un paese sottosviluppato, (3) dell'altezza delle femmine adulte di una città, (4) delle altezze degli adulti (maschi e femmine) di una città. | ||||||||
|
| Ho un istogramma di distribuzione dalla forma simmetrica, in cui media e mediana cadono entrambe nella classe centrale. Se tolgo pezzi da colonne a destra della colonna centrale e li sposto più a destra, quale tra mediana e media resta immutata? quale aumenta? perché? | |
| Tra gli istogrammi raffigurati nel quesito e3 quale ha sicuramente la media inferiore alla mediana; quale può avere media e mediana che cadono nella classe modale; quale può avere media e mediana che cadono in una stessa classe, diversa dalla classe modale? |
|
Hai
visto nel quesito e1 che la media tra due numeri coincide con il
valore che sta a metà tra essi. Il disegno a fianco suggerisce che per trovare la media tra 120 e 180 posso operare su 20 e 80: la distanza tra 120 e 180 è uguale alla distanza tra 20 e 80 (ottenuti togliendo 100), per cui posso trovare il valore che sta a metà di questi ultimi e poi riaggiungere 100: | ||
(media tra 120 e 180) = (media tra 20 e 80) + 100 | |||
Tale procedimento (togliere uno stesso numero da tutti i valori di
cui si fa la media e poi riaggiungerlo al risultato) può
essere esteso al calcolo della media di più di due valori. Applicalo per calcolare la media di ciascuno dei seguenti insiemi di dati: | |||
(a) 253, 254, 259, 256 (b) 2.5, 2.1, 2.3 (c) 1037, 1045, 1000, 1002 |
| Completa la seguente formula in modo che rappresenti il procedimento descritto nel quesito precedente: | ||||||||
|
| 0°C (Celsius) corrispondono a 32°F (Fahrenheit) e 100°C corrispondono a 212°F. Le variazioni in °C sono proporzionali alle variazioni in °F. Voglio trovare l'equivalente in °F di 30°C. Procedo come dopo fig. 13. | |||||||||
| ||||||||||
Per arrivare da 32 a "?" devo addizionare 180·R = 180·30/100 = 18·3 = 54 (1) Qual è la rappresentazione in °F della temperatura di 30°C? (2) Scrivi la formula che generalizza il procedimento al caso di una temperatura c in gradi Celsius qualunque, indicando con f la corrispondente temperatura in gradi Fahrenheit: | ||||||||||
f = 32 + 180 · | ||||||||||
Il rapporto tra variazione in °F e variazione in °C è 180/100=1.8, cioè alla variazione di 1°C corrisponde quella di 1.8°F [ "variazioni proporzionali" nell'indice de Gli oggetti matematici]. Usando questa informazione posso dedurre che: | ||||||||||
f = 32 + c · 1.8 | ||||||||||
(3) Questa formula è equivalente a quella che hai trovato in (2)? |
|
Nel
quesito 10 abbiamo analizzato con R i dati delle 19 alunne
di una classe. Abbiamo visto che il comando "stem" rappresenta automaticamente i dati
in una specie di istogramma, riportando anche i valori dei dati ("stem" è il gambo,
su cui poggiano le foglie). Il comando "summary" fornisce le seguenti uscite. Spiega che cosa rappresentano. summary(alu) Min. 1st Qu. Median Mean 3rd Qu. Max. 150.0 157.0 162.0 161.4 165.0 170.0 |
Se vogliamo tracciare l'istogramma non possiamo usare "barplot" ( scheda 1), che realizza istogrammi nel caso in cui i
dati siano classificati in modalità di tipo non numerico, ma occorre usare il comando
hist che traccia l'istogramma di dati da classificare; qui sono classificati mediante
seq (che abbiamo già usato nella
scheda 2);
l'opzione right=FALSE specifica che i sottintervalli sono del tipo
hist(alu,seq(150,171,3),right=FALSE,col="yellow",xlab="",ylab="",main="")
hist(alu,seq(150,171,3),right=FALSE,col="yellow",xlab="",ylab="",main="",probability=TRUE)
boxplot(alu, horizontal=TRUE)
Volendo posso ottenere rappresentazioni migliori, come quella sotto a destra,
con comandi come i seguenti, che consentono di tracciare assi e tacche in modo più
sofisticato:
interv <- seq(150,171,3)
hist(alu,interv,right=FALSE,xlab="",ylab="",main="",probability=TRUE,axes=FALSE)
axis(1,pos=0,col="blue",label=TRUE, at=interv); tacchey <- seq(0,0.1,1/100)
axis(2,pos=150,col="blue",label=TRUE, at=tacchey)
abline(h=seq(0.01,0.09,0.01),lty=3,col="grey50")
Per avere i valori di percentili possiamo usare il comando quantile: Utilizza R per analizzare i dati delle le altezze delle alunne dopo la venuta della superspilungona (ultima riga della tabella prima di figura 7). |
| Affrontando il quesito e9, volendo essere più precisi, si poteva tener conto che i dati delle altezze non sono esatti, ma sono arrotondati. È vero che, ad es., 150,151,152, come numeri esatti (150.000 ,151.000 ,152.000 ), stanno in [150,153); ma se li intendiamo come misure arrotondate, essi rappresentano altezze che vanno da 149.5 a 152.4 . Allora potevamo scegliere come [a,b), invece dell'intervallo [150,171), l'intervallo [149.5,170.5). Usando i seguenti comandi traccia l'istogramma e mettine in luce le differenze rispetto al precedente. |
interv <- seq(150,171,3)
hist(alu,interv-1/2,right=FALSE,xlab="",ylab="",main="",probability=TRUE,axes=FALSE)
axis(1,pos=0,col="blue",label=TRUE, at=interv); tacchey <- seq(0,0.1,1/100)
axis(2,pos=149,col="blue",label=TRUE, at=tacchey)
abline(h=seq(0.01,0.09,0.01),lty=3,col="grey50")
Nota.
Come media (come abbiamo visto nel quesito 10) viene visualizzato il numero 161.3684,
risultato approssimato di (156+168+
)/19. Non tutte le cifre
di esso sono significative, poiché i dati non erano esatti, ma
arrotondati agli interi. Se i dati sono pochi la media
che si ottiene deve essere arrotondata agli interi.
Ma se i dati sono almeno una decina, come in questo caso,
poiché le approssimazioni per difetto e quelle per eccesso in
parte si compensano, si può prendere la media arrotondata ai
decimi. Più in generale se i dati fossero arrotondati alla
cifra di posto n si può arrotondare la media alla cifra
di posto n1.
Quindi possiamo prendere come altezza media 161.4.
Se i dati sono almeno un migliaio si può arrotondare la
media fino alla cifra di posto n2 (ad es. se i dati
arrotondati agli interi la media può essere arrotondata ai
centesimi). Questa scelta può essere motivata con
considerazioni di calcolo delle probabilità che, per ora, non
siamo in grado di affrontare.
|
Nelle
gare di corsa non particolarmente "importanti" (e, fino a
qualche decennio fa, in tutte le gare) i tempi non vengono rilevati
con apparecchiature elettroniche, ma a mano, con dei cronometri.
I cronometri, così come tutti gli odierni orologi al quarzo,
sono precisissimi: sgarrano di pochi secondi al mese. Quindi, se un
orologio è dotato di un pulsante "start/stop" e
visualizza i centesimi di secondo, siamo sicuri che il tempo che
intercorre tra due successive pressioni del pulsante è
rappresentato correttamente, troncato ai centesimi di secondo, dal
numero che viene visualizzato. Nei cronometraggi delle gare, tuttavia, non viene impiegato un unico cronometro, ma i tempi vengono misurati contemporaneamente da più cronometristi. Poi vengono presi come tempi i valori medi, troncati ai centesimi, dei tempi registrati dai diversi cronometristi. |
Discuti questa scelta alla luce dell'analisi dei dati contenuti nel file "t-sec.txt" (presente in macosa.dima.unige.it/om/prg/stf) in cui sono stati registrati i valori in centesimi di secondo che una persona ("normale", non un allenato cronometrista) ha ottenuto misurando ripetutamente con un orologio A il tempo che impiega un altro orologio B a scattare in avanti di 1 s (ad esempio la persona ha dato lo Start sull'orologio A appena l'orologio B ha visualizzato 15:31:08 e ha dato lo Stop appena B ha visualizzato 15:31:09, e ha trascritto il tempo visualizzato da A; poi ha fatto lo stesso per esempio dalla visualizzazione di 15:31:46 a quella di 15:31:47; ecc.).
Nota 1. Come usare il file?
In R si possono recuperare ed usare i dati via rete in vari modi. Vediamo
un modo in cui farlo in questo caso:
(1) Con readLines("http://macosa.dima.unige.it/om/prg/stf/t-sec.txt", n=4) esamino le prime righe del file (ad es. 4) ottenendo:
"'commento: misure delle durata di 1 sec cronometrate manualmente"
"111"
"103"
"109"
(2) A questo punto carico il file in una variabile, ad es. in dati,
saltando 1 riga, quella iniziale di commento, mediante skip:
dati <- scan("http://macosa.dima.unige.it/om/prg/stf/t-sec.txt", skip=1)
In alternativa potevo salvare il file sul computer e poi, con gli stessi comandi, cambiando
l'indirizzo del file, esaminarlo e caricarlo (azionando Change dir dal menu File posso
selezionare la cartella in cui ho messo il file e caricarlo mettendo il suo nome senza l'indirizzo).
Nota 2. Le misure ottenute con l'orologio sono troncate ai centesimi di secondo. Ai dati occorre quindi aggiungere 0.5. Per una spiegazione consulta la seconda voce "valori medi" de Gli oggetti matematici.
dati <- dati+1/2 hist(dati) hist(dati,probability=TRUE) summary(dati) Min. 1st Qu. Median Mean 3rd Qu. Max. 68.50 96.50 98.50 99.86 108.00 129.50 |
Tra i diagrammi a lato, qual è il box-plot di t-sec? Perché? Verifica la tua risposta usando R. |
| Un ente pubblico ordina alla ditta SifanStat, specializzata in indagini statistiche, lo studio dei tempi di arrivo degli utenti ai propri sportelli. Un dipendente della SifanStat si piazza all'ingresso del locale in cui sono collocati gli sportelli e per circa un'ora, in un orario di punta, misura il tempo che intercorre tra l'arrivo di un utente e il successivo, contando complessivamente l'arrivo di 134 utenti. I tempi che ha rilevato (troncati ai secondi) sono riportati (in macosa.dima.unige.it/om/prg/stf) come file di nome t-arrivi.txt. Sotto è riprodotto parzialmente lo stato dello schermo dopo l'analisi di "t-trrivi" con R. |
dati <- dati+1/2 quantile(dati, c(0, 0.05, 0.25, 0.5, 0.75, 0.95, 1)) 0% 5% 25% 50% 75% 95% 100% 1.50 3.50 9.75 21.50 38.50 82.55 173.50 length(dati); mean(dati) 134 29.55224 hist(dati,seq(0,180,10),col="yellow",probability=TRUE) abline(v=seq(10,180,10),h=seq(0.005,0.025,0.005),lty=3) |
(a) In quante classi è stato suddiviso l'intervallo [0,180). (b) Utilizzando solo gli output numerici del programma avresti potuto concludere qualcosa sull'andamento dell'istogramma? (c) Perché è stato aggiunto 1/2 ai dati? (d) Tra i diagrammi riprodotti nel quesito precedente, qual è il box-plot di t-arrivi? Perché? Verifica la tua risposta usando R. |
| R consente di analizzare pure dati già classificati in intervalli di diversa ampiezza. Consideriamo i dati a destra, relativi alla distribuzione dell'età dei morti in Italia nel 1990. I dati sono in centinaia di persone: ad es. sono morte 25 centinaia di persone nella fascia 1-14 anni (cioè in [1,15): avevano compiuto 1 anno e non ancora i 15). La tabella-Istat da cui sono stati riportati i dati indicava l'ultima classe come "75 e più". Si è introdotto [75,100) supponendo che sia trascurabile la percentuale dei morti ultracentenari. Ecco come sono stati introdotti in R, e come sono state calcolate le frequenze percentuali caricando un opportuno file: | [0,1) 46 [1,15) 25 [15,25) 58 [25,45) 186 [45,65) 870 [65,75) 1071 [75,100) 3124 5380 dati |
source("http://macosa.dima.unige.it/R/daticlas.txt") aiuto [1] Ist. di dati già classificati in intervalli di diversa ampiezza. Metti [2] in freq [con freq <- c(..) ] le frequenze delle varie classi e metti [3] in interv [con interv <- c(..) ] gli estremi delle classi (gli estremi [4] sono 1 in più delle classi). Se non hai ancora introdotto freq e interv [5] fallo e ricarica questo file (se ti serve, il nuovo file dei dati [6] è XxXx - è grosso: non visualizzarlo). L'istogramma ha area 1. [7] Se vuoi prova con: freq <- c(9,12,9); interv <- c(5,15,20,35) interv <- c(0,1,15,25,45,65,75,100) freq <- c(46,25,58,186,870,1071,3124) source("http://macosa.dima.unige.it/R/daticlas.txt") [1] "Frequenze percentuali e summary:" [1] 0.85501 0.46468 1.07807 3.45725 16.1710 19.90706 58.06691 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.00 66.49 78.47 75.10 89.24 100.00 |
Ottieni le uscite sopra riportate e l'istogramma a lato. |
| La tabella (6.1) contiene la distribuzione dell'età dei morti in Italia in vari periodi. I dati sono in centinaia di persone. Nel caso del decennio 1881-90 per ogni fascia di età è riportato il numero medio dei morti in un anno (ad es. nell'intervallo di anni di età [5,10) vi sono stati in media 343 centinaia di morti all'anno). | ||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||
Completa la tabella usando R. | |||||||||||||||||||||||||||||||||||||||||||
(a) I dati della tabella (6.1) sono registrati nei file mor1.txt (1881-90), mor2.txt (1951) e mor3.txt (1988). Analizza questi file e completa la prima riga di (6.2) (e controlla la mediana del 1951). (b) Modificando opportunamente tali dati e analizzandoli completa la seconda riga di (6.2). | |||||||||||||||||||||||||||||||||||||||||||
Infine commenta la tabella (6.2) |
| Completata la tabella seguente, scegli tra 73 anni e 83 anni qual è stata nel 1988 l'età mediana dei morti maschi e quale quella dei morti femmine? | |||||||||||||||||||||||
|
| La tabella (6.3) contiene il peso medio di maschi e femmine di altezza e fascia di età fissate. Contiene inoltre il "peso ideale" di maschi e femmine di età adulta; non viene indicato un unico dato, ma un intervallo: ad es. il peso ideale delle donne alte 150 cm può andare da 44 a 54 kg, nel senso che una donna alta 150 cm con scheletro particolarmente leggero ha come peso ideale 44 kg e una con scheletro particolarmente pesante ha come peso ideale 54 kg. Il peso ideale di una certa categoria di soggetti viene definito convenzionalmente come il peso a cui corrisponde l'età media di morte più alta (i soggetti con quel peso mediamente vivono più a lungo dei soggetti con altro peso). | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Una
ragazza robusta alta 160 cm e pesante 60 kg legge preoccupata in una
"rivista femminile", in un articolo sulle diete, che il
peso ideale di una donna della sua altezza è 50 kg. Perché
ciò che è scritto sulla rivista è una
stupidaggine? Un uomo di 45 anni e alto 180 cm, che a vent'anni pesava 64 kg, ora pesa 81 kg. Da una statistica sul giornale legge che a mezz'età un uomo della sua altezza pesa mediamente 80 kg. Ritenendo, allora, di avere un peso "normale", decide di non dare più importanza alle sollecitazioni della moglie («pesi troppo: stai più attento nel mangiare!»). Ti sembra sensata questa conclusione? |
|
I
grafici a lato rappresentano il peso medio P in funzione
dell'altezza h nel caso delle donne tra 20 e 24 anni e nel
caso di quelle tra 40 e 49 anni (vedi ques. e16). Il pallini sono
la "traduzione" dei dati della tabella (6.3); le linee
punteggiate che li congiungono consentono di trovare i pesi medi
corrispondenti ad altre altezze (nell'ipotesi che tra un pallino e
l'altro la variazione del peso medio sia proporzionale a quella
dell'altezza). Trova in questo modo (arrotondato ai kg) il peso medio delle donne di 20-24 anni alte 167 cm e confrontalo con quello che ottieni usando direttamente i dati della tabella e un opportuno metodo numerico ( §4 e ques. e8). |
| Potete effettuare delle altre indagini statistiche. Ad es. comprare qualche chilo di patate di una qualità fissata in un particolare negozio, pesare ciascuna patata e studiare come si distribuisce il peso delle patate, o fare un'indagine simile per qualche altro prodotto alimentare. Oppure potete scegliere un marciapiede di una grande strada, una direzione di cammino e misurare l'intervallo di tempo che intercorre tra il passaggio di un pedone e il successivo (scegliete un punto che non sia preceduto, a poca distanza, da un semaforo, che condizionerebbe il flusso delle persone) e studiare come si distribuiscono questi tempi. Oppure potete misurarvi (tutti gli alunni della classe non affebbrati) la temperatura corporea in più ore diverse e per più giorni consecutivi, raccogliere i dati e discutere che cosa si deve intendere come "temperatura normale". |
1) Segna con l'evidenziatore, nelle parti della scheda indicate, frasi e/o formule che descrivono il significato dei seguenti termini: intervallo di numeri (dopo ques.3), classificare in modalità (dopo ques.4), frequenza assoluta, relativa e percentuale (dopo ques.5), distribuzione di frequenza (dopo ques.6), classe modale (§2), mediana (dopo fig.7), frequenza cumulata (dopo fig.11), percentile (dopo fig.15), indagine campionaria (§3). 2) Su un foglio da "quadernone", nella prima facciata, esemplifica l'uso di ciascuno dei concetti sopra elencati mediante una frase in cui esso venga impiegato. 3) Nella seconda facciata riassumi in modo discorsivo (senza formule, come in una descrizione "al telefono") il contenuto della scheda (non fare un elenco di argomenti, ma cerca di far capire il "filo del discorso"). |