Le statistiche
Alcuni modelli per la rappresentazione dei dati

Scheda 3
Lo sviluppo corporeo

0. Introduzione
1. Istogrammi di distribuzione
2. Media aritmetica, moda, mediana
3. Percentili, ”normalità”
4. Campionamento
5. Esercizi
Sintesi

 

0. Introduzione

    «Giovanni è basso», «Maria è troppo alta», … . A volte sono semplici osservazioni, altre volte sono giudizi un po' maligni. Ma … che cosa vuol dire "basso", che cosa vuol dire "alta"? In base a quale valutazione riusciamo a distinguere quando una persona è alta, bassa o di altezza normale?

     Sicuramente siamo in grado di esprimere con un numero l'altezza di una persona («Giovanni è alto 155 cm»). C'è un modello matematico che ci permetta di stabilire quando l'altezza di una persona è normale?

     Non si può rispondere nettamente con un "sì" o con un "no". Possiamo tuttavia affermare che la matematica ci permette di affrontare la questione e di metterne in luce la complessità. Questa scheda sarà dedicata a questo argomento.

     Vedremo che non può esistere una definizione assoluta di "normalità" ma che esistono degli strumenti matematici per valutare la relazione tra l'altezza di una persona e quella del complesso delle altre persone e, più in generale, per valutare la relazione tra un particolare aspetto di un certo oggetto (ad esempio il peso di un uovo) e il modo in cui tale aspetto si manifesta nella collettività di cui quell'oggetto fa parte (ad esempio il complesso delle uova prodotte dall'allevamento da cui l'uovo considerato proviene).


1. Istogrammi di distribuzione

    Abbiamo già visto ( scheda 1, §5) che per rappresentare con un unico numero come si manifesta un fenomeno collettivo si può ricorrere alla media aritmetica dei dati relativi ai singoli soggetti.

    Il grafico di figura 1 riporta la altezza media dei ventenni italiani in vari anni; i valori sono stati calcolati sulla base delle misurazioni effettuate alle visite di leva.

   
figura 1 
 

 1 
    Nel 1881 l'altezza media dei maschi ventenni era di 162.8 cm, nel 1992 era di 174.1 cm. Qual è stato l'aumento medio annuo in questo intervallo di tempo?  ............ mm/anno

     In cent'anni l'altezza media è aumentata più di 10 cm. La crescita è stata particolarmente rapida negli anni 70, cioè per gli uomini nati negli anni 50 e che hanno trascorso la loro infanzia negli anni della ripresa e dello sviluppo economico che sono seguiti alla seconda guerra mondiale (dal 1971 al 1981 vi è stato un aumento medio di 2.7 mm/anno). Negli ultimi anni la crescita tende a rallentare; probabilmente si stabilizzerà  intorno ai 175 cm. Un fenomeno analogo (forte crescita nel XX secolo, con rallentamento negli ultimi decenni) si è verificato in tutti i paesi industrializzati, anche tra le donne.

     L'aumento dell'altezza media è dovuto essenzialmente al miglioramento delle condizioni di vita, soprattutto nell'alimentazione (per ricordare alcuni dati, nel 1880 l’"italiano medio" ha consumato 15 kg di carne, 29 nel 1960 e 54 nel 1970), ma anche nell'assistenza sanitaria e nell'attività fisica (si pensi all'elevamento dell'obbligo scolastico e alla progressiva riduzione del fenomeno del lavoro minorile): questi miglioramenti hanno fatto sì che i bambini e gli adolescenti abbiano avuto sempre più modo di sfruttare al massimo le potenzialità di crescita presenti nel patrimonio genetico ereditato dai genitori. Il miglioramento nell'assistenza sanitaria ha inciso su questo aumento anche in altri modi; ad es. le donne longilinee un tempo incontravano più difficoltà nel parto e quindi mediamente avevano meno figli; pian piano questo "svantaggio" è stato colmato ed è aumentata la trasmissione del patrimonio genetico da parte delle donne più alte.

 2 
    Abbiamo dunque visto un primo aspetto che rende relativo il significato di "essere basso": l'altezza media è variata nel tempo.
    Un maschio nato nel 1941 (cioè ventenne nel '61) e alto 165 cm di quanto è sotto all'altezza media dei suoi coetanei? ............ E un maschio della stessa altezza nato nel 1972? ............

    Ma non basta calcolare la distanza dell'altezza di una persona dall'altezza media. Bisogna anche vedere se, ad esempio, sono molte o sono poche le persone nate nel 1972 e con altezza inferiore di 9 o più centimetri rispetto all'altezza media.  Per fare questa valutazione possiamo riferirci agli istogrammi della figura 2, che rappresentano le percentuali dei ventenni maschi le cui altezze  cadono in alcuni intervalli di misure.

    Questi istogrammi sono stati realizzati impiegando dati pubblicati dall'Istat e già classificati negli intervalli di altezza indicati:

–  altezze fino a 149 cm, altezze da 150 a 154 cm, …, altezze da 180 cm in su,  per il 1881 e il 1961;

–  altezze fino a 159 cm, altezze da 160 a 164 cm, …, altezze da 190 cm in su, per  il 1976 e il 1992.

    Gli istogrammi man mano si sono spostati verso destra, ma hanno mantenuto più o meno la stessa forma.  Ciò visualizza il fatto che le diversità genetiche all'interno della popolazione si sono mantenute e che il miglioramento delle condizioni di vita ha fatto sì che tutti, ciascuno con le potenzialità ereditate, sviluppassero maggiormente l'altezza.

 3 
    L'intervallo di altezze più frequente (cioè in cui cade la maggiore percentuale di misure di altezza) nel 1881 è 160-164 cm.  Quali sono quelli degli altri anni?
  1961 ...................     1972 ...................     1992 ...................

      
 
figura 2

    Il 1976 e il 1992 hanno come intervallo più frequente lo stesso, ma l'intervallo secondo in ordine di frequenza è, nel primo caso, 165-169, e, nel secondo, 175-179.

    In figura 2 con "170-174" abbiamo indicato l'intervallo di misure i cui valori troncati ai centimetri sono 170, 171, 172, 173 o 174, cioè le misure che vanno da 170.0… cm a 174.9… cm.

    Nel disegno a fianco sono i valori che cadono tra le due frecce, cioè i valori maggiori o uguali a 170.000…  e  minori di 175.000….

    

    Quando di un intervallo di valori numerici si vogliono descrivere esattamente gli estremi si usano scritture come la seguente:  [170,175). Essa indica l'insieme dei numeri che sono maggiori o uguali a 170 e che sono minori di 175; cioè l'insieme dei numeri x tali che 170≤x<175.

     Si usa anche la scrittura: ; il pallino pieno [vuoto] indica che l'estremo è [non è] compreso.

    Nel caso in cui avessimo voluto includere 175 avremmo scritto [170,175] o .

 4 
  (a) Come rappresenteresti l'insieme dei numeri x tali che 170<x≤175? ....................
  (b) e l'insieme dei numeri x tali che 14<x<17? ....................
  (c) Come completeresti questa frase "l'insieme dei numeri x tali che …"   in modo da descrivere l'intervallo rappresentabile con [4.1,4.3]? ....................
  (d) e in modo da descrivere l'intervallo rappresentabile con (4.1,4.3]? ....................
  (e) Se 48 cm è la lunghezza arrotondata ai centimetri di un oggetto, in quale tra i seguenti intervalli puoi concludere che cade la lunghezza "esatta"? ....................
  (48, 49]     (47.5, 48.5)     [48, 49)     [47.5, 48.5)     (47, 48]

    Tornando a figura 2, come sono state ottenute le percentuali rappresentate mediante gli istogrammi?

    Sulla base dei dati forniti dal Ministero della Difesa le altezze dei ventenni sono state classificate negli intervalli raffigurati a fianco.

     

    Il termine classificare in questo caso non significa "mettere in graduatoria, assegnare un posto della classifica", ma significa "ripartire in classi (cioè collezioni, insiemi, aggregati, …) opportunamente definite". Le classi in cui vengono distribuiti i dati vengono spesso chiamate anche modalità. Per fare un altro esempio, se si volesse fare una statistica sul quartiere di provenienza degli alunni di una scuola, le modalità sarebbero i vari quartieri.

    Il numero delle altezze che cade in un certo intervallo viene chiamato frequenza di quell'intervallo. Nel caso dell'indagine sulla provenienza degli alunni la frequenza di un quartiere è il numero degli alunni che proviene da esso. Più in generale, se considero un certo insieme di "oggetti" (ventenni, alunni di una scuola, …) e per ciascuno di essi raccolgo una particolare informazione (altezza, quartiere di provenienza, …),la frequenza di una modalità è il numero delle informazioni che vengono classificate in quella modalità o, in altre parole, è il numero delle volte che quella modalità si manifesta.

alunnosport alunno sport
Annatennis
  Barbara  nessuno
Brunocalcio
Carloping-pong  
Claracalcio
Darionuoto
Davidepallavolo
Elenanessuno
Enricojudo
Fabrizionessuno
Giorgiopallacanestro 
Irenesalto in alto
Laurapallavolo
Lucianonessuno
 Manuela  tennis
Nicolacalcio
Paolanessuno
Robertajudo
Sabinapallacanestro 
Valeriopallanuoto
    

 5 
    Nella tabella a fianco per ogni alunno è indicato lo sport maggiormente praticato. Classifica queste informazioni secondo le quattro modalità indicate nella tabella sotto a sinistra: in ogni casella scrivi (in piccola dimensione) i nomi degli alunni che verificano sia la proprietà "orizzontale" che la proprietà "verticale".
    Indica, quindi, le corrispondenti frequenze nella tabella a destra, calcolando anche i totali per riga e per colonna.

 Classificazione:    Frequenze:
fare uno sport praticabile in squadra  non fare uno sport praticabile in squadra
 
fare uno sport
praticabile
individualmente
 
   
 
 non
fare uno
sport praticabile
individualmente
 
   
fare … nontotale
fare …  
 
   
non  
 
   
totale  
 
  20


    Dopo aver classificato i dati e stabilito la frequenza delle varie modalità,  per calcolare le percentuali rappresentate in istogrammi come quelli di figura 2, ogni frequenza viene divisa per il numero totale dei dati.

    Nel caso di figura 2 la frequenza di ogni intervallo è stata divisa per il numero totale dei ventenni ed espressa in forma percentuale.

    Un rapporto di questo genere, cioè il rapporto tra la frequenza di una modalità e il numero totale delle informazioni classificate, viene chiamato frequenza relativa; infatti non esprime direttamente il numero delle volte con cui la modalità si è verificata ma lo "relativizza", ne esprime la relazione quantitativa con il totale delle informazioni classificate.

    Quando la frequenza relativa è espressa in forma percentuale viene chiamata anche frequenza percentuale.

    Nel caso della provenienza degli alunni dire che per il quartiere X si è ottenuta una frequenza relativa del 29% significa che il rapporto tra gli alunni provenienti da X e il totale degli alunni è 0.29.

    Per meglio distinguerla dalla frequenza relativa, la frequenza (non relativizzata) viene spesso chiamata frequenza assoluta.

frequenza assoluta di una modalità =  quantità delle informazioni che vengono
 classificate in tale modalità
 
frequenza relativa di una modalità = frequenza assoluta di tale modalità
———————————————
totale delle informazioni classificate

 6 
  (a) Qual è la frequenza relativa della modalità "fare uno sport praticabile sia in squadra che individualmente" di cui al quesito 5? (esprimila in forma percentuale) ....................
  (b) Qual è la frequenza relativa dell'intervallo di altezze (in cm) [165,170) nel 1961 ( fig. 2)? ....................

    Una tabella che associ ad ogni modalità le corrispondenti frequenze con cui si manifesta un certo fenomeno viene detta distribuzione di frequenza (o più semplicemente distribuzione) di quel fenomeno (rispetto alle modalità scelte).

    Ad esempio la tabella (1.1) è la distribuzione di frequenza degli sport praticati dagli alunni del quesito 5 rispetto alle modalità indicate (I sta per "praticabile individualmente", S sta per "praticabile a squadra").

    La tabella (1.2) è la distribuzione di frequenza delle altezze degli italiani maschi ventenni nel 1976 rispetto agli intervalli indicati. Per essere più precisi nel questo caso dovremmo parlare di distribuzione di frequenza relativa o di distribuzione percentuale.

    Gli istogrammi di figura 2 vengono quindi chiamati istogrammi di distribuzione (percentuale).

(1.1)  sport che è 
sia I che S
sport che è
I ma non S
sport che è
S ma non I
nessuno
sport
frequenza 4 3 8 5

(1.2) [0,160) [160,165) [165,170) [170,175) [175,180)  [180,185)  [185,190) [190,)
frequenza relativa 3.6% 11.2% 24.0% 28.9% 20.4% 8.9% 2.5% 0.5%

    Il simbolo "" (che si legge "infinito") impiegato per l'ultimo intervallo indica una quantità infinita, cioè [190,∞) rappresenta l'intervallo costituito da tutti i numeri maggiori o uguali a 190.

    Anche gli istogrammi relativi ai consumi impiegati nella scheda 1 sono istogrammi di distribuzione: gli "oggetti" sono le lire spese in consumi, le "informazioni" sono i beni o i servizi per cui le varie lire sono state spese, le modalità sono le categorie di beni e di servizi considerate.

    Si parla di istogrammi di ripartizione (o distribuzione) assoluta dei consumi se sulla scala verticale sono rappresentati i dati assoluti , di istogrammi di ripartizione percentuale se sono rappresentate le percentuali.

     

    Gli istogrammi possono essere usati per visualizzare il confronto tra due o più quantità, ma non sempre si tratta di istogrammi di distribuzione.

    A differenza del caso raffigurato a sinistra (ripartizione della popolazione italiana nelle tre zone geografiche), a destra non siamo di fronte a un istogramma di distribuzione: i tre rettangoli non rappresentano le parti che compongono un totale (un abitante conteggiato nel 91 può essere stato conteggiato anche nell'81 e nel 71).

    

 7 
    Quali (o quale) dei tre istogrammi a fianco ( quesito 5, tabella 1.1) sono istogrammi di distribuzione, cioè in quali casi l'area complessiva dei rettangoli rappresenta un totale e le aree dei vari rettangoli rappresentano parti disgiunte (= "senza elementi in comune") del totale?

    


2. Media, moda, mediana

    Tra la distribuzione delle altezze e quella delle zone di provenienza degli alunni vi è una diversità di fondo. In un caso abbiamo modalità di tipo numerico (valori numerici che vengono classificati in intervalli di numeri), nell'altro no (località che vengono classificate in quartieri).

    Nel primo caso quindi sull'istogramma le modalità  devono  essere rappresentate  con un certo ordine, nel secondo caso l'ordine non è particolarmente significativo: i due istogrammi di distribuzione di frequenza assoluta della figura 3 possono essere considerati equivalenti.

    Inoltre, mentre nel primo caso ha senso parlare di media aritmetica dei dati, nel secondo non ha senso parlare di quartiere medio di provenienza.

    In entrambi i casi si può considerare la modalità più frequente. Essa viene detta moda o classe modale.

    Nel caso dei quartieri di provenienza la moda è il quartiere C. Nel caso delle altezze abbiamo già individuato le classi modali nel quesito 3.

    
figura 3

 8 
    Nel caso della distribuzione rappresentata dalla tabella (1.1) trova, se è possibile, la moda e la media aritmetica.
 

    Nelle situazioni, come quella delle altezze, in cui le modalità sono numeri o intervalli numerici, la moda indica un valore medio, così come la media aritmetica, cioè un valore (o un intervallo di valori) che riassume, caratterizza quantitativamente il modo complessivo in cui si è manifestato il fenomeno in questione. Ad esempio per il 1976 possiamo dire (esprimendosi in cm) sia che l'altezza media dei ventenni è di 172.0, sia che la classe modale è [170,175)  ( figura 2).

       
figura 4  

    A differenza della media, la moda (e più in generale la forma dell'istogramma) non dipende solo dai dati ma anche dalla scelta degli intervalli in cui classificare i dati. Ad esempio in figura 4 sono riportati due istogrammi della distribuzione percentuale delle altezze dei ventenni nel 1976 alternativi a quello della figura 2.

 9 
    Nella tabella (2.1) sono riportate le altezze (arrotondate ai cm) delle 19 alunne diciassettenni di una scuola. I dati sono riportati secondo l'ordine alfabetico dei nomi delle alunne (al posto dei nomi delle alunne abbiamo indicato il numero d'ordine).
  Qual è la moda se si prendono come modalità direttamente le misure in centimetri (cioè i valori: … , 150, 151, … , 169, 170, …)?
  Qual è prendendo come modalità gli intervalli: 150-154, 155-159, … ?
  E se si prendono gli intervalli 150-152, 153-155, … ?

(aiutati tracciando su carta quadrettata istogrammi simili a quelli di figura 3)

(2.1) 1 156   6157  11157  16160 
2168 7170 12165 17163
3162 8157 13163 18162
4150 9159 14165 19155
5167 10164 15166
 

Riproduci qui a fianco gli istogrammi (corretti) che hai tracciato su carta quadrettata     

 10 
    Due persone hanno calcolato l'altezza media delle alunne del quesito 9 utilizzando il programma STAT (scheda 1 di Le statistiche, quesiti 33, 81) in due diversi modi (vedi figura a fianco). Qual è la differenza tra i due procedimenti?

    

    La situazione analizzata nei quesiti 9 e 10 mette in luce alcuni problemi.

    Un primo problema è che si possono ottenere istogrammi con andamento abbastanza diverso da quello degli istogrammi di fig. 2. In questo caso ciò è dovuto al fatto che abbiamo considerato solo le informazioni relative alle diciassettenni di una particolare scuola mentre nel caso di fig. 2 avevamo a disposizione la totalità dei ventenni. Se la scuola fosse stata di dimensioni molto maggiori si sarebbero ottenuti istogrammi dall'andamento simile a quello degli istogrammi di fig. 2.

    Un secondo problema è che ci possono essere più mode: la scelta del numero degli intervalli, influenzando la forma dell'istogramma, può anche condizionare la quantità delle classi modali che si ottengono.

    Val la pena di osservare che vi sono situazioni in cui la forma dell'istogramma è diversa da quelle "a campana" degli istogrammi di fig. 2 per motivi di fondo, non perché sono poche le informazioni raccolte o perché non si sono scelti in modo opportuno gli intervalli. Ad esempio in figura 5 sono riportati gli istogrammi di distribuzione (di frequenza assoluta) delle altezze degli alunni (maschi) delle classi - due prime e due terze - presenti nella succursale di una scuola secondaria superiore. L'istogramma a sinistra si riferisce agli alunni delle prime, quello al centro agli alunni delle terze, quello a destra al totale degli alunni.

 11 
    Discutete la relazione tra la forma dell'istogramma relativo all'intera succursale e quella degli altri due.

 figura 5  

    Un terzo problema è che l'altezza media delle alunne del quesito 9 (161 cm, arrotondando) non cade nella moda 162-164 cm. In questo caso ciò dipende dal numero delle alunne, piccolo rispetto al totale delle diciassettenni.  Ma vi sono fenomeni che danno comunque luogo a istogrammi di distribuzione con moda molto diversa dalla media.

 figura 6        Ad es. nel caso della distribuzione dell'età di laurea presso l'Università di Genova nel triennio 1984-86 (figura 6) la media è 28 anni mentre la moda è 26 anni. Infatti il valore della media subisce l'influenza della "coda" costituita dalle persone che si laureano con grande ritardo (studenti lavoratori, "perdigiorno" mantenuti dalla famiglia benestante, …). E questa coda, che sta alla destra della classe modale, fa aumentare il valore della media rispetto a quello della moda.

    Se nella scuola del quesito 9 l'alunna alta 150 cm si ritira e, contemporaneamente, si iscrive una diciassettenne spilungona, brava giocatrice di pallacanestro, alta 182 cm, l'altezza media diventa 163.1 cm: la distribuzione delle altezze non cambia particolarmente, ma il nuovo valore di 182 cm, anomalo rispetto alla altre altezze (figura 7), influisce non poco sul valore della media, che aumenta di quasi 2 cm.

figura 7 

      

    Questo esempio e quello relativo all'età di conclusione degli studi universitari mettono in luce che la media aritmetica è un valore medio che non è sempre significativo.

    Nel caso delle altezze delle alunne diciassettenni abbiamo visto che il piccolo numero di esse fa sì che neanche la moda sia particolarmente indicativa.  Ciò si vede bene anche dall'istogramma di distribuzione (fig.7 in alto): la classe 159-161 cm, che è "centrale" rispetto all'istogramma, ha una colonna più bassa rispetto a classi più "laterali", mentre per le altezze di coetanei dello stesso sesso ci aspettiamo un andamento più a campana, come per gli istogrammi di fig. 2.

    In situazioni come quelle di questi due esempi può essere utile impiegare un ulteriore tipo di valore medio: il valore del dato al centro dell'elenco dei dati ordinati, o mediana.

    Nel caso delle 19 diciassettenni ordinando le loro altezze (cioè passando dalla prima alla seconda riga della tabella seguente) troviamo che l'altezza centrale, cioè quella al 10° posto, è di 162 cm. Dopo lo "scambio" di alunne (terza riga) l'altezza centrale è diventata 163 cm. Se fosse venuta un'ipotetica superspilungona di 2 metri la mediana non sarebbe ulteriormente aumentata. La media aritmetica, invece, come si vede nella colonna finale, sarebbe aumentata di un altro centimetro.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 media
156 168 162 150 167 157 170 157 159 164 157 165 163 165 166 160 163 162 155
150 155 156 157 157 157 159 160 162 162 163 163 164 165 165 166 167 168 170  161.4
 
155 156 157 157 157 159 160 162 162 163 163 164 165 165 166 167 168 170 182  163.1
 
155 156 157 157 157 159 160 162 162 163 163 164 165 165 166 167 168 170 200  164.0

 

    Vediamo come interpretare graficamente la mediana.

    Nella figura 8 a sinistra è riprodotto l'istogramma di distribuzione delle altezze delle alunne in classi di altezza ampie 3 cm, questa volta realizzato rappresentando le varie modalità una attaccata alla successiva, senza lasciare spazio in mezzo; in questo modo la base dell'istogramma rappresenta l'intervallo di altezze che va da 150 cm a 170 cm.
    Nella parte centrale della figura è indicato qual è il quadretto corrispondente a ciascuna alunna nel caso in cui l'istogramma fosse costruito seguendo l'elenco dei dati ordinati (seconda riga della tabella precedente), ed è evidenziato il quadretto corrispondente al dato centrale, cioè alla mediana: è il 10° quadretto, che è preceduto e seguito dallo stesso numero di quadretti (9).
    Nella parte destra è tratteggiata la linea verticale che suddivide l'istogramma in due parti di uguale area. Essa passa per l'intervallo 162-164, come ci dovevamo aspettare da quanto visto sopra: il quadretto corrispondente al dato centrale sta nella colonna 162-164 cm.

 figura 8  

    Nel caso dell'età di laurea non dispongo dei dati dei singoli studenti ma solo dell'istogramma di distribuzione di fig. 6 (riprodotto a lato: figura 9-A). Non posso quindi procedere come ho fatto per l'altezza media delle alunne. Posso tuttavia individuare la mediana, seguendo due diversi procedimenti:A       figura 9  


B
 

(1) Sommo le frequenze percentuali delle varie età a partire dall'età minore (cioè dalla colonna più a sinistra dell'istogramma) e mi fermo quando raggiungo il 50%. Mentre nel caso delle altezze delle alunne si sono ordinati i dati in una tabella e si è presa la casella centrale, qui è come se appilassi i rettangolini che formano l'istogramma (passando da figura 9-A a figura 9-B) e considerassi quello che sta a metà della striscia ottenuta, cioè il rettangolino per cui passa la quota che indica il 50%: l'età mediana di laurea è dunque di 27 anni. In altre parole il 50% degli studenti si laurea entro i 27 anni e l'altro 50% si laurea a un'età non inferiore ai 27 anni.

(2) Opero sull'istogramma di figura 6: la linea di divisione verticale che lo taglia in due parti di area uguale (fig. 10) passa per l'intervallo che rappresenta i 27 anni.

 figura 10    

    Nel caso dell'altezza dei ventenni procedendo con il metodo (2) posso capire che la verticale che divide a metà l'istogramma del 1976 (figura 11) passa per il rettangolo indicato dalla freccia, cioè che l'altezza mediana è compresa tra 170 e 175 cm.

    

figura 11

Distribuzione delle altezze dei ventenni nel 1976

Rispetto a fig.2, i dati in [0,160) e [190,) sono stati classificati ulteriormente (le percentuali di alti meno di 145 cm e di alti più di 195 cm sono trascurabili).
Ora le basi dei rettangolini sono proporzionali agli intervalli (in fig. 2 il primo e l'ultimo rettangolino rappresentavano intervalli di ampiezza diversa rispetto agli altri).

    Per procedere con il metodo (1) posso considerare la tabella (2.2), in cui è riprodotta la distribuzione percentuale dei ventenni nel 1976, rappresentata graficamente in fig. 11. "Cumulando" (cioè sommando man mano) tali frequenze, si ottiene la tabella (2.3), i cui valori vengono detti frequenze percentuali cumulate.  Il passaggio dalla tabella (2.2) alla tabella (2.3) non è altro che la traduzione "numerica" dell'"appilamento" con cui da un istogramma di distribuzione (come fig. 9-A) si passa a quello a striscia (come fig. 9-B).

(2.2) [150,155) [155,160) [160,165) [165,170) [170,175) [175,180)  [180,185)  [185,190) [190,195)
frequenza % 0.7% 2.9% 11.2% 24.0% 8.9% 28.9% 20.4% 2.5% 0.5%

(2.3) [150,155) [155,160) [160,165) [165,170) [170,175) [175,180)  [180,185)  [185,190) [190,195)
freq. % cumulata 0.7% 3.6% 14.8% 38.8% 67.7% 88.1% 97.0% 99.5% 100.0%

    Sotto [150,170) è riportata la percentuale di ventenni con altezza minore di 170 cm: 38.8% è la somma di 0.7%, 2.9%, 11.2% e 24.0%.  La colonna successiva ci dice che il 67.7% ha altezza minore di 175 cm.  Quindi il valore che separa le altezze (in cm) del 50% dei ventenni più bassi da quelle del 50% dei ventenni più alti, cioè la mediana, cade in [170, 175).


3. Percentili e ”normalità”

    Abbiamo visto che la mediana delle altezze dei ventenni del 1976 cade tra 170 e 175 cm: i ventenni del 1976 più bassi di 170 cm sono il 38.8% e quelli più bassi di 175 cm sono il 67.7%, quindi l'altezza che delimita il 50% dei ventenni più bassi è compresa tra queste due misure (figura 12).  In altre parole, messi in ordine di altezza i ventenni, quello che sta a metà è stato classificato nell'intervallo [170,175).

 [150,170)   [150,175) 
38.8%67.7%
      
figura 12

    Per determinare con più precisione il valore della altezza mediana posso osservare (vedi figura 13, che rappresenta l'appilamento dei rettangoli dell'istogramma) che il 50% è più vicino a 38.8% che a 67.7%, e quindi supporre che la mediana sia più vicina a 170 che a 175.

 figura 13  

    La figura a lato fa supporre che la mediana sia circa 172 cm. È un valore stimato: non sono certo che sia l'arrotondamento a 3 cifre della mediana. Infatti ho diviso [170,175) in 5 parti uguali, come se le altezze che cadono in questo intervallo si distribuissero uniformemente, ripartendosi equamente tra [170,171), [171,172),…, [174,175). Per una valutazione senza incertezze dovrei conoscere come le altezze si distribuiscono effettivamente in tali intervalli.

   

    Come avrei potuto stimare il valore della mediana senza ricorrere a queste rappresentazioni grafiche?

    Devo trovare un metodo numerico per associare a 50% la posizione corrispondente nell'intervallo [170,175), cioè il valore che lo suddivide allo stesso modo in cui 50 suddivide l'intervallo che va da 38.8 a 67.7.

R =  50 – 38.8 = 11.2
——————
67.7 – 38.828.9
   è il rapporto R tra la parte a sinistra e il totale dell'intervallo (figura 14)

    Quindi la distanza tra 170 e ? è pari all'ampiezza di [170,175) per R (= 11.2/28.9 = 0.3875… = 38.75…%), cioè 5·R.

    Per trovare "?" devo aggiungere all'estremo sinistro dell'intervallo tale distanza:
    ? = 170+5·11.2/28.9 = 171.937… = [arrotondando] 172

  
figura 14

    Con la CT posso eseguire il calcolo nel modo a fianco:   5 11.2 28.9 170

    L'assunzione che le altezze si distribuiscano uniformemente tra 170 e 175 equivale a considerare le variazioni di altezza proporzionali alle variazioni della frequenza cumulata.  Quindi (vedi figura 15) potevo anche procedere così [ "variazioni proporzionali" nell'indice de Gli oggetti matematici]:

k = fattore di proporzionalità = pendenza =

VariazioneAltezza = 5
—————————————————
VariazioneFrequenzaPerecentualeCumulata28.9

    Quindi alla variazione della frequenza percentuale cumulata da 38.8 a 50 (= 11.2) corrisponde:

VariazioneAltezza =  11.2 · k = 11.2 · 5/28.9 = 1.937…

  

    Analogamente a come ho proceduto per la mediana (il valore che delimita superiormente il primo 50% dei dati ordinati), posso trovare per ogni percentuale p  il valore che delimita superiormente il primo p% dei dati.

    Ad es. da fig.9-B posso ricavare che il 10% degli studenti si laurea entro i 25 anni (e il 90% si laurea dopo il compimento dei 25 anni) e che il 75% degli studenti si laurea entro i 29 (e il 25% si laurea avendo già compiuto i 29 anni). Infatti tagliando il diagramma a striscia alle quote 10% e 75% vado a cadere nei rettangoli che rappresentano le età di 25 anni e 29 anni, rispettivamente.

 12 
    Usando fig.9-B completa la seguente tabella (3.1), dove età indica l'età che separa il primo p% degli studenti (ordinati per età al momento della laurea) dai rimanenti.

(3.1)    
p%   5%    10%   25%   50%   75%   90%   95% 
 età (in anni)    25     29    

    Il valore corrispondente a una frequenza cumulata del p% viene detto p-esimo percentile o percentile di ordine p. Ad es. nel nostro caso il 50° percentile (cioè la mediana) è 27, il 10° percentile è 25, il 75° è 29.

    Tabelle come (3.1), o quelle che si ottengono con una diversa scelta delle percentuali, possono essere considerate un'alternativa agli istogrammi di distribuzione percentuale.

    Ad esempio la forma allungata verso destra dell'istogramma di fig.10 (o fig.9-A) trova corrispondenza nel fatto che il 40% che segue la mediana (cioè gli studenti che vanno dal 50° al 90° percentile) spaziano dai 27 ai 31 anni, mentre il 40% che precede la mediana (cioè gli studenti che vanno dal 10° al 50° percentile) spaziano in un intervallo molto più piccolo, dai 25 ai 27 anni.

    La differenza tra l'intervallo che va dal 5° al 50° percentile e quello che va dal 50° al 95° è ancora maggiore: nel primo caso si spazia su 4 anni di età, dall'età di 24 anni a quella di 27, nel secondo si spazia su 8 anni, dall'età di 27 a quella di 34.

 13 
    Anche nel caso delle altezze dei ventenni (nel 1976) possiamo calcolare i percentili, procedendo con metodi simili a quelli impiegati per la mediana. Possiamo ottenere ad esempio la tabella (3.2), dove l'ultima riga indica i valori che poi sono stati arrotondati nei dati riportati nella seconda. Confrontate la forma dell'istogramma relativo a questi dati ( figura 11) con le informazioni ricavabili dalla tabella dei percentili.

(3.2)    
p% 5% 10% 25% 50% 75% 90% 95%
  h (in cm)   161 163 167 172 177 181 184
 160.63   162.86   167.13   171.94   176.79   181.07   183.88 

 14 
    Secondo voi è normale che uno studente si laurei a 28 anni (mentre ci sono studenti che si laureano a 22 e 23 anni)? Secondo voi è basso un adulto alto 168 cm (mentre l'altezza media dei maschi che avevano 20 anni nel 1976 è 172 cm - figura 2)?

    In figura 16 sono evidenziati i percentili di ordine 5, 25, 50, 75 e 95 (stimati fino ai decimi) della distribuzione dell'età di laurea ( tabella 3.1).
    I dati cadono in [22,41) (da 22 anni a 40 anni e rotti), la mediana (50° percentile) è 27.5, il 50% centrale dei dati cade tra 26.2 (25° percentile) e 29.2 (75° percentile).

    Sotto all'istogramma è raffigurata una rappresentazione grafica alternativa, chiamata box-and-whiskers-plot ("diagramma a scatola e baffi") o, più in breve, box-plot. È una figura "lineare" (si sviluppa solo orizzontalmente, non in due dimensioni, come gli istogrammi) che sintetizza in modo efficace come si distribuiscono i dati.
    Il box (scatola) rappresenta il 50% centrale dei dati, le tacche lungo i baffi rappresentano il 5° e il 95° percentile, la tacca dentro al box rappresenta la mediana.  Il fatto che il box sia spostato verso sinistra  (cioè che il baffo sinistro sia molto più corto di quello destro) corrisponde all'allungamento verso destra dell'istogramma.
    Il box plot avrebbe potuto essere tracciato anche riferendosi a percentili di ordine diverso (ad es. il 3° e il 97° al posto del 5° e del 95°).

figura 16
  

 15 

    A lato sono raffigurati i box plot relativi alle altezze dei ventenni italiani nel 1881, nel 1961 e nel 1976. I dati utilizzati per il 1881 erano classificati in [140,145), …, [185,190), per il 1961 in [145,150), …, [185,190), per il 1976 in [150,155), …, [190,195). Questo spiega i diversi punti di partenza/arrivo dei baffi.

–  Qual è l'intervallo (con estremi arrotondati ai centimetri) in cui cade il 90% centrale delle altezze dei ventenni del 1881? .......................
–  E quello dei ventenni del 1961? .......................
–  E quello dei ventenni del 1976? .......................
–  Le mediane differiscono in maniera significativa dalle medie (indicate in figura 2)? .......................

    

    I percentili permettono di affrontare in modo serio questioni come: «che cosa vuol dire essere di altezza normale?». Ad esempio che cosa si intende dicendo che una persona è bassa? Che la sua altezza è inferiore all'altezza mediana? Ma in tal caso le persone si dividerebbero quasi tutte in alte o basse, e sarebbero normali solo poche persone.

    Per dare un significato "oggettivo" alla valutazione dell'altezza dobbiamo fissare delle convenzioni. Ad esempio potremmo dire che sono "nella media" le altezze che cadono entro il 50% centrale dei dati, cioè tra il 25° e il 75° percentile, e che sono "basse" quelle inferiori al 25° percentile e "alte" quelle che superano il 75° percentile. Considerazioni analoghe si potrebbero fare per l'età di laurea.

    Si tratta, comunque, sempre di valutazioni statistiche basate su scelte convenzionali e che devono essere riferite a valutazioni più generali della situazione che si sta considerando.

    Facciamo due esempi.

(1)  Se ritenessimo "statisticamente" normale laurearsi tra il 25° e il 75° percentile, cioè, nel caso considerato, tra i 26 e i 29 anni, non potremmo certo considerare "anormale" (nel senso di "tipo strano") uno studente che si laurea a 25 anni o ritenere che chi si iscrive all'università possa preventivare come "normale" (cioè come obiettivo "accettabile") la conclusione degli studi a 29 anni.

(2)  Se un pediatra dispone della tabella a fianco dei percentili per le altezze delle bambine di 12 mesi e, visitando una bimba di 1 anno, trova che è alta circa 68 cm, può supporre che vi sia qualche ritardo nella crescita. Infatti la sua altezza è inferiore al 3° percentile: il 97% delle bimbe della sua età ha un' altezza superiore.
10° 25° 50° 75° 90° 97°
 69   71   72   74   76   77   79 
    Ovviamente in questa valutazione il pediatra deve tener conto dell'altezza dei genitori: se anche la loro altezza cadesse tra i primi percentili il fenomeno non sarebbe particolarmente preoccupante.
    Inoltre deve effettuare la misura con cura, eventualmente ripetendola più volte: già con un adulto da una misurazione all'altra ci può essere lo scarto di un paio di centimetri (sulla misura incidono la posizione della colonna vertebrale, che può variare anche in relazione alla stanchezza della persona, la posizione della testa, la cura con cui viene letta la scala graduata, …); con un bimbo piccolo, che è difficile da tener fermo, lo scarto può essere anche maggiore.

    A questo punto dovrebbe essere chiaro che il concetto di normalità è convenzionale e dipende dal contesto. Ad esempio se un regista cerca per una parte un uomo né troppo alto né troppo basso può dare l'incarico di cercare un uomo la cui altezza rientri in quella della maggioranza degli uomini. Questa espressione informale può essere tradotta dai collaboratori del regista nella ricerca di una persona la cui altezza cada nel 50% centrale delle altezze, cioè tra il 25° e il 75° percentile.

 16 
    Supponiamo che il film si ambienti in Italia nel 1996 e che la parte sia quella di un italiano quarantenne. Allora i collaboratori del regista possono utilizzare la tabella (3.2).  Tra quali valori deve essere compresa l'altezza della persona che deve sostenere tale parte? .......................

    In altre situazioni si possono assumere come altezze "normali" intervalli più piccoli (ad es. tra il 30° e il 70° percentile, cioè il 40% centrale dei dati) o più grandi (ad es. dal 3° al 97° percentile, cioè il 94% centrale).

     Veniamo, infine, a dati che vi riguardano più da vicino.

     Le tabelle (3.3) e (3.4) contengono alcuni percentili relativi alle altezze a varie età dei ragazzi e delle ragazze italiane nate intorno al 1980.

(3.3)
     
M
età 10° 25° 50° 75° 90° 97°
  14     148     154     159     165     170     174     179  
15 153 160 164 170 175 178 184
16 157 163 168 173 177 181 186
17 159 165 170 174 178 182 187
18 160 166 170 174 179 183 188
19 160 166 170 174 179 183 188

(3.4)
     
F
  14     149     153     156     160     164     167     171  
15 150 155 158 161 165 168 172
16 151 156 159 162 166 169 172
17 151 156 159 162 166 169 172

 17 
    Discutete le principali differenze tra maschi e femmine messe in luce dalle tabelle (3.3) e (3.4).
 

    Le figure 1 e 2 e le tabelle (3.2), (3.3) e (3.4) sono riferite al complesso degli italiani. In zone diverse del paese la distribuzione delle altezze si può manifestare in maniera piuttosto differente. Ad esempio l'altezza media dei maschi ventenni nel 1976, che sul totale dell'Italia è di 172.0 cm, in Sardegna è 168.5 cm, in Abruzzo è 171.1 cm e in Friuli-Venezia Giulia è 175.6 cm.

    L'altezza di una ragazza o di un ragazzo che risiede in Abruzzo (regione che presenta una distribuzione delle altezze quasi uguale a quella del complesso dell'Italia) ma ha i genitori originari della Sardegna o del Friuli dovrebbe essere riferita più ai dati di questa regione che a quelli nazionali, cioè a dati che sono slittati in un caso di quasi 4 cm in meno, nell'altro di quasi 4 cm in più rispetto a quelli delle tabelle (3.3)-(3.4).

    Le tabelle (3.3)-(3.4) sono da interpretare tenendo conto oltre che di questo aspetto anche del fatto che i tempi dello sviluppo dell'altezza possono variare da individuo a individuo. Vi può essere il ragazzo alto 170 cm a 15 anni (oltre il 50° percentile) e che negli anni successi non cresce più (scendendo sotto al 25° percentile) e quello che a 15 anni è alto 160 cm (sotto al 25° percentile) ma che continua a crescere e a 18 anni raggiunge i 175 cm (oltre il 50° percentile).

    I tempi dello sviluppo dell'altezza sono cambiati nel corso degli anni: oltre all'altezza media ( fig. 1) è cambiata anche l'età in cui ciascuno raggiunge la propria altezza massima. Attualmente in Italia praticamente tutti i maschi ( tabella (3.3)) oltre i 18 anni non aumentano più in altezza e praticamente tutte le femmine ( tabella (3.4)) a 16 hanno già raggiunto l'altezza massima. Agli inizi del Novecento queste età erano spostate in avanti di 5 o 6 anni.

    Differenze tra maschi e femmine, tra individuo e individuo e tra epoche diverse analoghe a quelle osservate per lo sviluppo dell'altezza valgono anche per lo sviluppo sessuale.   Ad esempio nel 1890 in Europa una donna era in grado di procreare figli mediamente a partire dai 16 anni; nel 1990 questa età media era scesa a 13 anni.  Per i maschi queste età vanno spostate in avanti di circa 2 anni.

    Pure in questo caso si tratta di valori medi: anche per queste età si potrebbero considerare istogrammi di distribuzione o tabelle di percentili. Ad esempio vi può essere la ragazza che è sessualmente "adulta" a 11 anni e quella che lo diventa a 16.


4. Campionamento

    Facciamo un'ultima osservazione a proposito delle tabelle (3.3) e (3.4). A differenza dei dati sui giovani di leva, esse non sono il frutto di un esame che ha riguardato tutti i ragazzi e le ragazze a cui si riferiscono, ma solo una parte di essi.

    Quando per studiare un certo aspetto di un particolare insieme di "oggetti" (persone, animali, prodotti, …) si compiono osservazioni solo su una parte di essi, questa parte "estratta" dall'insieme totale degli oggetti viene chiamata campione; l'analisi statistica così effettuata viene chiamata indagine campionaria; il procedimento con cui si sono "estratti" gli oggetti di cui raccogliere le informazioni, viene chiamato campionamento.

    Oltre all'indagine sulle altezze basata sulle visite di leva, un altro famoso esempio di indagine non campionaria sulla popolazione italiana è costituito dai censimenti, che vengono effettuati ogni dieci anni (…, 1971, 1981, 1991, …) intervistando attraverso opportuni questionari tutti gli italiani.

 18 
    Se chiedeste a ciascuno studente delle classi prime della vostra scuola quale numero di scarpa porta e analizzaste i dati così raccolti, che cosa realizzereste?
un'indagine campionaria sugli studenti delle classi 1e della vostra scuola       un'indagine campionaria sui ragazzi italiani di 14-15 anni
un'indagine "completa" sugli studenti delle classi 1e della vostra scuola un'indagine "completa" sui ragazzi italiani di 14-15 anni

 19 
    Supponiamo che con l'indagine del quesito 18 si voglia effettuare un'analisi statistica sui ragazzi italiani di 14-15 anni. Il campione scelto ti sembra "rappresentativo", cioè adeguato a fornire informazioni estendibili all'intera popolazione italiana di 14-15 anni?
 

    I termini "campionaria", "campionamento", … derivano dalla parola "campione" intesa come "esemplare rappresentativo" (pensa al rappresentante che mostra campioni dei beni prodotti dalle ditte per cui lavora).  La parola è stata poi estesa al significato statistico di "parte rappresentativa" di un certo insieme di soggetti.

    E` importante fissare l'attenzione sull'aggettivo rappresentativa: non basta prendere un po' di soggetti e fare su questi i calcoli per ottenere delle informazioni significative sulla totalità dei soggetti.

    Supponiamo che l'Istat voglia analizzare un particolare aspetto delle condizioni di vita degli italiani tra un censimento e l'altro, ad esempio il numero dei componenti delle famiglie, e non abbia il tempo e i mezzi per fare un'indagine completa su tutti gli italiani. Può estrarre un campione di famiglie e analizzare i dati di queste. Ma deve fare l'estrazione non privilegiando una zona geografica, una fascia di età dei genitori, una condizione economica, … rispetto ad altre:  infatti il fenomeno si presenta in maniera diversa al variare della regione, dell'epoca e dell'età in cui si sono sposati i genitori, delle condizioni sociali ed economiche, …; un campione che fosse fatto quasi tutto di famiglie dell'Italia centrale o che privilegiasse le famiglie di recente formazione rappresenterebbe poco fedelmente il complesso delle famiglie italiane.

    Inoltre il campione deve essere sufficientemente numeroso. Ad esempio se una fabbrica di dischetti per calcolatori vuole fare un'indagine sulla quantità di letture/registrazioni che si possono fare sui dischetti prodotti prima che questi si danneggino (e, ovviamente, non sottopone ad una prova di durata tutti i dischetti: così facendo distruggerebbe tutta la propria produzione!) deve decidere quanti dischetti prendere "a caso" durante, ad esempio, una particolare giornata di produzione: prenderne il 10% sarebbe troppo dispendioso (occorrerebbe impiegare troppi dispositivi di lettura/scrittura su disco magnetico); prenderne lo 0.5% è sufficiente?  Non è facile rispondere a questa domanda: occorre tener conto di altri fattori e utilizzare concetti matematici che per adesso non abbiamo ancora affrontato.

    Riprenderai il problema del campionamento più avanti nel corso degli studi, dopo che avrai imparato i primi elementi di calcolo delle probabilità, cioè della parte della matematica che si occupa dei fenomeni casuali.

    Proponiamoci di fare anche noi un'indagine statistica, ad esempio su due aspetti: le altezze dei ragazzi e delle ragazze tra i 14 e i 18 anni, per operare un confronto con i dati delle tabelle (3.3) e (3.4), e sulla lunghezza dei capelli dei ragazzi e delle ragazze della vostra età.

 20 
    Precisate meglio gli obiettivi della vostra indagine e discutete come organizzarla affinché si possano ottenere informazioni utili e attendibili.

    Per adesso potrete accontentarvi di prendere come campione i ragazzi delle classi della vostra scuola, restringendovi alla sola vostra classe per quanto riguarda la lunghezza dei capelli. Eventualmente potrete confrontare i risultati della vostra indagine con quelli ottenuti con un'indagine simile da alunni di altre scuole e con i risultati che si ottengono mettendo insieme tutti i dati.

 21 
    Raccolti i dati, registrateli e analizzateli opportunamente usando il programma STAT ( quesito 29). Se fate copia dei vostri dati e la stessa operazione viene fatta da altre classi, mettendo poi insieme i dati raccolti otterrete un campione più numeroso su cui ripetere l'analisi mediante Stat.
 

    Con questa scheda abbiamo visto ulteriori modelli matematici usati per fare statistiche e abbiamo esaminato alcuni problemi relativi al loro impiego.

    Le ultime osservazioni sul campionamento ci offrono lo spunto per sottolineare che l'uso dei modelli statistici è soggetto a interpretazioni erronee o distorte più di altri modelli matematici. Il motivo risiede nel fatto che con essi spesso non si rappresentano tanto le caratteristiche di un particolare oggetto o persona quanto le condizioni che riguardano una collettività, le caratteristiche essenziali dell'andamento complessivo di un fenomeno che varia nel tempo, … :  il modo in cui vengono raccolte le informazioni  (su tutta la popolazione o su quanta parte di essa? ogni quanto tempo? con quale modalità di rilevamento? …)  e il fatto che le caratterisitiche delle persone o degli eventi singoli possono discostarsi molto dalla valutazione complessiva che emerge, introducono notevoli elementi di approssimatività.

    Alcuni degli esercizi seguenti offrono occasioni per esemplificare e approfondire questa riflessione.


5. Esercizi

 22 
    Nel caso delle rappresentazioni "procapite" (kg di carne consumata per abitante, m2 di superficie per abitante, m3 di spazio abitativo per famiglia, L di reddito per lavoratore, …) la media può essere interpretata come rapporto tra due grandezze: un totale espresso in una data unità di misura (kg, L, m2, m3, …) e una "popolazione" (di persone, famiglie, …).
    Nel caso dell'altezza media questa interpretazione non ha senso: è vero che faccio la somma delle altezze e la divido per il numero delle persone, ma questa somma non la posso interpretare come "altezza totale" delle persone!  non posso dire che l'altezza media è di 174 cm per abitante!
    Posso tuttavia dare anche questa interpretazione:
l'altezza media di due persone è pari all'altezza di una terza persona che abbia lo stesso dislivello dalla prima e dalla seconda.
    Ad es. 170 cm è la media di 162 e 178 cm; infatti (162+178)/2=340/2= 170. Ma 170 è anche il valore a metà tra 162 e 178: 162+8=170, 178–8=170.
  Leggi la spiegazione generale di questo fatto presente alla prima voce "valori medi" de Gli oggetti matematici. Poi osserva la figura seguente, che illustra due modi per trovare la lunghezza media M di due segmenti lunghi a e b:
    
uno è usare la formula:  M = (a+b)/2;     l'altro è usare:  M = a+....................   [completa]
  Prova a calcolare a mente lo stipendio medio mensile (m) di una famiglia composta solo da marito e moglie,  lei con stipendio di 2 milioni e 400 mila (x), lui con stipendio di 2 milioni e 500 mila lire (y), usando le formule:
        (1)   m = (x+y)/2       (2)   m = x+(y–x)/2
    Quale procedimento trovi più conveniente? Perché?
  La località C è esattamente a metà strada tra una località posta al 34° km (x) di una certa strada statale e una località B posta al 112° km (y). Calcola a quale chilometro (m) si trova C.
    Quale procedimento tra (1) e (2) trovi più conveniente? Perché?

 23 
    Per controllare attraverso un procedimento "numerico" la dimostrazione "geometrica" dell'equivalenza delle formule (1) e (2) ( quesito 22) per il calcolo della media tra x e y,  completate i seguenti passaggi:
xy – x  =  x · 2 + y – x  =  x · 2 + y – x  =  …
———————————————
2222

 24 
    Indica tra i seguenti istogrammi quale può rappresentare la distribuzione: (1) dell'età dei morti in un paese sviluppato, (2) dell'età dei morti in un paese sottosviluppato, (3) dell'altezza delle femmine adulte di una città, (4) delle altezze degli adulti (maschi e femmine) di una città.
ABCD

 25 
    Ho un istogramma di distribuzione dalla forma simmetrica, in cui media e mediana cadono entrambe nella classe centrale. Se tolgo pezzi da colonne a destra della colonna centrale e li sposto più a destra, quale tra mediana e media resta immutata?  quale aumenta?  perché?

 26 
    Tra gli istogrammi raffigurati nel quesito 24 quale ha sicuramente la media inferiore alla mediana; quale può avere media e mediana che cadono nella classe modale; quale può avere media e mediana che cadono in una stessa classe, diversa dalla classe modale?

 27 
    Hai visto nel quesito 22 che la media tra due numeri coincide con il valore che sta a metà tra essi.
    Il disegno a fianco suggerisce che per trovare la media tra 120 e 180 posso operare su 20 e 80: la distanza tra 120 e 180 è uguale alla distanza tra 20 e 80 (ottenuti togliendo 100), per cui posso trovare il valore  che sta a metà  di questi ultimi  e  poi riaggiungere 100:
      
(media tra 120 e 180) = (media tra 20 e 80) + 100
    Tale procedimento (togliere uno stesso numero da tutti i valori di cui si fa la media e poi riaggiungerlo al risultato) può essere esteso al calcolo della media di più di due valori.
    Applicalo per calcolare la media di ciascuno dei seguenti insiemi di dati:
(a)   253, 254, 259, 256           (b)   2.5, 2.1, 2.3           (c)   1037, 1045, 1000, 1002

 28 
    Completa la seguente formula in modo che rappresenti il procedimento descritto nel quesito precedente:
x1 + x2 + x3 + … + xn  =  (x1–h) + (x2–h) + (x3–h) +…+ (xn–h)  +  …
——————————————————————————
nn

 29 
    0°C (Celsius) corrispondono a 32°F (Fahrenheit) e 100°C corrispondono a 212°F. Le variazioni in °C sono proporzionali alle variazioni in °F. Voglio trovare l'equivalente in °F di 30°C. Procedo come dopo fig. 13.
R =  parte  =  30
—————
totale100
      
    Per arrivare da 32 a "?" devo addizionare 180·R = 180·30/100 = 18·3 = 54
(1)  Qual è la rappresentazione in °F della temperatura di 30°C?
(2)  Scrivi la formula che generalizza il procedimento al caso di una temperatura c in gradi Celsius qualunque, indicando con f la corrispondente temperatura in gradi Fahrenheit:
f  =  32 + 180 · …
    Il rapporto tra variazione in °F e variazione in °C è 180/100=1.8, cioè alla variazione di 1°C corrisponde quella di 1.8°F [ "variazioni proporzionali" nell'indice de Gli oggetti matematici]. Usando questa informazione posso dedurre che:
f  =  32 + c · 1.8
(3)  Questa formula è equivalente a quella che hai trovato in (2)?

 30 
    Nel software MaCoSa è presente il programma Stat, che consente di creare, leggere o modificare archivi di dati (in inglese, file - pronuncia: fail), e di fare analisi statistiche su archivi di dati. Nella cartella STF, di file per Stat, sono presenti anche alcuni file relativi a esempi ed esercizi proposti in questa scheda.
    Ecco che cosa si può ottenere per il file alunne.stf, che contiene i dati sulle altezze delle alunne esaminati nel §2 della scheda:

    Stat trova il massimo e il minimo tra i dati e, a richiesta (premendo [S]) calcola i percentili. Come vedi ritroviamo che la mediana (50° percentile) è 162. Se si richiede il tracciamento dell'istogramma di distribuzione (con [plot]), occorre spacificare come deve classificare i dati:
(1)  un intervallo (che contenga minimo e massimo) e
(2)  il numero delle classi in cui suddividerlo. Per comprendere il modo in cui devono essere scelti gli intervalli puoi eseguire il quesito 31.  Per ora:

(autilizza Stat per leggere il file "alunne" e, poi, per creare un nuovo file contenente le altezze delle alunne dopo la venuta della superspilungona (ultima riga della tabella dopo figura 7) nel seguente modo:

(1) apri alunne.stf, copialo e incollandolo nella finestra destra;

(2) sostituisci il dato 150 col dato 200 e clicca [I]

(butilizza Stat per trovare la media (che poi devi arrotondare come i dati di partenza) e la mediana dei nuovi dati.

 31 
    Esaminiamo come si è comandato a Stat il tracciamento dell'istogramma riportato nel quesito 30. Si voleva ottenere un istogramma come quello di figura 8: 7 intervallini ampi 3: 150-152, 153-155, …, 168-170. Poiché 150,151,152 stanno in [150,153), 153,154,155 stanno in [153,156), …, 168,169,170 stanno in [168,171) possiamo scegliere come [a,b) l'intervallo [150,171) e farlo suddividere in 7 intervallini.
    Il programma calcola le frequenze relative, visualizza la frequenza della classe modale (la moda è [162,165), cioè 162-164, e la sua frequenza relativa è 0.2631…, cioè 26.3%), e sceglie automaticamente il sistema di riferimento in modo da rappresentare l'intero istogramma.
(a)  Dal grafico riportato nel quesito 30 ricava (arrotondate agli interi) le frequenze percentuali delle modalità 153-155 e 156-158  (utilizza il fatto che in questo caso la colonna più alta rappresenta 26.3% e, quindi, i livelli tracciati con la punteggiatura distano 10% - al computer, si può anche cliccare col mouse sul grafico e leggere le coordinate nella piccola finsetra a destra).
    Volendo essere più precisi, si poteva tener conto che i dati delle altezze non sono esatti, ma sono arrotondati. È vero che, ad es., 150,151,152, come numeri esatti (150.000…,151.000…,152.000…), stanno in [150,153); ma se li intendiamo come misure arrotondate, essi rappresentano altezze che vanno da 149.5… a 152.4…. Allora potevamo scegliere come [a,b), invece dell'intervallo [150,171), l'intervallo [149.5,170.5). Il grafico sarebbe, comunque, venuto uguale, anche se riferito a una porzione di asse orizzontale più a sinistra di 0.5  (vedi figura a lato).
(b)  Cosa avremmo ottenuto come classe modale?
     
Nota.  Come media viene visualizzato il numero 161.3684, risultato approssimato di (156+168+…)/19. Non tutte le cifre di esso sono significative, poiché i dati non erano esatti, ma arrotondati agli interi. Se i dati sono pochi la media che si ottiene deve essere arrotondata agli interi.
    Ma se i dati sono almeno una decina, come in questo caso, poiché le approssimazioni per difetto e quelle per eccesso in parte si compensano, si può prendere la media arrotondata ai decimi. Più in generale se i dati fossero arrotondati alla cifra di posto n si può arrotondare la media alla cifra di posto n–1.
    Quindi possiamo prendere come altezza media 161.4.
    Se i dati sono almeno un migliaio si può arrotondare la media fino alla cifra di posto n–2 (ad es. se i dati arrotondati agli interi la media può essere arrotondata ai centesimi). Questa scelta può essere motivata con considerazioni di calcolo delle probabilità che, per ora, non siamo in grado di affrontare.

 32 
    Nelle gare di corsa non particolarmente "importanti" (e, fino a qualche decennio fa, in tutte le gare) i tempi non vengono rilevati con apparecchiature elettroniche, ma a mano, con dei cronometri.
    I cronometri, così come tutti gli odierni orologi al quarzo, sono precisissimi: sgarrano di pochi secondi al mese. Quindi, se un orologio è dotato di un pulsante "start/stop" e visualizza i centesimi di secondo, siamo sicuri che il tempo che intercorre tra due successive pressioni del pulsante è rappresentato correttamente, troncato ai centesimi di secondo, dal numero che viene visualizzato.
    Nei cronometraggi delle gare, tuttavia, non viene impiegato un unico cronometro, ma i tempi vengono misurati contemporaneamente da più cronometristi. Poi vengono presi come tempi i valori medi, troncati ai centesimi, dei tempi registrati dai diversi cronometristi.
  Discuti questa scelta alla luce dell'analisi del file "t-sec.stf" (contenuto in Stf) in cui sono stati registrati i valori in centesimi di secondo che una persona ("normale", non un allenato cronometrista) ha ottenuto misurando ripetutamente con un orologio A il tempo che impiega un altro orologio B a scattare in avanti di 1 s (ad esempio la persona ha dato lo Start sull'orologio A appena l'orologio B ha visualizzato 15:31:08 e ha dato lo Stop appena B ha visualizzato 15:31:09, e ha trascritto il tempo visualizzato da A; poi ha fatto lo stesso per esempio dalla visualizzazione di 15:31:46 a quella di 15:31:47; ecc.).

    A lato è riprodotto l'esito dell'analisi con Stat.

Nota. Le misure ottenute con l'orologio sono troncate ai centesimi di secondo. Alla media visualizzata devo quindi aggiungere 0.5, cioè considerare 99.42553+0.5 = 99.92553, che poi posso arrotondare a 99.9.
Per una spiegazione consulta la seconda voce "valori medi" de Gli oggetti matematici.

     
  Tra i seguenti diagrammi, qual è il box-plot di T-Sec? Perché? Verifica la tua risposta usando Stat.

 33 
    Un ente pubblico ordina alla ditta SifanStat, specializzata in indagini statistiche, lo studio dei tempi di arrivo degli utenti ai propri sportelli. Un dipendente della SifanStat si piazza all'ingresso del locale in cui sono collocati gli sportelli e per circa un'ora, in un orario di punta, misura il tempo che intercorre tra l'arrivo di un utente e il successivo, contando complessivamente l'arrivo di 134 utenti. I tempi che ha rilevato (troncati ai secondi) sono riportati (in stf) come file di nome t-arrivi.stf.  Sotto è riprodotto parzialmente lo stato dello schermo dopo l'analisi di "T-Arrivi" con Stat.

(a)  Completa le parti mancanti (riquadri punteggiati).

(b)  Utilizzando solo gli output numerici del programma (min, max, percentili, media, moda) avresti potuto concludere qualcosa sull'andamento dell'istogramma?

(c)  Tenendo conto della quantità dei dati a disposizione e del fatto che essi sono troncati, come puoi esprimere il tempo medio che intercorre tra due arrivi?   [vedi le note ai quesiti precedenti]

(d)  Tra i diagrammi riprodotti nel quesito precedente, qual è il box-plot di T-Arrivi? Perché? Verifica la tua risposta usando Stat.

 34 
    Stat consente di analizzare pure dati già classificati in intervalli, anche di diversa ampiezza (vedi l'Help). Consideriamo il file Mor4.stf, che contiene la distribuzione dell'età dei morti in Italia nel 1990. I dati sono in centinaia di persone: ad es. sono morte 25 centinaia di persone nella fascia 1-14 anni (cioè in [1,15): avevano compiuto 1 anno e non ancora i 15).
    La tabella-Istat da cui sono stati riportati i dati indicava l'ultima classe come "75 e più", cioè [75,), intervallo che non può essere introdotto con Stat poiché non è un numero finito. Si è introdotto [75,100) supponendo che sia trascurabile la percentuale dei morti ultracentenari.
   
(a)  Utilizzando Stat trova l'età media dei morti nel 1990, l'intervallo in cui cade il 50% centrale delle età di morte e traccia l'istogramma relativo a "Mor4".
Nota.  L'istogramma di distribuzione di dati già classificati in intervalli viene tracciato con rettangolini con basi proporzionali alle ampiezze degli intervalli, nel modo raffigurato sotto a destra (per "Mor4"), non con rettangolini di ugual base, come è fatto sotto a sinistra:

7 classi (non necessariamente di = ampiezza)  Dist.livelli: 10%

[0,100)  Dist.livelli: .5% (freq. perc. unitaria)
    L'altezza dei rettangoli viene modificata in modo che le loro aree rimangano proporzionali alle frequenze relative e sulla scala verticale vengono rappresentate le frequenze percentuali "unitarie".
    Ad esempio [65,75) è rappresentato (figura a destra) da un rettangolo alto circa 2%; ciò significa che in un intervallo ampio un anno che sta in [65,75) cade mediamente il 2% delle età di morte (ad es. circa il 2% dei morti aveva 65 anni, il 2% ne aveva 66, …). Essendo [65,75) ampio 10 anni, in esso cade il 10·2%=20% delle età di morte. La stessa percentuale la possiamo ottenere direttamente se prima di cliccare [plot] mettiamo "%" nel riquadro a sinistra di [S].  Sull'istogramma di sinistra le colonne invece sono alte tanto quanto le percentuali.
[Istogrammi come quello di sinistra sono ottenibili introducendo i dati classificati in insiemi generici, non in intervalli, nella forma:
a,46
b,25
...
g,3124
Per ulteriori informazioni vedi l'help e la voce "distribuzione" deGli oggetti matematici]
(b)  Secondo te, come procede Stat per calcolare la media aritmetica quando i dati sono stati introdotti in forma classificata, come nel caso di "Mor4"?

 35 
    La tabella (5.1) contiene la distribuzione dell'età dei morti in Italia in vari periodi. I dati sono in centinaia di persone. Nel caso del decennio 1881-90 per ogni fascia di età è riportato il numero medio dei morti in un anno (ad es. nell'intervallo di anni di età [5,10) vi sono stati in media 343 centinaia di morti all'anno).
 
   (5.1)   
anni 0-45-910-1920-2930-3940-4950-5960-7475-
 1881-90   3818    343     303     398     360     384     495    1177    708  
1951 729 35 77 132 134 285 457 1401 1569
1988 68 10 31 66 70 161 423 1516  2983 
 
   (5.2)   
età  mediana  1881-90    1951      1988   
del totale dei morti   66  
 dei morti nella fascia 5-    69  
  La tabella (5.2) indica (troncata agli interi) l'età mediana dei morti e l'età mediana di quelli morti dopo aver compiuto 5 anni.
  Completa la tabella usando Stat. Procedi nel seguente modo:

(a)  I dati della tabella (5.1) sono registrati nei file "mor1" (1881-90), "mor2" (1951) e "mor3" (1988). Analizza questi file e completa la prima riga di (5.2) (e controlla la mediana del  1951).

(b)  Modifica "mor1", "mor2" e "mor3" togliendo la prima riga di dati, in modo da rappresentare solo i morti con almeno 5 anni di età, e dà nomi "1", "2" e "3" ai file ottenuti.

(c)   Analizza i nuovi file e completa la seconda riga di (5.2).

  Infine commenta la tabella (5.2)
  Per confrontare gli istogrammi di "mor3" e di "mor4" [vedi ques. 34] conviene ricorrere a istogrammi con rettangolini a basi uguali o no? Perché?

 36 
    Completata la tabella seguente, scegli tra 73 anni e 83 anni qual è stata nel 1988 l'età mediana dei morti maschi e quale quella dei morti femmine?
 
morti nel 1988
per classi di età
  
0-5960-7475-totale
 M+F     829 (16%)     1516 (28%)     2983 (56%)     5328 (100%)  
M 552 (20%) 946 (34%) 1278 (46%) 2776 (100%)
F        

 37 
    La tabella (5.3) contiene il peso medio di maschi e femmine di altezza e fascia di età fissate. Contiene inoltre il "peso ideale" di maschi e femmine di età adulta; non viene indicato un unico dato, ma un intervallo: ad es. il peso ideale delle donne alte 150 cm può andare da 44 a 54 kg, nel senso che una donna alta 150 cm con scheletro particolarmente leggero ha come peso ideale 44 kg e una con scheletro particolarmente pesante ha come peso ideale 54 kg. Il peso ideale di una certa categoria di soggetti viene definito convenzionalmente come il peso a cui corrisponde l'età media di morte più alta (i soggetti con quel peso mediamente vivono più a lungo dei soggetti con altro peso).
 
(5.3)

indagine campionaria
sulla popolazione italiana
(anno 1990)
  
peso medio (kg) peso ideale (kg)
altezza (cm) 20-24 anni 40-49 anni da a
M 160 59.9 65.3 53 64
170 65.7 72.9 56 72
180 72.8 80.5 66 80
190 80.4 88.9 73 89
 
F 150 47.7 56.3 44 54
160 53.5 61.7 48 59
170 59.8 68.4 54 67
180 67.3 76.4 62 75
  Una ragazza robusta alta 160 cm e pesante 60 kg legge preoccupata in una "rivista femminile", in un articolo sulle diete, che il peso ideale di una donna della sua altezza è 50 kg. Perché ciò che è scritto sulla rivista è una stupidaggine?
  Un uomo di 45 anni e alto 180 cm, che a vent'anni pesava 64 kg, ora pesa 81 kg. Da una statistica sul giornale legge che a mezz'età un uomo della sua altezza pesa mediamente 80 kg. Ritenendo, allora, di avere un peso "normale", decide di non dare più importanza alle sollecitazioni della moglie («pesi troppo: stai più attento nel mangiare!»). Ti sembra sensata questa conclusione?

 38 
    I grafici a lato rappresentano il peso medio P in funzione dell'altezza h nel caso delle donne tra 20 e 24 anni e nel caso di quelle tra 40 e 49 anni (vedi ques. 37). Il pallini sono la "traduzione" dei dati della tabella (5.3); le linee punteggiate che li congiungono consentono di trovare i pesi medi corrispondenti ad altre altezze (nell'ipotesi che tra un pallino e l'altro la variazione del peso medio sia proporzionale a quella dell'altezza).
    Trova in questo modo (arrotondato ai kg) il peso medio delle donne di 20-24 anni alte 167 cm e confrontalo con quello che ottieni usando direttamente i dati della tabella e un opportuno metodo numerico ( §3 e ques. 29).
     

 39 
    Potete effettuare delle altre indagini statistiche. Ad es. comprare qualche chilo di patate di una qualità fissata in un particolare negozio, pesare ciascuna patata e studiare come si distribuisce il peso delle patate, o fare un'indagine simile per qualche altro prodotto alimentare. Oppure potete scegliere un marciapiede di una grande strada, una direzione di cammino e misurare l'intervallo di tempo che intercorre tra il passaggio di un pedone e il successivo (scegliete un punto che non sia preceduto, a poca distanza, da un semaforo, che condizionerebbe il flusso delle persone) e studiare come si distribuiscono questi tempi. Oppure potete misurarvi (tutti gli alunni della classe non affebbrati) la temperatura corporea in più ore diverse e per più giorni consecutivi, raccogliere i dati e discutere che cosa si deve intendere come  "temperatura normale".

 

1) Segna con l'evidenziatore, nelle parti della scheda indicate, frasi e/o formule che descrivono il significato dei seguenti termini:

intervallo di numeri (dopo ques.3),   classificare in modalità (dopo ques.4),   frequenza assoluta, relativa e percentuale (dopo ques.5),   distribuzione di frequenza (dopo ques.6),   classe modale (§2),   mediana (dopo fig.7),   frequenza cumulata (dopo fig.11),   percentile (dopo fig.15),   indagine campionaria ($4).

2) Su un foglio da "quadernone" (che poi inserirai dopo l'ultima pagina della scheda), nella prima facciata, esemplifica l'uso di ciascuno dei concetti sopra elencati mediante una frase in cui esso venga impiegato.

3) Nella seconda facciata riassumi in modo discorsivo (senza formule, come in una descrizione "al telefono") il contenuto della scheda (non fare un elenco di argomenti, ma cerca di far capire il "filo del discorso").