Le statistiche
Alcuni modelli per la rappresentazione dei dati

Scheda 3
Lo sviluppo corporeo

0. Introduzione
1. Istogrammi di distribuzione
2. Media aritmetica, moda, mediana
3. Campionamento
4. Percentili, ”normalità”
5. Concludendo
6. Esercizi
Sintesi

 

0. Introduzione

    «Giovanni è basso», «Maria è troppo alta», … . A volte sono semplici osservazioni, altre volte sono giudizi un po' maligni. Ma … che cosa vuol dire "basso", che cosa vuol dire "alta"? In base a quale valutazione riusciamo a distinguere quando una persona è alta, bassa o di altezza normale?
     Sicuramente siamo in grado di esprimere con un numero l'altezza di una persona («Giovanni è alto 155 cm»). C'è un modello matematico che ci permetta di stabilire quando l'altezza di una persona è normale?
     Non si può rispondere nettamente con un "sì" o con un "no". Possiamo tuttavia affermare che la matematica ci permette di affrontare la questione e di metterne in luce la complessità. Questa scheda sarà dedicata a questo argomento.
     Vedremo che non può esistere una definizione assoluta di "normalità" ma che esistono degli strumenti matematici per valutare la relazione tra l'altezza di una persona e quella del complesso delle altre persone e, più in generale, per valutare la relazione tra un particolare aspetto di un certo oggetto (ad esempio il peso di un uovo) e il modo in cui tale aspetto si manifesta nella collettività di cui quell'oggetto fa parte (ad esempio il complesso delle uova prodotte dall'allevamento da cui l'uovo considerato proviene).

 
1. Istogrammi di distribuzione

    Abbiamo già visto ( scheda 1, §5) che per rappresentare con un unico numero come si manifesta un fenomeno collettivo si può ricorrere alla media aritmetica dei dati relativi ai singoli soggetti.

    Il grafico di figura 1 riporta la altezza media dei maschi ventenni italiani in vari anni, nel corso di più di un secolo.

 1 
    Nel 1881 l'altezza media dei maschi ventenni era di 162.8 cm, nel 1981 era di 172.9 cm. Qual è stato l'aumento medio annuo in questo intervallo di tempo?  ............ mm/anno

figura 1 
   

     In cent'anni l'altezza media è aumentata più di 10 cm. La crescita è stata particolarmente rapida negli anni 70, cioè per gli uomini nati negli anni 50 e che hanno trascorso la loro infanzia negli anni della ripresa e dello sviluppo economico che sono seguiti alla seconda guerra mondiale (dal 1971 al 1981 vi è stato un aumento medio di 2.7 mm/anno). Negli ultimi anni la crescita tende a rallentare; probabilmente si stabilizzerà, centimetro più centimetro meno, intorno ai 175 cm. Un fenomeno analogo (forte crescita nel XX secolo, con rallentamento negli ultimi decenni) si è verificato in tutti i paesi industrializzati, anche tra le donne.

     L'aumento dell'altezza media è dovuto essenzialmente al miglioramento delle condizioni di vita, soprattutto nell'alimentazione (per ricordare alcuni dati, nel 1880 l’"italiano medio" ha consumato 15 kg di carne, 29 nel 1960 e 54 nel 1970), ma anche nell'assistenza sanitaria e nell'attività fisica (si pensi all'elevamento dell'obbligo scolastico e alla progressiva riduzione del fenomeno del lavoro minorile): questi miglioramenti hanno fatto sì che i bambini e gli adolescenti abbiano avuto sempre più modo di sfruttare al massimo le potenzialità di crescita presenti nel patrimonio genetico ereditato dai genitori. Il miglioramento nell'assistenza sanitaria ha inciso su questo aumento anche in altri modi; ad es. le donne longilinee un tempo incontravano più difficoltà nel parto e quindi mediamente avevano meno figli; pian piano questo "svantaggio" è stato colmato ed è aumentata la trasmissione del patrimonio genetico da parte delle donne più alte.

 2 
    Abbiamo dunque visto un primo aspetto che rende relativo il significato di "essere basso": l'altezza media è variata nel tempo.
    Un maschio nato nel 1941 (cioè ventenne nel '61) e alto 165 cm di quanto è sotto all'altezza media dei suoi coetanei? ............ E un maschio della stessa altezza nato nel 1972? ............

    Ma non basta calcolare la distanza dell'altezza di una persona dall'altezza media. Bisogna anche vedere se, ad esempio, sono molte o sono poche le persone nate nel 1972 e con altezza inferiore di 9 o più centimetri rispetto all'altezza media.  Per fare questa valutazione possiamo riferirci agli istogrammi della figura 2, che rappresentano le percentuali dei ventenni maschi le cui altezze cadono in alcuni intervalli di misure.

    Questi istogrammi sono stati realizzati impiegando dati pubblicati dall'Istat e già classificati negli intervalli di altezza indicati:

–  altezze fino a 149 cm, altezze da 150 a 154 cm, …, altezze da 180 cm in su, per il 1881 e il 1961;

–  altezze fino a 159 cm, altezze da 160 a 164 cm, …, altezze da 190 cm in su, per il 1992.

    Gli istogrammi man mano si sono spostati verso destra, ma hanno mantenuto più o meno la stessa forma.  Ciò visualizza il fatto che le diversità genetiche all'interno della popolazione si sono mantenute e che il miglioramento delle condizioni di vita ha fatto sì che tutti, ciascuno con le potenzialità ereditate, sviluppassero maggiormente l'altezza.

 3 
    L'intervallo di altezze più frequente (cioè in cui cade la maggiore percentuale di misure di altezza) nel 1881 è 160-164 cm.  Quali sono quelli degli altri anni?
    1961 ...................         1992 ...................

      
 
figura 2

    In figura 2 con "170-174" abbiamo indicato l'intervallo di misure i cui valori troncati ai centimetri sono 170, 171, 172, 173 o 174, cioè le misure che vanno da 170.0… cm a 174.9… cm.

    Nel disegno a fianco sono i valori che cadono tra le due frecce, cioè i valori maggiori o uguali a 170.000…  e  minori di 175.000….

    

    Quando di un intervallo di valori numerici si vogliono descrivere esattamente gli estremi si usano scritture come la seguente:  [170,175). Essa indica l'insieme dei numeri che sono maggiori o uguali a 170 e che sono minori di 175; cioè l'insieme dei numeri x tali che 170≤x<175.

     Si usa anche la scrittura: ; il pallino pieno [vuoto] indica che l'estremo è [non è] compreso.

    Nel caso in cui avessimo voluto includere 175 avremmo scritto [170,175] o .

 4 
  (a) Come rappresenteresti l'insieme dei numeri x tali che 170<x≤175? ....................
  (b) e l'insieme dei numeri x tali che 14<x<17? ....................
  (c) Come completeresti questa frase "l'insieme dei numeri x tali che …"   in modo da descrivere l'intervallo rappresentabile con [4.1,4.3]? ....................
  (d) e in modo da descrivere l'intervallo rappresentabile con (4.1,4.3]? ....................
  (e) Se 48 cm è la lunghezza arrotondata ai centimetri di un oggetto, in quale tra i seguenti intervalli puoi concludere che cade la lunghezza "esatta"? ....................
  (48, 49]     (47.5, 48.5)     [48, 49)     [47.5, 48.5)     (47, 48]

    Tornando a figura 2, come sono state ottenute le percentuali rappresentate mediante gli istogrammi?

    Le altezze dei ventenni sono state classificate negli intervalli raffigurati a fianco.  Il termine classificare in questo caso non significa "mettere in graduatoria, assegnare un posto della classifica", ma significa "ripartire in classi (cioè collezioni, insiemi, aggregati, …) opportunamente definite". Le classi in cui vengono distribuiti i dati vengono spesso chiamate anche modalità.    

    Per fare un altro esempio, se si volesse fare una statistica sul quartiere di provenienza degli alunni di una scuola, le modalità sarebbero i vari quartieri.

    Il numero delle altezze che cade in un certo intervallo viene chiamato frequenza di quell'intervallo. Nel caso dell'indagine sulla provenienza degli alunni la frequenza di un quartiere è il numero degli alunni che proviene da esso. Più in generale, se considero un certo insieme di "oggetti" (ventenni, alunni di una scuola, …) e per ciascuno di essi raccolgo una particolare informazione (altezza, quartiere di provenienza, …), la frequenza di una modalità è il numero delle informazioni che vengono classificate in quella modalità o, in altre parole, è il numero delle volte che quella modalità si manifesta.

alunnosport alunno sport
Annatennis
  Barbara  nessuno
Brunocalcio
Carloping-pong  
Claracalcio
Darionuoto
Davidepallavolo
Elenanessuno
Enricojudo
Fabrizionessuno
Giorgiopallacanestro 
Irenesalto in alto
Laurapallavolo
Lucianonessuno
 Manuela  tennis
Nicolacalcio
Paolanessuno
Robertajudo
Sabinapallacanestro 
Valeriopallanuoto
    

 5 
    Nella tabella a fianco per ogni alunno è indicato lo sport maggiormente praticato. Classifica queste informazioni secondo le quattro modalità indicate nella tabella sotto a sinistra: in ogni casella scrivi (in piccola dimensione) i nomi degli alunni che verificano sia la proprietà "orizzontale" che la proprietà "verticale".
    Indica, quindi, le corrispondenti frequenze nella tabella a destra, calcolando anche i totali per riga e per colonna.

 Classificazione:    Frequenze:
fare uno sport praticabile in squadra  non fare uno sport praticabile in squadra
 
fare uno sport
praticabile
individualmente
 
   
 
 non
fare uno
sport praticabile
individualmente
 
   
fare … nontotale
fare …  
 
   
non  
 
   
totale  
 
  20


    Dopo aver classificato i dati e stabilito la frequenza delle varie modalità,  per calcolare le percentuali rappresentate in istogrammi come quelli di figura 2, ogni frequenza viene divisa per il numero totale dei dati.

    Nel caso di figura 2 la frequenza di ogni intervallo è stata divisa per il numero totale dei ventenni ed espressa in forma percentuale.

    Un rapporto di questo genere, cioè il rapporto tra la frequenza di una modalità e il numero totale delle informazioni classificate, viene chiamato frequenza relativa; infatti non esprime direttamente il numero delle volte con cui la modalità si è verificata ma lo "relativizza", ne esprime la relazione quantitativa con il totale delle informazioni classificate.

    Quando la frequenza relativa è espressa in forma percentuale viene chiamata anche frequenza percentuale.

    Nel caso della provenienza degli alunni dire che per il quartiere X si è ottenuta una frequenza relativa del 29% significa che il rapporto tra gli alunni provenienti da X e il totale degli alunni è 0.29.

    Per meglio distinguerla dalla frequenza relativa, la frequenza (non relativizzata) viene spesso chiamata frequenza assoluta.

frequenza assoluta di una modalità =  quantità delle informazioni che vengono
 classificate in tale modalità
 
frequenza relativa di una modalità = frequenza assoluta di tale modalità
———————————————
totale delle informazioni classificate

 6 
  (a) Qual è la frequenza relativa della modalità "fare uno sport praticabile sia in squadra che individualmente" di cui al quesito 5? (esprimila in forma percentuale) ....................
  (b) Qual è la frequenza relativa dell'intervallo di altezze (in cm) [165,170) nel 1961 ( fig. 2)? ....................

    Una tabella che associ ad ogni modalità le corrispondenti frequenze con cui si manifesta un certo fenomeno viene detta distribuzione di frequenza (o più semplicemente distribuzione) di quel fenomeno (rispetto alle modalità scelte).

    Ad esempio la tabella (1.1) è la distribuzione di frequenza degli sport praticati dagli alunni del quesito 5 rispetto alle modalità indicate (I sta per "praticabile individualmente", S sta per "praticabile a squadra").

    La tabella (1.2) è la distribuzione di frequenza delle altezze degli italiani maschi ventenni nel 1992 rispetto agli intervalli indicati. Per essere più precisi nel questo caso dovremmo parlare di distribuzione di frequenza relativa o di distribuzione percentuale.

    Gli istogrammi di figura 2 vengono quindi chiamati istogrammi di distribuzione (percentuale).

(1.1)  sport che è 
sia I che S
sport che è
I ma non S
sport che è
S ma non I
nessuno
sport
frequenza 4 3 8 5

(1.2) [0,160) [160,165) [165,170) [170,175) [175,180)  [180,185)  [185,190) [190,∞)
freq. relativa 2% 7% 18% 29% 25% 13% 5% 1%

    Il simbolo "∞" (che si legge "infinito") impiegato per l'ultimo intervallo indica una quantità infinita, cioè [190,∞) rappresenta l'intervallo costituito da tutti i numeri maggiori o uguali a 190.

    Anche gli istogrammi relativi ai consumi impiegati nella scheda 1 sono istogrammi di distribuzione: gli "oggetti" sono le lire o euro spesi in consumi, le "informazioni" sono i beni o i servizi per cui le varie lire sono state spese, le modalità sono le categorie di beni e di servizi considerate.

    Si parla di istogrammi di ripartizione (o distribuzione) assoluta dei consumi se sulla scala verticale sono rappresentati i dati assoluti , di istogrammi di ripartizione percentuale se sono rappresentate le percentuali.

     

    Gli istogrammi possono essere usati per visualizzare il confronto tra due o più quantità, ma non sempre si tratta di istogrammi di distribuzione.

    A differenza del caso raffigurato a sinistra (ripartizione della popolazione italiana nelle tre zone geografiche), a destra (popolazione ligure in vari anni) non siamo di fronte a un istogramma di distribuzione: i rettangoli non rappresentano le parti che compongono un totale (un abitante conteggiato nel 2001 può essere stato conteggiato anche nel 1991, nel 1981, …).

    

 7 
    Quali (o quale) dei tre istogrammi a fianco ( quesito 5, tabella 1.1) sono istogrammi di distribuzione, cioè in quali casi l'area complessiva dei rettangoli rappresenta un totale e le aree dei vari rettangoli rappresentano parti disgiunte (= "senza elementi in comune") del totale?

    

 
2. Media, moda, mediana

    Tra la distribuzione delle altezze e quella delle zone di provenienza degli alunni vi è una diversità di fondo. In un caso abbiamo modalità di tipo numerico (valori numerici che vengono classificati in intervalli di numeri), nell'altro no (località che vengono classificate in quartieri).

    Nel primo caso quindi sull'istogramma le modalità  devono  essere rappresentate  con un certo ordine, nel secondo caso l'ordine non è particolarmente significativo: i due istogrammi di distribuzione di frequenza assoluta della figura 3 possono essere considerati equivalenti.

    Inoltre, mentre nel primo caso ha senso parlare di media aritmetica dei dati, nel secondo non ha senso parlare di quartiere medio di provenienza.

    In entrambi i casi si può considerare la modalità più frequente. Essa viene detta moda o classe modale.

    Nel caso dei quartieri di provenienza la moda è il quartiere C. Nel caso delle altezze abbiamo già individuato le classi modali nel quesito 3.

    
figura 3   (clicca per ingrandire)

 8 
    Nel caso della distribuzione rappresentata dalla tabella (1.1) trova, se è possibile, la moda e la media aritmetica.
 

    Nelle situazioni, come quella delle altezze, in cui le modalità sono numeri o intervalli numerici, la moda indica un valore medio, così come la media aritmetica, cioè un valore (o un intervallo di valori) che riassume, caratterizza quantitativamente il modo complessivo in cui si è manifestato il fenomeno in questione. Ad esempio per il 1992 possiamo dire (esprimendosi in cm) sia che l'altezza media dei ventenni era di 174.1, sia che la classe modale è [170,175)  ( figura 2).

       
figura 4  

    A differenza della media, la moda (e più in generale la forma dell'istogramma) non dipende solo dai dati ma anche dalla scelta degli intervalli in cui classificare i dati. Ad esempio in figura 4 sono riportati due istogrammi della distribuzione percentuale delle altezze dei ventenni nel 1992 alternativi a quello della figura 2.

 9 
    Nella tabella (2.1) sono riportate le altezze (arrotondate ai cm) delle 19 alunne diciassettenni di una scuola. I dati sono riportati secondo l'ordine alfabetico dei nomi delle alunne (al posto dei nomi delle alunne abbiamo indicato il numero d'ordine).
  Qual è la moda se si prendono come modalità direttamente le misure in centimetri (cioè i valori: … , 150, 151, … , 169, 170, …)?
  Qual è prendendo come modalità gli intervalli: 150-154, 155-159, … ?
  E se si prendono gli intervalli 150-152, 153-155, … ?

(aiutati tracciando su carta quadrettata istogrammi simili a quelli di figura 3)

(2.1) 1 156   6157  11157  16160 
2168 7170 12165 17163
3162 8157 13163 18162
4150 9159 14165 19155
5167 10164 15166
 

Riproduci qui a fianco gli istogrammi (corretti) che hai tracciato su carta quadrettata     

 10 
    Si sono eleborati i dati relativi alle altezze delle alunne del quesito 9 utilizzando il programma R (scheda 1 di Le statistiche, quesiti 33, e23). Spiega che cosa si è fatto. 
alu <- c(156,168,162,150,167,157,170,157,159,164,157,165,
163,165,166,160,163,162,155)
length(alu); range(alu); sort(alu); mean(alu); median(alu)
  19
  150 170
  150 155 156 157 157 157 159 160 162 162 163 163 164 165 165 166 167 168 170
  161.3684
  162
stem(alu)
  15 | 0
  15 | 567779
  16 | 022334
  16 | 55678
  17 | 0

    La situazione analizzata nei quesiti 9 e 10 mette in luce alcuni problemi.

    Un primo problema è che si possono ottenere istogrammi con andamento abbastanza diverso da quello degli istogrammi di fig. 2. In questo caso ciò è dovuto al fatto che abbiamo considerato solo le informazioni relative alle diciassettenni di una particolare scuola mentre nel caso di fig. 2 avevamo a disposizione la totalità dei ventenni. Se la scuola fosse stata di dimensioni molto maggiori si sarebbero ottenuti istogrammi dall'andamento simile a quello degli istogrammi di fig. 2.

    Un secondo problema è che ci possono essere più mode: la scelta del numero degli intervalli, influenzando la forma dell'istogramma, può anche condizionare la quantità delle classi modali che si ottengono.

    Val la pena di osservare che vi sono situazioni in cui la forma dell'istogramma è diversa da quelle "a campana" degli istogrammi di fig. 2 per motivi di fondo, non perché sono poche le informazioni raccolte o perché non si sono scelti in modo opportuno gli intervalli. Ad esempio in figura 5 sono riportati gli istogrammi di distribuzione (di frequenza assoluta) delle altezze degli alunni (maschi) delle classi - due prime e due terze - presenti nella succursale di una scuola secondaria superiore. L'istogramma a sinistra si riferisce agli alunni delle prime, quello al centro agli alunni delle terze, quello a destra al totale degli alunni.

 11 
    Discutete la relazione tra la forma dell'istogramma relativo all'intera succursale e quella degli altri due.

 figura 5  

    Un terzo problema è che l'altezza media delle alunne del quesito 9 (161 cm, arrotondando) non cade nella moda 162-164 cm. In questo caso ciò dipende dal numero delle alunne, piccolo rispetto al totale delle diciassettenni.  Ma vi sono fenomeni che danno comunque luogo a istogrammi di distribuzione con moda molto diversa dalla media.

  
figura 6
    Ad es. nel caso della distribuzione dell'età di laurea presso l'Università di Genova nel triennio 1984-86 (figura 6) la media è 28 anni mentre la moda è 26 anni (attualmente, a causa dell'introduzione di due successivi livelli di laurea, l'età della conclusione degli studi si alzata di circa un anno). Infatti il valore della media subisce l'influenza della "coda" costituita dalle persone che si laureavano con grande ritardo (studenti lavoratori, "perdigiorno" mantenuti dalla famiglia benestante, …). E questa coda, che sta alla destra della classe modale, fa aumentare il valore della media rispetto a quello della moda.

    Se nella scuola del quesito 9 l'alunna alta 150 cm si ritira e, contemporaneamente, si iscrive una diciassettenne spilungona, brava giocatrice di pallacanestro, alta 182 cm, l'altezza media diventa 163.1 cm: la distribuzione delle altezze non cambia particolarmente, ma il nuovo valore di 182 cm, anomalo rispetto alla altre altezze (figura 7), influisce non poco sul valore della media, che aumenta di quasi 2 cm.

figura 7 

      

    Questo esempio e quello relativo all'età di conclusione degli studi universitari mettono in luce che la media aritmetica è un valore medio che non è sempre significativo.

    Nel caso delle altezze delle alunne diciassettenni abbiamo visto che il piccolo numero di esse fa sì che neanche la moda sia particolarmente indicativa.  Ciò si vede bene anche dall'istogramma di distribuzione (fig.7 in alto): la classe 159-161 cm, che è "centrale" rispetto all'istogramma, ha una colonna più bassa rispetto a classi più "laterali", mentre per le altezze di coetanei dello stesso sesso ci aspettiamo un andamento più a campana, come per gli istogrammi di fig. 2.

    In situazioni come quelle di questi due esempi può essere utile impiegare un ulteriore tipo di valore medio: il valore del dato al centro dell'elenco dei dati ordinati, o mediana.

    Nel caso delle 19 diciassettenni ordinando le loro altezze (cioè passando dalla prima alla seconda riga della tabella seguente) troviamo che l'altezza centrale, cioè quella al 10° posto, è di 162 cm. Dopo lo "scambio" di alunne (terza riga) l'altezza centrale è diventata 163 cm. Se fosse venuta un'ipotetica superspilungona di 2 metri la mediana non sarebbe ulteriormente aumentata. La media aritmetica, invece, come si vede nella colonna finale, sarebbe aumentata di un altro centimetro.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 media
156 168 162 150 167 157 170 157 159 164 157 165 163 165 166 160 163 162 155
150 155 156 157 157 157 159 160 162 162 163 163 164 165 165 166 167 168 170  161.4
 
155 156 157 157 157 159 160 162 162 163 163 164 165 165 166 167 168 170 182  163.1
 
155 156 157 157 157 159 160 162 162 163 163 164 165 165 166 167 168 170 200  164.0

    Vediamo come interpretare graficamente la mediana.

    Nella figura 8 a sinistra è riprodotto l'istogramma di distribuzione delle altezze delle alunne in classi di altezza ampie 3 cm, questa volta realizzato rappresentando le varie modalità una attaccata alla successiva, senza lasciare spazio in mezzo; in questo modo la base dell'istogramma rappresenta l'intervallo di altezze che va da 150 cm a 170 cm.
    Nella parte centrale della figura è indicato qual è il quadretto corrispondente a ciascuna alunna nel caso in cui l'istogramma fosse costruito seguendo l'elenco dei dati ordinati (seconda riga della tabella precedente), ed è evidenziato il quadretto corrispondente al dato centrale, cioè alla mediana: è il 10° quadretto, che è preceduto e seguito dallo stesso numero di quadretti (9).
    Nella parte destra è tratteggiata la linea verticale che suddivide l'istogramma in due parti di uguale area. Essa passa per l'intervallo 162-164, come ci dovevamo aspettare da quanto visto sopra: il quadretto corrispondente al dato centrale sta nella colonna 162-164 cm.

 figura 8  

    Nel caso dell'età di laurea non dispongo dei dati dei singoli studenti ma solo dell'istogramma di distribuzione di fig. 6 (riprodotto a lato: figura 9-A). Non posso quindi procedere come ho fatto per l'altezza media delle alunne. Posso tuttavia individuare la mediana, seguendo due diversi procedimenti:A       figura 9  


B
 

(1) Sommo le frequenze percentuali delle varie età a partire dall'età minore (cioè dalla colonna più a sinistra dell'istogramma) e mi fermo quando raggiungo il 50%. Mentre nel caso delle altezze delle alunne si sono ordinati i dati in una tabella e si è presa la casella centrale, qui è come se appilassi i rettangolini che formano l'istogramma (passando da figura 9-A a figura 9-B) e considerassi quello che sta a metà della striscia ottenuta, cioè il rettangolino per cui passa la quota che indica il 50%: l'età mediana di laurea è dunque di 27 anni. In altre parole il 50% degli studenti si laurea entro i 27 anni e l'altro 50% si laurea a un'età non inferiore ai 27 anni.

(2) Opero sull'istogramma di figura 6: la linea di divisione verticale che lo taglia in due parti di area uguale (fig. 10) passa per l'intervallo che rappresenta i 27 anni.

 figura 10    

    Consideriamo l'altezza dei ventenni nel 1976 (anno intermedio tra il 1961 e il 1992 considerati all'inizio della scheda) in cui l'altezza media era di 172.0. Procedendo con il metodo (2) posso capire che la verticale che ne divide a metà l'istogramma (figura 11) passa per il rettangolo indicato dalla freccia, cioè che l'altezza mediana è compresa tra 170 e 175 cm.

    Per procedere con il metodo (1) posso considerare la tabella (2.2), in cui è riprodotta la distribuzione percentuale dei ventenni nel 1976, rappresentata graficamente in fig. 11. "Cumulando" (cioè sommando man mano) tali frequenze, si ottiene la tabella (2.3), i cui valori vengono detti frequenze percentuali cumulate.  Il passaggio dalla tabella (2.2) alla tabella (2.3) non è altro che la traduzione "numerica" dell'"appilamento" con cui da un istogramma di distribuzione (come fig. 9-A) si passa a quello a striscia (come fig. 9-B).

    
figura 11

(2.2) [150,155) [155,160) [160,165) [165,170) [170,175) [175,180)  [180,185)  [185,190) [190,195)
frequenza % 0.7% 2.9% 11.2% 24.0% 28.9% 20.4% 8.9% 2.5% 0.5%

(2.3) [150,155) [155,160) [160,165) [165,170) [170,175) [175,180)  [180,185)  [185,190) [190,195)
freq. % cumulata 0.7% 3.6% 14.8% 38.8% 67.7% 88.1% 97.0% 99.5% 100.0%

    Sotto [165,170) è riportata la percentuale di ventenni con altezza minore di 170 cm: 38.8% è la somma di 0.7%, 2.9%, 11.2% e 24.0%.  La colonna successiva ci dice che il 67.7% ha altezza minore di 175 cm.  Quindi il valore che separa le altezze (in cm) del 50% dei ventenni più bassi da quelle del 50% dei ventenni più alti, cioè la mediana, cade in [170, 175).

 
3. Campionamento

    Facciamo un'ultima osservazione a proposito della tabella (2.1). Essa non è il frutto di un esame che ha riguardato tutte le ragazze diciasettenni italiane, ma solo una parte di esse. Si tratta, comunque, di un numero non troppo piccolo di ragazze, che ci consente di fare delle deduzioni su come è distribuita l'altezza del complesso delle diciasettenni italiane.

    Quando per studiare un certo aspetto di un particolare insieme di "oggetti" (persone, animali, prodotti, …) si compiono osservazioni solo su una parte di essi, questa parte "estratta" dall'insieme totale degli oggetti viene chiamata campione; l'analisi statistica così effettuata viene chiamata indagine campionaria; il procedimento con cui si sono "estratti" gli oggetti di cui raccogliere le informazioni, viene chiamato campionamento.

    Un famoso esempio di indagine non campionaria sulla popolazione italiana è costituito dai censimenti, che vengono effettuati ogni dieci anni (…, 1971, 1981, 1991, …) intervistando attraverso opportuni questionari tutti gli italiani.

 12 
    Se chiedeste a ciascuno studente delle classi prime della vostra scuola quale numero di scarpa porta e analizzaste i dati così raccolti, che cosa realizzereste?
un'indagine campionaria sugli studenti delle classi 1e della vostra scuola       un'indagine campionaria sui ragazzi italiani di 14-15 anni
un'indagine "completa" sugli studenti delle classi 1e della vostra scuola un'indagine "completa" sui ragazzi italiani di 14-15 anni

 13 
    Supponiamo che con l'indagine del quesito 12 si voglia effettuare un'analisi statistica sui ragazzi italiani di 14-15 anni. Il campione scelto ti sembra "rappresentativo", cioè adeguato a fornire informazioni estendibili all'intera popolazione italiana di 14-15 anni?
 

    I termini "campionaria", "campionamento", … derivano dalla parola "campione" intesa come "esemplare rappresentativo" (pensa al rappresentante che mostra campioni dei beni prodotti dalle ditte per cui lavora).  La parola è stata poi estesa al significato statistico di "parte rappresentativa" di un certo insieme di soggetti.

    E` importante fissare l'attenzione sull'aggettivo rappresentativa: non basta prendere un po' di soggetti e fare su questi i calcoli per ottenere delle informazioni significative sulla totalità dei soggetti.

    Supponiamo che l'Istat voglia analizzare un particolare aspetto delle condizioni di vita degli italiani tra un censimento e l'altro, ad esempio il numero dei componenti delle famiglie, e non abbia il tempo e i mezzi per fare un'indagine completa su tutti gli italiani. Può estrarre un campione di famiglie e analizzare i dati di queste. Ma deve fare l'estrazione non privilegiando una zona geografica, una fascia di età dei genitori, una condizione economica, … rispetto ad altre:  infatti il fenomeno si presenta in maniera diversa al variare della regione, dell'epoca e dell'età in cui si sono sposati i genitori, delle condizioni sociali ed economiche, …; un campione che fosse fatto quasi tutto di famiglie dell'Italia centrale o che privilegiasse le famiglie di recente formazione rappresenterebbe poco fedelmente il complesso delle famiglie italiane.

    Inoltre il campione deve essere sufficientemente numeroso. Ad esempio se una fabbrica di dischetti per calcolatori vuole fare un'indagine sulla quantità di letture/registrazioni che si possono fare sui dischetti prodotti prima che questi si danneggino (e, ovviamente, non sottopone ad una prova di durata tutti i dischetti: così facendo distruggerebbe tutta la propria produzione!) deve decidere quanti dischetti prendere "a caso" durante, ad esempio, una particolare giornata di produzione: prenderne il 10% sarebbe troppo dispendioso (occorrerebbe impiegare troppi dispositivi di lettura/scrittura su disco magnetico); prenderne lo 0.5% è sufficiente?  Non è facile rispondere a questa domanda: occorre tener conto di altri fattori e utilizzare concetti matematici che per adesso non abbiamo ancora affrontato.

    Riprenderai il problema del campionamento più avanti nel corso degli studi, dopo che avrai imparato i primi elementi di calcolo delle probabilità, cioè della parte della matematica che si occupa dei fenomeni casuali.

 
4. Percentili e ”normalità”

    Abbiamo visto che la mediana delle altezze dei ventenni del 1976 cade tra 170 e 175 cm: i ventenni del 1976 più bassi di 170 cm sono il 38.8% e quelli più bassi di 175 cm sono il 67.7%, quindi l'altezza che delimita il 50% dei ventenni più bassi è compresa tra queste due misure (figura 12).  In altre parole, messi in ordine di altezza i ventenni, quello che sta a metà è stato classificato nell'intervallo [170,175).

 [150,170)   [150,175) 
38.8%67.7%
    
figura 12

    Per determinare con più precisione il valore della altezza mediana posso osservare (vedi figura 13, che rappresenta l'appilamento dei rettangoli dell'istogramma) che il 50% è più vicino a 38.8% che a 67.7%, e quindi supporre che la mediana sia più vicina a 170 che a 175.

 figura 13  

    La figura a lato fa supporre che la mediana sia circa 172 cm. È un valore stimato: non sono certo che sia l'arrotondamento a 3 cifre della mediana. Infatti ho diviso [170,175) in 5 parti uguali, come se le altezze che cadono in questo intervallo si distribuissero uniformemente, ripartendosi equamente tra [170,171), [171,172),…, [174,175). Per una valutazione senza incertezze dovrei conoscere come le altezze si distribuiscono effettivamente in tali intervalli.

   

    Come avrei potuto stimare il valore della mediana senza ricorrere a queste rappresentazioni grafiche?

    Devo trovare un metodo numerico per associare a 50% la posizione corrispondente nell'intervallo [170,175), cioè il valore che lo suddivide allo stesso modo in cui 50 suddivide l'intervallo che va da 38.8 a 67.7.

R =  50 – 38.8 = 11.2
——————
67.7 – 38.828.9
   è il rapporto R tra la parte a sinistra e il totale dell'intervallo (figura 14)

    Quindi la distanza tra 170 e ? è pari all'ampiezza di [170,175) per R (= 11.2/28.9 = 0.3875… = 38.75…%), cioè 5·R.

    Per trovare "?" devo aggiungere all'estremo sinistro dell'intervallo tale distanza:
    ? = 170+5·11.2/28.9 = 171.937… = [arrotondando] 172

  
figura 14

    Con la CT posso eseguire il calcolo nel modo a fianco:   5 11.2 28.9 170

    L'assunzione che le altezze si distribuiscano uniformemente tra 170 e 175 equivale a considerare le variazioni di altezza proporzionali alle variazioni della frequenza cumulata.  Quindi (vedi figura 15 - clicca per ingradirla) potevo anche procedere così [ "variazioni proporzionali" nell'indice de Gli oggetti matematici]:

k = fattore di proporzionalità = pendenza =

VariazioneAltezza = 5
—————————————————
VariazioneFrequenzaPerecentualeCumulata28.9

    Quindi alla variazione della frequenza percentuale cumulata da 38.8 a 50 (= 11.2) corrisponde:

VariazioneAltezza =  11.2 · k = 11.2 · 5/28.9 = 1.937…

  

    Analogamente a come ho proceduto per la mediana (il valore che delimita superiormente il primo 50% dei dati ordinati), posso trovare per ogni percentuale p  il valore che delimita superiormente il primo p% dei dati.

    Ad es. da fig.9-B posso ricavare che il 10% degli studenti si laurea entro i 25 anni (e il 90% si laurea dopo il compimento dei 25 anni) e che il 75% degli studenti si laurea entro i 29 (e il 25% si laurea avendo già compiuto i 29 anni). Infatti tagliando il diagramma a striscia alle quote 10% e 75% vado a cadere nei rettangoli che rappresentano le età di 25 anni e 29 anni, rispettivamente.

 14 
    Usando fig.9-B completa la seguente tabella (4.1), dove età indica l'età che separa il primo p% degli studenti (ordinati per età al momento della laurea) dai rimanenti.

(4.1)    
p%   5%    10%   25%   50%   75%   90%   95% 
 età (in anni)    25     29    

    Il valore corrispondente a una frequenza cumulata del p% viene detto p-esimo percentile o percentile di ordine p. Ad es. nel nostro caso il 50° percentile (cioè la mediana) è 27, il 10° percentile è 25, il 75° è 29.

    Tabelle come (4.1), o quelle che si ottengono con una diversa scelta delle percentuali, possono essere considerate un'alternativa agli istogrammi di distribuzione percentuale.

    Ad esempio la forma allungata verso destra dell'istogramma di fig.10 (o fig.9-A) trova corrispondenza nel fatto che il 40% che segue la mediana (cioè gli studenti che vanno dal 50° al 90° percentile) spaziano dai 27 ai 31 anni, mentre il 40% che precede la mediana (cioè gli studenti che vanno dal 10° al 50° percentile) spaziano in un intervallo molto più piccolo, dai 25 ai 27 anni.

    La differenza tra l'intervallo che va dal 5° al 50° percentile e quello che va dal 50° al 95° è ancora maggiore: nel primo caso si spazia su 4 anni di età, dall'età di 24 anni a quella di 27, nel secondo si spazia su 8 anni, dall'età di 27 a quella di 34.

 15 
    Anche nel caso delle altezze dei ventenni (nel 1976) possiamo calcolare i percentili, procedendo con metodi simili a quelli impiegati per la mediana. Possiamo ottenere ad esempio la tabella (4.2), dove l'ultima riga indica i valori che poi sono stati arrotondati nei dati riportati nella seconda. Confrontate la forma dell'istogramma relativo a questi dati ( figura 11) con le informazioni ricavabili dalla tabella dei percentili.

(4.2)    
p% 5% 10% 25% 50% 75% 90% 95%
  h (in cm)   161 163 167 172 177 181 184
 160.63   162.86   167.13   171.94   176.79   181.07   183.88 

 16 
    Secondo voi è normale che, alla fine degli anni '80, uno studente si laureasse a 28 anni (mentre ci sono studenti che si laureavano a 22 e 23 anni)? Secondo voi è basso un adulto alto 168 cm (mentre l'altezza media dei maschi che avevano 20 anni nel 1992 è 174 cm - figura 2)?

    In figura 16 sono evidenziati i percentili di ordine 5, 25, 50, 75 e 95 (stimati fino ai decimi) della distribuzione dell'età di laurea alla fine degli anni '80 ( tabella 4.1).
    I dati cadono in [22,41) (da 22 anni a 40 anni e rotti), la mediana (50° percentile) è 27.5, il 50% centrale dei dati cade tra 26.2 (25° percentile) e 29.2 (75° percentile).

    Sotto all'istogramma è raffigurata una rappresentazione grafica alternativa, chiamata box-and-whiskers-plot ("diagramma a scatola e baffi") o, più in breve, box-plot. È una figura "lineare" (si sviluppa solo orizzontalmente, non in due dimensioni, come gli istogrammi) che sintetizza in modo efficace come si distribuiscono i dati.
    Il box (scatola) rappresenta il 50% centrale dei dati, le tacche lungo i baffi rappresentano il 5° e il 95° percentile, la tacca dentro al box rappresenta la mediana.  Il fatto che il box sia spostato verso sinistra  (cioè che il baffo sinistro sia molto più corto di quello destro) corrisponde all'allungamento verso destra dell'istogramma.
    Il box plot avrebbe potuto essere tracciato anche riferendosi a percentili di ordine diverso (ad es. il 3° e il 97° al posto del 5° e del 95°).

figura 16
  

 17 

    A lato sono raffigurati i box plot relativi alle altezze dei ventenni italiani nel 1881, nel 1961 e nel 1976. I dati utilizzati per il 1881 erano classificati in [140,145), …, [185,190), per il 1961 in [145,150), …, [185,190), per il 1976 in [150,155), …, [190,195). Questo spiega i diversi punti di partenza/arrivo dei baffi.

–  Qual è l'intervallo (con estremi arrotondati ai centimetri) in cui cade il 90% centrale delle altezze dei ventenni del 1881? .....................
E nel caso del 1961? ......................  E in quello del 1976? ......................
–  Le mediane differiscono in maniera significativa dalle medie (indicate in figura)? .......................

   
(clicca per ingrandire)

    I percentili permettono di affrontare in modo serio questioni come: «che cosa vuol dire essere di altezza normale?». Ad esempio che cosa si intende dicendo che una persona è bassa? Che la sua altezza è inferiore all'altezza mediana? Ma in tal caso le persone si dividerebbero quasi tutte in alte o basse, e sarebbero normali solo poche persone.

    Per dare un significato "oggettivo" alla valutazione dell'altezza dobbiamo fissare delle convenzioni. Ad esempio potremmo dire che sono "nella media" le altezze che cadono entro il 50% centrale dei dati, cioè tra il 25° e il 75° percentile, e che sono "basse" quelle inferiori al 25° percentile e "alte" quelle che superano il 75° percentile. Considerazioni analoghe si potrebbero fare per l'età di laurea.

    Si tratta, comunque, sempre di valutazioni statistiche basate su scelte convenzionali e che devono essere riferite a valutazioni più generali della situazione che si sta considerando.

    Facciamo due esempi.

(1)  Se ritenessimo "statisticamente" normale laurearsi tra il 25° e il 75° percentile, cioè, nel caso considerato, tra i 26 e i 29 anni, non potremmo certo considerare "anormale" (nel senso di "tipo strano") uno studente che si laurea a 25 anni o ritenere che chi si iscrive all'università possa preventivare come "normale" (cioè come obiettivo "accettabile") la conclusione degli studi a 29 anni.

(2)  Se un pediatra dispone della tabella a fianco dei percentili per le altezze delle bambine di 12 mesi e, visitando una bimba di 1 anno, trova che è alta circa 68 cm, può supporre che vi sia qualche ritardo nella crescita. Infatti la sua altezza è inferiore al 3° percentile: il 97% delle bimbe della sua età ha un' altezza superiore.
10° 25° 50° 75° 90° 97°
 69   71   72   74   76   77   79 
    Ovviamente in questa valutazione il pediatra deve tener conto dell'altezza dei genitori: se anche la loro altezza cadesse tra i primi percentili il fenomeno non sarebbe particolarmente preoccupante.
    Inoltre deve effettuare la misura con cura, eventualmente ripetendola più volte: già con un adulto da una misurazione all'altra ci può essere lo scarto di un paio di centimetri (sulla misura incidono la posizione della colonna vertebrale, che può variare anche in relazione alla stanchezza della persona, la posizione della testa, la cura con cui viene letta la scala graduata, …); con un bimbo piccolo, che è difficile da tener fermo, lo scarto può essere anche maggiore.

    A questo punto dovrebbe essere chiaro che il concetto di normalità è convenzionale e dipende dal contesto. Ad esempio se un regista cerca per una parte un uomo né troppo alto né troppo basso può dare l'incarico di cercare un uomo la cui altezza rientri in quella della maggioranza degli uomini. Questa espressione informale può essere tradotta dai collaboratori del regista nella ricerca di una persona la cui altezza cada nel 50% centrale delle altezze, cioè tra il 25° e il 75° percentile.

    In altre situazioni si possono assumere come altezze "normali" intervalli più piccoli (ad es. tra il 30° e il 70° percentile, cioè il 40% centrale dei dati) o più grandi (ad es. dal 3° al 97° percentile, cioè il 94% centrale).

     Veniamo, infine, a dati che vi riguardano più da vicino.

     Le tabelle (4.3) e (4.4) contengono alcuni percentili relativi alle altezze a varie età dei ragazzi e delle ragazze italiane nate intorno al 1980.

  

(4.3)
     
M
età 10° 25° 50° 75° 90° 97°
  14     148     154     159     165     170     174     179  
15 153 160 164 170 175 178 184
16 157 163 168 173 177 181 186
17 159 165 170 174 178 182 187
18 160 166 170 174 179 183 188
19 160 166 170 174 179 183 188

(4.4)
     
F
  14     149     153     156     160     164     167     171  
15 150 155 158 161 165 168 172
16 151 156 159 162 166 169 172
17 151 156 159 162 166 169 172

 18 
    Discutete le principali differenze tra maschi e femmine messe in luce dalle tabelle (4.3) e (4.4).
 

 19 
  (approfondimenti)  Supponiamo che il film discusso prima del quesito 18 si ambienti in Italia nel 2006 e che la parte sia quella di un italiano cinquantenne. Allora i collaboratori del regista possono utilizzare la tabella (4.2).  Tra quali valori deve essere compresa l'altezza della persona che deve sostenere tale parte? .......................

    Le figure 1 e 2 e le tabelle (4.2), (4.3) e (4.4) sono riferite al complesso degli italiani. In zone diverse del paese la distribuzione delle altezze si può manifestare in maniera piuttosto differente. Ad esempio l'altezza media dei maschi ventenni nel 1976, che sul totale dell'Italia era 172.0 cm, in Sardegna era 168.5 cm, in Abruzzo 171.1 cm e in Friuli-Venezia Giulia 175.6 cm.

    L'altezza di una ragazza o di un ragazzo che risiede in Abruzzo (regione che presenta una distribuzione delle altezze quasi uguale a quella del complesso dell'Italia) ma ha i genitori originari della Sardegna o del Friuli dovrebbe essere riferita più ai dati di questa regione che a quelli nazionali, cioè a dati che sono slittati in un caso di quasi 4 cm in meno, nell'altro di quasi 4 cm in più rispetto a quelli delle tabelle (4.3)-(4.4).

    Le tabelle (4.3)-(4.4) sono da interpretare tenendo conto oltre che di questo aspetto anche del fatto che i tempi dello sviluppo dell'altezza possono variare da individuo a individuo. Vi può essere il ragazzo alto 170 cm a 15 anni (oltre il 50° percentile) e che negli anni successi non cresce più (scendendo sotto al 25° percentile) e quello che a 15 anni è alto 160 cm (sotto al 25° percentile) ma che continua a crescere e a 18 anni raggiunge i 175 cm (oltre il 50° percentile).

    I tempi dello sviluppo dell'altezza sono cambiati nel corso degli anni: oltre all'altezza media ( fig. 1) è cambiata anche l'età in cui ciascuno raggiunge la propria altezza massima. Attualmente in Italia praticamente tutti i maschi ( tabella (4.3)) oltre i 18 anni non aumentano più in altezza e praticamente tutte le femmine ( tabella (4.4)) a 16 hanno già raggiunto l'altezza massima. Agli inizi del Novecento queste età erano spostate in avanti di 5 o 6 anni.

    Differenze tra maschi e femmine, tra individuo e individuo e tra epoche diverse analoghe a quelle osservate per lo sviluppo dell'altezza valgono anche per lo sviluppo sessuale.   Ad esempio nel 1890 in Europa una donna era in grado di procreare figli mediamente a partire dai 16 anni; nel 1990 questa età media era scesa a 13 anni.  Per i maschi queste età vanno spostate in avanti di circa 2 anni.

    Pure in questo caso si tratta di valori medi: anche per queste età si potrebbero considerare istogrammi di distribuzione o tabelle di percentili. Ad esempio vi può essere la ragazza che è sessualmente "adulta" a 11 anni e quella che lo diventa a 16.

4b. Approfondimenti
    Proponiamoci di fare anche noi un'indagine statistica, ad esempio su due aspetti: le altezze dei ragazzi e delle ragazze tra i 14 e i 18 anni, per operare un confronto con i dati delle tabelle (4.3) e (4.4), e sulla lunghezza dei capelli dei ragazzi e delle ragazze della vostra età.

 20 
    Precisate meglio gli obiettivi della vostra indagine e discutete come organizzarla affinché si possano ottenere informazioni utili e attendibili.

    Per adesso potrete accontentarvi di prendere come campione i ragazzi delle classi della vostra scuola, restringendovi alla sola vostra classe per quanto riguarda la lunghezza dei capelli. Eventualmente potrete confrontare i risultati della vostra indagine con quelli ottenuti con un'indagine simile da alunni di altre scuole e con i risultati che si ottengono mettendo insieme tutti i dati.

 21 
    Raccolti i dati, registrateli e analizzateli opportunamente, ad esempio usando il programma R ( quesito e9). Se fate copia dei vostri dati e la stessa operazione viene fatta da altre classi, mettendo poi insieme i dati raccolti otterrete un campione più numeroso su cui ripetere l'analisi.
 

 
5. Concludendo

    Con questa scheda abbiamo visto ulteriori modelli matematici usati per fare statistiche e abbiamo esaminato alcuni problemi relativi al loro impiego.

    Le ultime osservazioni sul campionamento ci offrono lo spunto per sottolineare che l'uso dei modelli statistici è soggetto a interpretazioni erronee o distorte più di altri modelli matematici. Il motivo risiede nel fatto che con essi spesso non si rappresentano tanto le caratteristiche di un particolare oggetto o persona quanto le condizioni che riguardano una collettività, le caratteristiche essenziali dell'andamento complessivo di un fenomeno che varia nel tempo, … :  il modo in cui vengono raccolte le informazioni  (su tutta la popolazione o su quanta parte di essa? ogni quanto tempo? con quale modalità di rilevamento? …)  e il fatto che le caratterisitiche delle persone o degli eventi singoli possono discostarsi molto dalla valutazione complessiva che emerge, introducono notevoli elementi di approssimatività.

    Alcuni degli esercizi seguenti offrono occasioni per esemplificare e approfondire questa riflessione.

 
6. Esercizi

 e1 
    Nel caso delle rappresentazioni "procapite" (kg di carne consumata per abitante, m² di superficie per abitante, m³ di spazio abitativo per famiglia, € di reddito per lavoratore, …) la media può essere interpretata come rapporto tra due grandezze: un totale espresso in una data unità di misura (kg, €, m², m³, …) e una "popolazione" (di persone, famiglie, …).
    Nel caso dell'altezza media questa interpretazione non ha senso: è vero che faccio la somma delle altezze e la divido per il numero delle persone, ma questa somma non la posso interpretare come "altezza totale" delle persone!  non posso dire che l'altezza media è di 174 cm per abitante!
    Posso tuttavia dare anche questa interpretazione:
l'altezza media di due persone è pari all'altezza di una terza persona che abbia lo stesso dislivello dalla prima e dalla seconda.
    Ad es. 170 cm è la media di 162 e 178 cm; infatti (162+178)/2=340/2= 170. Ma 170 è anche il valore a metà tra 162 e 178: 162+8=170, 178–8=170.
  Leggi la spiegazione generale di questo fatto presente alla prima voce "valori medi" de Gli oggetti matematici. Poi osserva la figura seguente, che illustra due modi per trovare la lunghezza media M di due segmenti lunghi a e b:
    
uno è usare la formula:  M = (a+b)/2;     l'altro è usare:  M = a+....................   [completa]
  Prova a calcolare a mente lo stipendio medio mensile (m) di una famiglia composta solo da marito e moglie,  lei con stipendio di 2 milioni e 400 mila (x), lui con stipendio di 2 milioni e 500 mila lire (y), usando le formule:
        (1)   m = (x+y)/2       (2)   m = x+(y–x)/2
    Quale procedimento trovi più conveniente? Perché?
  La località C è esattamente a metà strada tra una località posta al 34° km (x) di una certa strada statale e una località B posta al 112° km (y). Calcola a quale chilometro (m) si trova C.
    Quale procedimento tra (1) e (2) trovi più conveniente? Perché?

 e2 
    Per controllare attraverso un procedimento "numerico" la dimostrazione "geometrica" dell'equivalenza delle formule (1) e (2) ( quesito e1) per il calcolo della media tra x e y,  completate i seguenti passaggi:
xy – x  =  x · 2 + y – x  =  x · 2 + y – x  =  …
———————————————
2222

 e3 
    Indica tra i seguenti istogrammi quale può rappresentare la distribuzione: (1) dell'età dei morti in un paese sviluppato, (2) dell'età dei morti in un paese sottosviluppato, (3) dell'altezza delle femmine adulte di una città, (4) delle altezze degli adulti (maschi e femmine) di una città.
ABCD

 e4 
    Ho un istogramma di distribuzione dalla forma simmetrica, in cui media e mediana cadono entrambe nella classe centrale. Se tolgo pezzi da colonne a destra della colonna centrale e li sposto più a destra, quale tra mediana e media resta immutata?  quale aumenta?  perché?

 e5 
    Tra gli istogrammi raffigurati nel quesito e3 quale ha sicuramente la media inferiore alla mediana; quale può avere media e mediana che cadono nella classe modale; quale può avere media e mediana che cadono in una stessa classe, diversa dalla classe modale?

 e6 
    Hai visto nel quesito e1 che la media tra due numeri coincide con il valore che sta a metà tra essi.
    Il disegno a fianco suggerisce che per trovare la media tra 120 e 180 posso operare su 20 e 80: la distanza tra 120 e 180 è uguale alla distanza tra 20 e 80 (ottenuti togliendo 100), per cui posso trovare il valore  che sta a metà  di questi ultimi  e  poi riaggiungere 100:
      
(media tra 120 e 180) = (media tra 20 e 80) + 100
    Tale procedimento (togliere uno stesso numero da tutti i valori di cui si fa la media e poi riaggiungerlo al risultato) può essere esteso al calcolo della media di più di due valori.
    Applicalo per calcolare la media di ciascuno dei seguenti insiemi di dati:
(a)   253, 254, 259, 256           (b)   2.5, 2.1, 2.3           (c)   1037, 1045, 1000, 1002

 e7 
    Completa la seguente formula in modo che rappresenti il procedimento descritto nel quesito precedente:
x1 + x2 + x3 + … + xn  =  (x1–h) + (x2–h) + (x3–h) +…+ (xn–h)  +  …
——————————————————————————
nn

 e8 
    0°C (Celsius) corrispondono a 32°F (Fahrenheit) e 100°C corrispondono a 212°F. Le variazioni in °C sono proporzionali alle variazioni in °F. Voglio trovare l'equivalente in °F di 30°C. Procedo come dopo fig. 13.
R =  parte  =  30
—————
totale100
      
    Per arrivare da 32 a "?" devo addizionare 180·R = 180·30/100 = 18·3 = 54
(1)  Qual è la rappresentazione in °F della temperatura di 30°C?
(2)  Scrivi la formula che generalizza il procedimento al caso di una temperatura c in gradi Celsius qualunque, indicando con f la corrispondente temperatura in gradi Fahrenheit:
f  =  32 + 180 · …
    Il rapporto tra variazione in °F e variazione in °C è 180/100=1.8, cioè alla variazione di 1°C corrisponde quella di 1.8°F [ "variazioni proporzionali" nell'indice de Gli oggetti matematici]. Usando questa informazione posso dedurre che:
f  =  32 + c · 1.8
(3)  Questa formula è equivalente a quella che hai trovato in (2)?

 e9 
    Nel quesito 10 abbiamo analizzato con R i dati delle 19 alunne di una classe. Abbiamo visto che il comando "stem" rappresenta automaticamente i dati in una specie di istogramma, riportando anche i valori dei dati ("stem" è il gambo, su cui poggiano le foglie). Il comando "summary" fornisce le seguenti uscite. Spiega che cosa rappresentano. 
summary(alu)
   Min. 1st Qu. Median  Mean 3rd Qu.  Max.
  150.0  157.0  162.0  161.4  165.0  170.0

Se vogliamo tracciare l'istogramma non possiamo usare "barplot" ( scheda 1), che realizza istogrammi nel caso in cui i dati siano classificati in modalità di tipo non numerico,  ma occorre usare il comando hist che traccia l'istogramma di dati da classificare;  qui sono classificati mediante seq (che abbiamo già usato nella scheda 2);  l'opzione right=FALSE specifica che i sottintervalli sono del tipo [.,.), ossia aperti a destra (e chiusi a sinistra); al centro è tracciato l'istogramma ottenuto col la seconda riga di comendi, in cui l'opzione probability=TRUE fa sì che siano considerate non le frequenze assolute ma quelle relative unitarie, ossia le frequenze relative divise per l'ampiezza di ciascun intervallo.  Infine boxplot traccia, appunto, il boxplot. 
hist(alu,seq(150,171,3),right=FALSE,col="yellow",xlab="",ylab="",main="")
hist(alu,seq(150,171,3),right=FALSE,col="yellow",xlab="",ylab="",main="",probability=TRUE)
boxplot(alu, horizontal=TRUE)

Volendo posso ottenere rappresentazioni migliori, come quella sotto a destra, con comandi come i seguenti, che consentono di tracciare assi e tacche in modo più sofisticato: 
interv <- seq(150,171,3)
hist(alu,interv,right=FALSE,xlab="",ylab="",main="",probability=TRUE,axes=FALSE)
axis(1,pos=0,col="blue",label=TRUE, at=interv); tacchey <- seq(0,0.1,1/100)
axis(2,pos=150,col="blue",label=TRUE, at=tacchey)
abline(h=seq(0.01,0.09,0.01),lty=3,col="grey50")

    Per avere i valori di percentili possiamo usare il comando quantile: 
quantile(alu, c(0, 0.05, 0.25, 0.5, 0.75, 0.95, 1) )
    0%     5%     25%    50%    75%    95%   100%
  150.0  154.5  157.0  162.0  165.0  168.2  170.0

    Utilizza R per analizzare i dati delle le altezze delle alunne dopo la venuta della superspilungona (ultima riga della tabella prima di figura 7).

  

 e10 
    Affrontando il quesito e9, volendo essere più precisi, si poteva tener conto che i dati delle altezze non sono esatti, ma sono arrotondati. È vero che, ad es., 150,151,152, come numeri esatti (150.000…,151.000…,152.000…), stanno in [150,153); ma se li intendiamo come misure arrotondate, essi rappresentano altezze che vanno da 149.5… a 152.4…. Allora potevamo scegliere come [a,b), invece dell'intervallo [150,171), l'intervallo [149.5,170.5). Usando i seguenti comandi traccia l'istogramma e mettine in luce le differenze rispetto al precedente.

interv <- seq(150,171,3)
hist(alu,interv-1/2,right=FALSE,xlab="",ylab="",main="",probability=TRUE,axes=FALSE)
axis(1,pos=0,col="blue",label=TRUE, at=interv); tacchey <- seq(0,0.1,1/100)
axis(2,pos=149,col="blue",label=TRUE, at=tacchey)
abline(h=seq(0.01,0.09,0.01),lty=3,col="grey50")

Nota.  Come media (come abbiamo visto nel quesito 10) viene visualizzato il numero 161.3684, risultato approssimato di (156+168+…)/19. Non tutte le cifre di esso sono significative, poiché i dati non erano esatti, ma arrotondati agli interi. Se i dati sono pochi la media che si ottiene deve essere arrotondata agli interi.
    Ma se i dati sono almeno una decina, come in questo caso, poiché le approssimazioni per difetto e quelle per eccesso in parte si compensano, si può prendere la media arrotondata ai decimi. Più in generale se i dati fossero arrotondati alla cifra di posto n si può arrotondare la media alla cifra di posto n–1.
    Quindi possiamo prendere come altezza media 161.4.
    Se i dati sono almeno un migliaio si può arrotondare la media fino alla cifra di posto n–2 (ad es. se i dati arrotondati agli interi la media può essere arrotondata ai centesimi). Questa scelta può essere motivata con considerazioni di calcolo delle probabilità che, per ora, non siamo in grado di affrontare.

 e11 
    Nelle gare di corsa non particolarmente "importanti" (e, fino a qualche decennio fa, in tutte le gare) i tempi non vengono rilevati con apparecchiature elettroniche, ma a mano, con dei cronometri.  I cronometri, così come tutti gli odierni orologi al quarzo, sono precisissimi: sgarrano di pochi secondi al mese. Quindi, se un orologio è dotato di un pulsante "start/stop" e visualizza i centesimi di secondo, siamo sicuri che il tempo che intercorre tra due successive pressioni del pulsante è rappresentato correttamente, troncato ai centesimi di secondo, dal numero che viene visualizzato.
    Nei cronometraggi delle gare, tuttavia, non viene impiegato un unico cronometro, ma i tempi vengono misurati contemporaneamente da più cronometristi. Poi vengono presi come tempi i valori medi, troncati ai centesimi, dei tempi registrati dai diversi cronometristi.

  Discuti questa scelta alla luce dell'analisi dei dati contenuti nel file "t-sec.txt" (presente in macosa.dima.unige.it/om/prg/stf) in cui sono stati registrati i valori in centesimi di secondo che una persona ("normale", non un allenato cronometrista) ha ottenuto misurando ripetutamente con un orologio A il tempo che impiega un altro orologio B a scattare in avanti di 1 s (ad esempio la persona ha dato lo Start sull'orologio A appena l'orologio B ha visualizzato 15:31:08 e ha dato lo Stop appena B ha visualizzato 15:31:09, e ha trascritto il tempo visualizzato da A; poi ha fatto lo stesso per esempio dalla visualizzazione di 15:31:46 a quella di 15:31:47; ecc.).

Nota 1.  Come usare il file?  In R si possono recuperare ed usare i dati via rete in vari modi. Vediamo un modo in cui farlo in questo caso:
(1) Con  readLines("http://macosa.dima.unige.it/om/prg/stf/t-sec.txt", n=4)  esamino le prime righe del file (ad es. 4) ottenendo:
 "'commento: misure delle durata di 1 sec cronometrate manualmente"
 "111"
 "103"
 "109"

(2) A questo punto carico il file in una variabile, ad es. in dati, saltando 1 riga, quella iniziale di commento, mediante skip:
dati <- scan("http://macosa.dima.unige.it/om/prg/stf/t-sec.txt", skip=1)
    In alternativa potevo salvare il file sul computer e poi, con gli stessi comandi, cambiando l'indirizzo del file, esaminarlo e caricarlo (azionando Change dir dal menu File posso selezionare la cartella in cui ho messo il file e caricarlo mettendo il suo nome senza l'indirizzo).

Nota 2.  Le misure ottenute con l'orologio sono troncate ai centesimi di secondo. Ai dati occorre quindi aggiungere 0.5.  Per una spiegazione consulta la seconda voce "valori medi" de Gli oggetti matematici.

dati <- dati+1/2
hist(dati)
hist(dati,probability=TRUE)
summary(dati)
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
68.50 96.50 98.50 99.86 108.00 129.50
 

  Tra i diagrammi a lato, qual è il box-plot di t-sec? Perché? Verifica la tua risposta usando R.

  

 e12 
    Un ente pubblico ordina alla ditta SifanStat, specializzata in indagini statistiche, lo studio dei tempi di arrivo degli utenti ai propri sportelli. Un dipendente della SifanStat si piazza all'ingresso del locale in cui sono collocati gli sportelli e per circa un'ora, in un orario di punta, misura il tempo che intercorre tra l'arrivo di un utente e il successivo, contando complessivamente l'arrivo di 134 utenti. I tempi che ha rilevato (troncati ai secondi) sono riportati (in macosa.dima.unige.it/om/prg/stf) come file di nome t-arrivi.txt.  Sotto è riprodotto parzialmente lo stato dello schermo dopo l'analisi di "t-trrivi" con R.

dati <- dati+1/2
quantile(dati, c(0, 0.05, 0.25, 0.5, 0.75, 0.95, 1))
    0%     5%    25%    50%    75%    95%   100% 
  1.50   3.50   9.75  21.50  38.50  82.55 173.50 
length(dati); mean(dati)
   134         29.55224
hist(dati,seq(0,180,10),col="yellow",probability=TRUE)
abline(v=seq(10,180,10),h=seq(0.005,0.025,0.005),lty=3)

  

(a)  In quante classi è stato suddiviso l'intervallo [0,180).

(b)  Utilizzando solo gli output numerici del programma avresti potuto concludere qualcosa sull'andamento dell'istogramma?

(c)  Perché è stato aggiunto 1/2 ai dati?

(d)  Tra i diagrammi riprodotti nel quesito precedente, qual è il box-plot di t-arrivi? Perché? Verifica la tua risposta usando R.

 e13 
    R consente di analizzare pure dati già classificati in intervalli di diversa ampiezza. Consideriamo i dati a destra, relativi alla distribuzione dell'età dei morti in Italia nel 1990. I dati sono in centinaia di persone: ad es. sono morte 25 centinaia di persone nella fascia 1-14 anni (cioè in [1,15): avevano compiuto 1 anno e non ancora i 15).  La tabella-Istat da cui sono stati riportati i dati indicava l'ultima classe come "75 e più". Si è introdotto [75,100) supponendo che sia trascurabile la percentuale dei morti ultracentenari.  Ecco come sono stati introdotti in R, e come sono state calcolate le frequenze percentuali caricando un opportuno file:  [0,1) 46     [1,15) 25     [15,25) 58
  [25,45) 186  [45,65) 870  [65,75) 1071
  [75,100) 3124       5380 dati

source("http://macosa.dima.unige.it/R/daticlas.txt")
aiuto
[1] Ist. di dati già classificati in intervalli di diversa ampiezza. Metti 
[2] in freq [con  freq <- c(..) ] le frequenze delle varie classi e metti  
[3] in interv [con  interv <- c(..) ] gli estremi delle classi (gli estremi
[4] sono 1 in più delle classi). Se non hai ancora introdotto freq e interv
[5] fallo e ricarica questo file  (se ti serve, il nuovo file dei dati     
[6] è  XxXx - è grosso: non visualizzarlo).   L'istogramma ha area 1.      
[7] Se vuoi prova con:      freq <- c(9,12,9); interv <- c(5,15,20,35)     
interv <- c(0,1,15,25,45,65,75,100)
freq <- c(46,25,58,186,870,1071,3124)
source("http://macosa.dima.unige.it/R/daticlas.txt")
[1] "Frequenze percentuali e summary:"
[1]  0.85501  0.46468  1.07807  3.45725  16.1710  19.90706  58.06691
   Min. 1st Qu.  Median    Mean  3rd Qu.   Max. 
   0.00   66.49   78.47   75.10   89.24  100.00

Ottieni le uscite sopra riportate e l'istogramma a lato.
Spiega questi esiti.

  

 e14 
    La tabella (6.1) contiene la distribuzione dell'età dei morti in Italia in vari periodi. I dati sono in centinaia di persone. Nel caso del decennio 1881-90 per ogni fascia di età è riportato il numero medio dei morti in un anno (ad es. nell'intervallo di anni di età [5,10) vi sono stati in media 343 centinaia di morti all'anno).
 
   (6.1)   
anni 0-45-910-1920-2930-3940-4950-5960-7475-∞
 1881-90   3818    343     303     398     360     384     495    1177    708  
1951 729 35 77 132 134 285 457 1401 1569
1988 68 10 31 66 70 161 423 1516  2983 
 
   (6.2)   
età  mediana  1881-90    1951      1988   
del totale dei morti   66  
 dei morti nella fascia 5-∞    69  
  La tabella (6.2) indica (troncata agli interi) l'età mediana dei morti e l'età mediana di quelli morti dopo aver compiuto 5 anni.
  Completa la tabella usando R.

(a)  I dati della tabella (6.1) sono registrati nei file mor1.txt (1881-90), mor2.txt (1951) e mor3.txt (1988). Analizza questi file e completa la prima riga di (6.2) (e controlla la mediana del  1951).

(b)  Modificando opportunamente tali dati e analizzandoli completa la seconda riga di (6.2).

  Infine commenta la tabella (6.2)

 e15 
    Completata la tabella seguente, scegli tra 73 anni e 83 anni qual è stata nel 1988 l'età mediana dei morti maschi e quale quella dei morti femmine?
 
morti nel 1988
per classi di età
  
0-5960-7475-∞totale
 M+F     829 (16%)     1516 (28%)     2983 (56%)     5328 (100%)  
M 552 (20%) 946 (34%) 1278 (46%) 2776 (100%)
F        

 e16 
    La tabella (6.3) contiene il peso medio di maschi e femmine di altezza e fascia di età fissate. Contiene inoltre il "peso ideale" di maschi e femmine di età adulta; non viene indicato un unico dato, ma un intervallo: ad es. il peso ideale delle donne alte 150 cm può andare da 44 a 54 kg, nel senso che una donna alta 150 cm con scheletro particolarmente leggero ha come peso ideale 44 kg e una con scheletro particolarmente pesante ha come peso ideale 54 kg. Il peso ideale di una certa categoria di soggetti viene definito convenzionalmente come il peso a cui corrisponde l'età media di morte più alta (i soggetti con quel peso mediamente vivono più a lungo dei soggetti con altro peso).
 
(6.3)

indagine campionaria
sulla popolazione italiana
(anno 1990)
  
peso medio (kg) peso ideale (kg)
altezza (cm) 20-24 anni 40-49 anni da a
M 160 59.9 65.3 53 64
170 65.7 72.9 56 72
180 72.8 80.5 66 80
190 80.4 88.9 73 89
 
F 150 47.7 56.3 44 54
160 53.5 61.7 48 59
170 59.8 68.4 54 67
180 67.3 76.4 62 75
  Una ragazza robusta alta 160 cm e pesante 60 kg legge preoccupata in una "rivista femminile", in un articolo sulle diete, che il peso ideale di una donna della sua altezza è 50 kg. Perché ciò che è scritto sulla rivista è una stupidaggine?
  Un uomo di 45 anni e alto 180 cm, che a vent'anni pesava 64 kg, ora pesa 81 kg. Da una statistica sul giornale legge che a mezz'età un uomo della sua altezza pesa mediamente 80 kg. Ritenendo, allora, di avere un peso "normale", decide di non dare più importanza alle sollecitazioni della moglie («pesi troppo: stai più attento nel mangiare!»). Ti sembra sensata questa conclusione?

 e17 
    I grafici a lato rappresentano il peso medio P in funzione dell'altezza h nel caso delle donne tra 20 e 24 anni e nel caso di quelle tra 40 e 49 anni (vedi ques. e16). Il pallini sono la "traduzione" dei dati della tabella (6.3); le linee punteggiate che li congiungono consentono di trovare i pesi medi corrispondenti ad altre altezze (nell'ipotesi che tra un pallino e l'altro la variazione del peso medio sia proporzionale a quella dell'altezza).
    Trova in questo modo (arrotondato ai kg) il peso medio delle donne di 20-24 anni alte 167 cm e confrontalo con quello che ottieni usando direttamente i dati della tabella e un opportuno metodo numerico ( §4 e ques. e8).
     

 e18 
    Potete effettuare delle altre indagini statistiche. Ad es. comprare qualche chilo di patate di una qualità fissata in un particolare negozio, pesare ciascuna patata e studiare come si distribuisce il peso delle patate, o fare un'indagine simile per qualche altro prodotto alimentare. Oppure potete scegliere un marciapiede di una grande strada, una direzione di cammino e misurare l'intervallo di tempo che intercorre tra il passaggio di un pedone e il successivo (scegliete un punto che non sia preceduto, a poca distanza, da un semaforo, che condizionerebbe il flusso delle persone) e studiare come si distribuiscono questi tempi. Oppure potete misurarvi (tutti gli alunni della classe non affebbrati) la temperatura corporea in più ore diverse e per più giorni consecutivi, raccogliere i dati e discutere che cosa si deve intendere come  "temperatura normale".

 

1) Segna con l'evidenziatore, nelle parti della scheda indicate, frasi e/o formule che descrivono il significato dei seguenti termini:

intervallo di numeri (dopo ques.3),   classificare in modalità (dopo ques.4),   frequenza assoluta, relativa e percentuale (dopo ques.5),   distribuzione di frequenza (dopo ques.6),   classe modale (§2),   mediana (dopo fig.7),   frequenza cumulata (dopo fig.11),   percentile (dopo fig.15),   indagine campionaria (§3).

2) Su un foglio da "quadernone", nella prima facciata, esemplifica l'uso di ciascuno dei concetti sopra elencati mediante una frase in cui esso venga impiegato.

3) Nella seconda facciata riassumi in modo discorsivo (senza formule, come in una descrizione "al telefono") il contenuto della scheda (non fare un elenco di argomenti, ma cerca di far capire il "filo del discorso").