Distribuzione

#1
 Se considero un certo insieme di "oggetti"
               
1. alunni di una classe
2.gli studenti nati in Italia di una data università
3.i prodotti che un supermercato ha venduto in una settimana
4. ...
 
e per ognuno di essi dispongo di una informazione dello stesso tipo,
               
1.altezza (degli alunni)
2.comune di nascita (degli studenti)
3.nome (dei prodotti)
4. ...
  
per avere una idea di come si distribuiscono queste informazioni
               
1.quali sono le altezze più frequenti?
2.quali sono le principali zone di provenienza degli studenti?
3.come si ripartiscono le vendite tra i diversi generi dei prodotti?
4. ...
  
posso fare una classificazione, cioè suddividere l'insieme delle informazioni possibili del tipo che sto studiando
               
1.l'insieme dei numeri positivi (le misure in una unità fissata)
2.l'insieme dei nomi dei comuni italiani
3.l'insieme dei nomi dei prodotti in vendita nel supermercato
4. ...
  
in classi separate e contare quante informazioni del mio elenco cadono in ciascuna classe
               
1.gli intervalli [0, 140), [140, 150), [150, 160), ...
2.le regioni
3.i latticini, i dolci, i detersivi, ...
4. ...

#2  Le classi in cui ripartisco le informazioni vengono dette anche modalità (sono i "modi" in cui si può presentare l'attributo descritto dall'informazione). Il complesso degli "oggetti" di cui ho raccolto le informazioni (gli alunni della classe, gli studenti dell'università, i prodotti venduti dal supermercato, …..) costituisce la popolazione della mia indagine statistica.
 Il numero di informazioni che cade in una modalità viene detto frequenza (assoluta) di tale modalità; il rapporto tra frequenza e numero totale delle informazioni raccolte viene detto frequenza relativa.
 La tabella che associa a ogni modalità la corrispondente frequenza [relativa] viene detta distribuzione [relativa].

 Sotto è riprodotta una tabella che include sia la distribuzione che la distribuzione relativa delle località di nascita degli studenti dell'università della città XX rispetto alle modalità Nord, Centro, Sud (e Isole).

 modalità    
 NORD  CENTRO  SUD 
 1415  2652  837 
 29%  54%  17% 
 frequenze assolute    
 frequenze relative    
distribuzione della località
di nascita degli
studenti iscritti all'università di XX
popolazione   

#3    Gli istogrammi [ diagrammi] che raffigurano distribuzioni sono chiamati istogrammi di distribuzione.
    Se le modalità non sono di tipo numerico, esse vengono rappresentate con segmenti di lunghezza fissata su ognuno dei quali viene tracciato un rettangolo di altezza proporzionale alla corrispondente frequenza. In genere non importa l'ordine con cui vengono disposti i diversi rettangoli. Gli istogrammi in questi casi vengono chiamati anche diagrammi a barre (essi vengono usati per visualizzare graficamente il confronto tra due o più quantità, non necessariamente tra frequenze).
    Se le modalità sono di tipo numerico, i segmenti vengono disposti in ordine. Ad es. nel caso della distribuzione:

distribuzione dell'età dei morti in Italia nel 1951  [dati in migliaia]0-45-910-1920-2930-3940-4950-5960-7475-100
  729      35       77      132     134     285     457    1401   1569 

 gli intervalli [0,5), [5,10), ….. vengono rappresentati in ordine, con segmenti uguali, come nell'istogramma A, o proporzionali alle ampiezze - a [60,75) corrisponde un segmento triplo di quello scelto per [0,5) -, come nell'istogramma B:

A

intervalli rappresentati con segmenti uguali
B

intervalli rappresentati con segmenti proporzionali alle loro ampiezze

    Nell'istogramma A sia le aree che le altezze dei rettangoli sono proporzionali alle frequenze: il fatto che nell'intervallo [0,5) cadono circa la metà delle età di morte rispetto all'intervallo [60,75) (729 è circa la metà di 1401) trova corrispondenza nel fatto che l'altezza del rettangolo con base [0,5) è circa la metà del rettangolo con base [60,75). Le divisioni verticali aiutano a leggere le frequenze relative (in [0,5) cade circa il 15% delle età dei morti nel 1951).
    Nell'istogramma B solamente le aree dei rettangoli sono proporzionali alle frequenze: le altezze dei rettangoli hanno dovuto essere modificate tenendo conto delle ampiezze delle basi. Più precisamente le altezze rappresentano le frequenze relative unitarie espresse in forma percentuale, cioè le frequenze percentuali divise per l'ampiezza degli intervalli. Per risalire alla frequenza relativa di un intervallo si fa così: a [0,5) corrisponde una frequenza unitaria circa del 3%, l'intervallo è ampio 5, quindi la frequenza è circa del 3% · 5 = 15%.
    L'istogramma A consente di valutare meglio le frequenze delle singole classi. B consente di analizzare meglio l'andamento del fenomeno, ad es. di comprendere che nel '51 c'era maggiore probabilità di morte per chi era in età prescolare che per chi aveva un'età intorno ai 70 anni. I due istogrammi avrebbero avuto la stessa forma se i dati fossero stati classificati in intervalli di uguale ampiezza.
    Dovendo confrontare distribuzioni relative a fenomeni analoghi ma classificati in intervalli di diversa ampiezza (ad es. i dati precedenti con età di morte relative ad altri anni ma classificate negli intervalli [0,1), [1,15), [15,25), …..), è necessario usare istogrammi con basi proporzionali alle ampiezze degli intervalli.

#4  Nota 1. Invece di frequenza relativa unitaria si usa anche l'espressione densità di frequenza, in analogia con altri usi del termine "densità": se una barra di acciaio lunga 7 cm pesa 105 grammi, si dice che essa ha densità di 105/7=15 grammi per centimetro; l'acqua a 100° ha la densità di 0.958 g/cm3; se un territorio ampio 1248 km2 ha popolazione di 936 mila abitanti, si dice che esso ha densità di 936000/1248 = 750 abitanti per km2; ... Nel nostro caso, se un intervallo di età ampio 5 anni ha frequenza relativa del 15%, diciamo che esso ha densità di frequenza del 15%/5 = 3% per anno.

 Nota 2. Se si calcola la distribuzione percentuale in tre o più classi, non è detto che la somma delle frequenze percentuali faccia 100%. Ad es. se ho un totale di 150 ripartito in tre parti pari ciascuna a 50, la percentuale di ciascuna di queste è, a seconda dell'arrtondamento, 33%, 33.3%, 33.33%, ..., e la somma di tre dati di questo tipo non può essere 100%.

 Nota 3. La parola istogramma è stata introdotta dallo statistico Karl Pearson (intorno al 1890). La sua etimologia è incerta. C'è che ritiene che venga - come la parola "istologia": studio dei tessuti - dal greco "istós", che significa "albero della nave", "telaio" o "trama" (di un tessuto), o direttamente dal verbo, "ìstemi", da cui deriva "istós", che significa "stare" o "porre dritto".  C'è chi ritiene che venga da "historical diagram"; infatti Pearson chiamò "istogrammi" le rappresentazioni grafiche della classificazione di alcuni fenomeni sociali e politici in diversi intervalli di tempo.  Il termine viene oggi usato in senso lato per indicare una qualunque rappresentazione di una distribuzione di dati (questa è la accezione di quasi tutti i dizionari, italiani e inglesi). Con un significato più ristretto viene utilizzato per rappresentazioni che usino solo altezze di aste o aree di rettangoli affiancati per rappresentare le frequenze o le densità di frequenza (questo è il significato assunto dalla maggior parte dei matematici). Con un significato ancora più ristretto viene usato solo per le rappresentazioni che impiegano l'area di rettangoli affiancati (è l'accezione impiegata da molti statistici; ma, evidentemente, tra istogrammi con basi uguali e istogrammi con aste al posto dei rettangoli non c'è differenza alcuna …). In ogni caso, basta intendersi.

Puoi provare a rivedere alcuni esempi o affrontare alcuni degli esercizi proposti usando il software  R, il cui uso è discusso ed esemplificato qui.  Puoi usare anche gli script a cui puoi accedere da qui.

Esercizi: testo 1 e soluzionetesto 2 (domanda a) e soluzionetesto 3 (domande a e b) e soluzione.

 altri collegamenti     [nuova pagina]     Considerazioni Didattiche