>>>>>

Scheda 1 - Quale matematica per i fenomeni "casuali"?

5. INDICI DI POSIZIONE, confronti tra media e mediana; INDICI DI DISPERSIONE, SCARTO ARITMETICO MEDIO, DISTANZA INTERQUARTILE, SCARTO QUADRATICO MEDIO; BOX-PLOT

   Nelle voci distribuzione, valori medi (2) e percentili degli Oggetti Matematici sono richiamati alcuni concetti di base di statistica elementare: modalità, frequenza, distribuzione, densità di frequenza, media, moda, mediana, frequenza cumulata, percentili, box-plot.

   La media, la moda e la mediana vengono chiamati indici di posizione (oltre che valori medi) in quanto indicano, con diverse caratterizzazioni, la zona dell'asse numerico in cui cadono con maggiore frequenza le informazioni di tipo numerico che si stanno analizzando.

   Il confronto tra i diversi indici di posizione può dare anche indicazioni sulla forma dell'istogramma di distribuzione.
   Ad esempio affinché la rappresentazione grafica sia simmetrica rispetto a un asse verticale è necessario (non sufficiente) che media e mediana coincidano.
   Invece se la rappresentazione grafica è più o meno a forma di campana ma allungata verso destra [sinistra], la media è maggiore [minore] della mediana. Questi aspetti sono discussi nella voce valori medi (2) sopra richiamata.

    Invece:

– lo scarto aritmetico medio, cioè la media aritmetica dei valori assoluti degli scarti dei dati dalla media (si prendono i valori assoluti perché, altrimenti, scarti positivi e negativi si compenserebbero),

– la distanza interquartile, cioè la distanza tra il primo e il terzo quartile (modi alternativi per indicare il 25° e il 75° percentile) e

– lo scarto quadratico medio, cioè la media quadratica degli scarti dei dati dalla media (vedi l'espressione a lato),

sono detti indici di dispersione. 

 
 /
|
|
|
|
|
|
 \
n.dati
Σ
i=1
(datoi- media)2
\1/2
 |
 |
 |
 |
 |
 |
/
—————————————————
n.dati

    Infatti se modifico i valori di una serie di dati in modo da "disperderli" maggiormente (ovvero se modifico un istogramma tagliando dei pezzi di colonne centrali e appilandoli su colonne più periferiche), il valore di questi indici aumenta.

    Oltre a questi due tipi di indici, vi è una rappresentazione grafica che indica in modo sintetico sia la "posizione" che la "dispersione"dei dati: il box-and-whiskers-plot o, più in breve, box-plot, una specie di diagramma lineare che rappresenta l'intervallo di valori in cui cadono i dati: l'estremo sinistro rappresenta il minimo, quello destro il massimo, le tacche rappresentano il 5°, il 25°, il 50°, il 75° e il 95° percentile, e il "box" centrale, tra il 25° e il 75° percentile, indica l'intervallo occupato dal 50% centrale dei dati. Ecco un esempio, che corrisponde a un istogramma che si allunga leggermente verso destra:

   ----|---|====|======|-----|------
 min  5%  25%  50%    75%   95%    max
    Informazioni ulteriori sugli indici di dispersione le trovi alla voce indici di posizione e dispersione degli Oggetti Matematici.  STAT calcola anche altri "indici", su cui ci soffermeremo più avanti.

8

 Analizza e confronta mediante STAT i file mor1.stf, mor2.stf, mor3.stf, trovandone le caratteristiche numeriche e tracciando istogramma e box-plot, in modo da ottenere uscite simili a quelle riprodotte sotto.

età dei morti in Italia nel 1881-1890
7986 dati in 9 intervalli  min,max: 0,100
media: 28.18871
  5 % : .52299178
 25 % : 2.614589
 50 % : 7.551021
 75 % : 57.74747
 95 % : 85.90041
||=|================|---------|-----
scarto quad. medio: 30.6734

età dei morti in Italia nel 1951

4819 dati in 9 intervalli  min,max: 0,100
media: 58.32019
  5 % : 1.652606
 25 % : 43.42982
 50 % : 66.00107
 75 % : 80.80386
 95 % : 96.16077
-|-------------|=======|====|----|--
scarto quad. medio: 29.64623

età dei morti in Italia nel 1988

5328 dati in 9 intervalli  min,max: 0,100
media: 74.82404
  5 % : 41.32919
 25 % : 64.97691
 50 % : 77.67348
 75 % : 88.83674
 95 % : 97.76735
--------------|--------|===|===|--|-
scarto quad. medio: 17.63457

Nota. Nel caso dei dati esaminati nel paragrafo precedente in STAT compariva, all'inizio delle elaborazioni statistiche, una informazione del tipo 131 dati in 131 righe in quanto si trattava di dato da classificare. In questo casi compare invece una frase del tipo 5328 dati in 9 intervalli. Per il formato in cui i dati devono essere introdotti, vedi l'Help di STAT.

   100 anni fa la densità di frequenza tra 0 e 5 anni era circa 9.5% (9.5% dei morti per anno di età; quindi nell'intervallo di età [0,5) cadeva il 9.5%·5 dei morti; in altre parole: area del 1° rettangolino = 9.5%·5 = 48% circa = percentuale dei morti con meno di 5 anni). Tra 75 e 100 anni la densità di frequenza era circa 0.3% (area dell'ultimo rettangolino = 0.3%·25 = 8% circa = percentuale dei morti con almeno 75 anni).

   La media e la mediana ci danno un'idea di come sia aumentata mediamente l'età di morte delle persone. La mediana, come si vede bene per il decennio 1881-1890, è un indicatore più adeguato: la media non ci dà un'idea efficace di come sia cambiata la situazione da allora al 1951; infatti nel 1881-1890 la media ha un valore molto più alto della mediana in quanto risente della "coda" a destra. Per i nostri giorni la situazione si rovescia: la media è più bassa in quanto risente della coda a sinistra (vedi osservazioni a metà della pagina precedente).

   La distanza interquartile passa da 55 a 37 a 24, lo s.q.m. da 31 a 30 a 18: la distanza interquartile in questo caso indica come è variata la dispersione dei dati meglio dello s.q.m.. Media e s.q.m. sarebbero stati più significativi se le distribuzioni fossero state più "simmetriche"; permettono, comunque, di comprendere che, in Italia, l'età di morte si è innalzata e che ora è concentrata in un intervallo più ristretto di anni rispetto al secolo scorso.

   I box-plot consentono di sintetizzare in una figura "lineare" sia informazioni sulla posizione che informazioni sulla dispersione dei dati, e permettono di confrontare facilmente diverse distribuzioni.

  

<<<     Paragrafo precedente Paragrafo successivo     >>>