Percentili
Il concetto di percentile - o quantile - generalizza quello di mediana la mediana è il dato che delimita il primo 50% dei dati (ordinati) dai rimanenti dati, se p è un numero tra 0 e 100, il percentile di ordine p (o p° percentile, se p è intero) è il dato che delimita il primo p% dei dati (ordinati) dai rimanenti dati. (è usato anche il concetto di quartile: il 1º quartile è il dato che delimita il primo quarto dei dati dai rimanenti, il 2º è quello che ne delimita i primi due quarti, e coincide con la mediana, e il 3º è quello che ne delimita i primi tre quarti) |
Nel caso del fenomeno considerato alle voci distribuzione e valori medi 2, a cui si riferiscono l'istogramma soprastante e la seguente tabella delle frequenze cumulate, possiamo concludere che il 25° percentile cade tra 40 e 50 anni e che il 75° percentile cade tra 75 e 100 anni.
|
|
Per stimare meglio questi percentili possiamo procedere in modo analogo a come è stato descritto per la mediana [ valori medi 2] e trovare che il 25° percentile e il 75° sono circa 43 anni e 80 anni.
Se conveniamo di considerare normale l'intervallo costituito dal 50% centrale dei dati, cioè l'intervallo che va dal 25° al 75° percentile, possiamo dire che nel 1951 l'età di morte "normale" era compresa tra 43 e 80 anni. Si tratta comunque di una definizione convenzionale (potremmo prendere come intervallo di normalità quello che va dal 10° al 90° percentile o …), che può essere utile in molti casi, ma di cui occorre tener presente la natura puramente statistica; nel linguaggio comune l'aggettivo "normale" spesso assume connotati diversi.
Ad esempio in un paese sottosviluppato il 50% centrale delle età di morte è molto più a sinistra, per es. può andare da 8 anni a 50 anni; ciò non vuol dire che sia "normale", nel senso di "accettabile", che una persona muoia in questa fascia di età. Il confronto con il corrispondente intervallo dell'Italia ci fa comunque capire che in quel paese vi sono delle condizioni di vita che non possono essere ritenute "normali" per un essere umano. Il confronto dei dati italiani del 1951 con quelli del 1988, in cui il 25° e il 75° percentile delle età di morte erano 64 anni e 88 anni, ci fa capire anche come, nella seconda metà del XX secolo, siano cambiate le condizioni di vita, le conoscenze e le tecnologie sanitarie, ... negli stessi paesi sviluppati.
Considerazioni analoghe si possono svolgere anche per il concetto di media.
Il box (scatola) rappresenta il 50% centrale dei dati, le tacche lungo i baffi rappresentano il 5° e il 95° percentile, la tacca dentro al box rappresenta la mediana. Il fatto che il box sia spostato verso sinistra (cioè che il baffo sinistro sia molto più corto di quello destro) corrisponde all'allungamento verso destra dell'istogramma. Per calcolare i percentili quando si ha una sequenza di dati (non dati classificati in intervalli come quelli considerati all'inizio della voce), ad es. nel caso dei 19 dati sulle altezze considerati per illustrare il concetto di mediana, si può procedere nel modo che ora descriviamo relativamente al 50° e al 25° percentile, e che poi generalizziamo:
il 50° percentile corrisponde al posto che separa il primo 50% dei dati, ma non posso semplicemente prendere il 50% di 19: 50/100·19 = 9.5; infatti il posto centrale è il posto numero 10; come si vede nella figura sottostante 9.5 corrisponde al centro dell'intervallo [0, 19], mentre dovrei considerare l'intervallo
per trovare il posto che corrisponde al 50° percentile devo quindi prendere il centro di [0.5, 19.5] oppure prendere il centro di [0, 19], ossia 19/2, e aggiungere 0.5;
analogamente il 25° percentile corrisponde al punto che dividide il primo 25% dell'intervallo [0.5, 19.5] dalla parte rimanente, ovvero il punto che si ottiene spostando a destra di 0.5 quello che dividide il primo 25% dell'intervallo [0, 19]: 25/100·19+0.5 = 4.75+0.5 = 5.25; 5.25 sta tra 5 e 6; usando la stessa convenzione adotatta per la mediana, tra i due posti scegliamo il primo: il 25° percentile è il 5° dato in ordine crescente, ossia 157;
in generale per trovare il p-esimo percentile prendo il dato che (in ordine crescente) sta al posto ottenuto trocando agli interi
Puoi provare a rivedere alcuni esempi o affrontare alcuni degli esercizi proposti usando il programma R; vedi qui per come costruire box-plot.