Per studiare gli effetti di un certo virus, in uno studio scientifico 70 cavie sono state infettate con esso e si sono rilevati i loro giorni di sopravvivenza.  I dati sono riportati a lato.  Come potresti rappresentare queste informazioni in un modo più velocemente e più facilmente comprensibile?   
 40, 45, 53, 56, 56, 57, 58, 62, 64, 73, 74, 78, 79, 80,
 81, 81, 81, 82, 83, 83, 84, 85, 89, 90, 91, 92, 92, 97,
 99, 99, 99, 99,101,102,102,102,103,104,107,108,109,113,
114,118,121,123,126,128,137,138,134,144,145,147,156,162,
174,174,179,184,191,198,208,214,247,249,328,383,403,511

 40, 45, 53, 56, 56, 57, 58, 62, 64, 73, 74, 78, 79, 80,
 81, 81, 81, 82, 83, 83, 84, 85, 89, 90, 91, 92, 92, 97,
 99, 99, 99, 99,101,102,102,102,103,104,107,108,109,113,
114,118,121,123,126,128,137,138,134,144,145,147,156,162,
174,174,179,184,191,198,208,214,247,249,328,383,403,511
       Un modo semplice e breve è quello di prendere come rappresentante dei dati (che sono già in ordine di grandezza) quello che sta, più o meno, a metà, ossia 102, e, per avere un'idea di come sono distribuiti i dati, prendere da una parte quello che sta, circa, a metà della prima metà, ossia 82, e dall'altra quello che sta a metà della seconda metà, ossia 145.  Quindi possiamo dire che i dati sono attorno a 102, e che il 50% di essi sta tra 82 e 145.  Ricordiamo che il dato che sta a metà dell'elenco ordinato dei dati si chiama mediana.

    Volendo fare un calcolo complicato si potrebbe fare la media dei dati, ottenendo 129.6, ma si tratta di una informazione poco significativa: è distante dal valore centrale (102) in quanto i dati maggiori di quello che sta a metà si disperdono maggiormente di quelli minori (come si vedrà bene nell'istogramma).

    Un'altra possibilità è quella di arrotondare prima i dati alle decine:  40, 50, 50, 60, 60, 60, 60, 60, 60, 70, 70, …, 330, 380, 400, 510; rifernedoci a questi dati possiamo dire che i dati stanno attorno a 100 e che il 50% di essi sta tra 80 e 150.

    Oppure potremmo, più efficacemente, riportare questi dati su carta quadrettata e utlizzare l'istogramma ottenuto (figura sotto a sinistra) per rappresentare gli esiti dello studio:

     

    A destra lo stesso istogramma indicando anche i valori dei dati (arrotondati alle decine).


    Successivamente si può impiegare il computer. Ad esempio si può usare questo script, impiegabile online (e, volendo, scaricabile sul proprio computer).  Introdotti:

40, 45, 53, 56, 56, 57, 58, 62, 64, 73, 74, 78, 79, 80, 81, 81, 81, 82, 83, 83, 84, 85, 89, 90, 91, 92, 92, 97, 99, 99, 99, 99, 101, 102, 102, 102, 103, 104, 107, 108, 109, 113, 114, 118, 121, 123, 126, 128, 137, 138, 134, 144, 145, 147, 156, 162, 174, 174, 179, 184, 191, 198, 208, 214, 247, 249, 328, 383, 403, 511

si ottiene:

n=70  min=40   max=511   median=102   mean=129.55714285714285  (che arrotondo a 129.6)
A = 30   B = 530   intervals = 10   their width = 50

    Volendo individuare i quartili posso usare questo script (col quale posso riottenere anche i valori ottenuti col precedente script):
1^, 3^ quartile, diff.: 81  144   63


    Se si è già presa confidenza con R (vedi), si può ottenere il grafico soprastante usando il comando stem:

source("http://macosa.dima.unige.it/r.R")
T=c(40, 45, 53, 56, 56, 57, 58, 62, 64, 73, 74, 78, 79, 80,
  81, 81, 81, 82, 83, 83, 84, 85, 89, 90, 91, 92, 92, 97,
  99, 99, 99, 99,101,102,102,102,103,104,107,108,109,113,
 114,118,121,123,126,128,137,138,134,144,145,147,156,162,
 174,174,179,184,191,198,208,214,247,249,328,383,403,511)
stem(T)

    In alternativa posso ottenere l'istogramma "verticale" (istogramma sotto a sinsitra) col comando histogram o istogramma:

istogramma(T)
# [i lati della griglia distano il  5 %]
#   Frequenze e frequenze percentuali:
# 2,   30,   22,   8,    4,   0,  1,   1,   1, 0,  1
# 2.86,42.86,31.43,11.43,5.71,0,1.43,1.43,1.43,0,1.43
# Per altre statistiche usa il comando altrestat()

    Il "boxplot" sotto all'istogramma è stato ottenuto battendo altrestat() (o morestat()); per non ottenere la rappresentazione (con un pallino rosso) della media si è battuto prima noMedia=1 (o noMean=1). Questa è una rappresentazione ancora più efficace dei dati, se la persona a cui ci si rivolge ne conosce il significato.

    L'isogramma a destra è stato ottenuto scegliendo le classi dell'istogramma, usando il comando Histogram o Istogramma:

Istogramma(T, 30,530, 50)   # da 30 a 530 con classi ampie 50
# [i lati della griglia distano il  25 %]
#   Frequenze e frequenze percentuali:
#  13,  35,  11,   5,   2,   1, 0,  2, 0,  1
# 18.57,50,15.71,7.14,2.86,1.43,0,2.86,0,1.43

    Sono istogrammi diversi che rappresentano gli stessi dati. In entrambi le classi sono ampie 50, ma si vede come variando di poco gli estremi degli intervalli cambia forma l'istogramma.  Per confrontare insiemi diversi di dati è in genere più utile ricorrere ai boxplot, che non risentono della scelta delle classi.
    Col comando boxPlot(T) (eventualmente preceduto da noMedia=1) ho direttamente il boxplot dei dati T, senza tracciarne l'istogramma.