(a) Considera il presente capoverso e la distribuzione dei caratteri che compaiono in esso classificati secondo 4 modalità: lettere, cifre, segni di interpunzione (punti, virgole, parentesi, …) e spazi bianchi. Costruisci una tabella di distribuzione con le frequenze assolute e con quelle relative, e rappresentala graficamente. Determina la classe modale.
(b) Classifica le parole che compaiono nel capoverso precedente rispetto alla lunghezza, rappresenta graficamente la distribuzione di tali lunghezze; trovane media, moda, mediana.
(c) Associa ad ogni lettera che compare il suo numero d'ordine (a-1, b-2, … j-10, k-11, …, v-22, w-23, x-24, y-25, z-26) e considera la distribuzione dei numeri associati alle lettere che compaiono nella prima frase del primo capoverso (cioè della parte (a) del quesito). Individuane media, moda e mediana. Rappresenta graficamente la distribuzione di questi valori negli intervalli 1-5, 6-10, … 21-25, 26-30.
(d) Stima media e mediana supponendo di disporre solo dell'istogramma ottenuto alla fine del punto precedente, senza conoscere i singoli dati.

(a) (contando à come a', se no c'è un segno in meno)

lettere cifre segni spazi totale

292 1 18 49 360

lettere cifre segni spazi totale

81.1% 0.3% 5% 13.6% 100%

(b) 47 parole, 2 mode, la lunghezza mediana è 6, la lunghezza media è (1·4+2·7+3·5+…+13·4)/47 = 6.1914… = 6.2.

lunghezza 1 |xxxx lunghezza 2 |xxxxxxx <— moda lunghezza 3 |xxxxx lunghezza 4 |x lunghezza 5 |xxxx lunghezza 6 |xxx <— dato 24° al cen- lunghezza 7 |xxxxx tro dell'elenco lunghezza 8 |xxxx lunghezza 9 |xxxxxxx <— moda lunghezza 10|x lunghezza 11| lunghezza 12|xx lunghezza 13|xxxx

(c) 167 lettere, così distribuite per n. d'ordine – 13 "a", 2 "b", 10 "c", …, 3 "z" – (la terza riga indica le frequenze cumulate: il 15° dato in ordine crescente è 2, il 25° è 3, …):

1  2  3  4  5  6  7  8  9   10  11  12  13  14  15
13 2  10 6  23 2  2  2  24  0   0   6   2   13  13
13 15 25 31 54 56 58 60 84  84  84  90  92  105 118

16  17  18  19  20  21  22  23  24  25  26
7   0   11  12  11  3   2   0   0   0   3
125 125 136 148 159 162 164 164 164 164 167

La moda è la nona lettera ("i"). Per trovare la mediana uso le frequenze cumulate: il dato al centro tra 167 dati è il dato 84°, cioè 9 (uguale alla moda). Quindi usiamo di più le lettere della prima parte dell'alfabeto (se no la mediana sarebbe più vicina a 26 che a 1).
Se si calcola la media (se la CT non ha la priorità delle operazioni si può usare il tasto M+) si ottiene 11.14…
A lato è disegnato un possibile istogramma (verticalmente si sono rappresentate le frequenze relative, ma potevano essere rappresentate anche quelle assolute).

(d) Se disponessi solo dell'istogramma precedente (con le frequenze percentuali), ovvero della distribuzione seguente (con le frequenze assolute):
1-5: 54; 6-10: 30; 11-15: 34; 16-20: 41; 21-25: 5; 26-30: 3
calcolerei la media usando i valori centrali degli intervalli:
(3*54+8*30+…)/167, ottenendo 10.6…; è un valore un po' inferiore a quello ottenuto disponendo di tutti i dati, ma arrotondando si ottiene in entrambi i casi 11.
Se avessi solo le informazioni sulle percentuali (1-5: 32%; 6-10: 18%; …) potrei procedere analogamente, come se i dati fossero 100 e ve ne fossero 32 nella prima classe, …
(3*32+8*18+…)/100, ottenendo più o meno lo stesso valore di prima.

• Come fare calcoli e grafici con R:

source("http://macosa.dima.unige.it/r.R")
## (a)
carat = c(292,1,18,49); nomiBarre=c("let","cif","seg","spa"); Barre(carat)
# giallo,celeste,... % 81.11111  0.2777778  5  13.61111 
      
## (b)
lun = c( rep(1,4),rep(2,7),rep(3,5),rep(4,1),rep(5,4),rep(6,3),rep(7,5),
         rep(8,4),rep(9,7),rep(10,1),rep(11,0),rep(12,2),rep(13,4) )
stem(lun,scale=2)
#   1 | 0000
#   2 | 0000000
#   3 | 00000
#   4 | 0
#   5 | 0000
#   6 | 000
#   7 | 00000
#   8 | 0000
#   9 | 0000000
#  10 | 0
#  11 | 
#  12 | 00
#  13 | 0000
##  ovvero:
Istogramma(lun, 0.5,13.5, 1)
      
altrestat()
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#  1.000   3.000   6.000   6.191   9.000  13.000 
#    I pallini marroni sono 5° e 95° percentile 
#           Il pallino rosso è la media
    
## (c)
let = c( rep(1,13),rep(2,2),rep(3,10),rep(4,6),rep(5,23),rep(6,2),rep(7,2),rep(8,2),rep(9,24),
   rep(10,0),rep(11,0),rep(12,6),rep(13,2),rep(14,13),rep(15,13),rep(16,7),rep(17,0),rep(18,11),
   rep(19,12),rep(20,11),rep(21,3),rep(22,2),rep(23,0),rep(24,0),rep(25,0),rep(26,3) )
Istogramma(let, 0.5,30.5, 5)
    
altrestat()
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00    5.00    9.00   11.15   17.00   26.00 
#    I pallini marroni sono 5° e 95° percentile 
#           Il pallino rosso è la media 
    

# Vedi anche QUI

• Come fare calcoli e grafici con gli script presenti qui [(a) con "diagramma a barre - 2", (b) e (c) con "histogram"]

(b)
A = 1 B = 14 intervals = 13 their width = 1
n = 47
1*4, 2*7, 3*5, 4*1, 5*4, 6*3, 7*5, 8*4, 9*7, 10*1, 11*0, 12*2, 13*4

(c)
A = 1 B = 31 intervals = 6 their width = 5
n = 167
1*13, 2*2, 3*10, 4*6, 5*23, 6*2, 7*2, 8*2, 9*24, 10*0, 11*0, 12*6, 13*2, 14*13, 15*13, 16*7, 17*0, 18*11, 19*12, 20*11, 21*3, 22*2, 23*0, 24*0, 25*0, 26*3

Per altri commenti: distribuzione e valori medi (2) neGli Oggetti Matematici.