Siamo nello stato XX nell'anno AA. Sotto sono presenti alcune elaborazioni statistiche relative ai maschi ventenni del paese XX in tale anno (il totale è stato posto uguale a 1000 e per ogni centimetro sono stati calcolati quanti maschi hanno altezza che cade in esso; i dati sono esaminabili cliccando la voce "dati"). Le usa un mobilificio per studiare di che lunghezza costruire i letti matrimoniali.

dati

1003 dati in 44 intervalli Min 1st Qu. Median Mean 3rd Qu. Max 153.0 170.3 175.1 175.12 179.9 197.0

Come mai la somma dei dati eleborata dal programma non è 1000? Calcola (in quale ipotesi?) la probabilità che un potenziale cliente della ditta sia alto meno di 183 cm. Calcola quella che la sua altezza sia compresa tra 170 e 183 cm. Il box-plot, in assenza dell'istogramma di distribuzione, quali informazioni ti darebbe sulla forma che esso dovrebbe avere?

• Le singole frequenze (dati) sono arrontodate agli interi, per cui la somma dei loro valori può discostarsi dal totale teorico, che è 1000; nel nostro caso ottengo 1003.

• I dati, in questo caso, sono riferiti alle frequenze con cui le altezze cadono nei diversi intervalli aventi come estremi interi di centimetri; in altre parole si sono classificate le misure ottenute troncando agli interi i valori; per questo l'elaborazione statistica è stata effettuata prendendo al posto dei singoli valori il centro dell'intervallo in cui stanno, ossia aggiungendo 1/2 all'estremo sinistro degli intervalli.

• Come stima della probabilità che l'altezza di un cliente sia minore di 183 cm posso prendere il complemento a 1 di quella che un cliente abbia altezza maggiore o uguale a 183 cm: conviene questo calcolo perché ho meno valori da sommare (e l'errore è probabilmente più basso): (27+23+19+14+12+10+7+6+4+3+2+2+1+1)/1003 = 131/1003 = 13.1%. La probabilità cercata è dunque 1−13.1% = 86.9%.

• La domanda successiva (sulla probabilità che l'altezza sia compresa tra 170 e 183 cm) è ambigua: occorre precisare se gli estremi sono compresi o no. Interpretiamo la domanda come se sia riferita all'intervallo [170, 183). In tal caso facciamo: (46+50+53+55+56+57+56+53+51+47+44+37+32)/1003 = 637/1003 = 63.5%.

• I valori trovati (13.1% e 63.7%) corrispondono grosso modo alla stima grafica delle parti dell'istogramma sopra evidenziate in verde chiaro e in giallo scuro: OK. In questa stima abbiamo fatto l'ipotesi che i clienti siano giovani (i nostri dati sono relativi ai ventenni dell'epoca: le persone anziane sono mediamente più basse, essenzialmente in quanto l'altezza media dei ventenni al passare degli anni è aumentata), e che siano provenienti dal paese XX (se i clienti fossero in gran parte provenienti da uno stato, o anche da una regione, in cui le altezze medie sono molto diverse da quelle che mediamente si registrano in XX le nostre valutazioni non sarebbero corrette).

• Il box plot è stato realizzato nel modo illustrato a lato:
legenda: ----|----|====|====|----|---- min 5% 25% 50% 75% 95% max

Quello dei nostri dati (riportato nel testo dell'esercizio) ha una simmetria centrale, quindi ci aspettiamo che la abbia anche l'istogramma relativo. Inoltre la parte che corrisponde al 50% centrale dei dati è più piccola della metà della parte che corrisponde al 90% centrale dei dati, e molto più piccola della parte che corrisponde al totale dei dati; quindi ci aspettiamo che l'istogramma sia "appuntito".

Per altri commenti: calcolo delle probabilità neGli Oggetti Matematici.

Le elaborazioni erano fattibili facilmente con questi script (colonne normali e colonne molto strette):

A = 150 B = 200 intervals = 10 their width = 5

A = 153 B = 197 intervals = 44 their width = 1

n=1003 min=153.5 max=196.5 median=175.5 1^|3^ quartile=170.5|179.5 mean=175.1161515453639
153.5, 154.5, 155.5, 156.5*2, 157.5*2, 158.5*3, 159.5*5, 160.5*7, 161.5*9, 162.5*12, 163.5*14, 164.5*20, 165.5*22, 166.5*26, 167.5*32, 168.5*37, 169.5*41, 170.5*46, 171.5*50, 172.5*53, 173.5*55, 174.5*56, 175.5*57, 176.5*56, 177.5*53, 178.5*51, 179.5*47, 180.5*44, 181.5*37, 182.5*32, 183.5*27, 184.5*23, 185.5*19, 186.5*14, 187.5*12, 188.5*10, 189.5*7, 190.5*6, 191.5*4, 192.5*3, 193.5*2, 194.5*2, 195.5, 196.5

e con questo:

Ecco, invece, come fare i calcoli con R.

source("http://macosa.dima.unige.it/r.R")
BF=5; HF=3
interv = seq(153,197,1)
freq = c(1,1,1,2,2,3,5,7,9,12,14,20,22,26,32,37,41,46,50,53,55,56,
        57,56,53,51,47,44,37,32,27,23,19,14,12,10,7,6,4,3,2,2,1,1)
sum(freq)
# 1003
noClass=1; histoclas(interv,freq)
morestat()
#    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   153.0   170.3   175.1   175.1   179.9   197.0 
#     The brown dots are 5^ and 95^ percentiles 
#            The red dot is the mean 
183-153
# 30
interv[30]
# 182
sum(freq[1:30])/sum(freq[1:44])*100
# 86.93918
170-153
# 17
interv[17]
# 169
sum(freq[18:30])/sum(freq[1:44])*100
# 63.50947

dati
1003 dati in 44 intervalli Min 1st Qu. Median Mean 3rd Qu. Max 153.0 170.3 175.1 175.12 179.9 197.0