Siamo nello stato XX nell'anno AA. Sotto sono presenti alcune elaborazioni statistiche relative ai maschi ventenni del paese XX in tale anno (il totale è stato posto uguale a 1000 e per ogni centimetro sono stati calcolati quanti maschi hanno altezza che cade in esso; i dati sono esaminabili cliccando la voce "dati"). Le usa un mobilificio per studiare di che lunghezza costruire i letti matrimoniali.
dati | |
1003 dati in 44 intervalli Min 1st Qu. Median Mean 3rd Qu. Max 153.0 170.3 175.1 175.12 179.9 197.0 | |
Come mai la somma dei dati eleborata dal programma non è 1000? Calcola (in quale ipotesi?) la probabilità che un potenziale cliente della ditta sia alto meno di 183 cm. Calcola quella che la sua altezza sia compresa tra 170 e 183 cm. Il box-plot, in assenza dell'istogramma di distribuzione, quali informazioni ti darebbe sulla forma che esso dovrebbe avere?
• Le singole frequenze (dati) sono arrontodate agli interi, per cui la somma dei loro valori può discostarsi dal totale teorico, che è 1000; nel nostro caso ottengo 1003.
• I dati, in questo caso, sono riferiti alle frequenze con cui le altezze cadono nei diversi intervalli aventi come estremi interi di centimetri; in altre parole si sono classificate le misure ottenute troncando agli interi i valori; per questo l'elaborazione statistica è stata effettuata prendendo al posto dei singoli valori il centro dell'intervallo in cui stanno, ossia aggiungendo 1/2 all'estremo sinistro degli intervalli.
• Come stima della probabilità che l'altezza di un cliente sia minore di 183 cm posso prendere il complemento a 1 di quella che un cliente abbia altezza maggiore o uguale a 183 cm: conviene questo calcolo perché ho meno valori da sommare (e l'errore è probabilmente più basso): (27+23+19+14+12+10+7+6+4+3+2+2+1+1)/1003 = 131/1003 = 13.1%. La probabilità cercata è dunque 1−13.1% = 86.9%.
• La domanda successiva (sulla probabilità che
l'altezza sia compresa tra 170 e 183 cm) è ambigua: occorre precisare se gli estremi sono
compresi o no. Interpretiamo la domanda come se sia riferita all'intervallo
• I valori trovati (13.1% e 63.7%) corrispondono grosso modo alla stima grafica delle parti dell'istogramma sopra evidenziate in verde chiaro e in giallo scuro: OK. In questa stima abbiamo fatto l'ipotesi che i clienti siano giovani (i nostri dati sono relativi ai ventenni dell'epoca: le persone anziane sono mediamente più basse, essenzialmente in quanto l'altezza media dei ventenni al passare degli anni è aumentata), e che siano provenienti dal paese XX (se i clienti fossero in gran parte provenienti da uno stato, o anche da una regione, in cui le altezze medie sono molto diverse da quelle che mediamente si registrano in XX le nostre valutazioni non sarebbero corrette).
• Il box plot è stato realizzato nel modo illustrato a lato: | legenda: ----|----|====|====|----|---- min 5% 25% 50% 75% 95% max |
Quello dei nostri dati (riportato nel testo dell'esercizio) ha una simmetria centrale, quindi ci aspettiamo che la abbia anche l'istogramma relativo. Inoltre la parte che corrisponde al 50% centrale dei dati è più piccola della metà della parte che corrisponde al 90% centrale dei dati, e molto più piccola della parte che corrisponde al totale dei dati; quindi ci aspettiamo che l'istogramma sia "appuntito".
Per altri commenti: calcolo delle probabilità neGli Oggetti Matematici.
Le elaborazioni erano fattibili facilmente con questi script (colonne normali e colonne molto strette):
n=1003 min=153.5 max=196.5 median=175.5 1^|3^ quartile=170.5|179.5 mean=175.1161515453639
153.5, 154.5, 155.5, 156.5*2, 157.5*2, 158.5*3, 159.5*5, 160.5*7, 161.5*9, 162.5*12, 163.5*14, 164.5*20, 165.5*22, 166.5*26, 167.5*32, 168.5*37, 169.5*41, 170.5*46, 171.5*50, 172.5*53, 173.5*55, 174.5*56, 175.5*57, 176.5*56, 177.5*53, 178.5*51, 179.5*47, 180.5*44, 181.5*37, 182.5*32, 183.5*27, 184.5*23, 185.5*19, 186.5*14, 187.5*12, 188.5*10, 189.5*7, 190.5*6, 191.5*4, 192.5*3, 193.5*2, 194.5*2, 195.5, 196.5
e con questo:
Ecco, invece, come fare i calcoli con R.
source("http://macosa.dima.unige.it/r.R") BF=5; HF=3 interv = seq(153,197,1) freq = c(1,1,1,2,2,3,5,7,9,12,14,20,22,26,32,37,41,46,50,53,55,56, 57,56,53,51,47,44,37,32,27,23,19,14,12,10,7,6,4,3,2,2,1,1) sum(freq) # 1003 noClass=1; histoclas(interv,freq) morestat() # Min. 1st Qu. Median Mean 3rd Qu. Max. # 153.0 170.3 175.1 175.1 179.9 197.0 # The brown dots are 5^ and 95^ percentiles # The red dot is the mean 183-153 # 30 interv[30] # 182 sum(freq[1:30])/sum(freq[1:44])*100 # 86.93918 170-153 # 17 interv[17] # 169 sum(freq[18:30])/sum(freq[1:44])*100 # 63.50947