Quale matematica per i fenomeni casuali?
I primi strumenti per descrivere posizione e dispersione dei dati
0. Introduzione
1. Una situazione problematica
2. Indici di posizione e di dispersione
3. Notazioni
4. Leggi di distribuzione (variabili discrete)
5. Leggi di distribuzione (variabili continue)
6. Approfondimenti
7. Esercizi
Sintesi
0. Introduzione
Riprendiamo e approfondiamo lo studio dei fenomeni casuali, che abbiamo già avviato nel biennio, in particolare nella scheda 3 de Le statistiche e nella scheda Calcolo delle probabilità. Prima di proseguire rileggi queste schede, o la sintesi presente nelle voci degli Oggetti Matematici da distribuzione a campionamento, e da calcolo delle probabilità a dipendenza e indipendenza.
1. Una situazione problematica
L'organizzazione di vendite televisive Ventel utilizza le strutture e il personale
(centraliniste) di una agenzia specializzata (che offre i suoi servizi a diverse organizzazioni di vendita) per ricevere
ordinazioni telefoniche tra le 14 e le 16. Le trasmissioni della Ventel vanno in onda tra le 14 e le 14:20 e tra le 15:10 e le 15:30.
  La Ventel vuole studiare quante linee (e centraliniste) conviene richiedere alla agenzia.
Il servizio non prevede liste di attesa: se non c'è una linea libera il potenziale acquirente trova occupato.
Per fare questo studio la Ventel chiede alla ditta specializzata Telstat di studiare i tempi di arrivo delle telefonate
(la Telstat è in grado di individuare anche le telefonate che, arrivate al centralino, trovano occupato)
e le durate delle telefonate che riescono a prendere la linea.
| Qual è l'intervallo di tempo in cui le telefonate arrivano più frequentemente? Perchè dal grafico precedente posso ricavare che in questo intervallo vi sono circa una telefonata ogni 9 secondi? |
Nell'ipotesi che arrivi e durate delle telefonate abbiano esattamente questo regime, sembra che basti questo numero di linee: riesco infatti a prendere telefonate che arrivino ogni 9 secondi e che durino fino a 54 secondi (9·6 = 54), e 54>50. In altre parole, se si misura il tempo a partire dalla 1ª telefonata, al 9° sec arriva la 2ª telefonata e occupa la seconda linea, …, al 45° sec arriva la 6ª telefonata e occupa la 6ª linea, cioè l'ultima linea rimasta libera; al 50° sec si libera la prima linea, per cui la 7ª telefonata che arriva al 54° sec trova una linea in cui inserirsi; al 59° sec si libera la seconda linea, per cui …; e così via.
Ma, da una parte, possono capitare telefonate che durano meno della durata media e telefonate che durano di più, per cui possono rimanere delle linee libere o, viceversa, si possono perdere delle telefonate. D'altra parte anche il tempo tra una telefonata e la successiva non è sempre 9 secondi: anch'esso è variabile.
|
La soluzione che abbiamo ottenuto nel quesito 2 non teneva conto della casualità dei tempi che passano tra una telefonata e la successiva e dei tempi di durata delle telefonate. Avevamo, infatti, erroneamente, schematizzato la situazione con un modello deterministico: utilizzando i valori medi prevedevamo esattamente come al passare del tempo si sarebbe modificato lo stato del centralino.
La media aritmetica, per il nostro problema, non è un concetto matematico sufficiente a caratterizzare tempi di arrivo e durate delle telefonate. Vediamo di individuare strumenti matematici più efficaci per i nostri scopi. Vedremo poi, più avanti, come è possibile approssimare istogrammi come i precedenti con i grafici di opportune funzioni.
2. Indici di posizione e di dispersione
Data una sequenza di informazioni di tipo numerico, eventualmente già classificate,
i suoi valori medi (media, moda e mediana) vengono chiamati anche indici di posizione in
quanto indicano, con diverse caratterizzazioni, la zona dell'asse numerico in cui tali dati cadono con maggiore frequenza.
Abbiamo già osservato che il confronto tra i diversi indici di posizione può dare anche
indicazioni sulla forma dell'istogramma di distribuzione.
Ad esempio affinché la rappresentazione grafica sia simmetrica rispetto a un asse verticale è necessario (non sufficiente) che media e mediana coincidano.
Invece se la rappresentazione grafica è più o meno a forma di campana ma allungata verso destra
[sinistra], la media è maggiore [minore] della mediana.
Una interpretazione fisica del fenomeno è che la mediana rappresenta
l'ascissa in cui praticare un taglio verticale che divida l'istogramma in due parti di area uguale,
mentre la media è l'ascissa del baricentro dell'istogramma, ossia del punto dell'asse orizzontale per cui
appenderlo in modo che, capovolto, rimanga con la base orizzontale.
Nella figura riprodotta sotto sono rappresentate le distribuzioni delle età dei morti in Italia
nel decennio 1881-90, nel 2006; indichiamole E1 ed E2.
Le rispettive medie sono 28 e 81: un morto nel 1890 aveva mediamente 28 anni, 58 nel 1950 e 75 nel 1990.
Usando M per indicare la media:
M(E1) = 28 e M(E2) = 81.
Le età mediane di morte sono invece, in ordine, 8 e 84:
Mediana(E1) = 8 e Mediana(E2) = 84.
Il fatto che, nel 1890, la media abbia un valore molto maggiore della mediana (mascherando in parte il fenomeno della mortalità infantile)
è dovuto alla lunga coda destra che fa aumentare il risultato del calcolo della media.
Nel 2006, invece, la media è inferiore alla mediana a causa della coda sinistra;
la differenza in questo caso è lieve in quanto si tratta di una coda molto "sottile", e quindi non incide molto sul risultato.
1st Q. Median Mean 3rd Q. 2.615 7.553 28.190 57.750 1st Q. Median Mean 3rd Q. 75.50 83.89 81.10 90.25 |
Qui vedi come ottenere le precedenti rappresentazioni.
Sono chiamati indici di dispersione degli indicatori numerici che danno un'idea
quantitativa di come i dati sono più o meno sparpagliati. Riferiamoci alle stesse
distribuzioni considerate sopra.
In 120 anni, oltre a uno spostamento verso destra della zona in cui si concentrano le età di morte
(testimoniato dall'aumento sia della media che della mediana),
possiamo osservare un maggiore addensamento dei dati: l'istogramma assume una forma più tozza.
Questa percezione intuitiva può essere precisata considerando l'intervallo in cui si colloca il 50% centrale dei dati,
ossia i dati che vanno dal 25° al 75° percentile, ossia dal 1° al 3° quartile:
da circa
| Nei 120 anni considerati sopra la distanza interquartile passa da circa a circa |
Un altro modo per valutare la dispersione di una sequenza di N dati
x1, x2,
xN
può essere quello di quantificare opportunamente il loro livello di concentrazione attorno a un indice di posizione p.
Potremmo valutare gli scarti x−p dei singoli dati da p e farne la media, ma in questo modo scarti positivi e
negativi si compenserebbero tra di loro. Per evitare ciò possiamo considerare la media mQ dei loro quadrati.
Consideriamo ad esempio i dati 13, 15, 18, 22, 25:
| Osserva le seguenti uscite. Che cosa puoi notare? Quale potrebbe essere il valore di p per cui mQ è minimo? |
dati <- c(13,15,18,22,25); n <- length(dati); m <- mean(dati); n; m # 5 18.6 mQ <- function(p) {s <- 0; for(i in 1:n) s <- s+(dati[i]-p)^2; s/n} plot(mQ,10,30) dev.new(); plot(mQ,18,19)
In effetti si può dimostrare (vedi l'esercizio e10) che la media dei quadrati degli scarti da p è minima quando p è la media dei dati. Quindi posso considerare questo valore come un indice della dispersione dei dati attorno alla media. Esso viene chiamato varianza. In altre parole, per N dati x1, , xN di media μ ("μ" è la lettera greca "mu", o "mi"), si pone:
varianza = | (x1 μ)2 + (x2 μ)2 + (xN μ)2 |
| |
N |
La varianza è quindi la media dei "quadrati" degli scarti dalla media. Per ottenere un valore con ordine di grandezza confrontabile con quello degli scarti dobbiamo applicare alla varianza la "radice quadrata", ossia considerare:
scarto quadratico medio = √varianza = ( | (x1 μ)2 + (x2 μ)2 + (xN μ)2 | ) | 1/2 |
| |||
N |
| Qual è lo scarto quadratico medio dei cinque dati del quesito precedente? |
Nelle formule useremo Var e sqm per indicare la varianza e lo scarto quadratico medio.
Ecco come fare i calcoli precedenti usando R:
dati <- c(13,15,18,22,25)
V <- function(dati) sum((dati-mean(dati))^2)/length(dati)
sqm <- function(dati) sqrt(V(dati))
mean(dati); sqm(dati)
# 18.6 4.409082
3. Notazioni
Per evitare di usare i puntini ("...") per descrivere una somma di un numero variabile di addendi si usa il simbolo Σ (detto sommatoria e costituito dalla lettera maiuscola greca "sigma"). Ecco un esempio:
|
si legge "la somma di n2 per n da 1 a 10 è uguale a 385" e abbrevia la scrittura: 12+22+32+42+52+62+72+82+92+102 = 385 |
Per comodità di scrittura a volte si usano notazioni più compatte:
a <- function(n) n^2 # a(n) elemento n-esimo della sommatoria
S <- function(n) sum(a(1:n)); S(10) # somma a(1)+...a(10)
Se la distribuzione X ha x1,
, xN
come valori e f1,
,fN come frequenze,
il totale dei dati è f1 +
+ fN,
la somma totale dei valori è x1·f1 +
+ xN·fN
e la sua media M(X) può essere descritta con:
|
o con: |
|
se frk indica la frequenza relativa del valore xk: frk = fk / Totale, Totale = Σk fk.
Ad es. se so che in un cineclub il 70% degli spettatori sono soci e hanno pagato
3 € mentre gli altri hanno pagato 5 €, posso dire che mediamente uno spettatore ha pagato:
Con R posso fare i calcoli esplicitamente, oppure posso
usare il comando weighted.mean ("media pesata"):
x <- c(3, 5); fr <- c(70, 30)/100; sum(x*fr)
# ottengo 3.6
weighted.mean( c(3,5), c(70,30) )
# ottengo 3.6
La varianza è la media di ( Xμ )²
dove μ = M(X).
Ossia è la media di
Nel caso di dati espressi con le frequenze, come quelli del precedente esempio,
con R posso, ad es., procedere nei due modi seguenti:
x <- c(3, 5); fr <- c(70, 30)/100; m <- sum(x*fr)
m; V <- sum( (x-m)^2*fr ); sqrt(V)
# ottengo 3.6 0.9165151
m <- weighted.mean( c(3,5), c(70,30) )
V <- weighted.mean( c(3-m,5-m)^2, c(70,30) ); m; sqrt(V)
# ottengo 3.6 0.9165151
4. Leggi di distribuzione (variabili discrete)
Nella scheda sul Calcolo delle probabilità, nel §3 e nel §4, abbiamo considerato sia variabili casuali che possono variare con continuità su tutto un intervallo di numeri reali, e che vengono dette variabili casuali continue, sia variabili casuali che possono assumere solo valori "separati" l'uno dall'altro, elencabili in una successione, e che vengono dette variabili casuali discrete. Sotto sono riprodotti gli studi sperimentali di una variabile casuale continua (numeri reali a caso distribuiti uniformemente tra 0 ed 1) e di due discrete (esiti del lancio di un dado equo ed esiti del lancio di due dadi equi). Sono calcolate anche le medie sperimentali; quelle teoriche in questi casi sono 0.5, 3.5 e 7. In questo paragrafo approfondiremo lo studio delle variabili casuali discrete.
n <- 1e5; U <- runif(n); mean(U) hist(U, probability=TRUE, col="grey90") abline(v=axTicks(1), h=axTicks(2), col="blue",lty=3) # 0.5005456 n <- 1e5; U <- floor(runif(n)*6)+1; mean(U) hist(U, seq(0.5, 6.5, 1), probability=TRUE, col="grey90") abline(v=axTicks(1), h=axTicks(2), col="blue",lty=3) # 3.51121 n <- 1e5; U1 <- floor(runif(n)*6)+1; U2 <- floor(runif(n)*6)+1; mean(U1+U2) hist(U1+U2, seq(1.5, 12.5, 1), probability=TRUE, col="grey90") abline(v=axTicks(1), h=axTicks(2), col="blue",lty=3) # 7.00371
Osserviamo che una variabile casuale discreta può essere
non finita. Pensiamo al
numero N dei lanci di una moneta equa da effettuare fino ad ottenere l'uscita di "testa" (T).
• Al 50% N=1, ossia viene T al primo lancio:
• La probabilità che venga T si mantiene la stessa nei lanci successivi,
ma via via, ovviamente, rispetto all'inizio dei lanci essa si dimezza (vedi grafo sotto a destra):
• La probabilità Pr(N=3) che T venga al terzo lancio è
• In generale: Pr(N = h) = 1/2h
A sinistra è tracciata parte dell'istogramma di distribuzione di N:
è un esempio di figura illimitata (la base dell'istogramma prosegue senza fine a destra) con area finita (uguale a 1).
Nel caso statistico la media di una distribuzione X la possiamo ottenere
sommando i prodotti dei valori xk per le loro frequenze relative frk (corrispondenti alle aree delle colonne dell'istogramma sperimentale),
nel caso di una variabile casuale X che possa assumere i valori x1, x2,
faremo
analogamente la somma dei prodotti dei valori xk per le loro probabilità
M(X) = Σk (xk· frk) diventa M(X) = Σk (xk· Pr(X = xk))
La media di una variabile casuale X a volte viene chiamata anche speranza matematica o valore atteso
("expected value" in inglese) di X, e indicata
Qual è la media nel caso del numero N dei lanci da effettuare per ottenere testa considerato sopra?
1/2 | +2·1/(22) | +3·1/(23) | +4·1/(24) | +5·1/(25) | ... | +10·1/(210) | +... = 2 |
1/2 | 1 | 1.375 | 1.625 | 1.78125 | ... | 1.98828125 |
I calcoli fatti con R: |
In questo caso, a differenza di quelli all'inizio del paragrafo, la media non coincide con la mediana ma è più grande.
In questo esempio l'ultimo "..." sta ad indicare che la somma può
proseguire all'infinito. È un'estensione del concetto di somma che, anche se implicitamente, abbiamo già
incontrato più volte. Ad esempio la scrittura 1.111
, ad intendere che il numero prosegue con una successione infinita
di "1", potrebbe essere sostituita da
| La variabile casuale X può assumere i valori 0, 1 e 2 con le probabilità 0.35, 0.45 e 0.20. Qual è la media di X? |
|
Ho sei botti in cantina, 3 di barbera e 3 di dolcetto. Voglio del dolcetto
ma non mi ricordo più in quali botti sia. Allora assaggio del
vino da ogni botte, fino a che trovo quella giusta. Qual è il
numero medio di assaggi che dovrò fare? [devi ottenere 1.7] |
Come abbiamo richiamato all'inizio del paragrafo, nel caso dell'uscita U del lancio di due dadi equi
l'istogramma di distribuzione di U ha forma simmetrica rispetto alla retta di ascissa 7: quindi la media è M(U) = 7.
Osserviamo che le distribuzioni U1 e U2 delle uscite dei due singoli dadi hanno media
se X e Y sono variabili casuali numeriche con medie
Questa proprietà è abbastanza evidente; si pensi ad un esperimento con n prove:
M(X+Y) = ((x1+y1)+...+(xn+yn)) / n =
(x1+...+xn)/n +
Nota. Data una variabile casuale numerica X diciamo che
la media dei valori assunti da X in un certo numero n di "prove" è una
media sperimentale (o media empirica o media statistica)
di X. A volte questo numero viene indicato con
In modo del tutto analogo avviene il passaggio dalla varianza sperimentale a quella teorica, sostituendo le probabilità alle frequenze relative. Considerazioni analoghe valgono per la mediana.
Vediamo quanto vale la varianza delle uscite di un dado equo, che abbiamo
visto avere 3.5 come valor medio:
((1−7/2)²
+ (2−7/2)²
+ (3−7/2)²
+ (4−7/2)²
+ (5−7/2)²
+ (6−7/2)²)/6
= 35/12.
5. Leggi di distribuzione (variabili continue)
La variabili casuali considerate nel §1 (durate e tempi di arrivo delle telefonate) e nel primo esempio
illustrato nel §4 (le uscite del generatore di numeri casuali) erano praticamente continue ("praticamente"
perché, in realtà, i tempi li misuriamo con un orologio, che non ci dà dei tempi
esatti, ma delle approssimazioni, e il generatore di numeri casuali non ci fornisce un generico numero
reale, ad infinite cifre, ma solo un numero limitato). Per un altro esempio di pensi alla
somma di due uscite del generatore di numeri casuali: n <- 1e5; U1 <- runif(n); U2 <- runif(n); mean(U1+U2) # 1.002107 hist(U1+U2, probability=TRUE, col="grey90") abline(v=axTicks(1), h=axTicks(2), col="blue",lty=3) lines( c(0,1,2), c(0,1,0) ,lty=2, col="brown", lwd=2) |
Nel caso discreto l'istogramma sperimentale all'aumentare delle prove tende a stabilizzarsi
sull'istogramma teorico, che racchiude una superficie di area 1,
nel caso continuo tende a stabilizzarsi su una curva che racchiude con l'asse x una superficie di area 1. Nel primo esempio del §4 e nel caso illustrato sopra si tratta, rispettivamente, di un rettangolo di base 1 e altezza 1 e di un triangolo di base 2 e altezza 1 (a lato sono illustrate le due situazioni). |
In questi casi è facile determinare l'area tra curva ed asse x. La cosa può
essere fatta nel caso di una qualunque funzione continua F definita in un intervallo I =
Quando la funzione non è descritta con un nome ma
direttamente con un'espressione, come
Rinviamo alla scheda sulla integrazione come effettuare il calcolo
in questi casi. Se non hai già affrontato questa scheda puoi esercitarti facendo qualche semplice esempio
con WolframAlpha (prova a
digitare per esempio integrate x from x=0 to 1,
integrate 1 from x=0 to 1,
integrate abs(x) from x=-1 to 1,
integrate 1-abs(x-1) from x=0 to 2,
integrate x^2 from x=-1 to 2).
L'integrale si può calcolare anche per vari tipi di funzioni non continue. Per i
nostri scopi è sufficiente considerare funzioni definite su un intervallo che ivi siano
continue "a tratti", come quella raffigurata a lato: la funzione parte intera. Il suo integrale
tra 2 e 4 è la somma degli integrali tra 2 e 3 e tra 3 e 4, ossia 2+3 = 5 (puoi verificare
la cosa con WolframAlpha digitando integrate floor(x) from x=2 to 4). Tieni dunque presente (anche se non approfondiremo questo aspetto) che anche l'area di un istogramma può essere interpretata come calcolo di un integrale. |
L'eventuale funzione sul cui grafico (aumentando il numero delle prove e riducendo l'ampiezza degli intervallini) si stabilizza l'istogramma sperimentale di una data variabile casuale numerica si chiama funzione di densità. L'area che sta tra il suo grafico e l'asse x, nell'intervallo in cui la variabile è definita, vale 1 (il nome è una naturale estensione del termine densità di frequenza con cui abbiamo chiamato la frequenza relativa unitaria). Sotto a destra sono rappresentati i grafici delle funzioni su cui tendono a stabilizzarsi gli istogrammi dei tempi tra le telefonate e delle durate delle telefonate considerati nel primo paragrafo. Vedremo in una prossima scheda come descrivere tali funzioni mediante formule.
| U è una variabile casuale continua a valori in [1,3] con legge di distribuzione uniforme. Traccia il grafico della sua funzione densità. |
| V ha la stessa legge di distribuzione della variabile casuale U del quesito precedente. Sia W = U+V. Traccia il grafico della funzione densità di W. |
L'integrazione ci consente di estendere il calcolo dell'area di un
istogramma a quello della superficie che sta sotto ad una curva. Ad esempio
nel caso di una variabile casuale U con una distribuzione come quella raffigurata a lato abbiamo
|
Sia f la densità di U. Posso definire la media M(U) di U in analogia al caso discreto: se U fosse stata a valori in {v1, v2, v3, } avrei avuto nel caso continuo analogamente ho M(U) = ∫ I x·f(x) dx |
Posto μ = M(U) ho che
Consideriamo ad esempio la
distribuzione uniforme in [0,1),
già discussa sopra, che ha come densità μ = 0 ∫ 1 x·f(x) dx = 0 ∫ 1 x dx = 1/2 (è l'area del triangolo raffigurato). Calcoliamone la varianza V: V = 0 ∫ 1 (x−μ)²·f(x) dx = 0 ∫ 1 (x−1/2)² dx = 1/12 [ 0 ∫ 1 (x−1/2)² dx = [(x−1/2)³/3]x=1−[(x−1/2)³/3]x=0 = 1/2³/3+1/2³/3 = 1/12, ovvero con WolfamAlpha mettendo l'input "integrate (x-1/2)^2 from x=0 to 1" ] |
|
da cui: sqm = √(1/12) = 1/√12. |
Vediamo come si potrebbe calcolare l'ultimo integrale con R:
g <- function(x) (x-1/2)^2 |
| Calcola (a mano e/o con WolfamAlpha e/o con R, a seconda delle indicazioni che ti dà l'insegnante) la media e lo scarto quadratico medio della prima variabile casuale considerata nel paragrafo (quella con funzione densità ad andamento "triangolare"). |
In una successiva unità didattica svilupperai ulteriormente questi argomenti.
6. Approfondimenti
Uno
Se X è una distribuzione e k è un valore costante diversa da 0,
con X+k, X-k, kX e X/k possiamo indicare le distribuzioni aventi i valori, rispettivamente, aumentati, diminuiti, moltiplicati o divisi per k, e le stesse frequenze di X.
Ad esempio se X è la distribuzione:
980 con frequenza 3, 990 con freq. 5, 1010 con freq. 7, 1030 con freq. 5,
posso indicare con X-1000 la distribuzione:
-20 con freq. 3, -10 con freq. 5, 10 con freq. 7, 30 con freq. 5,
e con (X-1000)/10 la distribuzione:
-2 con freq. 3, -1 con freq. 5, 1 con freq. 7, 3 con freq. 5.
Per calcolare M(X) posso ricondurmi al calcolo della media di questa nuova distribuzione, ossia al calcolo di
(-2·3-1·5+1·7+3·5)/(3+5+7+5) =
(-6-5+7+15)/20 = 11/20
e poi fare: 11/20 · 10 + 1000 = 5.5 + 1000 = 1005.5.
Infatti M(X+k) = M(X)+k:
se sostituisco ogni dato x con x+k anche la media viene variata di k
(l'istogramma si sposta orizzontalmente di k, con il suo baricentro - clicca l'immagine
per ingrandirla).
E M(kX) = M(X)·k: se sostituisco ogni dato x con kx anche la media si moltiplica per k (ad es., se dilato l'istogramma raddoppiando le ascisse e dimezzando le ordinate: l'area deve rimanere = 100% = 1 anche l'ascissa del baricentro raddoppia - clicca l'immagine per ingrandirla).
Nel caso del nostro esempio abbiamo usato prima M(X+k) = M(X)+k con k = -1000,
poi M(X·k) = M(X)·k con k = 1/10.
Queste proprietà sono comode nel calcolo a mano o mentale, ma anche impiegando una calcolatrice, in modo da diminuire il numero di tasti da battere, risparmiando tempo e riducendo la probabilità di commettere errori di battitura.
Se si usa R queste "comodità" (semplici ed utili da imparare per fare
calcoli e stime a mente) si possono evitare con:
dati <- c(rep(980,times=3),rep(990,times=5),rep(1010,times=7),rep(1030,times=5))
mean(dati)
si ottiene 1005.5.
Due
Nel caso dell'uscita U del lancio di due dadi equi, qual è la varianza?
Anche per la varianza si ha:
Var(U1+U2) = Var(U1)+Var(U2) = 35/12 + 35/12 = 35/6.
Questa proprietà vale, però, se X e Y sono indipendenti, non in generale.
Si pensi, come "controesempio", al caso in cui X sia
il numero sulla faccia superiore di un dado equo e Y sia quello sulla faccia inferiore. Se lancio il dado sia X che Y di distribuiscono uniformemente,
con media 3.5 e varianza 35/12. Le facce opposte di un dado hanno numeri
che sommati danno 7, per cui X+Y vale sempre 7. La media è dunque 7,
in accordo col fatto che 3.5+3.5=7, ma la varianza è 0 in quanto
X+Y ha valore costante.
Non dimostriamo questa proprietà.
Possiamo controllarla sperimentalmente con R (esegui le istruzioni seguenti,
riferite al caso dei due dadi equi; modificandolo puoi studiare altre leggi):
n <- 1e7
U1 <- floor(runif(n)*6)+1; U2 <- floor(runif(n)*6)+1
V1 <- sum( (U1-mean(U1))^2/n); V2 <- sum( (U2-mean(U2))^2/n)
V <- sum( ((U1+U2)-mean(U1+U2))^2/n)
V; V1; V2; V1+V2
Analogamente si può controllare sperimentalmente che se X e Y sono indipendenti vale anche
7. Esercizi
|
Nella tabella a lato sono riportati gli esiti dei rilevamenti della pressione arteriosa massima in un gruppo di maschi quarantenni (nella colonna 1 i valori, nella 2 le frequenze assolute).
I dati sono espressi in millimetri di mercurio (mm Hg) e arrotondati alle cinquine. Determinane (usando al più una calcolatrice non programmabile) mediana, distanza interquartile, media, varianza e s.q.m.. Controlla eventualmente i risultati utilizzando opportuno software. |
|
| Qui trovi i dati (arrotondati) relativi alle altezze e ai pesi di un gruppo di alunni maschi di 2ª media di una scuola della provincia di Genova. Analizzali statisticamente (eventualmente col software R). |
| Un sacchetto di semi scaduto ne contiene sei ancora buoni e quattro che non lo sono più. Se si prendono tre semi a caso dal sacchetto, qual è il "valore atteso" di quelli buoni tra questi? |
| La variabile casuale X può assumere i valori 0, 1 e 2 con le probabilità 0.2, 0.5 e 0.3. Sia Y = X2. Qual è la media di X? e quella di Y? |
| Ho scritto N lettere e ho scritto i rispettivi indirizzi su N buste. Mi cade tutto. Rimetto le lettere a caso nelle buste. Ipotizzando che l'inserimento sia del tutto casuale (ossia che una lettera possa finire con uguale probabilità in tutte le buste), qual è il numero medio di lettere che vengono messe nella busta corretta? |
| Calcola la varianza e lo scarto quadratico medio del punteggio di un dado non truccato. |
| Un ricercatore rileva il tempo in ore di vita di 50 batteri ottenendo la media 1.34 e la varianza 0.22. Esprimendo il tempo in minuti, quali sarebbero la media e la varianza? |
|
X varia casualmente in [0,2], con legge di distribuzione avente come funzione densità f tale che f(x) = x/2 per ogni x in [0,2]. Qual è la sua mediana? (A) 1 (B) 1/2 (C) √2 (D) 1/√2 (E) 1/3 |
| Se a un certo insieme di dati numerici ne aggiungo uno uguale al minimo di essi, la media e la varianza aumentano, diminuiscono, rimangono invariate o dipende dai casi? E se ne aggiungo uno uguale alla loro media? |
| Abbiamo osservato nel quesito 5 che la differenza dei quadrati degli scarti di un insieme di dati da un fissato numero p è minima quando p è uguale alla loro media. Prova a dimostrare questa cosa. |
1) Segna con l'evidenziatore, nelle parti della scheda indicate, frasi e/o formule che descrivono il significato dei seguenti termini: indici di posizione (§2), indici di dispersione (§2), distanza interquartile (§2), varianza (§2), scarto quadratico medio (§2), variabili casuali continue (§4), variabili casuali discrete (§4), media di una variabile casuale (§4), funzione densità (§5), media e varianza di una variabile casuale continua (§5). 2) Su un foglio da "quadernone", nella prima facciata, esemplifica l'uso di ciascuno dei concetti sopra elencati mediante una frase in cui esso venga impiegato. 3) Nella seconda facciata riassumi in modo discorsivo (senza formule, come in una descrizione "al telefono") il contenuto della scheda (non fare un elenco di argomenti, ma cerca di far capire il "filo del discorso"). |