Quale matematica per i fenomeni casuali?

I primi strumenti per descrivere posizione e dispersione dei dati

  0. Introduzione
  1. Una situazione problematica
  2. Indici di posizione e di dispersione
  3. Notazioni
  4. Leggi di distribuzione (variabili discrete)
  5. Leggi di distribuzione (variabili continue)
  6. Approfondimenti
  7. Esercizi
Sintesi

0. Introduzione

    Riprendiamo e approfondiamo lo studio dei fenomeni casuali, che abbiamo già avviato nel biennio, in particolare nella scheda 3 de Le statistiche e nella scheda Calcolo delle probabilità.  Prima di proseguire rileggi queste schede, o la sintesi presente nelle voci degli Oggetti Matematici da  distribuzione  a  campionamento, e da  calcolo delle probabilità  a  dipendenza e indipendenza.

1. Una situazione problematica

    L'organizzazione di vendite televisive Ventel utilizza le strutture e il personale (centraliniste) di una agenzia specializzata (che offre i suoi servizi a diverse organizzazioni di vendita) per ricevere ordinazioni telefoniche tra le 14 e le 16. Le trasmissioni della Ventel vanno in onda tra le 14 e le 14:20 e tra le 15:10 e le 15:30.
    La Ventel vuole studiare quante linee (e centraliniste) conviene richiedere alla agenzia. Il servizio non prevede liste di attesa: se non c'è una linea libera il potenziale acquirente trova occupato.  Per fare questo studio la Ventel chiede alla ditta specializzata Telstat di studiare i tempi di arrivo delle telefonate (la Telstat è in grado di individuare anche le telefonate che, arrivate al centralino, trovano occupato) e le durate delle telefonate che riescono a prendere la linea.

    Possiamo simulare i rilevamenti effettuati dalla Telstat mediante alcuni programmi.  Qui puoi accedere ad essi ed eseguirli (capisci ciò che producono, senza preoccuparti del modo in cui sono costruiti, come del resto farebbe la Ventel).
    Ecco a destra l'esito di una di queste simulazioni e, sotto, l'esito della "media" di una ventina di simulazioni, che, rispetto al fenomeno effettivo, assume un andamento più "liscio".
  

 1 
   Qual è l'intervallo di tempo in cui le telefonate arrivano più frequentemente? Perchè dal grafico precedente posso ricavare che in questo intervallo vi sono circa una telefonata ogni 9 secondi?





 2 
   Occupiamoci, ora, delle durata delle telefonate. La ditta Telstat, studiata la situazione, simula il rilevamento della durata delle telefonate. Qui puoi accedere a programmi che eseguono queste simulazioni. Ottieni esiti simili a quello a fianco (la forma dell'istogramma e il valor medio possono leggermente cambiare). La durata media di una telefonata è circa di 50 sec. Quante linee telefoniche sono necessarie per non perdere telefonate? Perchè?




 

    Nell'ipotesi che arrivi e durate delle telefonate abbiano esattamente questo regime, sembra che basti questo numero di linee: riesco infatti a prendere telefonate che arrivino ogni 9 secondi e che durino fino a 54 secondi (9·6 = 54), e 54>50. In altre parole, se si misura il tempo a partire dalla 1ª telefonata, al 9° sec arriva la 2ª telefonata e occupa la seconda linea, …, al 45° sec arriva la 6ª telefonata e occupa la 6ª linea, cioè l'ultima linea rimasta libera; al 50° sec si libera la prima linea, per cui la 7ª telefonata che arriva al 54° sec trova una linea in cui inserirsi; al 59° sec si libera la seconda linea, per cui …; e così via.

    Ma, da una parte, possono capitare telefonate che durano meno della durata media e telefonate che durano di più, per cui possono rimanere delle linee libere o, viceversa, si possono perdere delle telefonate. D'altra parte anche il tempo tra una telefonata e la successiva non è sempre 9 secondi: anch'esso è variabile.

 3 
   Se analizzo con un programma come questo i tempi tra una telefonata e l'altra ottengo uscite grafiche e numeriche simili a quelle qui, a destra e sotto, riprodotte.  Quali sono le differenze principali tra i dati precedenti (durate delle telefonate) e questi (distanze temporali tra arrivi successivi)?
 Min.  1st Qu  Median  Mean  3rd Qu.  Max.
0.084   2.611  6.875  8.945  12.34   47.13





 

    La soluzione che abbiamo ottenuto nel quesito 2 non teneva conto della casualità dei tempi che passano tra una telefonata e la successiva e dei tempi di durata delle telefonate. Avevamo, infatti, erroneamente, schematizzato la situazione con un modello deterministico: utilizzando i valori medi prevedevamo esattamente come al passare del tempo si sarebbe modificato lo stato del centralino.

    La media aritmetica, per il nostro problema, non è un concetto matematico sufficiente a caratterizzare tempi di arrivo e durate delle telefonate.  Vediamo di individuare strumenti matematici più efficaci per i nostri scopi. Vedremo poi, più avanti, come è possibile approssimare istogrammi come i precedenti con i grafici di opportune funzioni.

2. Indici di posizione e di dispersione

    Data una sequenza di informazioni di tipo numerico, eventualmente già classificate, i suoi valori medi (media, moda e mediana) vengono chiamati anche indici di posizione in quanto indicano, con diverse caratterizzazioni, la zona dell'asse numerico in cui tali dati cadono con maggiore frequenza.
    Abbiamo già osservato che il confronto tra i diversi indici di posizione può dare anche indicazioni sulla forma dell'istogramma di distribuzione.   Ad esempio affinché la rappresentazione grafica sia simmetrica rispetto a un asse verticale è necessario (non sufficiente) che media e mediana coincidano.   Invece se la rappresentazione grafica è più o meno a forma di campana ma allungata verso destra [sinistra], la media è maggiore [minore] della mediana.
    Una interpretazione fisica del fenomeno è che la mediana rappresenta l'ascissa in cui praticare un taglio verticale che divida l'istogramma in due parti di area uguale, mentre la media è l'ascissa del baricentro dell'istogramma, ossia del punto dell'asse orizzontale per cui appenderlo in modo che, capovolto, rimanga con la base orizzontale.
    Nella figura riprodotta sotto sono rappresentate le distribuzioni delle età dei morti in Italia nel decennio 1881-90, nel 2006; indichiamole E1 ed E2.
    Le rispettive medie sono 28 e 81: un morto nel 1890 aveva mediamente 28 anni, 58 nel 1950 e 75 nel 1990.  Usando M per indicare la media:
M(E1) = 28 e M(E2) = 81.  Le età mediane di morte sono invece, in ordine, 8 e 84:  Mediana(E1) = 8 e Mediana(E2) = 84.
    Il fatto che, nel 1890, la media abbia un valore molto maggiore della mediana (mascherando in parte il fenomeno della mortalità infantile) è dovuto alla lunga coda destra che fa aumentare il risultato del calcolo della media. Nel 2006, invece, la media è inferiore alla mediana a causa della coda sinistra; la differenza in questo caso è lieve in quanto si tratta di una coda molto "sottile", e quindi non incide molto sul risultato.

1st Q. Median  Mean   3rd Q. 
2.615  7.553  28.190  57.750 
1st Q. Median  Mean   3rd Q. 
75.50  83.89  81.10   90.25

Qui vedi come ottenere le precedenti rappresentazioni.

    Sono chiamati indici di dispersione degli indicatori numerici che danno un'idea quantitativa di come i dati sono più o meno sparpagliati. Riferiamoci alle stesse distribuzioni considerate sopra.
    In 120 anni, oltre a uno spostamento verso destra della zona in cui si concentrano le età di morte (testimoniato dall'aumento sia della media che della mediana), possiamo osservare un maggiore addensamento dei dati: l'istogramma assume una forma più tozza.  Questa percezione intuitiva può essere precisata considerando l'intervallo in cui si colloca il 50% centrale dei dati, ossia i dati che vanno dal 25° al 75° percentile, ossia dal 1° al 3° quartile: da circa [3, 58] (il 25% dei morti aveva età che non superava i 3 anni e il 75% età che non superava i 58 anni) passa a circa [75, 90]. Questi valori sono stati evidenziati anche sugli istogrammi, oltre che nei box-plot.  La ampiezza di questo intervallo viene chiamata distanza interquartile e viene in genere indicata con il simbolo IQR (InterQuartile Range). Questo è l'indice di dispersione più usato.

 4 
   Nei 120 anni considerati sopra la distanza interquartile passa da circa   …   a circa   … 

    Un altro modo per valutare la dispersione di una sequenza di N dati x1, x2, … xN può essere quello di quantificare opportunamente il loro livello di concentrazione attorno a un indice di posizione p. Potremmo valutare gli scarti x−p dei singoli dati da p e farne la media, ma in questo modo scarti positivi e negativi si compenserebbero tra di loro. Per evitare ciò possiamo considerare la media mQ dei loro quadrati.
    Consideriamo ad esempio i dati 13, 15, 18, 22, 25:

 5 
   Osserva le seguenti uscite. Che cosa puoi notare? Quale potrebbe essere il valore di p per cui mQ è minimo?

dati <- c(13,15,18,22,25);  n <- length(dati); m <- mean(dati); n; m
#     5   18.6
mQ <- function(p) {s <- 0; for(i in 1:n) s <- s+(dati[i]-p)^2; s/n}
plot(mQ,10,30)
dev.new(); plot(mQ,18,19)

    In effetti si può dimostrare (vedi l'esercizio e10) che la media dei quadrati degli scarti da p è minima quando p è la media dei dati.  Quindi posso considerare questo valore come un indice della dispersione dei dati attorno alla media. Esso viene chiamato varianza.  In altre parole, per N dati x1, …, xN di media μ ("μ" è la lettera greca "mu", o "mi"), si pone:

varianza(x1 μ)2 + (x2 μ)2 + … (xN μ)2
——————————————
N 

    La varianza è quindi la media dei "quadrati" degli scarti dalla media. Per ottenere un valore con ordine di grandezza confrontabile con quello degli scarti dobbiamo applicare alla varianza la "radice quadrata", ossia considerare:

scarto quadratico medio = varianza( (x1 μ)2 + (x2 μ)2 + … (xN μ)2)1/2
———————————————
N

 6 
   Qual è lo scarto quadratico medio dei cinque dati del quesito precedente?

    Nelle formule useremo Var e sqm per indicare la varianza e lo scarto quadratico medio.

    Ecco come fare i calcoli precedenti usando R:
dati <- c(13,15,18,22,25)
V <- function(dati) sum((dati-mean(dati))^2)/length(dati)
sqm <- function(dati) sqrt(V(dati))
mean(dati); sqm(dati)
# 18.6   4.409082

3. Notazioni

    Per evitare di usare i puntini ("...") per descrivere una somma di un numero variabile di addendi si usa il simbolo Σ (detto sommatoria e costituito dalla lettera maiuscola greca "sigma"). Ecco un esempio:

10n2 = 385    
Σ
n = 1
si legge "la somma di n2 per n da 1 a 10 è uguale a 385" e abbrevia la scrittura:
12+22+32+42+52+62+72+82+92+102 = 385

    Per comodità di scrittura a volte si usano notazioni più compatte:  n = 1..10 n²  o  n n² (se è chiaro dal contesto quali siano il valore iniziale e quello finale dell'indice n).  Ecco come fare il calcolo precedente con R: 
a <- function(n) n^2    # a(n) elemento n-esimo della sommatoria
S <- function(n) sum(a(1:n));  S(10)   # somma a(1)+...a(10)

    Se la distribuzione X ha x1, …, xN come valori e f1,…,fN come frequenze,
il totale dei dati è  f1 +…+ fN,
la somma totale dei valori è  x1·f1 +…+ xN·fN
e la sua media M(X) può essere descritta con:

M(X) =  N(xk· fk) / Nfk
ΣΣ
k = 1k = 1
   o con:   
M(X) =  N(xk· frk)
Σ
k = 1

se frk indica la frequenza relativa del valore xk:  frk = fk / Totale,  Totale = Σk fk.

    Ad es. se so che in un cineclub il 70% degli spettatori sono soci e hanno pagato 3 € mentre gli altri hanno pagato 5 €, posso dire che mediamente uno spettatore ha pagato:  3·70% + 5·30% = 3·0.7 + 5·0.3 = 2.1+1.5 = 3.6 €.
    Con R posso fare i calcoli esplicitamente, oppure posso usare il comando weighted.mean ("media pesata"):
x <- c(3, 5); fr <- c(70, 30)/100; sum(x*fr)
# ottengo 3.6
weighted.mean( c(3,5), c(70,30) )
# ottengo 3.6

    La varianza è la media di ( X–μ )² dove μ = M(X). Ossia è la media di (X – M(X))².  In modo compatto può essere descritta come  Var(X) = M( (X – M(X))² ).
    Nel caso di dati espressi con le frequenze, come quelli del precedente esempio, con R posso, ad es., procedere nei due modi seguenti:
x <- c(3, 5); fr <- c(70, 30)/100; m <- sum(x*fr)
m; V <- sum( (x-m)^2*fr ); sqrt(V)
# ottengo 3.6   0.9165151
m <- weighted.mean( c(3,5), c(70,30) )
V <- weighted.mean( c(3-m,5-m)^2, c(70,30) ); m; sqrt(V)
# ottengo 3.6   0.9165151

4. Leggi di distribuzione (variabili discrete)

    Nella scheda sul Calcolo delle probabilità, nel §3 e nel §4, abbiamo considerato  sia variabili casuali che possono variare con continuità su tutto un intervallo di numeri reali, e che vengono dette variabili casuali continue,  sia variabili casuali che possono assumere solo valori "separati" l'uno dall'altro, elencabili in una successione, e che vengono dette variabili casuali discrete.  Sotto sono riprodotti gli studi sperimentali di una variabile casuale continua (numeri reali a caso distribuiti uniformemente tra 0 ed 1) e di due discrete (esiti del lancio di un dado equo ed esiti del lancio di due dadi equi). Sono calcolate anche le medie sperimentali; quelle teoriche in questi casi sono 0.5, 3.5 e 7.  In questo paragrafo approfondiremo lo studio delle variabili casuali discrete.

n <- 1e5; U <- runif(n); mean(U)
hist(U, probability=TRUE, col="grey90")
abline(v=axTicks(1), h=axTicks(2), col="blue",lty=3)
#  0.5005456
n <- 1e5; U <- floor(runif(n)*6)+1; mean(U)
hist(U, seq(0.5, 6.5, 1), probability=TRUE, col="grey90")
abline(v=axTicks(1), h=axTicks(2), col="blue",lty=3)
#  3.51121
n <- 1e5; U1 <- floor(runif(n)*6)+1; U2 <- floor(runif(n)*6)+1; mean(U1+U2)
hist(U1+U2, seq(1.5, 12.5, 1), probability=TRUE, col="grey90")
abline(v=axTicks(1), h=axTicks(2), col="blue",lty=3)
#  7.00371

    Osserviamo che una variabile casuale discreta può essere non finita. Pensiamo al numero N dei lanci di una moneta equa da effettuare fino ad ottenere l'uscita di "testa" (T).
Al 50% N=1, ossia viene T al primo lancio: Pr(N=1) = 1/2.
La probabilità che venga T si mantiene la stessa nei lanci successivi, ma via via, ovviamente, rispetto all'inizio dei lanci essa si dimezza (vedi grafo sotto a destra): Pr(N=2) = (1/2)/2 = 1/4 = 25%.
La probabilità Pr(N=3) che T venga al terzo lancio è (1/2)(1/2)(1/2) = 1/23 = 1/8 = 12.5%.
In generale:  Pr(N = h) = 1/2h
    A sinistra è tracciata parte dell'istogramma di distribuzione di N:  è un esempio di figura illimitata (la base dell'istogramma prosegue senza fine a destra) con area finita (uguale a 1).

   

    Nel caso statistico la media di una distribuzione X la possiamo ottenere sommando i prodotti dei valori xk per le loro frequenze relative frk (corrispondenti alle aree delle colonne dell'istogramma sperimentale), nel caso di una variabile casuale X che possa assumere i valori x1, x2, … faremo analogamente la somma dei prodotti dei valori xk per le loro probabilità Pr(X = xk) (corrispondenti alle aree delle colonne dell'istogramma teorico):

M(X)  =  Σk (xk· frk)   diventa   M(X)  =  Σk (xk· Pr(X = xk))

    La media di una variabile casuale X a volte viene chiamata anche speranza matematica o valore atteso ("expected value" in inglese) di X, e indicata E(X).

    Qual è la media nel caso del numero N dei lanci da effettuare per ottenere testa considerato sopra?

1/2  +2·1/(22) +3·1/(23) +4·1/(24) +5·1/(25) ... +10·1/(210)+... = 2
1/211.3751.6251.78125 ...1.98828125

    I calcoli fatti con R:
n <- 1; s <- 0; for(i in 1:n) s <- s+i*1/2^i; s
n <- 10; s <- 0; for(i in 1:n) s <- s+i*1/2^i; s
n <- 100; s <- 0; for(i in 1:n) s <- s+i*1/2^i; s
#   0.5   1.988281   2

    In questo caso, a differenza di quelli all'inizio del paragrafo, la media non coincide con la mediana ma è più grande.

    In questo esempio l'ultimo "..." sta ad indicare che la somma può proseguire all'infinito. È un'estensione del concetto di somma che, anche se implicitamente, abbiamo già incontrato più volte. Ad esempio la scrittura 1.111…, ad intendere che il numero prosegue con una successione infinita di "1", potrebbe essere sostituita da 1+1/10+1/100+1/1000+…. In questo caso si tratta di una somma che, calcolandola per un numero di addendi via via crescente, si avvicina sempre più ad un numero, appunto a 1+1/10+1/100+1/1000+…, che in questo caso potremmo scrivere anche in forma finita: 1+1/9; infatti 1/9 = 0.111….  Per un esempio analogo, 1.999… = 1+9/10+9/100+9/1000+… = 2.  Ovviamente, non in tutti i casi una "somma infinita" è uguale ad un numero. Ad esempio 1+2+3+4+…, all'aumentare del numero di interi che aggiungo, cresce oltre ogni limite.  È chiaro come, in casi simili a quelli richiamati negli esempi iniziali, si possono usare scritture come k = 0 … ∞ 1/10k, 1 + k = 1 … ∞ 9/10k, …, in cui l'uso di viene esteso al caso di una somma di infiniti addendi.

 7 
   La variabile casuale X può assumere i valori 0, 1 e 2 con le probabilità 0.35, 0.45 e 0.20. Qual è la media di X?

 8 
   Ho sei botti in cantina, 3 di barbera e 3 di dolcetto. Voglio del dolcetto ma non mi ricordo più in quali botti sia. Allora assaggio del vino da ogni botte, fino a che trovo quella giusta. Qual è il numero medio di assaggi che dovrò fare? [devi ottenere 1.7]
 

    Come abbiamo richiamato all'inizio del paragrafo, nel caso dell'uscita U del lancio di due dadi equi l'istogramma di distribuzione di U ha forma simmetrica rispetto alla retta di ascissa 7: quindi la media è M(U) = 7.
Osserviamo che le distribuzioni U1 e U2 delle uscite dei due singoli dadi hanno media M(U1) = M(U2) = 3.5, e 7 = 3.5+3.5.  In effetti potevamo dedurre che M(U) = 7 da una proprietà più generale:

se X e Y sono variabili casuali numeriche con medie M(X) e M(Y), la variabile casuale X+Y ha media  M(X+Y) = M(X)+M(Y).

    Questa proprietà è abbastanza evidente; si pensi ad un esperimento con n prove:

M(X+Y) = ((x1+y1)+...+(xn+yn)) / n = (x1+...+xn)/n + (y1+...+yn)/n = M(X) + M(Y)

Nota.  Data una variabile casuale numerica X diciamo che la media dei valori assunti da X in un certo numero n di "prove" è una media sperimentale (o media empirica o media statistica) di X. A volte questo numero viene indicato con Mn(X).  Spesso tuttavia useremo al suo posto il simbolo M() che usiamo per indicare le medie "teoriche": dal contesto si comprende quale interpretazione darne.

    In modo del tutto analogo avviene il passaggio dalla varianza sperimentale a quella teorica, sostituendo le probabilità alle frequenze relative. Considerazioni analoghe valgono per la mediana.

    Vediamo quanto vale la varianza delle uscite di un dado equo, che abbiamo visto avere 3.5 come valor medio:
((1−7/2)² + (2−7/2)² + (3−7/2)² + (4−7/2)² + (5−7/2)² + (6−7/2)²)/6 = 35/12.

5. Leggi di distribuzione (variabili continue)

    La variabili casuali considerate nel §1 (durate e tempi di arrivo delle telefonate) e nel primo esempio illustrato nel §4 (le uscite del generatore di numeri casuali) erano praticamente continue ("praticamente" perché, in realtà, i tempi li misuriamo con un orologio, che non ci dà dei tempi esatti, ma delle approssimazioni, e il generatore di numeri casuali non ci fornisce un generico numero reale, ad infinite cifre, ma solo un numero limitato). Per un altro esempio di pensi alla somma di due uscite del generatore di numeri casuali:
n <- 1e5; U1 <- runif(n); U2 <- runif(n); mean(U1+U2)
# 1.002107
hist(U1+U2, probability=TRUE, col="grey90")
abline(v=axTicks(1), h=axTicks(2), col="blue",lty=3)
lines( c(0,1,2), c(0,1,0) ,lty=2, col="brown", lwd=2)
  

       Nel caso discreto l'istogramma sperimentale all'aumentare delle prove tende a stabilizzarsi sull'istogramma teorico, che racchiude una superficie di area 1,  nel caso continuo tende a stabilizzarsi su una curva che racchiude con l'asse x una superficie di area 1.
    Nel primo esempio del §4 e nel caso illustrato sopra si tratta, rispettivamente, di un rettangolo di base 1 e altezza 1 e di un triangolo di base 2 e altezza 1 (a lato sono illustrate le due situazioni).

    In questi casi è facile determinare l'area tra curva ed asse x. La cosa può essere fatta nel caso di una qualunque funzione continua F definita in un intervallo I = [a, b]:  il suo valore viene indicato  a b F  o  ab F  o  I F  e chiamato integrale di F tra a e b (o su I).
    Quando la funzione non è descritta con un nome ma direttamente con un'espressione, come x → x², si usa l'espressione  I x² dx, o, ad esempio,  I u² du.
    Rinviamo alla scheda sulla integrazione come effettuare il calcolo in questi casi. Se non hai già affrontato questa scheda puoi esercitarti facendo qualche semplice esempio con WolframAlpha (prova a digitare per esempio integrate x from x=0 to 1, integrate 1 from x=0 to 1, integrate abs(x) from x=-1 to 1, integrate 1-abs(x-1) from x=0 to 2, integrate x^2 from x=-1 to 2).

    L'integrale si può calcolare anche per vari tipi di funzioni non continue. Per i nostri scopi è sufficiente considerare funzioni definite su un intervallo che ivi siano continue "a tratti", come quella raffigurata a lato: la funzione parte intera. Il suo integrale tra 2 e 4 è la somma degli integrali tra 2 e 3 e tra 3 e 4, ossia 2+3 = 5 (puoi verificare la cosa con WolframAlpha digitando integrate floor(x) from x=2 to 4).
    Tieni dunque presente (anche se non approfondiremo questo aspetto) che anche l'area di un istogramma può essere interpretata come calcolo di un integrale.
  

    L'eventuale funzione sul cui grafico (aumentando il numero delle prove e riducendo l'ampiezza degli intervallini) si stabilizza l'istogramma sperimentale di una data variabile casuale numerica si chiama funzione di densità. L'area che sta tra il suo grafico e l'asse x, nell'intervallo in cui la variabile è definita, vale 1  (il nome è una naturale estensione del termine densità di frequenza con cui abbiamo chiamato la frequenza relativa unitaria).  Sotto a destra sono rappresentati i grafici delle funzioni su cui tendono a stabilizzarsi gli istogrammi dei tempi tra le telefonate e delle durate delle telefonate considerati nel primo paragrafo. Vedremo in una prossima scheda come descrivere tali funzioni mediante formule.

 9 
   U è una variabile casuale continua a valori in [1,3] con legge di distribuzione uniforme. Traccia il grafico della sua funzione densità.

 10 
   V ha la stessa legge di distribuzione della variabile casuale U del quesito precedente. Sia W = U+V. Traccia il grafico della funzione densità di W.

    L'integrazione ci consente di estendere il calcolo dell'area di un istogramma a quello della superficie che sta sotto ad una curva. Ad esempio nel caso di una variabile casuale U con una distribuzione come quella raffigurata a lato abbiamo  Pr ( a ≤ U ≤ )  =  a f = 1/2.  Ci consente, inoltre, di estendere al caso continuo i concetti di media e di varianza. Vediamo come.   

        Sia f la densità di U. Posso definire la media M(U) di U in analogia al caso discreto:
– se U fosse stata a valori in {v1, v2, v3, …} avrei avuto M(U) = Σvi·Pr(U=vi); nel caso a sinistra avrei 6·34%+7·36%+8·30% = 6.96.
– nel caso continuo analogamente ho  M(U) = I x·f(x) dx

    Posto μ = M(U) ho che Var(U) = M( (U – μ)² ), quindi  Var(U) = I (x-μ)2·f(x) dx  per quanto trovato sopra per il calcolo di M.

    Consideriamo ad esempio la distribuzione uniforme in [0,1), già discussa sopra, che ha come densità f: x → 1, e calcoliamone la media (che sappiamo essere 1/2) usando la formula ora vista:
μ = 0 1 x·f(x) dx = 0 1 x dx = 1/2  (è l'area del triangolo raffigurato).
    Calcoliamone la varianza V:
V = 0 1 (x−μ)²·f(x) dx = 0 1 (x−1/2)² dx = 1/12
[ 0 1 (x−1/2)² dx = [(x−1/2)³/3]x=1−[(x−1/2)³/3]x=0 = 1/2³/3+1/2³/3 = 1/12, ovvero con WolfamAlpha mettendo l'input "integrate (x-1/2)^2 from x=0 to 1" ]
  
    da cui:  sqm = √(1/12) = 1/√12.

    Vediamo come si potrebbe calcolare l'ultimo integrale con R:

g <- function(x) (x-1/2)^2
integrate(g,0,1)
# 0.08333333 with absolute error < 9.3e-16
integrate(g,0,1)$value
# 0.08333333
library(MASS); fractions( integrate(g,0,1)$value )
# 1/12

 11 
   Calcola (a mano e/o con WolfamAlpha e/o con R, a seconda delle indicazioni che ti dà l'insegnante) la media e lo scarto quadratico medio della prima variabile casuale considerata nel paragrafo (quella con funzione densità ad andamento "triangolare").

    In una successiva unità didattica svilupperai ulteriormente questi argomenti.

6. Approfondimenti

Uno

    Se X è una distribuzione e k è un valore costante diversa da 0, con X+k, X-k, kX e X/k possiamo indicare le distribuzioni aventi i valori, rispettivamente, aumentati, diminuiti, moltiplicati o divisi per k, e le stesse frequenze di X.  Ad esempio se X è la distribuzione:
   980 con frequenza 3, 990 con freq. 5, 1010 con freq. 7, 1030 con freq. 5,
posso indicare con X-1000 la distribuzione:
    -20 con freq. 3, -10 con freq. 5, 10 con freq. 7, 30 con freq. 5,
e con (X-1000)/10 la distribuzione:
    -2 con freq. 3, -1 con freq. 5, 1 con freq. 7, 3 con freq. 5.

Per calcolare M(X) posso ricondurmi al calcolo della media di questa nuova distribuzione, ossia al calcolo di M((X-1000)/10):
  (-2·3-1·5+1·7+3·5)/(3+5+7+5) = (-6-5+7+15)/20 = 11/20
e poi fare:   11/20 · 10 + 1000 = 5.5 + 1000 = 1005.5.
    Infatti  M(X+k) = M(X)+k:  se sostituisco ogni dato x con x+k anche la media viene variata di k (l'istogramma si sposta orizzontalmente di k, con il suo baricentro - clicca l'immagine per ingrandirla).

M(kX) = M(X)·k:  se sostituisco ogni dato x con kx anche la media si moltiplica per k (ad es., se dilato l'istogramma raddoppiando le ascisse – e dimezzando le ordinate: l'area deve rimanere = 100% = 1 – anche l'ascissa del baricentro raddoppia - clicca l'immagine per ingrandirla).

    Nel caso del nostro esempio abbiamo usato prima M(X+k) = M(X)+k con k = -1000, poi M(X·k) = M(X)·k con k = 1/10.
    Queste proprietà sono comode nel calcolo a mano o mentale, ma anche impiegando una calcolatrice, in modo da diminuire il numero di tasti da battere, risparmiando tempo e riducendo la probabilità di commettere errori di battitura.
Se si usa R queste "comodità" (semplici ed utili da imparare per fare calcoli e stime a mente) si possono evitare con:
dati <- c(rep(980,times=3),rep(990,times=5),rep(1010,times=7),rep(1030,times=5))
mean(dati)
si ottiene 1005.5.

Due

    Nel caso dell'uscita U del lancio di due dadi equi, qual è la varianza?
    Anche per la varianza si ha:  Var(X+Y) = Var(X)+Var(Y).   Nel nostro caso:

Var(U1+U2) = Var(U1)+Var(U2) = 35/12 + 35/12 = 35/6.

    Questa proprietà vale, però, se X e Y sono indipendenti, non in generale.
    Si pensi, come "controesempio", al caso in cui X sia il numero sulla faccia superiore di un dado equo e Y sia quello sulla faccia inferiore. Se lancio il dado sia X che Y di distribuiscono uniformemente, con media 3.5 e varianza 35/12. Le facce opposte di un dado hanno numeri che sommati danno 7, per cui X+Y vale sempre 7. La media è dunque 7, in accordo col fatto che 3.5+3.5=7, ma la varianza è 0 in quanto X+Y ha valore costante.

Non dimostriamo questa proprietà. Possiamo controllarla sperimentalmente con R (esegui le istruzioni seguenti, riferite al caso dei due dadi equi; modificandolo puoi studiare altre leggi):
n <- 1e7
U1 <- floor(runif(n)*6)+1; U2 <- floor(runif(n)*6)+1
V1 <- sum( (U1-mean(U1))^2/n); V2 <- sum( (U2-mean(U2))^2/n)
V <- sum( ((U1+U2)-mean(U1+U2))^2/n)
V; V1; V2; V1+V2

    Analogamente si può controllare sperimentalmente che se X e Y sono indipendenti vale anche M(X·Y) = M(X)·M(Y). Se si pensa alla definizione di indipendenza la cosa non sorprende.
 

7. Esercizi

 e1 
    Nella tabella a lato sono riportati gli esiti dei rilevamenti della pressione arteriosa massima in un gruppo di maschi quarantenni (nella colonna 1 i valori, nella 2 le frequenze assolute). I dati sono espressi in millimetri di mercurio (mm Hg) e arrotondati alle cinquine.
Determinane (usando al più una calcolatrice non programmabile) mediana, distanza interquartile, media, varianza e s.q.m.. Controlla eventualmente i risultati utilizzando opportuno software.
951
1001
1052
1103
1155
1206
12510
13015
135  21
140  19
14514
15013
 1558
1605
1654
1703
1753
1802

 e2 
    Qui trovi i dati (arrotondati) relativi alle altezze e ai pesi di un gruppo di alunni maschi di 2ª media di una scuola della provincia di Genova. Analizzali statisticamente (eventualmente col software R).

 e3 
    Un sacchetto di semi scaduto ne contiene sei ancora buoni e quattro che non lo sono più. Se si prendono tre semi a caso dal sacchetto, qual è il "valore atteso" di quelli buoni tra questi?

 e4 
    La variabile casuale X può assumere i valori 0, 1 e 2 con le probabilità 0.2, 0.5 e 0.3. Sia Y = X2. Qual è la media di X? e quella di Y?

 e5 
    Ho scritto N lettere e ho scritto i rispettivi indirizzi su N buste. Mi cade tutto. Rimetto le lettere a caso nelle buste. Ipotizzando che l'inserimento sia del tutto casuale (ossia che una lettera possa finire con uguale probabilità in tutte le buste), qual è il numero medio di lettere che vengono messe nella busta corretta?

 e6 
    Calcola la varianza e lo scarto quadratico medio del punteggio di un dado non truccato.

 e7 
    Un ricercatore rileva il tempo in ore di vita di 50 batteri ottenendo la media 1.34 e la varianza 0.22. Esprimendo il tempo in minuti, quali sarebbero la media e la varianza?

 e8 
    X varia casualmente in [0,2], con legge di distribuzione avente come funzione densità f tale che f(x) = x/2 per ogni x in [0,2]. Qual è la sua mediana?
  (A) 1   (B) 1/2   (C) √2   (D) 1/√2   (E) 1/3

 e9 
    Se a un certo insieme di dati numerici ne aggiungo uno uguale al minimo di essi, la media e la varianza aumentano, diminuiscono, rimangono invariate o dipende dai casi? E se ne aggiungo uno uguale alla loro media?

 e10 
    Abbiamo osservato nel quesito 5 che la differenza dei quadrati degli scarti di un insieme di dati da un fissato numero p è minima quando p è uguale alla loro media. Prova a dimostrare questa cosa.

1) Segna con l'evidenziatore, nelle parti della scheda indicate, frasi e/o formule che descrivono il significato dei seguenti termini:

indici di posizione (§2),   indici di dispersione (§2),   distanza interquartile (§2),   varianza (§2),   scarto quadratico medio (§2),   variabili casuali continue (§4),   variabili casuali discrete (§4),   media di una variabile casuale (§4),   funzione densità (§5),   media e varianza di una variabile casuale continua (§5).

2) Su un foglio da "quadernone", nella prima facciata, esemplifica l'uso di ciascuno dei concetti sopra elencati mediante una frase in cui esso venga impiegato.

3) Nella seconda facciata riassumi in modo discorsivo (senza formule, come in una descrizione "al telefono") il contenuto della scheda (non fare un elenco di argomenti, ma cerca di far capire il "filo del discorso").