Scheda 4 - Par. 5

Scheda 4 - Funzioni di densità e di ripartizione

5. PERCENTILI e funzione di RIPARTIZIONE (cumulativa). Alcune variabili casuali funzioni di altre variabili casuali: U=X^2, U=X*Y, U=X+Y con X e Y uniformi in [0,1).

Come vengono calcolate mediana e percentile di ordine p nel caso di una variabile aleatoria continua?

Nel caso discreto [ scheda2,§7] come, ad es., 75° percentile di N (n° teste uscite lanciando 10 monete eque) prendiamo 6 in quanto Pr(N<6)<75% e Pr(N>6)>75%. Graficamente corrisponde al fatto che se vado ad accumulare su ogni colonna dell'istogramma di distribuzione (relativa) di N man mano le colonne precedenti ottengo un istogramma che, procedendo da sinistra, alla quota 0.75 viene intersecato in corrispondenza della colonna che rappresenta Pr(N=6): figura sottostante, a sinistra.

Con STAT si può ottenere il grafico della frequenza relativa cumulata esattamente nello stesso modo in cui si ottiene l'istogramma, a patto di mettere la lettera "C" nel box a sinistra di [S] prima di cliccare [Plot]. Se si mette "C/" invece che a scalini (come sopra a sinistra), il grafico viene realizzato mediante una interpolazione lineare (come sopra a destra).

Nel caso dell'analisi statistica di una variabile casuale ad uscite in un intervallo che sia stata classificata in intervalli di diversa ampiezza, ovviamente, non posso interpretare il grafico della frequenza cumulata come un "accumulo di colonne", se considero rettangoli con basi proporzionali alle ampiezze degli intervalli. A lato è illustrato che cosa si può ottenere con STAT per le frequenze cumulate di mor1, mor2 e mor3 [ scheda1,quesito 8].

E` illustrato anche graficamente come vengono determinati i percentili in questi casi (qui è raffigurata la determinazione della mediana di mor2).

In questi casi posso interpretare il calcolo delle frequenze relative cumulate come il calcolo dell'area di sezioni sinistre dell'istogramma della densità di frequenza: voce percentili degli Oggetti Matematici.

Passando dal caso "statistico" a quello "probabilistico" alla frequenza relativa cumulata sostituiamo la funzione di ripartizione (o di distribuzione cumulativa o funzione integrale di distribuzione) x Pr(U≤x) (oppure, per vari autori, x Pr(U<x), equivalente nel caso continuo), che, se la variabile casuale è continua, permette di esprimere l'area delle sezioni sinistre della superficie sottostante il grafico della funzione densità:

se f è una funzione densità, la corrispondente funzione di ripartizione F è: F(x) = _a ^x f

se F è derivabile, si ha: F' = f.

Nel caso continuo, mentre la mediana è la soluzione dell'equazione F(x)=0.5, il percentile di ordine p è la soluzione dell'equazione F(x) = p/100.

F (come discende immediatamente dalle proprietà delle misure di probabilità) è non decrescente e, per x che tende all'estremo sinistro [destro] dell'intervallo di definizione di f, F(x) tende a 0 [a 1].
A lato è riprodotto parzialmente il grafico della funzione di ripartizione della legge di distribuzione gaussiana standard, di cui abbiamo già considerato una tabulazione.

Se si sa esplicitare F^-1, la soluzione di F(x)=p/100 è esprimibile come F^-1(p/100).

Ad es. per la distribuzione esponenziale ho:
F(x) = ₀^x a e^{– a x} dx = 1 - e^{– a x} e F^-1(x) = –ln(1–x)/a = –ln(1–x)·m.
Quindi la mediana è –ln(1/2)·m.
Seeffettuo questo calcolo prendendo come m la media dei dati T-TELEF2 ( scheda 1, quesito 9: m=8.97) trovo 6.2, in buon accordo con il valore sperimentale, 6.4.

7

Verificare che x 1/(π·(1+x²)) è una funzione densità, determinarne la funzione di ripartizione, rappresentare graficamente le due funzioni.

[tale distribuzione, detta "di Cauchy", non ha media: nota nel paragrafo 4]

Proviamo a studiare sperimentalmente e teoricamente le variabili aleatorie U=X² e V=X·Y con X e Y variabili aleatorie con distribuzione uniforme in [0,1).

Utilizzando opportunamente il programma FA_RND è facile effettuare lo studio sperimentale.

Per V=X·Y posso ottenere, ad esempio l'istogramma (normalizzato) a lato e i valori seguenti. In questo caso, anche senza ricorre a Fa_Rnd.bas, posso generare i dati mettendo direttamente RND*RND in Stat e cliccando [Imp].

1000 dati in 1000 righe min,max: 7.3062115E-12,0.97302345 media: 0.244126661 mediana: 0.185659179 5% :0.00901803814 25% :0.0672926563 50% :0.185659179 95% :0.662939651 75% :0.369439243 percentili sc.quad.med.= 0.21055477

Per individuare la curva a cui tende l'istogramma di distribuzione di RND*RND (in scala verticale normalizzata), interpreto le coppie RND,RND man mano generate come punti che cadono nel quadrato [0,1]².

F(u) = Pr(V≤u) = (area punteggiata)/(area quadrato) = (area punteggiata)/1 = (area punteggiata non tratteggiata) + (area tratteggiata) =

u +
1
dx = u – u · ln u

u

—

x

u

Quindi: f(x) = = = – ln x

dF(x)
d(x – x · ln x)

———
——————

dx
dx

x
x



Per una verifica posso esportare l'istogramma in Poligon, definire f(x)=-log(x) e sovrapporre ad esso il grafico di f tra 0.001 e 1; nella precedente figura contenente l'istogramma appare anche il grafico di f.

Per U=X², con Fa_Rnd.bas e poi Stat, posso ottenere l'istogramma (normalizzato) a lato e i valori seguenti.

Come si vede dall'istogramma, la funzione di densità in 1 non deve valere 0, come nel caso precedente, ma circa 1/2.

1000 dati in 1000 righe min,max: 5.818709E-8,0.9988295 media: 0.318619051 mediana: 0.2284975 5% :0.003274549 25% :0.0673041 50% :0.2284975 95% :0.9048719 75% :0.5241873 percentili sc.quad.med.= 0.28877406

Del resto è facile ricavare che se t ha distribuzione uniforme, posto U=t², P(U≤x)= x e, quindi, f(x)=1/(2x): questa è la "curva limite" dell'istogramma.
La media è l'integrale tra 0 e 1 di x·f(x), cioè di x/2, che vale 1/3, in accordo con il valore ottenuto sperimentalmente.
Anche in questo caso, per una verifica posso esportare l'istogramma in Poligon, definire f(x)=1/(2*SQR(x)) e sovrapporre ad esso il grafico di f tra 0.001 e 1; nella precedente figura contenente l'istogramma appare anche il grafico di f.

8

Studia sperimentalmente e teoricamente la variabile aleatoria U=X+Y con X e Y variabili aleatorie con distribuzione uniforme in [0,1). Calcola Pr(0.5<U<1.2).

Consideriamo, ora, una variabile casuale più "complessa". Prova a risolvere il seguente quesito cercando ragionare in modo analogo a come si è proceduto nel §3 della scheda 3.

9

Un aggregato di persone molto numeroso è composto al 36% da uomini e al 64% da donne.
    Sappiamo che per l'altezza HU (in cm) degli uomini si ha M(HU)=174.2 e σ(HU)=7.1, per quella, HD, delle donne si ha M(HD)=168.1 e σ(HD)=6.8.
Studia (con Poligon) la densità di probabilità dell'altezza di questo aggregato di persone e valuta la probabilità che, estraendo con procedimento uniforme una persona, questa sia alta più di 180.3 cm.
Problema analogo con bambini coetanei al posto di donne con M(HB)=132.4 e σ(HB)=5.6.

<<<     Paragrafo precedente Paragrafo successivo     >>>