5. Determinazione della probabilita` di eventi mediante SIMULAZIONE. LEGGI dei GRANDI NUMERI. PROB.bas. INTERVALLI di CONFIDENZA. Leggi GEOMETRICA e IPERGEOMETRICA.
Proviamo a controllare la soluzione del quesito 8 con una simulazione (programma Sperim.bas):
' n: numero delle prove ' ko: numero delle volte in cui l'apparecchio va fuori uso ' f: numero di dispositivi che restano in funzione ' V=1 se l'apparecchio si guasta, V=0 altrimenti n = 0 : ko = 0 RANDOMIZE TIMER 10 f=0 FOR i=1 TO 10 IF RND<.8 THEN f = f + 1 'simulo un evento con prob. 80% NEXT n=n+1 IF f < 7 THEN V = 1 ELSE V = 0 IF V = 1 THEN ko = ko+1 IF n/500=n\500 THEN PRINT n,ko,ko/n;: INPUT "", x ' stampo la frequenza relativa ogni 500 prove ' attendo Enter per proseguire, Ctrl+C per arrestarmi GOTO 10
A lato è riprodotto un esempio di uscite. C'è un buon accordo con il valore (12.1%) che si era trovato "teoricamente". Come possiamo giustificare procedimenti sperimentali come questo, che abbiamo già usato più volte (scheda 2, ques.4; scheda 3, §1, …)? Con la: | 500 67 .134 1000 129 .129 1500 182 .1213333 2000 235 .1175 2500 297 .1188 3000 373 .1243333 3500 434 .124 4000 508 .127 4500 562 .1248889 5000 617 .1234 ... ... ... |
|
Legge dei grandi numeri di Bernoulli Sia K il numero delle volte che si verifica l'evento E in n prove indipendenti. Allora per n il rapporto K/n "tende a stabilizzarsi" su Pr(E), dove con "tende a stabilizzarsi su… " si intende "converge in probabilità a … ", cioè: ∀ε>0 Pr(|K/n–Pr(E)|<ε) 1 (ovvero Pr(|K/n–Pr(E)|>ε) 0) per n [non è detto che da un certo n in poi valga la diseguaglianza, ma tende a 1 la probabilità che essa valga] |
|
Se indico con V la variabile casuale "valore di verità di E" (V=1 se E è vero, V=0 altrimenti), ho che
Tenendo conto di ciò, si ha subito che il teorema precedente è un corollario della seguente:
|
Legge dei grandi numeri di Cebiscev (o, meglio, y o, all'inglese, Chebyshev) Siano Ui (i intero positivo) n variabili casuali con la stessa legge di distribuzione, con media M(Ui)=m e σ(Ui)=σ, allora la loro media, ossia la variabile casuale ΣiUi/n (i=1,…,n), converge in probabilità a m. |
|
che a sua volta si può dedurre dal teorema limite centrale (ma che si può anche dimostrare direttamente); infatti:
Per il teorema limite centrale posso approssimare ΣiUi/n con Y'n di densità gaussiana con M(Y'n) = m,
Pr ( | ΣiUi/n – m | < ε) Pr ( | Y'n – m | < ε) per n
Pr ( | Y'n – m | < ε) 1; infatti all'aumentare di n M(Y'n) è costante e σ(Y'n) tende a 0. Quindi ho anche:
Pr ( | ΣiUi/n – m | < ε) 1
La legge dei grandi numeri giustifica il procedimento sperimentale per la determinazione delle probabilità considerato sopra.
La legge dei grandi numeri ci consente anche di valutare l'attendibilità dei risultati ottenuti.
Infatti di K/n (=ΣiVi/n, Vi distribuiti come V così definita: V=1 se E è vero, V=0 altrimenti) sappiamo non solo che converge a Pr(E) = M(V), ma sappiamo come si distribuisce: è approssimabile con la gaussiana di media Pr(E) e s.q.m. σ(V)/n. Quindi possiamo valutare la probabilità con cui K/n cade in certo intervallo.
In pratica, con un programma, posso:
ripetere l'esperimento più volte e calcolare man mano la frequenza relativa Fr di successo (cioè ΣiVi/n);
man mano calcolare lo s.q.m. statistico S di V (che approssima σ(V)), usando ( nota 2 in §1) S2 = ΣiVi2/n–(ΣiVi/n)2 = Fr–Fr2 = Fr(1–Fr) (infatti, poiché Vi è 1 o 0, ΣiVi2/n = ΣiVi/n = Fr); potevo anche prendere direttamente Fr(1–Fr) come approssimazione della varianza teorica Pr(E)(1-Pr(E)) (V è una binomiale);
calcolare Sn= S/n (come approssimazione dello s.q.m. teorico di ΣiVi/n);
calcolare Fr – 3·Sn e Fr + 3·Sn, che sono interpretabili come gli estremi dell'intervallo in cui, al 99.7%, cade Pr(E); infatti, approssimativamente, il valore Fr ottenuto di ΣiVi/n dista da Pr(E) meno di Sn al 68.3%, meno di 2·Sn al 95.4%, meno di 3·Sn al 99.7% [ scheda 4, §3].
Ecco, ad esempio, il programma PROB.bas, da completare mettendo nel sottoprogramma Prova istruzioni che simulino l'esperimento che man mano interessa studiare e assegnino a V il valore 1 o il valore 0 a seconda che l'evento considerato si verifichi o no.
Alternativa a Prob.bas. Puoi generare simulazioni di eventi casuali anche usando direttamente il navigatore mediante la costruzione di javascript. Clicca QUI per esempi. |
In una città gli uomini e le donne hanno altezze distribuite come nel quesito 9 della scheda 4 ( in cm, per gli uni la media è 174.2 e lo s.q.m. è 7.1, per le altre la media è 168.1 e lo s.q.m. è 6.8). Mettendo in ProbSper il sottoprogramma a lato si ottengono le uscite sotto riportate. Che cosa si è voluto studiare? Che cosa si può concludere? |
|
n Fr(E) +/- 3 sigma/sqr(n) 10000 26.96 % 1.331256 % 20000 26.515 % .9363784 % 30000 26.48667 % .7642885 % 40000 26.5875 % .6626971 % 50000 26.56 % .5925386 %
10 |
Dalla simulazione ottengo esiti come i seguenti:
n Fr(E) +/- 3 sigma/sqr(n) 10000 12.4 % 0.9887447 % 20000 12.425 % 0.6997527 % 30000 12.46333 % 0.572101 % 40000 12.4625 % 0.4954398 % 50000 12.428 % 0.4426083 % ... ... 100000 12.441 % 0.3131117 % ... ... 200000 12.4775 % 0.2216817 % ... ... 400000 12.44075 % 0.1565545 % ... ... 800000 12.45312 % 0.110748 %
Se mi fermo qui, posso ritenere "praticamente certo" che la probabilità cada tra 12.34% e 12.56%. Facendo altre prove posso ottenere una precisione migliore, ma il miglioramento è "lento": l'intervallo di indeterminazione si riduce come
Nota 1. Invece di assumere come "precisione" 3·Sn potrei prendere 2.58·Sn. Con questa modifica del programma otterrei un intervallo in cui circa al 99% cade la probabilità P cercata (vedi figura a fianco). |
11 |
Vi sono situazioni in cui la valutazione teorica è difficile, come nel caso del quesito 9, o impossibile, per cui risulta decisivo il ricorso alla sperimentazione al calcolatore:
12 |
Un altro esempio. Da un sondaggio su un campione (rappresentativo) di 1000 elettori di una grande città si ha che il 23.2% rivoterebbe il sindaco attuale. La percentuale che si sarebbe ottenuta sull'intera popolazione può differire (con una confidenza del 99.7%) di 1.7 punti percentuali, infatti la varianza p(1–p) (vedi §4) è circa 0.232·(1–0.232), da cui 3σ/n è circa 3/(0.232·(1–0.232)/1000) = 0.0169 = 1.7%.
Nota 2. La legge di distribuzione della variabile casuale N = (numero di volte che occorre lanciare una moneta equa fino a che esca "testa") del quesito 10 viene chiamata legge geometrica. Come s'è visto, se k>1, Pr(N=k) = "probabilità di k–1 fallimenti seguiti da un successo" = 0.5k, Pr(N<k) = 0.5 + 0.52 + … + 0.5k [è una somma geometrica]. Se N = "numero di pezzi prodotti fino a ottenere un pezzo difettoso" e la probabilità di produrre un pezzo difettoso è p, abbiamo la formulazione più generale: Non è difficile trovare che M(N)=1/p e V(N) = 1/p(1/p–1). A lato sono riprodotte, parzialmente, le poligonali di distribuzione nei casi p=0.5 e p=0.3. |
Nota 4. STAT permette di calcolare direttamente, oltre allo s.q.m., la varianza e altri indici, tra i quali qui ricordiamo l'indice di asimmetria, definito, per la variabile casuale X, come M(((X–M(X))3)/σ3: è la media dello scarto cubico (dalla media), divisa per il cubo dello s.q.m. (in modo da "astrarre" dalla dispersione dei dati). Se i dati sono simmetrici rispetto alla media l'indice è nullo; se hanno una coda verso destra è positivo; se l'hanno verso sinistra, l'indice è negativo. Nel caso delle distribuzioni teoriche, l'indice di asimmetria può essere calcolato anche con Poligon. Per l'esponenziale negativa l'indice di asimmetria è 2. Per la distribuzione geometrica è
Nota 5. Ricordiamo, perché usata in alcuni contesti applicativi, la legge di distribuzione ipergeometrica. È la legge della variabile N = "n° di oggetti del tipo V che trovo raccogliendo a caso n oggetti tra una quantità q di oggetti", dato come noto il numero v degli oggetti di tipo V. Si dimostra che:
Pr(N=k) = C(v,k)·C(q–v,n–k)/C(q,n) (k=0, 1, …, n).
A lato e sotto sono riprodotte per vari casi le poligonali di distribuzione della legge ipergeometrica e della binomiale con p=v/q, corrispondente alla raccolta degli n oggetti uno per volta, rimettendo ogni volta a posto l'oggetto estratto. |
Se il "campione" n è piccolo rispetto a v i due procedimenti di estrazione (senza/con "reintroduzione") tendono a coincidere (la cosa è già evidente dai grafici per n=10, v=30): anche senza reintroduzione posso ritenere costante (=v/q) per ognuna delle n estrazioni la probabilità di pescare un oggetto di tipo V.
Densità ipergeometrica in Poligon:
p(x)=!(#v)/(!(#v-x)*!(x))*!(#q-#v)/(!(#q-#v-#n+x)*!(#n-x))*!(#q)/(!(#q-#n)*!(#n))
<<< Paragrafo precedente | Paragrafo successivo >>> |