>>>>>

Scheda 7- Analisi bivariata

2. Legge di DISTRIBUZIONE, funzione di RIPARTZIONE, ISTOGRAMMA, funzione di DENSITA` di U=(X,Y). (IN)DIPENDENZA.

    L'esempio considerato nel §1, oltre a mettere ulteriormente in luce che "prendere a caso" assume significati diversi a seconda della legge di distribuzione a cui ci si riferisce, introduce, appunto, l'opportunità di estendere il concetto di legge di distribuzione dal caso di una variabile casuale a valori numerici al caso di U = (X,Y) con X e Y variabili casuali a valori in IR. Questo viene chiamato anche caso bivariato; si dice anche che U è un sistema di variabili casuali (se non si vuole estendere il nome di variabile casuale a una variabile che rappresenta un elemento di IR2).

    Vediamo, a grandi linee, a livello adulto, come effettuare questa estensione.

    Siano X e Y a valori negli intervalli, rispettivamente, I e J. U ha valori in I J.

    La legge di distribuzione di U è nota quando so calcolare i valori di una misura di probabilità Pr su tutti gli eventi del tipo UE F con E e F sottointervalli di I e J: Pr(UE F) = Pr(XE and YF). Con la additività posso poi valutare Pr(UD) per altri domini D (cioè per altri insiemi ottenibili come "unioni numerabili di rettangolini").

    I punti generati da BERSAGL1 e BERSAGL2 sono esempi di variabili bidimensionali a valori in domini non rettangolari, ma può convenire considerarle definite in un rettangolo I J, [–1,1] [–1,1] o tutto IR2: invece di considerare U a valori nel cerchio C posso considerare V tale che Pr(VE) =Pr(UE) se E è contnuto in C, Pr(VE)=0 se E è esterno a C. Vedi anche fine di §6 della scheda 5.

    La funzione di ripartizione F sarà: F(x,y) = Pr(X≤x and Y≤y).

    Se X e Y sono indipendenti, Pr(UE F) = Pr(XE)·Pr(YF) e F(x,y) = F1(x)·F2(y) (se F1 e F2 sono le funzioni di ripartizione di X e Y).

   

    Nel caso discreto (X e Y variabili discrete) la legge di distribuzione è nota se so calcolare i valori della misura di probabilità Pr su tutti gli eventi del tipo U=(xi,yj) (xi: valori che può assumere X, yj: valori che può assumere Y).

    In tal caso la legge di distribuzione è rappresentabile con un istogramma tridimensionale, come quello sotto a sinistra, realizzato con un foglio elettronico: le altezze delle colonne rappresentano le probabilità Pr(U=(xi,yj)).
    Nella situazione raffigurata sotto a sinsitra (mediante un foglio di calcolo) X = "settore occupazionale" (x1="primario", …) e Y = "sesso" (y1="maschile", …) di un occupato italiano nel 1991 preso "del tutto a caso" (vedi quesito 8 della scheda 3 e relativi commenti); le probabilità (ovvero le frequenze relative) sono qui espresse percentualmente.  A destra come si può presentare un file per analizzare questi dati mediante l'applicazione STAT: A: commenti, B: i dati; in C il calcolo della distribuzione percentuale; sotto la rappresentazione grafica della stessa legge (assieme a quella delle distribuzioni marginali) ottenuta generando con Stat un file poi aperto e visualizzato mediante il programma TreDim, un programma di grafica tridimensionale del software MaCoSa, che consente di cambiare punto di vista, cambiare lunghezza delle porzioni di assi e attivare/disattivare la griglia, scalare diversamente l'asse z, .... Sull'uso di Stat e di TreDim ci soffermeremo nel paragrafo 4.

    A destra è rappresentata la legge di distribuzione di U=(U1,U2), esito del lancio di due dadi equi; è una distribuzione uniforme: le probabilità Pr(U=(xi,yj)) sono uguali.
    Anche questi istogrammi sono stati realizzati con l'applicazione Stat e visualizzati con l'applicazione 3D a cui abbiamo accennato sopra (il secondo rappresenta solo le parti superiori delle colonne, evidenziando meglio che si tratta di una distribuzione uniforme).
    I dati (ossia le coppie delle uscite: 1;1 1;2 … 6;6) possono essere battute direttamente in Stat o copiate dalle uscite prodotte con un script (duedadi.htm).
   

    Con Bivar posso anche analizzare gli esiti dello studio sperimentale della legge di una variabile (X,Y) non discreta. Se analizzo qualche centinaia di coppie (x,y) generate da BERSAGL1, posso rappresentarle sul piano, ottenendo una rappresentazione simile a quella realizzata da BERSAGL1 stesso: questo diagramma (riprodotto sotto a sinistra), detto grafico di dispersione (scatter diagram) mi fa intuire che i punti sperimentali tendono a disporsi uniformemente nel cerchio. Nel caso dei punti generati da BERSAGL2 il diagramma di dispersione (sotto a destra) è più fitto intorno al centro.

    Posso poi rappresentare i due fenomeni con degli istogrammi: classifico i dati dividendo il rettangolo [–1,1] [–1,1] in tanti rettangoli e ottengo nel primo caso colonnine alte quasi uguali in corrispondenza del cerchio, colonnine più basse in corrispondenza dei rettangolini a cavallo del bordo del cerchio, nessuna colonnina fuori dal cerchio; nel secondo caso ottengo un istogramma le cui colonne tendono ad essere più alte man mano che ci si avvicina al centro. Sotto sono riprodotti dei possibili istogrammi (e loro proiezioni realizzate mediante il programma di grafica tridimensionale).

    A lato sono riprodotte le frequenze percentuali nel caso dell'istogramma di Bersaglio1 (10 per 10 quadretti): la frequenza relativa "attesa" di un quadretto (di lato 0.2 e area 0.04) è pari al rapporto tra la sua area e l'area del cerchio: 0.04/π = 1.27%.  
  [-1, 1] x [-1, 1]   NX= 10   NY= 10 
 0.0  0.0  0.4  1.3  1.5  1.2  1.0  0.2  0.0  0.0
 0.0  0.6  1.5  0.8  1.8  0.8  1.4  1.2  0.5  0.0
 0.6  1.3  1.3  1.8  1.5  1.0  1.6  1.4  1.7  0.2
 0.9  1.4  1.5  1.0  1.6  1.4  1.3  1.0  1.5  1.1
 0.9  1.4  1.3  1.4  1.1  1.3  1.4  1.0  1.1  0.9
 1.4  1.0  1.3  1.6  1.0  1.0  1.2  1.4  1.3  1.3
 0.5  1.1  1.1  1.4  1.3  1.5  1.4  1.1  1.1  1.5
 0.3  0.9  1.9  1.1  1.5  1.0  1.3  1.4  1.4  0.3
 0.0  0.5  1.0  1.3  1.5  0.8  1.5  1.2  0.6  0.0
 0.0  0.0  0.6  0.8  1.3  1.5  0.9  0.4  0.0  0.0

    Così come, nel caso univariato, abbiamo visto che (all'aumentare delle prove e all'infittirsi della partizione) l'istogramma sperimentale di una variabile continua U tende a stabilizzarsi sul grafico di una funzione f tale che Pr(c≤U≤d) è pari all'integrale di f tra c e d, così chiameremo continua una variabile bidimensionale per cui esista una funzione a 2 input f (funzione di densità) tale che, per ogni evento del tipo UE F con E e F sottointervalli di I e J (se U varia in I J):
 


E F
f  =  Pr(U E F)

    La superficie grafico di f approssima gli istogrammi sperimentali. Il volume del cilindro verticale avente per base il dominio D e limitato superiormente dal grafico di f è Pr(UD).  Ovviamente:
 


I J
f  =  1

2

 Qual è la funzione densità della variabile U=(X,Y) studiata sperimentalmente con BERSAGLI1?

3

 A lato è raffigurato il grafico di una funzione densità f. Il cerchio di base ha raggio 1 (per (x,y) esterno al cerchio assumo f(x,y)=0). Come sono fatte le curve di livello di f? Quanto vale f(0,0)?

    Sotto sono raffigurate la funzione di densità f corrispondente a BERSAGL2 e alcune relative curve di livello. Tenendo conto che, per come sono generati i punti, il grafico deve essere simmetrico rispetto all'asse z e del fatto che la probabilità che un punto cadi a meno della distanza R da (0,0) è R, si può ricavare che si tratta della superficie generata dalla rotazione attorno all'asse z della curva z=1/(2πx), y=0, 0≤x≤1.

  


bersaglio-2

    La cosa può essere anche congetturata sperimentalmente: nel programma Stat si possono "filtrare" i valori di X per cui Y sta in un "piccolo" intorno di 0; il profilo dell'istogramma di questo file corrisponde alla sezione (realizzata col piano y=0) del grafico della funzione densità. Esportato l'istogramma in Poligon si può cercare di trovare una curva che lo approssima con una delle tecniche viste nel §6 della scheda 6 (vedi figura a lato).

    Si noti che siamo di fronte a una superficie di area infinita che delimita uno spazio di volume finito.

   

4

 In quali dei quattro casi di U=(X,Y) finora considerati (BERSAGL1, BERSAGL2, lancio di 2 dadi, sistema di variabili avente densità che ha per grafico un cono circolare retto) X e Y sono indipendenti? Come si manifesta geometricamente (nell'istogramma di distribuzione o nel grafico della funzione di densità) l'indipendenza?

    Si ha che X e Y (continue) sono indipendenti sse f(x,y) = f1(x)·f2(y), dove f1 e f2 sono le funzioni di densità di X e Y. In altre parole, le sezioni con piani y=k sono tra loro scalate verticalmente (f(x,k) = f1(x)·f2(k)) e una cosa analoga accade per le sezioni con piani x=k. Nel caso discreto, si ha un istogramma tridimensionale le cui righe [colonne] di parallelepipedi sono istogrammi (bidimensionali) che sarebbero tra loro uguali se normalizzati.

    Ciò traduce il fatto che comunque fissi X [Y], la variabile Y [X] si distribuisce sempre allo stesso modo, senza subire influenze.

    Sotto a sinistra è riprodotto il grafico della funzione di densità di U=(X,Y) dove X e Y hanno densità gaussiana di media 0 e s.q.m. 1 e sono indipendenti. Le curve di livello sono cerchi con centro (0,0).
    Comunque sezioni con piani paralleli ai piani xz e yz ottengo grafici ottenibili scalando verticalmente la gaussia di s.q.m. 1 e media 0. Le funzioni densità sono:


                2  2                      2                        2
               x +y                      x                        y
             - —————                   - ———                    - ———
         1       2                1       2                1       2
f(x,y) = ——— e            f1 (x) = ————— e           f2 (y) = ————— e
         (2π)                    (2π)

    Anche la funzione rappresentata sopra a destra è la densità di U=(X,Y) con X e Y aventi densità gaussiana di media 0 e s.q.m. 1, ma in questo caso X e Y non sono indipendenti; ad es., è evidente che le sezioni parallele al piano yz sono curve con il punto di massimo che man mano si sposta verso destra (avanza lungo la direzione dell'asse y). Le curve di livello in questo caso particolare sono ellissi aventi le bisettrici dei quadranti come assi di simmetria.

5

 Quale potrebbe essere una coppia di variabili casuali X e Y (relative a un fenomeno reale) a cui corrisponda una funzione di densità dalla forma simile alla precedente?

<<<     Paragrafo precedente Paragrafo successivo     >>>