>>>>>

Scheda 2 - Misure di probabilità, variabili casuali e leggi di distribuzione

7. MEDIA (valore atteso), MEDIANA, SCARTO QUADRATICO MEDIO di una variabile casuale DISCRETA

    L'istogramma di questa legge di distribuzione (somma uscite due dadi equi) è stato ottenuto fornendo a STAT dati (2 con freq. 1, 3 con freq. 2, …, 12 con freq. 1) tali che ogni valore k avesse come frequenza relativa Pr(U=k). Dunque le altezze dell'istogramma rappresentano le probabilità dei vari valori. La frequenza relativa della classe modale indicata da STAT è in questo caso la probabilità della moda, cioè del valore più probabile: 0.1666… = Pr(U1+U2=7) = 1/36·6 = 1/6.

    E la media che cosa rappresenta in questo caso?

    Nel caso dell'analisi statistica la media è  


 n.dati 
  Σ datoi
 i=1
 ————————
  n.dati

    ovvero, quando i dati possono assumere solo una quantità finita n o una infinità numerabile di valori v1, v2, v3, … ,  

[qui, e in seguito, sottintendiamo che la sommatoria sia estesa da 1 a n se la quantità è finita, da 1 a altrimenti]

Σi vi·Freq(vi)
———————————————
     n.dati

    cioè, considerando le frequenze relative,  

[media pesata dei valori prendendo come pesi le loro frequenze relative]
 

Σi vi·FreqRel(vi)

    Nel nostro caso STAT ha calcolato  

[media pesata dei valori prendendo come pesi le loro probabilità]

Σi vi·Pr(U = vi)

    Questo valore viene chiamato media della legge di distribuzione della variabile aleatoria discreta U, nel caso in cui U sia a valori in {v1,v2, …} e sia stata dotata di una legge di distribuzione associata alla misura di probabilità Pr. In genere parleremo più semplicemente di "media di U" e sottintenderemo che si stia considerando una legge di distribuzione associata alla misura di probabilità Pr.

    Indicheremo questo valore con Media(U) o con M(U). Per distinguere il caso "statistico" da quello "probabilistico", a volte la media aritmetica delle uscite ottenute realizzando un certo numero di volte l'esperimento, cioè Σi vi·FreqRel(vi), viene chiamata media statistica o media sperimentale, mentre Media(U) viene chiamata media teorica.

    Anche per i percentili, passando dal caso statistico a quello probabilistico, occorre sostituire la frequenza relativa con la probabilità. In particolare Mediana(U) è il valore vi per cui Pr(U<vi)≤50% e Pr(U>vi)≤50%; potrebbero esservi due valori che soddisfano queste condizioni; ad esempio se U ha distribuzione uniforme in {1,…,6} abbiamo che Pr(U<3)=2/6 e Pr(U>3)=3/6 e che Pr(U<4)=3/6 e Pr(U>4)=2/6, per cui sia 3 che 4 potrebbero essere assunti come mediana di U; noi converremo di prendere il minimo tra tali valori (3, in questo esempio), in analogia alla convenzione da noi adottata per il caso statistico (vedi Gli Oggetti Matematici) e che impiega anche STAT.

Nota1 Il valore Media(U) viene chiamato anche in altri modi: valore atteso (o di aspettazione) o speranza matematica e viene indicato anche con la notazione E(U) (che è in accordo con le traduzioni inglesi di valore atteso e aspettazione, expected value e expectation, e con la traduzione francese di speranza, espérance.

Ma si tratta di termini piuttosto infelici. Ad esempio se U1 e U2 sono variabili casuali con distribuzione uniforme in {1, …,6}, la variabile casuale U1·U2 (prodotto delle uscite del lancio di due dadi equi) ha la legge di distribuzione raffigurata a fianco; la media è 12.25; questo non è il valore più probabile (le mode sono 6 e 12) e con più del 63% di probabilità U1·U2 è minore di 12.25; anzi, 12.25 non è neanche un valore che U1·U2 può assumere.

  

Nota2 Sono evidenti le interpretazioni geometriche, sull'istogramma, di moda (valore o valori corrispondenti alle colonne più alte) e di mediana (colonna per cui passa la retta verticale che taglia l'istogramma in due parti di uguale area); vedi scheda 1. Nel caso della media possiamo dare un'interpretazione meccanica: pensando le colonne come corpi di massa proporzionale all'altezza, la media diventa l'ascissa del baricentro (o centroide) dell'istogramma (vedi anche Gli Oggetti Matematici).
Questa interpretazione è corretta se (vedi figura a lato, riferita al file di dati considerato nei commenti al quesito 9) gli intervallini sono scelti in modo da avere al loro centro il valore di cui rappresentano la frequenza relativa (o la probabilità di uscita). C'è chi preferisce rappresentare le distribuzioni di dati che possono assumere solo una quantità finita o numerabile di valori (o di variabili casuali discrete) con istogrammi a barre, come quello a destra, invece che con istogrammi a colonne.  

    In analogia a quanto visto per la media, come scarto quadratico medio in questo caso STAT
invece di   (Σi(vi – media)2·FreqRel(vi))1/2   ha calcolato   (Σi(vi – M(U))2·Pr(U = vi))1/2:
è lo scarto quadratico medio teorico di U, che indichiamo sigma;(U) ("sigma" di U).

    Possiamo descriverlo più sinteticamente con  σ(U) = ( M( (U – M(U))2 ) )1/2: è la radice della media della variabile aleatoria S2 = (U–M(U))2 = "quadrato dello scarto di U dalla media di U".

<<<     Paragrafo precedente Paragrafo successivo     >>>