Sappiamo che i sessi delle coppie di figli gemelli sono nel 33% entrambi maschi, nel 31% entrambi femmine, nel 36% di sesso diverso; supponiamo che nel 18% dei casi esca prima il maschio, nel 18% dei casi esca prima la femmina. Possiamo dunque riassumere queste informazioni nella tabella a lato. M F
F 18 31
M 33 18

Calcola il coefficiente di correlazione tra la prima riga e la seconda e prova a darne un significato statistico.

Questo esempio è tratto da Les structures du hasard, di Jean-Louis Boursin (1966).

Usiamo "1" per "M", "2" per "F". Calcoliamo il coefficiente con R (potremmo farlo facilmente anche a mano). Mettiamo in x e in y le "coordinate" dei 33 + 18 + 18 + 31 "punti". In fondo alla pagina i calcoli fatti con questo script.

x <- c( rep(1,33), rep(1,18), rep(2,18), rep(2,31) )
y <- c( rep(1,33), rep(2,18), rep(1,18), rep(2,31) )
cor(x,y)
#  0.2797119

Svolgendo i calcoli ho trovato 0.280.
Se le variabili sesso del primo figlio e sesso del secondo fossero state indipendenti (ossia se le righe fossero state uguali [o proporzionali]) avremmo ottenuto 0. Se invece avessimo avuto solo coppie di maschi e coppie di femmine (ossia se la riga 1 finiva con 0 e la 2 iniziava con 0) avremmo ottenuto 1.
Possiamo interpretare l'esito dicendo che tutto si svolge come se nel 28% dei casi il sesso del secondo figlio fosse determinato da quello del primo (rinviamo al libro citato - edito anche in italiano - per approfondimenti).