Un intervallo di confidenza è una tecnica di stima utilizzata nell’inferenza statistica che permette di restringere una o più coppie di valori, all’interno della quale si trova la stima del punto desiderato (con una certa probabilità).
Un intervallo di confidenza ci permetterà di calcolare due valori intorno alla media del campione (uno superiore e uno inferiore). Questi valori limiteranno un intervallo entro il quale, con una certa probabilità, il parametro della popolazione sarà localizzato.
Intervallo di confidenza = margine di errore medio +- margine di errore
Conoscere la vera popolazione è di solito molto complicato. Pensiamo a una popolazione di 4 milioni di persone, possiamo conoscere la spesa media di consumo per famiglia in quella popolazione? In linea di principio, sì. Dovremmo semplicemente fare un sondaggio tra tutte le famiglie e calcolare la media. Tuttavia, seguire quel processo sarebbe tremendamente laborioso e complicherebbe parecchio lo studio.
In situazioni come questa, diventa più fattibile selezionare un campione statistico. Per esempio, 500 persone. E su quel campione, calcolare la media. Anche se non conosciamo ancora il valore reale della popolazione, possiamo supporre che sarà vicino al valore del campione. A questa media aggiungiamo il margine di errore e abbiamo un valore dell’intervallo di confidenza. D’altra parte, sottraiamo quel margine di errore dalla media e abbiamo un altro valore. Tra questi due valori ci sarà la media della popolazione.
In conclusione, l’intervallo di confidenza non è utile per dare una stima puntuale del parametro della popolazione, se serve a farci un’idea approssimativa di quale potrebbe essere il vero parametro della popolazione. Ci permette di delimitare tra due valori dove si trova la media della popolazione.
Fattori da cui dipende un intervallo di confidenza
Il calcolo di un intervallo di confidenza dipende principalmente dai seguenti fattori:
- Dimensione del campione selezionato: A seconda della quantità di dati utilizzati per calcolare il valore del campione, esso sarà più vicino o più vicino al parametro della popolazione reale.
- Livello di fiducia: ci informerà in quale percentuale di casi la nostra stima è corretta. I livelli abituali sono del 95% e del 99%.
- Margine di errore della nostra stima: Questo si chiama alfa e ci informa della probabilità che il valore della popolazione sia al di fuori del nostro intervallo.
- La stima nel campione (media, varianza, differenza di mezzi…): la statistica pivot per il calcolo dell’intervallo dipenderà da questo.
Esempio di intervallo di confidenza per la media, assumendo la normalità e la deviazione standard nota
La statistica pivot utilizzata per il calcolo sarebbe la seguente:
L’intervallo risultante sarebbe il seguente:
Vediamo come nell’intervallo a sinistra e a destra della disuguaglianza abbiamo rispettivamente il livello inferiore e superiore. Pertanto, l’espressione ci dice che la probabilità che la media della popolazione sia tra questi valori è di 1 alfa (livello di fiducia).
Diamo un’occhiata più da vicino a quanto sopra con un esercizio risolto come esempio.
Vogliamo stimare il tempo medio che un corridore impiega per completare una maratona. Per fare questo, sono state cronometrate 10 maratone e si è ottenuta una media di 4 ore con una deviazione standard di 55 minuti. Vogliamo ottenere un intervallo di confidenza del 95%.
Per ottenere l’intervallo, dovremmo solo sostituire i dati nella formula dell’intervallo.
L’intervallo di confidenza sarebbe la parte della distribuzione che è sfumata in blu. I due valori racchiusi da questo sarebbero quelli corrispondenti alle due linee rosse. La linea centrale che divide la distribuzione in 2 sarebbe il vero valore della popolazione.
È importante notare che in questo caso, dato che la funzione di densità della distribuzione N(0.1) ci dà la probabilità accumulata (da sinistra al valore critico), dobbiamo trovare il valore che ci lascia a sinistra 0.975% (questo è 1.96).