Apri il menu principale

In statistica, quando si stima un parametro, la semplice individuazione di un singolo valore è spesso non sufficiente. È opportuno allora accompagnare la stima di un parametro con un intervallo di valori plausibili per quel parametro, che viene definito intervallo di confidenza (o intervallo di fiducia).[1]

Se e sono variabili casuali con distribuzioni di probabilità che dipendono da qualche parametro e (dove è un numero tra 0 e 1), allora l'intervallo casuale è un intervallo di confidenza al per . I valori estremi dell'intervallo di confidenza si chiamano limiti di confidenza.

Ad esso si associa quindi un valore di probabilità cumulativa che caratterizza, indirettamente in termini di probabilità, la sua ampiezza rispetto ai valori massimi assumibili dalla variabile aleatoria misurando cioè la probabilità che l'evento casuale descritto dalla variabile aleatoria in oggetto cada all'interno di tale intervallo, graficamente pari all'area sottesa dalla curva di distribuzione di probabilità della variabile aleatoria nell'intervallo considerato.

È bene non confondere l'intervallo di confidenza con la probabilità. Data l'espressione "vi è un livello di confidenza del 95% che sia nell'intervallo", nulla si può dire sulla probabilità che l'intervallo ottenuto contenga [2]

Indice

IntroduzioneModifica

Si ipotizzi di voler calcolare l'età media degli abitanti di un luogo. Supponiamo che non si conosce l'età per ogni singolo abitante. Viene allora estratto un campione casuale di abitanti di cui è possibile sapere l'età, e dal campione si tenta di inferire ("predire") l'età media per tutta la popolazione residente e la variabilità di tale dato. Questo può essere fatto calcolando, ad esempio, l'età media delle persone presenti nel campione e ipotizzando che questo valore coincida con l'età media di tutta la popolazione inclusa quella non scelta nel campione. In questo caso si è fatta una "stima puntuale". Alternativamente, a partire dalle età delle persone nel campione, si può calcolare un intervallo di valori entro il quale si ritenga ci sia il valore della media di tutta la popolazione e, se la procedura è fatta in modo rigoroso e statisticamente corretto, è possibile stabilire un valore di "confidenza" di quanto sia "credibile" che l'intervallo ottenuto contenga effettivamente il valore cercato. In questo caso si è fatta una "stima per intervalli" e l'intervallo ottenuto è detto intervallo di confidenza.

Riassumendo: la stima puntuale fornisce un valore singolo che varia a seconda del campione, e difficilmente coincide con il valore vero della popolazione; la stima per intervalli fornisce un insieme di valori (intervallo) che con una certa "confidenza" contiene il valore vero della popolazione[3].

Se   è una variabile aleatoria di media   e varianza   con   si indica la variabile campionaria corrispondente che ha media aritmetica degli   dati osservati nel campione

 

e deviazione standard

 

Il livello di confidenza è fissato dal ricercatore. Il valore scelto più di frequente è 95%[4]. Tuttavia, meno di frequente, viene scelto anche un livello di confidenza del 90%, oppure del 99%.

Se il valore di   non differisce molto dalla variabilità   della popolazione, può essere assunto come suo stimatore (ad esempio con un numero di soggetti osservati e replicazioni complessivamente maggiore di 60; in alternativa si ipotizza una distribuzione t di Student caratterizzata da una maggiore dispersione rispetto alla normale standard)[5]. In questa prima ipotesi, l'intervallo di confidenza per la media   (vera media, della popolazione[3]) al 99% (al livello  ), è dato da:

 

Al 95% è dato da:

 

Prima della diffusione dei computer si cercava di utilizzare l’approssimazione normale ogni qualvolta possibile. Adesso non è più strettamente necessario, e nella formula possono essere utilizzati percentili di altre distribuzioni, facendo rifierimento a campioni di dimensione più ridotta)[5].

Dalle formule risulta che i due intervalli di confidenza possono essere scritti in funzione dei soli dati campionari  .

Oltre a diminuire con il livello di confidenza, l'ampiezza dell'intervallo dipende dall'errore della stima   e diminuisce se:

  • diminuisce la variabilità del campione.
  • aumenta la numerosità   del campione (con la seconda potenza): per dimezzare l'ampiezza dell'intervallo, occorre quadruplicare il campione.

Qualora la popolazione non segua il modello gaussiano, se il campione è grande a sufficienza, la variabile campionaria tende a seguire comunque una legge normale (teorema centrale del limite). In altre parole, le due formule precedenti per l'intervallo di confidenza si possono usare anche nel caso in cui non è nota la sua legge di probabilità.

Il livello di confidenza o copertura è il complemento a uno del livello di significatività  : ad esempio, un intervallo di confidenza al   corrisponde a un livello di significatività di  [6].

Interpretazioni errateModifica

Gli intervalli di confidenza sono spesso confusi con altri concetti della statistica, e talora oggetto di errate interpretazioni anche da parte di ricercatori professionisti[7][8][9][10]. Alcuni errori comuni:

  • un intervallo di confidenza al 95% non significa che esiste una probabilità del 95% che il parametro della popolazione (es. la percentuale di voti per un partito in tutta Italia) sia compreso nei due estremi dell'intervallo. L'intervallo può "contenere" il valore del parametro, oppure no. Non è una questione di probabilità. Il 95% di confidenza è riferito all'attendibilità del metodo di stima, ma non del particolare intervallo calcolato[11]. Per quanto riguarda la bontà del metodo di stima si possono valutare, quando pertinenti: numerosità e rappresentatività del campione, casualizzazione della modalità di campionamento, controllo preventivo delle ipotesi di indipendenza e di identica distribuzione, assenza di autocorrelazione fra i dati osservati, eliminazione eventuale di unità fuori tolleranza.
  • similmente per il singolo campione, un intervallo di confidenza al 95% non significa che il 95% del valori campionati cada nell'intervallo.
  • se l'intervallo di confidenza è un insieme di valori probabili per l'intera popolazione, ciò non vale per i singoli campioni.

Impostazione di NeymanModifica

Gli intervalli di confidenza furono introdotti da Jerzy Neyman in un articolo pubblicato nel 1937[12].

C'è un metodo agevole per il calcolo degli intervalli di confidenza attraverso il test di verifica d'ipotesi (secondo l'impostazione di Neyman).

L'intervallo di confidenza (o di fiducia) non sarà che un parametro   che si ottiene determinando anzitutto un test (con livello di significatività  ) per saggiare l'ipotesi  =  contro l'ipotesi  . L'insieme di tutti i valori   per cui si accetterebbe l'ipotesi nulla costituisce un intervallo di confidenza di livello  

Un intervallo di confidenza al 95% si può quindi ricavare da un test di verifica d'ipotesi di significatività 5%.

NoteModifica

  1. ^ Ross, p. 239.
  2. ^ Ross, p. 244.
  3. ^ a b Brevi cenni all’intervallo di confidenza (PDF), su univr.it. URL consultato il 10 maggio 2018.
  4. ^ (EN) J.H. Zar, Biostatistical Analysis., Prentice-Hall International (New Jersey), pp. 43–45.
  5. ^ a b G. Verlato e R. de Marco, Intervallo di confidenza (PDF), su Sezione di Epidemiologia e Statistica Medica, Università di Verona, p. 9. URL consultato il 10 maggio 2018.
  6. ^ (EN) Andy Field, Discovering statistics using SPSS, SAGE, 2013.
  7. ^ [1]
  8. ^ Copia archiviata (PDF), su irt.com.ne.kr. URL consultato l'8 maggio 2018 (archiviato dall'url originale il 4 marzo 2016).
  9. ^ Hoekstra, R., R. D. Morey, J. N. Rouder, and E-J. Wagenmakers, 2014. Robust misinterpretation of confidence intervals. Psychonomic Bulletin Review, in press. [2]
  10. ^ Scientists’ grasp of confidence intervals doesn’t inspire confidence, Science News, 3 luglio 2014
  11. ^ (EN) 1.3.5.2. Confidence Limits for the Mean, su nist.gov. URL consultato l'8 maggio 2018 (archiviato dall'url originale il 5 febbraio 2008).
  12. ^ (EN) J. Neyman, Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, in Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciences, vol. 236, nº 767, Royal Society, 30 agosto 1937, pp. 333-380.

BibliografiaModifica

  • Sheldon M. Ross, Probabilità e statistica per l'ingegneria e le scienze, Trento, Apogeo, 2003, ISBN 88-7303-897-2.

Altri progettiModifica

Collegamenti esterniModifica

Controllo di autoritàLCCN (ENsh85030927