Sufficienza (statistica)

In statistica, la sufficienza di un'analisi statistica (intesa come funzione di un campione di osservazioni) definisce formalmente la capacità di tale funzione di rappresentare in maniera sintetica l'informazione contenuta nel campione. Una funzione che presenti tale caratteristica è definita, a partire dal lavoro di Ronald Fisher, una statistica sufficiente.

Definizione formale

modifica

Una definizione formale del concetto di sufficienza è la seguente:

Data una variabile casuale  , di parametro incognito  , e una statistica  ,   è sufficiente per   se la distribuzione di probabilità condizionata della   data   non dipende da  .

La definizione sopra rappresenta una formalizzazione dell'idea che una statistica sufficiente sintetizzi tutta l'informazione sulla popolazione contenuta in un campione - variabile casuale  . Nella prassi risulta ad ogni modo più agevole lavorare con il seguente criterio di fattorizzazione, originariamente proposto dallo stesso Fisher:

Sia   la densità di probabilità della variabile casuale  ;   è una statistica sufficiente per   se e solo se esistono due funzioni  ,   tali che:
 

Un modo per interpretare l'espressione sopra è immaginare di far variare   in maniera tale che il valore della statistica   sia costante; che effetto avrebbe questo sull'inferenza circa il valore del parametro  ? Se il criterio di fattorizzazione è soddisfatto, nessuno, dal momento che la dipendenza della funzione di verosimiglianza   da   risulta invariato.

  • Se   sono variabili casuali bernoulliane indipendenti caratterizzate dal parametro  , la variabile casuale somma:
 
è una statistica sufficiente per  .
Ciò può vedersi considerando la distribuzione di probabilità congiunta:
 
Poiché le osservazioni sono indipendenti, quanto sopra può scriversi come:
 
Raccogliendo le potenze di   e   si ha:
 
che soddisfa il criterio di fattorizzazione, dove   è semplicemente la funzione costante 1. Si osservi che il parametro oggetto di stima (qui  ) interagisce con   solo tramite  .
  • Se   sono indipendenti e uniformemente distribuite sull'intervallo  , la funzione:
 
è una statistica sufficiente per  .
Ciò può vedersi considerando la distribuzione di probabilità congiunta:
 
Poiché le osservazioni sono indipendenti, quanto sopra può scriversi come:
 
dove   è la Funzione gradino di Heaviside. Ciò si può scrivere come:
 
così che il criterio di fattorizzazione è ancora soddisfatto; anche in questo caso  .

Teorema di Rao-Blackwell

modifica

Poiché la distribuzione condizionata di   data   non dipende da  , ciò vale anche per il valore atteso condizionato di   data  , dove   è una funzione che soddisfa condizioni di regolarità che assicurano l'esistenza del valore atteso. Conseguentemente, tale valore atteso condizionato è esso stesso una statistica, e può essere utilizzato ai fini della stima. Se   è un qualsiasi tipo di stimatore per  , tipicamente il valore atteso condizionato   è uno stimatore migliore. Un modo per rendere questa affermazione più precisa è dato dal teorema di Rao-Blackwell. È spesso possibile costruire uno stimatore di prima approssimazione  , e quindi computarne il valore atteso condizionato, ottenendo uno stimatore che è, sotto diversi punti di vista, ottimale.

Voci correlate

modifica

Altri progetti

modifica
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica