Stimatore di Bayes

stimatore o regola di decisione che minimizza il valore atteso della probabilità a posteriori o di una funzione di perdita (cioè la perdita attesa a posteriori)

In teoria della stima e teoria delle decisioni, uno stimatore di Bayes, o un'azione di Bayes, è uno stimatore o regola di decisione che minimizza il valore atteso della probabilità a posteriori o di una funzione di perdita (cioè la perdita attesa a posteriori). Equivalentemente, essa massimizza il valore atteso a posteriori di una funzione di utilità. Una forma alternativa di formulazione di uno estimatore nell'ambito della statistica bayesiana è la stima del massimo a posteriori.

DefinizioneModifica

Supponiamo che un parametro incognito θ sia noto avere una distribuzione di probabilità a priori  . Sia   uno stimatore di θ (basato su alcune misurazioni x), e sia   una funzione di perdita, come un errore quadratico. Il rischio di Bayes di   è definito come  , dove il valore atteso è calcolato sopra la distribuzione di probabilità di  : questo definisce la funzione di rischio come una funzione di  . Uno stimatore   è detto essere uno stimatore di Bayes se esso tra tutti gli stimatori è quello che minimizza il rischio di Bayes. Equivalentemente, lo stimatore che minimizza la perdita attesa a posteriori   per ogni x minimizza anche il rischio di Bayes e perciò è uno stimatore di Bayes.[1]

Se la distribuzione a priori è impropria allora uno stimatore che minimizza la perdita attesa a posteriori per ogni x è chiamato uno stimatore di Bayes generalizzato.[2]

EsempiModifica

Stima dell'errore quadratico medio minimoModifica

La funzione di rischio più comunemente usata per la stima bayesiana è l'errore quadratico medio detto anche errore quadratico di rischio, MSE (da mean square error). L'MSE è definito tramite

 

dove il valore atteso è calcolato sopra la distribuzione congiunta di   ed  .

Media a posterioriModifica

Usando l'MSE come rischio, la stima di Bayes del parametro incognito è semplicemente la media della distribuzione a posteriori,

 

Questo è noto come stimatore dell'errore quadratico medio minimo, MMSE (da minimum mean square error). Il rischio di Bayes, in questo caso, è la varianza a posteriori.

Stimatori di Bayes per distribuzioni a priori coniugateModifica

 Lo stesso argomento in dettaglio: Distribuzione a priori coniugata.

Se non c'è alcuna ragione intrinseca di preferire una distribuzione a priori rispetto ad un'altra, allora per semplicità viene scelta una distribuzione a priori coniugata. Una distribuzione a priori coniugata è definita come una distribuzione a priori appartenente a una qualche famiglia parametrica, per la quale anche la distribuzione a posteriori risultante appartiene alle medesima famiglia. Questa è un'importante proprietà in quanto lo stimatore di Bayes, così come le sue proprietà statistiche (varianza, intervallo di confidenza, ecc.), possono tutte essere derivate dalla distribuzione a posteriori.

Le distribuzioni a priori coniugate sono utili specialmente per stime sequenziali, dove la distribuzione a posteriori della misurazione corrente viene utilizzata come distribuzione a priori per la misurazione successiva. Nella stima sequenziale, a meno che non sia impiegata una distribuzione a priori, la distribuzione a posteriori diventa via, via più complessa man mano che vengono effettuate nuove misurazioni, e lo stimatore di Bayes non può essere usualmente calcolato a meno di non applicare metodi numerici.

Seguono alcuni esempi di distribuzioni a priori coniugate.

  • Se x|θ è normale, x|θ ~ N(θ,σ2), e la distribuzione a priori è normale, θ ~ N(μ,τ2), allora la distribuzione a posteriori è anch'essa normale e lo stimatore di Bayes sotto MSE è dato da
 
  • Se x1,...,xn sono variabili casuali indipendenti e identicamente distribuite, iid, xi|θ ~ P(θ) di Poisson, e se la distribuzione a priori è la distribuzione Gamma ossia θ ~ G(a,b), allora la distribuzione a posteriori è ancora di tipo Gamma, e lo stimatore di Bayes sotto MSE è dato da
 
  • Se x1,...,xn sono variabili iid con distribuzione uniforme ossia xi|θ~U(0,θ), e se la distribuzione a priori è di tipo Pareto cioè θ~Pa(θ0,a), allora la distribuzione a posteriori è ancora di tipo Pareto, e lo stimatore di Bayes sotto MSE è dato da
 

Funzioni di rischio alternativeModifica

Le funzioni di rischio sono scelte a seconda di come viene misurata la distanza tra la stima e il parametro incognito. L'MSE è la più comune funzione di rischio, principalmente per la sua semplicità. Tuttavia vengono usate occasionalmente funzioni di rischio alternative. Esempi di tali alternative sono mostrate qui di seguito. Denotiamo la funzione di distribuzione a posteriori generalizzata come  .

Mediana a posteriori ed altri quantiliModifica

  • Una funzione di perdita "lineare", con  , che dà la mediana a posteriori come la stima di Bayes:
 
 
  • Un'altra funzione di perdita "lineare", la quale assegna "pesi" differenti   alla stima per eccesso o per difetto. Essa fornisce un quantile dalla distribuzione a posteriori, e costituisce una generalizzazione della precedente funzione di perdita:
 
 

Moda a posterioriModifica

  • La funzione di perdita seguente è più complicata: essa fornisce la moda a posteriori oppure un punto vicino ad essa a seconda della curvatura e delle proprietà della distribuzione a posteriori. Allo scopo di usare la moda come un'approssimazione ( ), sono raccomandati valori piccoli del parametro  :
 

Possono essere concepite altri tipi di funzioni di perdita, nonostante l'errore quadratico medio è quella più largamente impiegata e validata.

Stimatori di Bayes generalizzatiModifica

Finora la distribuzione a priori   è stata ipotizzata essere una vera distribuzione di probabilità, ossia:

 

Tuttavia, occasionalmente questo può essere un requisito restrittivo. Per esempio, non c'è alcuna distribuzione (definita su tutto l'insieme R dei numeri reali) per la quale ogni numero reale sia equiprobabile. Inoltre, in un certo senso, una tale "distribuzione" sembra la scelta naturale per una distribuzione di probabilità a priori non informativa, cioè una distribuzione a priori che non implica alcuna preferenza per alcun particolare valore del parametro incognito. È ancora possibile definire una funzione  , ma questa non sarebbe una distribuzione di probabilità propria in quanto avrebbe una massa infinita,

 

Tali misure  , che non sono distribuzioni di probabilità, sono definite distribuzioni a priori improprie.

L'uso di una distribuzione a priori impropria significa che il rischio di Bayes è indefinito (in quanto la distribuzione a priori non è una distribuzione di probabilità e non è possibile usarla per calcolare il valore atteso). Di conseguenza, non ha più significato parlare di uno stimatore di Bayes che minimizzi il rischio di Bayes. Non di meno, in molti casi, è ancora possibile definire la distribuzione a posteriori

 

Questa è una definizione, e non un'applicazione del teorema di Bayes, in quanto questo può essere applicato solo quanto tutte le distribuzioni sono proprie. Tuttavia, non è raro per tale distribuzione "a posteriori" risultante essere una valida distribuzione di probabilità. In questo caso, la perdita attesa a posteriori

 

è tipicamente ben definita e finita. Ricordiamo che, per una distribuzione a priori propria, lo stimatore di Bayes minimizza la perdita attesa a posteriori. Quando la distribuzione a priori è impropria, uno stimatore che minimizza la perdita attesa a posteriori è detto uno stimatore di Bayes generalizzato.[2]

EsempioModifica

Un tipico esempio riguarda la stima di un parametro di posizione con una funzione di perdita del tipo  . Qui   è un parametro di posizione, cioè  .

In questo caso è comune impiegare la distribuzione a priori impropria  , specialmente quando nessun'altra ulteriore informazione soggettiva è disponibile. Questo fornisce:

 

così la perdita attesa a posteriori è uguale a

 

Lo stimatore di Bayes generalizzato è il valore   che minimizza questa espressione per tutti gli  . Questo equivale a minimizzare

  per          (1)

Può essere mostrato che, in questo caso, lo stimatore di Bayes generalizzato assume la forma  , per qualche costante  . Per rendersene conto, sia   il valore minimizzante (1) quando  . Allora, dato un differente valore  , dobbiamo minimizzare

         (2)

Questa è identica a (1), eccetto che   è stata sostituita con  . Perciò, l'espressione minimizzante è data da  , cosicché lo stimatore ottimale assume la forma

 

Stimatori di Bayes empiriciModifica

Uno stimatore di Bayes derivato tramite il metodo di Bayes empirico è chiamato uno stimatore di Bayes empirico. I metodi di Bayes empirici permettono, nello sviluppo di uno stimatore di Bayes, l'uso di dati empirici ausiliari da osservazioni di parametri collegati. Questo è fatto sotto l'assunzione che i parametri stimati siano ottenuti da una distribuzione a priori comune. Per esempio, se vengono eseguite osservazioni indipendenti di parametri distinti, allora la prestazione nello stimare un particolare parametro può talvolta essere migliorata impiegando dati provenienti da altre osservazioni.

Esistono approcci parametrici e non parametrici alla stima di Bayes empirica. La forma parametrica è solitamente preferita grazie alla sua maggiore applicabilità ed accuratezza su piccole quantità di dati.[3]

EsempioModifica

Quello seguente è un semplice esempio di stima parametrica empirica di Bayes. Date le osservazioni già note   aventi distribuzione condizionale  , uno è interessato a stimare   basato su  . Assumiamo che le   abbiano una distribuzione priori comune   dipendendente da alcuni parametri incogniti. Per esempio, supponiamo che   sia distribuita normalmente con media   e varianza   incognite. Possiamo allora usare le osservazioni già note per determinare la media e la varianza di   nel modo seguente.

Prima, stimiamo la media   e la varianza   della distribuzione marginale di   usando l'approccio della massima verosimiglianza:

 
 

Poi, usiamo le relazioni:

 
 

dove   e   sono i momenti della distribuzione condizionale  , i quali sono assunti essere noti. In particolare, supponiamo che   e che  ; abbiamo allora

 
 

Finalmente, otteniamo la stima dei momenti della distribuzione a priori

 
 

Per esempio, se  , e se assumiamo una distribuzione a priori normale (la quale in questo caso è una distribuzione a priori coniugata), concludiamo che  , dal quale lo stimatore di Bayes   basato su   può essere calcolato.

ProprietàModifica

AmmissibilitàModifica

Regole di Bayes aventi rischio di Bayes finito sono tipicamente ammissibili. Seguono vari esempi specifici dei teoremi di ammissibilità.

  • Se una regola di Bayes è unica, allora è ammissibile.[4] Per esempio, come sopra affermato, sotto errore quadratico medio (MSE) la regola di Bayes è unica e perciò ammissibile.
  • Se θ appartiene ad un insieme discreto, allora tutte le regole di Bayes sono ammissibili.
  • Se θ appartiene ad un insieme continuo (non discreto), e se la funzione di rischio R(θ,δ) è continua in θ per ogni δ, allora tutte le regole di Bayes sono ammissibili.

Per contro, regole di Bayes generalizzate spesso hanno rischio di Bayes indefinito nel caso di distribuzione a priori impropria. Queste regole sono spesso inammissibili e la verifica della loro ammissibilità può essere difficile. Per esempio, lo stimatore di Bayes generalizzato di un parametro di posizione θ basato su campioni gaussiani (descritto nel paragrafo "Stimatore di Bayes generalizzato" sopra) è inammissibile per  ; ciò è noto come fenomeno di Stein.

Efficienza asintoticaModifica

Sia θ una variabile casuale sconosciuta, e supponiamo che   siano campioni iid con densità  . Sia   una sequenza di stimatori di Bayes di θ basata su un numero crescente di misurazioni. Siamo interessati all'analisi della prestazione asintotica di questa sequenza di stimatori, cioè alla prestazione di   per valori di n grandi.

A questo scopo, è comodo considerare θ come un parametro non casuale il cui valore vero sia  . Sotto condizioni specifiche,[5] per campioni estesi (grandi valori di n), la densità a posteriori di θ è approssimativamente normale. In altri termini, per n grande, l'effetto della probabilità della distribuzione a priori su quella a posteriori è trascurabile. Inoltre, se δ è lo stimatore di Bayes sotto il rischio MSE, allora esso è asintoticamente non distorto (asymptotically unbiased) e converge in distribuzione alla distribuzione normale:

 

dove I0) è l'informazione di Fisher di θ0. Ne consegue che lo stimatore di Bayes δn sotto MSE è asintoticamente efficiente.

Un altro stimatore asintoticamente normale ed efficiente è lo stimatore di massima verosimiglianza (MLE). Le relazioni tra la massima verosimiglianza e gli stimatori di Bayes possono essere mostrate nel seguente semplice esempio.

Consideriamo lo stimatore di θ basato sul campione binomiale x~b(θ,n) dove θ denota la probabilità di successo. Assumendo che θ sia distribuito secondo la distribuzione a priori coniugata, la quale in questo caso è la distribuzione Beta B(a,b), la distribuzione a posteriori è nota essere B(a+x,b+n-x). Perciò, lo stimatore di Bayes sotto MSE è

 

L'MLE in questo caso è x/n e così otteniamo,

 

L'ultima equazione implica che, per n → ∞, lo stimatore di Bayes (nel problema in questione) è vicino alla MLE.

D'altra parte, quando n è piccolo, l'informazione a priori è ancora rilevante per il problema decisionale e influisce sulla stima. Per vedere il peso dell'informazione a priori, assumiamo che a=b; in questo caso ogni misurazione apporta un nuovo singolo bit di informazione; la formula sopra mostra che l'informazione a priori ha lo stesso peso come a+b bit di nuova informazione. Nel caso pratico, uno spesso conosce veramente poco dei dettagli più fini della distribuzione a priori; in particolare, non c'è nessuna ragione per assumere che coincida esattamente con B(a,b). In tal caso, una possibile interpretazione di questo calcolo è: "esiste una distribuzione a priori non patologica con valore medio di 0.5 e deviazione standard d che dà un peso di informazione a priori pari a 1/(4d2)-1 bit di nuova informazione".

NoteModifica

  1. ^ Lehmann and Casella, Theorem 4.1.1
  2. ^ a b Lehmann and Casella, Definition 4.2.9
  3. ^ Berger (1980), sessione 4.5.
  4. ^ Lehmann and Casella (1998), Theorem 5.2.4.
  5. ^ Lehmann and Casella (1998), sessione 6.8

BibliografiaModifica

  • E. L. Lehmann, Casella, G., Theory of Point Estimation, Springer, 1998, pp. 2nd ed, ISBN 0-387-98502-6.
  • James O. Berger, Statistical decision theory and Bayesian Analysis, 2ª ed., New York, Springer-Verlag, 1985, ISBN 0-387-96098-8, MR 0804611.

Collegamenti esterniModifica

  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica