Stimatore di Bayes

In teoria della stima e teoria delle decisioni, uno stimatore di Bayes, o un'azione di Bayes, è uno stimatore o regola di decisione che minimizza il valore atteso della probabilità a posteriori o di una funzione di perdita (cioè la perdita attesa a posteriori). Equivalentemente, essa massimizza il valore atteso a posteriori di una funzione di utilità. Una forma alternativa di formulazione di uno estimatore nell'ambito della statistica bayesiana è la stima del massimo a posteriori.

Definizione

Supponiamo che un parametro incognito θ sia noto avere una distribuzione di probabilità a priori $\pi$ . Sia $\delta =\delta (x)$ uno stimatore di θ (basato su alcune misurazioni x), e sia $L(\theta ,\delta )$ una funzione di perdita, come un errore quadratico. Il rischio di Bayes di $\delta$ è definito come $E_{\pi }\{L(\theta ,\delta )\}$ , dove il valore atteso è calcolato sopra la distribuzione di probabilità di $\theta$ : questo definisce la funzione di rischio come una funzione di $\delta$ . Uno stimatore $\delta$ è detto essere uno stimatore di Bayes se esso tra tutti gli stimatori è quello che minimizza il rischio di Bayes. Equivalentemente, lo stimatore che minimizza la perdita attesa a posteriori $E\{L(\theta ,\delta )|x\}$ per ogni x minimizza anche il rischio di Bayes e perciò è uno stimatore di Bayes.^[1]

Se la distribuzione a priori è impropria allora uno stimatore che minimizza la perdita attesa a posteriori per ogni x è chiamato uno stimatore di Bayes generalizzato.^[2]

Esempi

Stima dell'errore quadratico medio minimo

La funzione di rischio più comunemente usata per la stima bayesiana è l'errore quadratico medio detto anche errore quadratico di rischio, MSE (da mean square error). L'MSE è definito tramite

\mathrm {MSE} =E\left[({\widehat {\theta }}(x)-\theta )^{2}\right],

dove il valore atteso è calcolato sopra la distribuzione congiunta di $\theta$ ed $x$ .

Media a posteriori

Usando l'MSE come rischio, la stima di Bayes del parametro incognito è semplicemente la media della distribuzione a posteriori,

{\widehat {\theta }}(x)=E[\theta |x]=\int \theta \pi (\theta |x)\,d\theta .

Questo è noto come stimatore dell'errore quadratico medio minimo, MMSE (da minimum mean square error). Il rischio di Bayes, in questo caso, è la varianza a posteriori.

Stimatori di Bayes per distribuzioni a priori coniugate

Se non c'è alcuna ragione intrinseca di preferire una distribuzione a priori rispetto ad un'altra, allora per semplicità viene scelta una distribuzione a priori coniugata. Una distribuzione a priori coniugata è definita come una distribuzione a priori appartenente a una qualche famiglia parametrica, per la quale anche la distribuzione a posteriori risultante appartiene alle medesima famiglia. Questa è un'importante proprietà in quanto lo stimatore di Bayes, così come le sue proprietà statistiche (varianza, intervallo di confidenza, ecc.), possono tutte essere derivate dalla distribuzione a posteriori.

Le distribuzioni a priori coniugate sono utili specialmente per stime sequenziali, dove la distribuzione a posteriori della misurazione corrente viene utilizzata come distribuzione a priori per la misurazione successiva. Nella stima sequenziale, a meno che non sia impiegata una distribuzione a priori, la distribuzione a posteriori diventa via, via più complessa man mano che vengono effettuate nuove misurazioni, e lo stimatore di Bayes non può essere usualmente calcolato a meno di non applicare metodi numerici.

Seguono alcuni esempi di distribuzioni a priori coniugate.

Se x|θ è normale, x|θ ~ N(θ,σ²), e la distribuzione a priori è normale, θ ~ N(μ,τ²), allora la distribuzione a posteriori è anch'essa normale e lo stimatore di Bayes sotto MSE è dato da

{\widehat {\theta }}(x)={\frac {\sigma ^{2}}{\sigma ^{2}+\tau ^{2}}}\mu +{\frac {\tau ^{2}}{\sigma ^{2}+\tau ^{2}}}x.

Se x₁,...,x_n sono variabili casuali indipendenti e identicamente distribuite, iid, x_i|θ ~ P(θ) di Poisson, e se la distribuzione a priori è la distribuzione Gamma ossia θ ~ G(a,b), allora la distribuzione a posteriori è ancora di tipo Gamma, e lo stimatore di Bayes sotto MSE è dato da

{\widehat {\theta }}(X)={\frac {n{\overline {X}}+a}{n+{\frac {1}{b}}}}.

Se x₁,...,x_n sono variabili iid con distribuzione uniforme ossia x_i|θ~U(0,θ), e se la distribuzione a priori è di tipo Pareto cioè θ~Pa(θ₀,a), allora la distribuzione a posteriori è ancora di tipo Pareto, e lo stimatore di Bayes sotto MSE è dato da

{\widehat {\theta }}(X)={\frac {(a+n)\max {(\theta _{0},x_{1},...,x_{n})}}{a+n-1}}.

Funzioni di rischio alternative

Le funzioni di rischio sono scelte a seconda di come viene misurata la distanza tra la stima e il parametro incognito. L'MSE è la più comune funzione di rischio, principalmente per la sua semplicità. Tuttavia vengono usate occasionalmente funzioni di rischio alternative. Esempi di tali alternative sono mostrate qui di seguito. Denotiamo la funzione di distribuzione a posteriori generalizzata come $F$ .

Mediana a posteriori ed altri quantili

Una funzione di perdita "lineare", con $a>0$ , che dà la mediana a posteriori come la stima di Bayes:

L(\theta ,{\widehat {\theta }})=a|\theta -{\widehat {\theta }}|

F({\widehat {\theta }}(x)|X)={\tfrac {1}{2}}.

Un'altra funzione di perdita "lineare", la quale assegna "pesi" differenti $a,b>0$ alla stima per eccesso o per difetto. Essa fornisce un quantile dalla distribuzione a posteriori, e costituisce una generalizzazione della precedente funzione di perdita:

L(\theta ,{\widehat {\theta }})={\begin{cases}a|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}\geq 0\\b|\theta -{\widehat {\theta }}|,&{\mbox{for }}\theta -{\widehat {\theta }}<0\end{cases}}

F({\widehat {\theta }}(x)|X)={\frac {a}{a+b}}.

Moda a posteriori

La funzione di perdita seguente è più complicata: essa fornisce la moda a posteriori oppure un punto vicino ad essa a seconda della curvatura e delle proprietà della distribuzione a posteriori. Allo scopo di usare la moda come un'approssimazione ( $L>0$ ), sono raccomandati valori piccoli del parametro $K>0$ :

L(\theta ,{\widehat {\theta }})={\begin{cases}0,&{\mbox{for }}|\theta -{\widehat {\theta }}|<K\\L,&{\mbox{for }}|\theta -{\widehat {\theta }}|\geq K.\end{cases}}

Possono essere concepite altri tipi di funzioni di perdita, nonostante l'errore quadratico medio è quella più largamente impiegata e validata.

Stimatori di Bayes generalizzati

Finora la distribuzione a priori $\pi$ è stata ipotizzata essere una vera distribuzione di probabilità, ossia:

\int \pi (\theta )d\theta =1.

Tuttavia, occasionalmente questo può essere un requisito restrittivo. Per esempio, non c'è alcuna distribuzione (definita su tutto l'insieme R dei numeri reali) per la quale ogni numero reale sia equiprobabile. Inoltre, in un certo senso, una tale "distribuzione" sembra la scelta naturale per una distribuzione di probabilità a priori non informativa, cioè una distribuzione a priori che non implica alcuna preferenza per alcun particolare valore del parametro incognito. È ancora possibile definire una funzione $\pi (\theta )=1$ , ma questa non sarebbe una distribuzione di probabilità propria in quanto avrebbe una massa infinita,

\int {\pi (\theta )d\theta }=\infty .

Tali misure $\pi (\theta )$ , che non sono distribuzioni di probabilità, sono definite distribuzioni a priori improprie.

L'uso di una distribuzione a priori impropria significa che il rischio di Bayes è indefinito (in quanto la distribuzione a priori non è una distribuzione di probabilità e non è possibile usarla per calcolare il valore atteso). Di conseguenza, non ha più significato parlare di uno stimatore di Bayes che minimizzi il rischio di Bayes. Non di meno, in molti casi, è ancora possibile definire la distribuzione a posteriori

\pi (\theta |x)={\frac {p(x|\theta )\pi (\theta )}{\int p(x|\theta )\pi (\theta )d\theta }}.

Questa è una definizione, e non un'applicazione del teorema di Bayes, in quanto questo può essere applicato solo quanto tutte le distribuzioni sono proprie. Tuttavia, non è raro per tale distribuzione "a posteriori" risultante essere una valida distribuzione di probabilità. In questo caso, la perdita attesa a posteriori

\pi (\theta |x)={\frac {p(x|\theta )\pi (\theta )}{\int p(x|\theta )\pi (\theta )d\theta }}.

è tipicamente ben definita e finita. Ricordiamo che, per una distribuzione a priori propria, lo stimatore di Bayes minimizza la perdita attesa a posteriori. Quando la distribuzione a priori è impropria, uno stimatore che minimizza la perdita attesa a posteriori è detto uno stimatore di Bayes generalizzato.^[2]

Esempio

Un tipico esempio riguarda la stima di un parametro di posizione con una funzione di perdita del tipo $L(a-\theta )$ . Qui $\theta$ è un parametro di posizione, cioè $p(x|\theta )=f(x-\theta )$ .

In questo caso è comune impiegare la distribuzione a priori impropria $\pi (\theta )=1$ , specialmente quando nessun'altra ulteriore informazione soggettiva è disponibile. Questo fornisce:

\pi (\theta |x)={\frac {p(x|\theta )\pi (\theta )}{p(x)}}={\frac {f(x-\theta )}{p(x)}}

così la perdita attesa a posteriori è uguale a

E[L(a-\theta )]=\int {L(a-\theta )\pi (\theta |x)d\theta }={\frac {1}{p(x)}}\int L(a-\theta )f(x-\theta )d\theta .

Lo stimatore di Bayes generalizzato è il valore $a(x)$ che minimizza questa espressione per tutti gli $x$ . Questo equivale a minimizzare

\int L(a-\theta )f(x-\theta )d\theta

per

x.

(1)

Può essere mostrato che, in questo caso, lo stimatore di Bayes generalizzato assume la forma $x+a_{0}$ , per qualche costante $a_{0}$ . Per rendersene conto, sia $a_{0}$ il valore minimizzante (1) quando $x=0$ . Allora, dato un differente valore $x_{1}$ , dobbiamo minimizzare

\int L(a-\theta )f(x_{1}-\theta )d\theta =\int L(a-x_{1}-\theta ')f(-\theta ')d\theta '.

(2)

Questa è identica a (1), eccetto che $a$ è stata sostituita con $a-x_{1}$ . Perciò, l'espressione minimizzante è data da $a-x_{1}=a_{0}$ , cosicché lo stimatore ottimale assume la forma

a(x)=a_{0}+x.\,\!

Stimatori di Bayes empirici

Uno stimatore di Bayes derivato tramite il metodo di Bayes empirico è chiamato uno stimatore di Bayes empirico. I metodi di Bayes empirici permettono, nello sviluppo di uno stimatore di Bayes, l'uso di dati empirici ausiliari da osservazioni di parametri collegati. Questo è fatto sotto l'assunzione che i parametri stimati siano ottenuti da una distribuzione a priori comune. Per esempio, se vengono eseguite osservazioni indipendenti di parametri distinti, allora la prestazione nello stimare un particolare parametro può talvolta essere migliorata impiegando dati provenienti da altre osservazioni.

Esistono approcci parametrici e non parametrici alla stima di Bayes empirica. La forma parametrica è solitamente preferita grazie alla sua maggiore applicabilità ed accuratezza su piccole quantità di dati.^[3]

Esempio

Quello seguente è un semplice esempio di stima parametrica empirica di Bayes. Date le osservazioni già note $x_{1},\ldots ,x_{n}$ aventi distribuzione condizionale $f(x_{i}|\theta _{i})$ , uno è interessato a stimare $\theta _{n+1}$ basato su $x_{n+1}$ . Assumiamo che le $\theta _{i}$ abbiano una distribuzione priori comune $\pi$ dipendendente da alcuni parametri incogniti. Per esempio, supponiamo che $\pi$ sia distribuita normalmente con media $\mu _{\pi }\,\!$ e varianza $\sigma _{\pi }\,\!$ incognite. Possiamo allora usare le osservazioni già note per determinare la media e la varianza di $\pi$ nel modo seguente.

Prima, stimiamo la media $\mu _{m}\,\!$ e la varianza $\sigma _{m}\,\!$ della distribuzione marginale di $x_{1},\ldots ,x_{n}$ usando l'approccio della massima verosimiglianza:

{\widehat {\mu }}_{m}={\frac {1}{n}}\sum {x_{i}},

{\widehat {\sigma }}_{m}^{2}={\frac {1}{n}}\sum {(x_{i}-{\widehat {\mu }}_{m})^{2}}.

Poi, usiamo le relazioni:

\mu _{m}=E_{\pi }[\mu _{f}(\theta )]\,\!,

\sigma _{m}^{2}=E_{\pi }[\sigma _{f}^{2}(\theta )]+E_{\pi }[\mu _{f}(\theta )-\mu _{m}],

dove $\mu _{f}(\theta )$ e $\sigma _{f}(\theta )$ sono i momenti della distribuzione condizionale $f(x_{i}|\theta _{i})$ , i quali sono assunti essere noti. In particolare, supponiamo che $\mu _{f}(\theta )=\theta$ e che $\sigma _{f}^{2}(\theta )=K$ ; abbiamo allora

\mu _{\pi }=\mu _{m}\,\!,

\sigma _{\pi }^{2}=\sigma _{m}^{2}-\sigma _{f}^{2}=\sigma _{m}^{2}-K.

Finalmente, otteniamo la stima dei momenti della distribuzione a priori

{\widehat {\mu }}_{\pi }={\widehat {\mu }}_{m},

{\widehat {\sigma }}_{\pi }^{2}={\widehat {\sigma }}_{m}^{2}-K.

Per esempio, se $x_{i}|\theta _{i}\sim N(\theta _{i},1)$ , e se assumiamo una distribuzione a priori normale (la quale in questo caso è una distribuzione a priori coniugata), concludiamo che $\theta _{n+1}\sim N({\widehat {\mu }}_{\pi },{\widehat {\sigma }}_{\pi }^{2})$ , dal quale lo stimatore di Bayes $\theta _{n+1}$ basato su $x_{n+1}$ può essere calcolato.

Proprietà

Ammissibilità

Regole di Bayes aventi rischio di Bayes finito sono tipicamente ammissibili. Seguono vari esempi specifici dei teoremi di ammissibilità.

Se una regola di Bayes è unica, allora è ammissibile.^[4] Per esempio, come sopra affermato, sotto errore quadratico medio (MSE) la regola di Bayes è unica e perciò ammissibile.
Se θ appartiene ad un insieme discreto, allora tutte le regole di Bayes sono ammissibili.
Se θ appartiene ad un insieme continuo (non discreto), e se la funzione di rischio R(θ,δ) è continua in θ per ogni δ, allora tutte le regole di Bayes sono ammissibili.

Per contro, regole di Bayes generalizzate spesso hanno rischio di Bayes indefinito nel caso di distribuzione a priori impropria. Queste regole sono spesso inammissibili e la verifica della loro ammissibilità può essere difficile. Per esempio, lo stimatore di Bayes generalizzato di un parametro di posizione θ basato su campioni gaussiani (descritto nel paragrafo "Stimatore di Bayes generalizzato" sopra) è inammissibile per $p>2$ ; ciò è noto come fenomeno di Stein.

Efficienza asintotica

Sia θ una variabile casuale sconosciuta, e supponiamo che $x_{1},x_{2},\ldots$ siano campioni iid con densità $f(x_{i}|\theta )$ . Sia $\delta _{n}=\delta _{n}(x_{1},\ldots ,x_{n})$ una sequenza di stimatori di Bayes di θ basata su un numero crescente di misurazioni. Siamo interessati all'analisi della prestazione asintotica di questa sequenza di stimatori, cioè alla prestazione di $\delta _{n}$ per valori di n grandi.

A questo scopo, è comodo considerare θ come un parametro non casuale il cui valore vero sia $\theta _{0}$ . Sotto condizioni specifiche,^[5] per campioni estesi (grandi valori di n), la densità a posteriori di θ è approssimativamente normale. In altri termini, per n grande, l'effetto della probabilità della distribuzione a priori su quella a posteriori è trascurabile. Inoltre, se δ è lo stimatore di Bayes sotto il rischio MSE, allora esso è asintoticamente non distorto (asymptotically unbiased) e converge in distribuzione alla distribuzione normale:

{\sqrt {n}}(\delta _{n}-\theta _{0})\to N\left(0,{\frac {1}{I(\theta _{0})}}\right),

dove I(θ₀) è l'informazione di Fisher di θ₀. Ne consegue che lo stimatore di Bayes δ_n sotto MSE è asintoticamente efficiente.

Un altro stimatore asintoticamente normale ed efficiente è lo stimatore di massima verosimiglianza (MLE). Le relazioni tra la massima verosimiglianza e gli stimatori di Bayes possono essere mostrate nel seguente semplice esempio.

Consideriamo lo stimatore di θ basato sul campione binomiale x~b(θ,n) dove θ denota la probabilità di successo. Assumendo che θ sia distribuito secondo la distribuzione a priori coniugata, la quale in questo caso è la distribuzione Beta B(a,b), la distribuzione a posteriori è nota essere B(a+x,b+n-x). Perciò, lo stimatore di Bayes sotto MSE è

\delta _{n}(x)=E[\theta |x]={\frac {a+x}{a+b+n}}.

L'MLE in questo caso è x/n e così otteniamo,

\delta _{n}(x)={\frac {a+b}{a+b+n}}E[\theta ]+{\frac {n}{a+b+n}}\delta _{MLE}.

L'ultima equazione implica che, per n → ∞, lo stimatore di Bayes (nel problema in questione) è vicino alla MLE.

D'altra parte, quando n è piccolo, l'informazione a priori è ancora rilevante per il problema decisionale e influisce sulla stima. Per vedere il peso dell'informazione a priori, assumiamo che a=b; in questo caso ogni misurazione apporta un nuovo singolo bit di informazione; la formula sopra mostra che l'informazione a priori ha lo stesso peso come a+b bit di nuova informazione. Nel caso pratico, uno spesso conosce veramente poco dei dettagli più fini della distribuzione a priori; in particolare, non c'è nessuna ragione per assumere che coincida esattamente con B(a,b). In tal caso, una possibile interpretazione di questo calcolo è: "esiste una distribuzione a priori non patologica con valore medio di 0.5 e deviazione standard d che dà un peso di informazione a priori pari a 1/(4d²)-1 bit di nuova informazione".

Note

^ Lehmann and Casella, Theorem 4.1.1
^ ^a ^b Lehmann and Casella, Definition 4.2.9
^ Berger (1980), sessione 4.5.
^ Lehmann and Casella (1998), Theorem 5.2.4.
^ Lehmann and Casella (1998), sessione 6.8

Bibliografia

E. L. Lehmann, Casella, G., Theory of Point Estimation, Springer, 1998, pp. 2nd ed, ISBN 0-387-98502-6.
James O. Berger, Statistical decision theory and Bayesian Analysis, 2ª ed., New York, Springer-Verlag, 1985, ISBN 0-387-96098-8, MR 0804611.

Collegamenti esterni

Bayesian estimation on cnx.org, su cnx.org.

Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica

[1] Lehmann and Casella, Theorem 4.1.1

[L&C-2] Lehmann and Casella, Definition 4.2.9

[3] Berger (1980), sessione 4.5.

[4] Lehmann and Casella (1998), Theorem 5.2.4.

[5] Lehmann and Casella (1998), sessione 6.8

[1]

[2]

[3]

[4]

[5]