Distribuzione a priori coniugata

Nell'ambito della teoria della probabilità bayesiana, se le distribuzioni a posteriori p(θ|x) sono nella stessa famiglia della distribuzione a priori p(θ), le due distribuzioni sono definite coniugate, e la distribuzione a priori è chiamata distribuzione a priori coniugata per la verosimiglianza. Per esempio, la famiglia della distribuzione gaussiana è coniugata a sé stessa (o auto-coniugata) rispetto ad una funzione di verosimiglianza gaussiana: se la funzione di verosimiglianza è gaussiana, scegliendo per la media una distribuzione a priori gaussiana assicurerà che anche la distribuzione a posteriori (della media) sarà ancora gaussiana. Questo significa che la distribuzione gaussiana è una distribuzione a priori coniugata per la verosimiglianza la quale è pure gaussiana. Il concetto, come pure il termine "distribuzione a priori coniugata" (conjugate prior), furono introdotti da Howard Raiffa e Robert Schlaifer nel loro lavoro sulla teoria delle decisioni bayesiana.[1] Un concetto simile fu scoperto indipendentemente da George Alfred Barnard.[2]

Consideriamo il problema generale di inferire una distribuzione per un parametro θ sulla scorta del dato o dei dati x. Dal teorema di Bayes, la distribuzione di probabilità a posteriori è uguale al prodotto della funzione di verosimiglianza e della distribuzione di probabilità a priori p(θ), normalizzato (diviso) per la probabilità dei dati p(x):

Sia la funzione di verosimiglianza considerata fissata; la funzione di verosimiglianza è solitamente ben determinata in base ad ipotesi sul processo di generazione dei dati (ad esempio la verosimiglianza di dati relativi a misure di lunghezza può essere descritta nella maggior parte dei casi sperimentali da una funzione gaussiana oppure nel caso di dati relativi al getto ripetuto di una moneta da una funzione binomiale, ecc.). È chiaro che scelte distinte della distribuzione a priori p(θ) possono rendere l'integrale che esprime la distribuzione a posteriori più o meno difficile da calcolare, e il prodotto p(x|θ) × p(θ) può assumere un certo aspetto algebrico piuttosto che un altro. Per taluni scelte della distribuzione a priori, la distribuzione a posteriori ha la stessa forma algebrica (generalmente con differenti valori dei parametri della distribuzione). Tale tipo di scelta è una distribuzione a priori coniugata.

Una distribuzione a priori coniugata è conveniente dal punto di vista algebrico in quanto fornisce una espressione in forma chiusa per la distribuzione a posteriori: alternativamente può essere necessario il calcolo di un integrale numerico. Inoltre le distribuzioni a priori coniugate possono fornire delle intuizioni circa il modo con cui la funzione di verosimiglianza aggiorna la distribuzione a priori.

Tutti i membri della famiglia esponenziale hanno distribuzioni a priori coniugate. Cfr. Gelman et al.[3] per una classificazione.

Esempio modifica

La forma di una distribuzione a priori coniugata generalmente può essere determinata mediante l'esame della funzione di densità di probabilità o della funzione probabilità di densità di massa (cioè il corrispettivo caso discreto). Per esempio, consideriamo una variabile casuale del tipo di processo di Bernoulli (cioè una sequenza casuale di casi "favorevole", "sfavorevole", ad esempio 0 o 1, oppure "vero" o "falso", ecc.) con probabilità di successo   in   sconosciuta. La funzione di densità di probabilità ha la forma:

 

Espressa come una funzione di   assume la forma

 

per qualche costante   e  . Generalmente questa forma funzionale avrà un fattore moltiplicativo aggiuntivo (la costante di normalizzazione assicurante che la funzione sia una distribuzione di probabilità, cioè il suo integrale sul suo intero dominio è pari a 1). Questo fattore risulterà spesso una funzione di   e di  , ma non dipenderà mai da  .

Infatti, la distribuzione a priori coniugata solitamente è la distribuzione beta con

 

dove   e   sono scelte conformemente a qualche credenza o informazione esistente (  = 1 e   = 1 darebbero una distribuzione uniforme) e Β(  ) è la funzione Beta agente come una costante di normalizzazione.

In questo contesto,   e   sono chiamati iperparametri (parametri della distribuzione a priori), per distinguerli dai parametri del modello sottostante (  in questo caso). Una tipica caratteristica delle distribuzioni a priori coniugate è che la cardinalità degli iperparametri è maggiore di un'unità rispetto a quella dei parametri della distribuzione originale. Se tutti i parametri sono valori scalari, questo significa che ci sarà un iperparametro in più rispetto ai parametri; ma questo di applica anche al caso di parametri di tipo vettoriale o matriciale. (Vedi l'articolo generale sulla famiglia esponenziale, e considera anche la distribuzione di Wishart, distribuzione a priori coniugata della matrice delle covarianze della distribuzione normale multivariata, per un esempio dove è implicata la cardinalità elevata).

Se campioniamo questa variabile casuale ottenendo   successi ed   insuccessi, abbiamo:

 
 

la quale è un'altra distribuzione Beta con una semplice variazione a(gli iper)parametri. Questa distribuzione a posteriori potrebbe quindi essere usata come una distribuzione a priori per ulteriori campionamenti, con gli iperparametri includenti ogni altra ulteriore informazione come questa sopraggiunge.

Pseudo-osservazioni modifica

Spesso è utile pensare gli iperparametri come corrispondenti ad un certo numero di pseudo-osservazioni con proprietà specificate dagli iperparametri. Per esempio, i valori   e   della distribuzione Beta possono essere pensati come corrispondenti ad   successi e   insuccessi se la moda a posteriori è usata per scegliere una selezione parametrica ottimale, oppure   successi e   insuccessi se è stata scelta la media a posteriori. In generale per quasi tutte le distribuzioni a priori coniugate, gli iperparametri possono essere interpretati in termini di pseudo-osservazioni. Questo può aiutare sia per intuire la forma delle equazioni, sia per aiutare nella scelta di iperparametri ragionevoli per la distribuzione a priori.

Interpretazioni modifica

Analogia con le autofunzioni modifica

Le distribuzioni a priori coniugate sono analoghe alle autofunzioni nella teoria degli operatori, in quanto sono distribuzioni sulle quali agisce l'"operatore di condizionamento" per fornire la distribuzione a posteriori.

In entrambi i casi, c'è uno spazio di dimensione finita che è preservato dall'operatore: il risultato è della stessa forma (nel medesimo spazio iniziale) della funzione su cui agisce l'operatore. Questo semplifica grandemente l'analisi, che altrimenti considererebbe uno spazio dimensionalmente infinito (spazio di tutte le funzioni, spazio di tutte le distribuzioni di probabilità).

Tuttavia i due processi sono solo analoghi, non identici: l'operatore di condizionamento non è lineare, in quanto lo spazio delle distribuzioni non è chiuso sotto combinazione lineare, solamente combinazione convessa, e la distribuzione a posteriori è solo della stessa forma di quella a priori, non un multiplo scalare.

Difatti essendo possibile facilmente analizzare come una combinazione lineare di autofunzioni evolve sotto l'applicazione di un operatore, allo stesso modo è possibile facilmente analizzare l'evoluzione di una combinazione convessa di distribuzioni a priori coniugate sotto l'operatore di condizionamento. Questo ultimo è chiamato usando una distribuzione a iperpriori, ed equivale ad impiegare una miscela di densità di distribuzioni a priori coniugate, piuttosto che una singola distribuzione a priori coniugata.

Sistema dinamico modifica

È possibile pensare il condizionamento su distribuzioni a priori coniugate come un tipo di sistema dinamico (con unità temporali discrete): a partire da un dato insieme di iperparametri, i dati man mano sopraggiungenti aggiornano tali parametri, così è possibile vedere la loro variazione come una sorta di "evoluzione temporale", corrispondente ad un "apprendimento". Partenze da punti distinti forniscono differenti evoluzioni temporali. Questo è ancora analogo ad un sistema dinamico definito mediante un operatore lineare, ma si noti che poiché campioni distinti conducono a inferenze differenti, non c'è una semplice dipendenza dal tempo ma piuttosto su dati evolventi nel tempo. Per approcci collegati cfr. stima bayesiana ricorsiva e assimilazione di dati (data assimilation).

Tabella delle distribuzioni coniugate modifica

Nella tabella seguente   indica il numero di osservazioni.

Se la funzione di verosimiglianza appartiene alla famiglia esponenziale, allora esiste una distribuzione a priori coniugata, spesso anche all'interno della famiglia esponenziale.

Distribuzioni di verosimiglianza discrete modifica

Verosimiglianza Parametri del modello Distribuzione a priori coniugata Iperparametri della distr. a priori Iperparametri della distr. a posteriori Interpretazione degli iperparametri[nota 1] Distr. predittiva a posteriori[nota 2]
Bernoulli p (probabilità) Beta       successi,   insuccessi[nota 1]  
Binomiale p (probabilità) Beta       successi,   insuccessi[nota 1]  
(beta-binomiale)
Binomiale Negativa
con numero noto di insuccessi r
p (probabilità) Beta       totale successi,   insuccessi[nota 1] (cioè   esperimenti, assumendo che   rimanga fissato)
Poisson λ (rateo) Gamma       occorrenze totali in   intervalli  
(binomiale negativa)
Poisson λ (rateo) Gamma   [nota 3]     occorrenze totali in   intervalli  
(binomiale negativa)
Categoriale p (vettore probabilità), k (numero di categorie, cioè la dimensione di p) Dirichlet     dove   è il numero di osservazioni nella categoria i   occorrenze di categoria  [nota 1]  

     

Multinomiale p (vettore probabilità), k (numero di categorie, cioè la dimensione di p) Dirichlet       occorrenze di categoria  [nota 1]  
(Dirichlet multinomiale)
Ipergeometrica
con dimensione della popolazione totale N
M (numero di membri bersaglio) Beta-binomiale

[4] ||   ||  

  successi,   insuccessi[nota 1]
Geometrica p0 (probabilità) Beta       esperimenti,  insuccessi totali[nota 1]

Distribuzioni di verosimiglianza continue modifica

Nota: In tutti i casi sotto, si assume che i dati consistano di   punti   (che saranno vettori casuali nei casi multivariati).

Verosimiglianza Parametri del modello Distribuzione a priori coniugata Iperparametri della distr. a priori Iperparametri della distr. a posteriori Interpretazione degli iperparametri Distribuzione predittiva a posteriori[nota 4]
Normale
con varianza nota σ2
μ (media) Normale    
 
la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)  e con media campionaria   [5]
Normale
con precisione nota τ
μ (media) Normale     la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)  e con media campionaria    [5]
Normale
con media nota μ
σ2 (varianza) Gamma inversa   [nota 5]   la varianza è stimata da   osservazioni varianza campione   (cioè con somma di deviazioni quadratiche  )  [5]
Normale
con media nota μ
σ2 (varianza) Chi-quadro inversa scalata     la varianza è stimata da   osservazioni con varianza campione    [5]
Normale
con media nota μ
τ (precisione) Gamma  [nota 3]   la precisione è stimata da   osservazioni con varianza campione   (cioè con somma di deviazioni quadratiche  )  [5]
Normale μ and σ2
Assumendo scambiabilità
Gamma normale-inversa    
 
  •   è la media campionaria
la media è stimata da   osservazioni con media campionaria  ; la varianza è stimata da   osservazioni con media campionaria   e varianza campione   (cioè come somma di deviazioni quadratiche  )  [5]
Normale μ e τ
Assumendo scambiabilità
normale-Gamma    
 
  •   è la media campionaria
la media è stimata da   osservazioni con media campionaria  , e la precisione è stimata da   osservazioni con media campionaria   e varianza campione   (cioè come somma di deviazioni quadratiche  )  [5]
Normale multivariata con matrice di covarianza nota Σ μ (media vettore) Normale multivariata    
 
  •   è la media campionaria
la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)  e con media campionaria    [6]
Normale multivariata con matrice di precisione nota Λ μ (media vettore) Normale multivariata    
  •   è la media campionaria
la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)  e con media campionaria    [5]
Normale multivariata con media nota μ Σ (matrice di covarianza) Wishart-inversa     varianza è stimata da   osservazioni con somma di deviazioni quadratiche    [5]
Normale multivariata con media nota μ Λ (matrice di precisione) Wishart     la precisione è stimata da   osservazioni con somma di deviazioni quadratiche    [5]
Normale multivariata μ (media vettore) and Σ (matrice di covarianza) Wishart normale-inversa    
 
  •   è la media campionaria
  •  
la media è stimata da   osservazioni con media campionaria  ; la varianza è stimata da   osservazioni con media campionaria  e con somma di deviazioni quadratiche    [5]
Normale multivariata μ (media vettore) and Λ (matrice di precisione) Wishart normale    
 
  •   è la media campionaria
  •  
la media è stimata da   osservazioni con media campionaria  ; la varianza è stimata da   osservazioni con media campionaria  e con somma di deviazioni quadratiche    [5]
Uniforme   Pareto       osservazioni con valore massimo 
Pareto
con minimo noto xm
k (forma) Gamma       osservazioni con somma   dell'ordine di grandezza di ogni osservazione (cioè il logaritmo del quoziente tra ciascuna osservazione e il minimo  )
Weibull
con forma nota β
θ (scale) Gamma inversa[4]       osservazioni con somma   della β'-esima potenza di ogni osservazione
Weibull
con fattore di scala noto θ
β (forma)  [4]       osservazioni con somma   del logaritmo di ogni osservazione e della somma   della β'-esima potenza di ogni osservazione
Log-normale
con precisione nota τ
μ (media) Normale[4]     "media" è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali)  e con media campionaria  
Log-normale
con media nota μ
τ (precisione) Gamma[4]  [nota 3]   la precisione è stimata da   osservazioni con varianza campione   (cioè come somma di deviazioni log-quadratiche   — cioè deviazioni tra il logaritmo dei dati puntuali e la "media")
Esponenziale λ (rateo) Gamma   [nota 3]     osservazioni che sommano a  
Gamma
con forma nota α
β (rateo) Gamma       osservazioni con somma     [nota 6]
Gamma inversa
con forma nota α
β (scala inversa) Gamma       osservazioni con somma  
Gamma
con rateo noto β
α (forma)         o   osservazioni (  per stimare  ,   per stimare  ) con prodotto  
Gamma [4] α (forma), β (scala inversa)         è stimata da   osservazioni con prodotto  ;   è stimato da   osservazioni con somma  

Note modifica

Esplicative modifica

  1. ^ Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
  2. ^ Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
  3. ^ Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin. Bayesian Data Analysis, 2nd edition. CRC Press, 2003. ISBN 1-58488-388-X.
  4. ^ a b c d e f D. Fink, A Compendium of Conjugate Priors, in DOE contract 95‑831, 1997, CiteSeerX10.1.1.157.5540.
  5. ^ a b c d e f g h i j k l Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [1]
  6. ^ Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [2] Si noti che   è una Distribuzione normale o una distribuzione normale multivariata;   è una distribuzione t di Student o una distribuzione di Student multivariata.

Bibliografiche modifica

  1. ^ a b c d e f g h L'esatta interpretazione dei parametri di una distribuzione Beta in termini di numero di successi ed insuccessi dipende da quale funzione è usata per estrarre una stima puntuale dalla distribuzione. La moda della distribuzione Beta è   la quale corrisponde a   successi e   insuccessi; ma la media è   la quale corrisponde a   successi e   insuccessi. L'impiego di   e   ha il vantaggio che una distribuzione a priori uniforme   corrisponde a 0 successi e 0 insuccessi, ma l'impiego di   e   è in qualche modo matematicamente più conveniente ed anche ben corrisponde con l fatto che i bayesiani generalmente preferiscono usare la media a posteriori piuttosto che la moda a posteriori come stima puntuale. Lo stesso discorso si applica alla Distribuzione di Dirichlet.
  2. ^ Questa è la distribuzione predittiva a posteriori del nuovo dato puntuale   una volta risultati i dati puntuali, con i parametri marginalizzati fuori. Variabili con l'apostrofo indicano i valori a posteriori dei parametri.
  3. ^ a b c d β è il rateo o scala inversa. Nella parametrizzazione della distribuzione Gamma,θ = 1/β e k = α.
  4. ^ Questa è la distribuzione predittiva a posteriori di un nuovo dato puntuale   una volta risultanti i dati puntuali osservati, con i parametri marginalizzati fuori. Variabili con l'apostrofo indicano i valori a posteriori dei parametri.   e   si riferiscono alla Distribuzione normale ed alla Distribuzione t di Student, rispettivamente, o alla distribuzione normale multivariata e alla distribuzione t multivariata nei casi multivariati.
  5. ^ In termini della Gamma inversa,   e un parametro di scala
  6. ^   e una distribuzione Gamma composta;   qui è una distribuzione Beta del secondo tipo generalizzata (distribuzione Beta del secondo tipo generalizzata).

Collegamenti esterni modifica