In teoria della probabilità la distribuzione di Dirichlet , spesso denotata con
Dir
(
α
)
{\displaystyle \operatorname {Dir} ({\boldsymbol {\alpha }})}
, è una distribuzione di probabilità continua , dipendente da un vettore di numeri reali positivi
α
{\displaystyle \alpha }
, che generalizza la variabile casuale Beta nel caso multivariato . Prende il nome dal matematico tedesco Peter Gustav Lejeune Dirichlet .
Ha come funzione di densità di probabilità
f
(
x
1
,
x
2
,
…
,
x
k
|
α
1
,
α
2
,
…
,
α
k
)
=
Γ
(
α
)
Γ
(
α
1
)
Γ
(
α
2
)
…
Γ
(
α
k
)
x
1
α
1
−
1
x
2
α
2
−
1
…
x
k
α
k
−
1
,
{\displaystyle f(x_{1},x_{2},\ldots ,x_{k}|\alpha _{1},\alpha _{2},\ldots ,\alpha _{k})={\frac {\Gamma (\alpha )}{\Gamma (\alpha _{1})\Gamma (\alpha _{2})\ldots \Gamma (\alpha _{k})}}x_{1}^{\alpha _{1}-1}x_{2}^{\alpha _{2}-1}\ldots x_{k}^{\alpha _{k}-1},}
dove
α
=
α
1
+
α
2
+
…
+
α
k
{\displaystyle \alpha =\alpha _{1}+\alpha _{2}+\ldots +\alpha _{k}}
e
x
1
,
…
,
x
k
{\displaystyle x_{1},\dots ,x_{k}}
sono numeri reali positivi tali che
x
1
+
⋯
+
x
k
=
1.
{\displaystyle x_{1}+\cdots +x_{k}=1.}
Il suo valore atteso è
E
(
X
i
)
=
α
i
α
,
{\displaystyle E(X_{i})={\frac {\alpha _{i}}{\alpha }},}
la moda è
x
i
=
α
i
−
1
α
−
k
,
α
i
>
1
,
{\displaystyle x_{i}={\frac {\alpha _{i}-1}{\alpha -k}},\quad \alpha _{i}>1,}
mentre la varianza è
Var
(
X
i
)
=
(
α
−
α
i
)
α
i
α
2
(
α
+
1
)
.
{\displaystyle \operatorname {Var} (X_{i})={\frac {(\alpha -\alpha _{i})\alpha _{i}}{\alpha ^{2}(\alpha +1)}}.}
Inoltre, per ogni coppia
X
i
,
X
j
{\displaystyle X_{i},X_{j}}
con
i
≠
j
{\displaystyle i\neq j}
, si ha che la covarianza è
Cov
(
X
i
,
X
j
)
=
−
α
i
α
j
α
2
(
α
+
1
)
.
{\displaystyle \operatorname {Cov} (X_{i},X_{j})=-{\frac {\alpha _{i}\alpha _{j}}{\alpha ^{2}(\alpha +1)}}.}
La distribuzione Beta come caso particolare
modifica
Se
k
=
2
{\displaystyle k=2}
e
X
2
=
1
−
X
1
{\displaystyle X_{2}=1-X_{1}}
, allora
X
1
{\displaystyle X_{1}}
è distribuita come una variabile casuale Beta
Beta
(
α
1
,
α
2
)
.
{\displaystyle \operatorname {Beta} (\alpha _{1},\alpha _{2}).}
La distribuzione di Dirichlet come distribuzione a priori coniugata della distribuzione Multinomiale
modifica
Nell'ambito dell'inferenza bayesiana la variabile casuale di Dirichlet è una distribuzione a priori coniugata della variabile casuale multinomiale in quanto se si applica alla
f
(
x
1
,
x
2
,
…
,
x
k
|
θ
1
,
θ
2
,
…
,
θ
k
)
=
Multinomiale
k
(
θ
1
,
θ
2
,
…
,
θ
k
)
{\displaystyle f(x_{1},x_{2},\ldots ,x_{k}|\theta _{1},\theta _{2},\ldots ,\theta _{k})=\operatorname {Multinomiale} _{k}(\theta _{1},\theta _{2},\ldots ,\theta _{k})}
una distribuzione a priori delle
θ
i
{\displaystyle \theta _{i}}
corrispondente ad una variabile casuale di Dirichlet
g
(
θ
1
,
θ
2
,
…
,
θ
k
)
=
Dir
k
(
α
1
,
α
2
,
…
,
α
k
)
,
{\displaystyle g(\theta _{1},\theta _{2},\ldots ,\theta _{k})=\operatorname {Dir} _{k}(\alpha _{1},\alpha _{2},\ldots ,\alpha _{k}),}
allora la distribuzione a posteriori delle
θ
i
{\displaystyle \theta _{i}}
è anch'essa una variabile casuale di Dirichlet, ma con i parametri incrementati dai valori osservati:
g
(
θ
1
,
θ
2
,
…
,
θ
k
|
(
x
1
,
x
2
,
…
,
x
k
)
=
Dir
k
(
α
1
+
x
1
,
α
2
+
x
2
,
…
,
α
k
+
x
k
)
.
{\displaystyle g(\theta _{1},\theta _{2},\ldots ,\theta _{k}|(x_{1},x_{2},\ldots ,x_{k})=\operatorname {Dir} _{k}(\alpha _{1}+x_{1},\alpha _{2}+x_{2},\ldots ,\alpha _{k}+x_{k}).}
Questo teorema può essere visto come una generalizzazione multivariata dell'equivalente teorema univariato, che coinvolge variabile casuale binomiale al posto della multinomiale e la variabile casuale Beta al posto della Dirichlet.
Dalla Gamma (Erlang B) alla Dirichlet
modifica
Se si hanno
k
{\displaystyle k}
indipendenti variabili casuali distribuite ciascuna come una variabile casuale Gamma con un parametro comune a tutti e unitario e un parametro individualizzato (si tratta dunque di variabili casuali dette Erlang B , ciascuna con il proprio parametro)
Y
i
∼
Gamma
(
α
i
,
1
)
,
{\displaystyle Y_{i}\sim \operatorname {Gamma} (\alpha _{i},1),}
definendo la loro somma come
V
=
∑
i
=
1
k
Y
i
∼
Gamma
(
∑
i
=
1
k
α
i
,
1
)
,
{\displaystyle V=\sum _{i=1}^{k}Y_{i}\sim \operatorname {Gamma} (\sum _{i=1}^{k}\alpha _{i},1),}
allora si ha che
(
X
1
,
…
,
X
k
)
=
(
Y
1
/
V
,
…
,
Y
k
/
V
)
∼
D
i
r
k
(
α
1
,
…
,
α
k
)
.
{\displaystyle (X_{1},\ldots ,X_{k})=(Y_{1}/V,\ldots ,Y_{k}/V)\sim \operatorname {Dir_{k}} (\alpha _{1},\ldots ,\alpha _{k}).}
SciencesPo : pacchetto R che contiene funzioni per la simulazione di parametri della distribuzione Dirichlet.