In statistica , la disuguaglianza di Cramér-Rao , che prende il nome da Harald Cramér e Calyampudi Radhakrishna Rao , afferma che il reciproco della matrice informazione di Fisher
I
(
ϑ
)
{\displaystyle \ {\mathcal {I}}(\vartheta )}
per un parametro
ϑ
{\displaystyle \ \vartheta }
costituisce un limite inferiore alla varianza di uno stimatore corretto per il parametro (denotato
ϑ
^
{\displaystyle \ {\hat {\vartheta }}}
):
var
(
ϑ
^
)
≥
1
I
(
ϑ
)
=
1
n
E
[
(
∂
∂
ϑ
ln
f
(
X
;
ϑ
)
)
2
]
{\displaystyle \ {\mbox{var}}\left({\hat {\vartheta }}\right)\geq {\frac {1}{{\mathcal {I}}(\vartheta )}}={\frac {1}{n{\mbox{E}}\left[\left({\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )\right)^{2}\right]}}}
In alcuni casi, non esiste uno stimatore corretto che consegue il limite inferiore così stabilito.
Non è infrequente trovare riferimenti alla disuguaglianza di Cramér-Rao come al limite inferiore di Cramér-Rao .
Si ritiene che il matematico francese Maurice René Fréchet sia stato il primo a scoprire e dimostrare questa disuguaglianza.[1]
Condizioni di regolarità
modifica
La dimostrazione della disuguaglianza di Cramér-Rao passa attraverso la verifica di un risultato più generale; per un qualsiasi stimatore (statistica di un campione
X
{\displaystyle \ X}
)
T
=
t
(
X
)
{\displaystyle \ T=t(X)}
, il cui valore atteso è denotato da
ψ
(
ϑ
)
{\displaystyle \ \psi (\vartheta )}
, e per ogni
ϑ
{\displaystyle \ \vartheta }
:
var
(
t
(
X
)
)
≥
[
ψ
′
(
ϑ
)
]
2
I
(
ϑ
)
{\displaystyle \ {\mbox{var}}(t(X))\geq {\frac {\left[\psi '(\vartheta )\right]^{2}}{{\mathcal {I}}(\vartheta )}}}
La disuguglianza di Cramér-Rao discende direttamente da quest'ultima relazione, come caso particolare.
Sia dunque
X
{\displaystyle \ X}
una variabile casuale , avente funzione di densità
f
(
x
;
ϑ
)
{\displaystyle \ f(x;\vartheta )}
.
T
=
t
(
X
)
{\displaystyle \ T=t(X)}
è una statistica utilizzata come estimatore del parametro
ϑ
{\displaystyle \ \vartheta }
. Sia inoltre
V
{\displaystyle \ V}
il suo score , o derivata logaritmica rispetto a
ϑ
{\displaystyle \vartheta }
:
V
=
∂
∂
ϑ
ln
f
(
X
;
ϑ
)
{\displaystyle \ V={\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )}
Il valore atteso
E
(
V
)
{\displaystyle \ {\mbox{E}}(V)}
è nullo. Ciò a sua volta implica che
cov
(
V
,
T
)
=
E
(
V
T
)
−
E
(
V
)
E
(
T
)
=
E
(
V
T
)
{\displaystyle \ {\mbox{cov}}(V,T)={\mbox{E}}(VT)-{\mbox{E}}(V){\mbox{E}}(T)={\mbox{E}}(VT)}
. Espandendo quest'ultima espressione, si ha:
cov
(
V
,
T
)
=
E
(
T
∂
∂
ϑ
ln
f
(
X
;
ϑ
)
)
{\displaystyle \ {\mbox{cov}}(V,T)={\mbox{E}}\left(T{\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )\right)}
Svolgendo la derivata tramite la regola della catena :
∂
∂
x
ln
g
(
x
)
=
1
g
(
x
)
∂
g
∂
x
{\displaystyle \ {\frac {\partial }{\partial x}}\ln g(x)={\frac {1}{g(x)}}{\frac {\partial g}{\partial x}}}
e conoscendo la definizione di speranza matematica :
E
(
T
∂
∂
ϑ
ln
f
(
X
;
ϑ
)
)
=
∫
t
(
x
)
[
∂
∂
ϑ
f
(
x
;
ϑ
)
]
d
x
=
∂
∂
ϑ
[
∫
t
(
x
)
f
(
x
;
ϑ
)
d
x
]
=
ψ
′
(
ϑ
)
{\displaystyle \ {\mbox{E}}\left(T{\frac {\partial }{\partial \vartheta }}\ln f(X;\vartheta )\right)=\int t(x)\left[{\frac {\partial }{\partial \vartheta }}f(x;\vartheta )\right]dx={\frac {\partial }{\partial \vartheta }}\left[\int t(x)f(x;\vartheta )dx\right]=\psi '(\vartheta )}
dal momento che gli operatori di derivazione e integrazione commutano.
Tramite la disuguaglianza di Cauchy-Schwarz si ha inoltre:
var
(
T
)
var
(
V
)
≥∣
cov
(
V
,
T
)
∣=
ψ
′
(
ϑ
)
{\displaystyle \ {\sqrt {{\mbox{var}}(T){\mbox{var}}(V)}}\geq \mid {\mbox{cov}}(V,T)\mid =\psi '(\vartheta )}
dunque:
var
(
T
)
≥
[
ψ
′
(
ϑ
)
]
2
var
(
V
)
=
[
ψ
′
(
ϑ
)
]
2
I
(
ϑ
)
=
[
∂
∂
ϑ
E
(
T
)
]
2
1
I
(
ϑ
)
{\displaystyle \ {\mbox{var}}(T)\geq {\frac {\left[\psi '(\vartheta )\right]^{2}}{{\mbox{var}}(V)}}={\frac {\left[\psi '(\vartheta )\right]^{2}}{{\mathcal {I}}(\vartheta )}}=\left[{\frac {\partial }{\partial \vartheta }}{\mbox{E}}(T)\right]^{2}{\frac {1}{{\mathcal {I}}(\vartheta )}}}
come volevasi dimostrare . Ora, se
T
{\displaystyle \ T}
è uno stimatore corretto per
ϑ
{\displaystyle \ \vartheta }
,
E
(
T
)
=
ϑ
{\displaystyle {\mbox{E}}(T)=\vartheta }
, e
ψ
′
(
ϑ
)
=
1
{\displaystyle \ \psi '(\vartheta )=1}
; dunque la relazione sopra diviene:
var
(
T
)
≥
1
I
(
ϑ
)
{\displaystyle \ {\mbox{var}}(T)\geq {\frac {1}{{\mathcal {I}}(\vartheta )}}}
ossia la disuguaglianza di Cramér-Rao.
Estensione a più parametri
modifica
Al fine di estendere la disuguaglianza di Cramér-Rao al caso di un vettore di parametri, si definisca il vettore colonna:
θ
=
[
ϑ
1
,
ϑ
2
,
…
,
ϑ
d
]
′
∈
R
d
{\displaystyle {\boldsymbol {\theta }}=\left[\vartheta _{1},\vartheta _{2},\dots ,\vartheta _{d}\right]'\in \mathbb {R} ^{d}}
e sia ad esso associata una funzione di densità
f
(
x
;
θ
)
{\displaystyle f(x;{\boldsymbol {\theta }})}
che soddisfi le condizioni di regolarità elemento per elemento.
L'informazione di Fisher
I
(
θ
)
{\displaystyle \ {\mathcal {I}}({\boldsymbol {\theta }})}
è allora una matrice di dimensioni
d
×
d
{\displaystyle \ d\times d}
, il cui generico elemento
(
m
,
k
)
{\displaystyle \ (m,k)}
è definito da:
I
m
,
k
=
E
[
∂
∂
ϑ
m
ln
f
(
x
;
θ
)
∂
∂
ϑ
k
ln
f
(
x
;
θ
)
]
{\displaystyle \ {\mathcal {I}}_{m,k}={\mbox{E}}\left[{\frac {\partial }{\partial \vartheta _{m}}}\ln f\left(x;{\boldsymbol {\theta }}\right){\frac {\partial }{\partial \vartheta _{k}}}\ln f\left(x;{\boldsymbol {\theta }}\right)\right]}
La disuguaglianza di Cramér-Rao è dunque formulata come:
cov
θ
(
T
(
X
)
)
≥
∂
ψ
(
θ
)
∂
θ
T
I
(
θ
)
−
1
∂
ψ
(
θ
)
′
∂
θ
{\displaystyle {\mbox{cov}}_{\boldsymbol {\theta }}\left({\boldsymbol {T}}(X)\right)\geq {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}^{T}}}{\mathcal {I}}\left({\boldsymbol {\theta }}\right)^{-1}{\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)'}{\partial {\boldsymbol {\theta }}}}}
dove:
T
(
X
)
=
[
T
1
(
X
)
T
2
(
X
)
⋯
T
d
(
X
)
]
′
{\displaystyle {\boldsymbol {T}}(X)={\begin{bmatrix}T_{1}(X)&T_{2}(X)&\cdots &T_{d}(X)\end{bmatrix}}'}
ψ
=
E
[
T
(
X
)
]
=
[
ψ
1
(
θ
)
ψ
2
(
θ
)
⋯
ψ
d
(
θ
)
]
′
{\displaystyle {\boldsymbol {\psi }}=\mathrm {E} \left[{\boldsymbol {T}}(X)\right]={\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }}\right)&\psi _{2}\left({\boldsymbol {\theta }}\right)&\cdots &\psi _{d}\left({\boldsymbol {\theta }}\right)\end{bmatrix}}'}
∂
ψ
(
θ
)
∂
θ
′
=
[
ψ
1
(
θ
)
ψ
2
(
θ
)
⋮
ψ
d
(
θ
)
]
[
∂
∂
ϑ
1
∂
∂
ϑ
2
⋯
∂
∂
ϑ
d
]
=
[
∂
ψ
1
(
θ
)
∂
ϑ
1
∂
ψ
1
(
θ
)
∂
ϑ
2
⋯
∂
ψ
1
(
θ
)
∂
ϑ
d
∂
ψ
2
(
θ
)
∂
ϑ
1
∂
ψ
2
(
θ
)
∂
ϑ
2
⋯
∂
ψ
2
(
θ
)
∂
ϑ
d
⋮
⋮
⋱
⋮
∂
ψ
d
(
θ
)
∂
ϑ
1
∂
ψ
d
(
θ
)
∂
ϑ
2
⋯
∂
ψ
d
(
θ
)
∂
ϑ
d
]
{\displaystyle {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)}{\partial {\boldsymbol {\theta }}'}}={\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }}\right)\\\psi _{2}\left({\boldsymbol {\theta }}\right)\\\vdots \\\psi _{d}\left({\boldsymbol {\theta }}\right)\end{bmatrix}}{\begin{bmatrix}{\frac {\partial }{\partial \vartheta _{1}}}&{\frac {\partial }{\partial \vartheta _{2}}}&\cdots &{\frac {\partial }{\partial \vartheta _{d}}}\end{bmatrix}}={\begin{bmatrix}{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\\{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\end{bmatrix}}}
∂
ψ
(
θ
)
′
∂
θ
=
[
∂
∂
ϑ
1
∂
∂
ϑ
2
⋮
∂
∂
ϑ
d
]
[
ψ
1
(
θ
)
ψ
2
(
θ
)
⋯
ψ
d
(
θ
)
]
=
[
∂
ψ
1
(
θ
)
∂
ϑ
1
∂
ψ
2
(
θ
)
∂
ϑ
1
⋯
∂
ψ
d
(
θ
)
∂
ϑ
1
∂
ψ
1
(
θ
)
∂
ϑ
2
∂
ψ
2
(
θ
)
∂
ϑ
2
⋯
∂
ψ
d
(
θ
)
∂
ϑ
2
⋮
⋮
⋱
⋮
∂
ψ
1
(
θ
)
∂
ϑ
d
∂
ψ
2
(
θ
)
∂
ϑ
d
⋯
∂
ψ
d
(
θ
)
∂
ϑ
d
]
{\displaystyle {\frac {\partial {\boldsymbol {\psi }}\left({\boldsymbol {\theta }}\right)'}{\partial {\boldsymbol {\theta }}}}={\begin{bmatrix}{\frac {\partial }{\partial \vartheta _{1}}}\\{\frac {\partial }{\partial \vartheta _{2}}}\\\vdots \\{\frac {\partial }{\partial \vartheta _{d}}}\end{bmatrix}}{\begin{bmatrix}\psi _{1}\left({\boldsymbol {\theta }}\right)&\psi _{2}\left({\boldsymbol {\theta }}\right)&\cdots &\psi _{d}\left({\boldsymbol {\theta }}\right)\end{bmatrix}}={\begin{bmatrix}{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{1}}}\\{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{2}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial \psi _{1}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}&{\frac {\partial \psi _{2}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}&\cdots &{\frac {\partial \psi _{d}\left({\boldsymbol {\theta }}\right)}{\partial \vartheta _{d}}}\end{bmatrix}}}
e
cov
θ
(
T
(
X
)
)
{\displaystyle \ {\mbox{cov}}_{\boldsymbol {\theta }}\left({\boldsymbol {T}}(X)\right)}
è una matrice semidefinita positiva , ossia tale per cui
x
′
cov
θ
(
T
(
X
)
)
x
≥
0
∀
x
∈
R
d
,
x
≠
0
{\displaystyle \ x'{\mbox{cov}}_{\boldsymbol {\theta }}\left({\boldsymbol {T}}(X)\right)x\geq 0\ \forall \ x\in \mathbb {R} ^{d},\ x\neq \mathbf {0} }
.
Se
T
(
X
)
=
[
T
1
(
X
)
T
2
(
X
)
⋯
T
d
(
X
)
]
′
{\displaystyle \ {\boldsymbol {T}}(X)={\begin{bmatrix}T_{1}(X)&T_{2}(X)&\cdots &T_{d}(X)\end{bmatrix}}'}
è uno stimatore corretto , e dunque
ψ
(
θ
)
=
θ
{\displaystyle \ {\boldsymbol {\psi }}({\boldsymbol {\theta }})={\boldsymbol {\theta }}}
, la disuguaglianza di Cramér-Rao è:
cov
θ
(
T
(
X
)
)
≥
I
(
θ
)
−
1
{\displaystyle \ {\mbox{cov}}_{\boldsymbol {\theta }}({\boldsymbol {T}}(X))\geq {\mathcal {I}}({\boldsymbol {\theta }})^{-1}}
La disuguaglianza stessa è da intendersi nel senso che la differenza tra il primo e il secondo membro è ancora una matrice semidefinita positiva .
Disuguaglianza di Cramér-Rao ed efficienza
modifica
Illustrazione del risultato
modifica
Si illustra il significato della disuguaglianza di Cramér-Rao tramite un esempio basato sulla variabile casuale normale multivariata. Sia un vettore aleatorio
x
∈
R
d
{\displaystyle \ \mathbf {x} \in \mathbb {R} ^{d}}
, tale che:
x
∼
N
(
μ
(
θ
)
,
Σ
(
θ
)
)
,
μ
(
θ
)
∈
R
d
,
Σ
(
θ
)
∈
R
d
×
d
{\displaystyle \ \mathbf {x} \sim N\left(\mu ({\boldsymbol {\theta }}),\Sigma ({\boldsymbol {\theta }})\right),\ \mu ({\boldsymbol {\theta }})\in \mathbb {R} ^{d},\ \Sigma ({\boldsymbol {\theta }})\in \mathbb {R} ^{d\times d}}
dove
N
(
⋅
)
{\displaystyle \ N(\cdot )}
denota la distribuzione normale; la funzione di densità multivariata associata è:
f
X
(
x
;
θ
)
=
1
(
2
π
)
d
|
Σ
|
exp
{
−
1
2
(
x
−
μ
)
′
Σ
−
1
(
x
−
μ
)
}
{\displaystyle \ f_{\mathbf {X} }(\mathbf {x} ;{\boldsymbol {\theta }})={\frac {1}{\sqrt {(2\pi )^{d}|\Sigma |}}}\exp \left\{-{\frac {1}{2}}(\mathbf {x} -\mu )'\Sigma ^{-1}(\mathbf {x} -\mu )\right\}}
La matrice informazione di Fisher ha generico elemento
(
m
,
k
)
{\displaystyle \ (m,k)}
:
I
(
θ
)
m
,
k
=
∂
μ
′
∂
ϑ
m
Σ
−
1
∂
μ
∂
μ
k
+
1
2
tr
(
Σ
−
1
∂
Σ
∂
ϑ
m
Σ
−
1
∂
Σ
∂
ϑ
k
)
{\displaystyle \ {\mathcal {I}}({\boldsymbol {\theta }})_{m,k}={\frac {\partial \mu '}{\partial \vartheta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \mu _{k}}}+{\frac {1}{2}}{\mbox{tr}}\left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{k}}}\right)}
dove
tr
(
⋅
)
{\displaystyle \ {\mbox{tr}}(\cdot )}
denota l'operatore traccia di una matrice .
Si consideri caso di un vettore aleatorio gaussiano come sopra, di dimensione
n
{\displaystyle \ n}
, con media nulla ed elementi indipendenti aventi ciascuno varianza
σ
2
{\displaystyle \ \sigma ^{2}}
:
x
∼
N
(
0
,
σ
2
I
)
{\displaystyle \ x\sim N(\mathbf {0} ,\sigma ^{2}I)}
La matrice informazione di Fisher è allora
1
×
1
{\displaystyle \ 1\times 1}
:
I
(
σ
2
)
=
1
2
tr
(
Σ
−
1
∂
Σ
∂
ϑ
m
Σ
−
1
∂
Σ
∂
ϑ
k
)
=
1
2
σ
2
tr
(
I
)
=
n
2
σ
2
{\displaystyle \ {\mathcal {I}}(\sigma ^{2})={\frac {1}{2}}{\mbox{tr}}\left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \vartheta _{k}}}\right)={\frac {1}{2\sigma ^{2}}}{\mbox{tr}}(I)={\frac {n}{2\sigma ^{2}}}}
Dunque il limite inferiore di Cramér-Rao per la varianza di uno stimatore
T
σ
2
{\displaystyle \ T_{\sigma ^{2}}}
per
σ
2
{\displaystyle \ \sigma ^{2}}
è dato da:
var
(
T
σ
2
)
≥
2
σ
2
n
{\displaystyle \ {\mbox{var}}(T_{\sigma ^{2}})\geq {\frac {2\sigma ^{2}}{n}}}
Giova osservare che tale limite è pari alla varianza teorica dello stimatore di massima verosimiglianza per il parametro
σ
2
{\displaystyle \ \sigma ^{2}}
nelle ipotesi presentate.
^ Wiebe R. Pestman, Mathematical Statistics: An Introduction , Walter de Gruyter, 1998, ISBN 3-11-015357-2 , p. 118.
D.C. Boes, F.A. Graybill, A.M. Mood (1988), Introduzione alla Statistica , McGraw-Hill Libri Italia, ISBN 88-386-0661-7 , un testo di riferimento per i fondamenti della statistica matematica; la disuguaglianza di Cramér-Rao è trattata nei capitoli sui metodi di ricerca degli stimatori.
Alexander Craig Aitken e Harold Silverstone , "On the Estimation of Statistical Parameters", in Proceedings of the Royal Society of Edinburgh , 1942, vol. 61, pp. 186-194, dove gli autori sviluppano idee di Ronald Fisher descrivendo un caso particolare di quella che sarebbe diventate la Disuguaglianza di Cramèr-Rao