In matematica , in particolare nell'ambito dell'algebra lineare e dell'analisi funzionale , per una data matrice hermitiana
A
{\displaystyle A}
e un vettore non nullo
x
{\displaystyle x}
, il quoziente di Rayleigh è il numero reale :
R
(
A
,
x
)
:=
x
†
A
x
x
†
x
{\displaystyle R(A,x):={x^{\dagger }Ax \over x^{\dagger }x}}
dove
x
†
{\displaystyle x^{\dagger }}
indica il vettore trasposto coniugato di
x
{\displaystyle x}
. Anche se definito tramite quantità complesse, il quoziente di Rayleigh è sempre reale, essendo
x
†
A
x
{\displaystyle x^{\dagger }Ax}
una forma hermitiana ed essendo
x
†
x
=
‖
x
‖
2
{\displaystyle x^{\dagger }x=\|x\|^{2}}
, dove
‖
⋅
‖
{\displaystyle \|\cdot \|}
indica la norma euclidea. Come verifica, è sufficiente porre
α
:=
x
†
A
x
{\displaystyle \alpha :=x^{\dagger }Ax}
e osservare che, essendo
A
†
=
A
{\displaystyle A^{\dagger }=A}
, si ha:
α
†
=
x
†
A
†
x
=
x
†
A
x
=
α
{\displaystyle \alpha ^{\dagger }=x^{\dagger }A^{\dagger }x=x^{\dagger }Ax=\alpha }
ma ciò implica che
α
∈
R
{\displaystyle \alpha \in \mathbb {R} }
.
Si può dimostrare che il quoziente di Rayleigh assume il valore minimo
λ
min
{\displaystyle \lambda _{\min }}
, che è il più piccolo autovalore di
A
{\displaystyle A}
, quando
x
{\displaystyle x}
è il corrispondente autovettore
v
min
{\displaystyle v_{\min }}
. Analogamente, si ha
R
(
A
,
x
)
≤
λ
max
{\displaystyle R(A,x)\leq \lambda _{\max }}
e
R
(
A
,
v
max
)
=
λ
max
{\displaystyle R(A,v_{\max })=\lambda _{\max }}
.
L'immagine del quoziente di Rayleigh è lo spettro di
A
{\displaystyle A}
, e il numero
λ
max
{\displaystyle \lambda _{\max }}
è il raggio spettrale .
Un caso di particolare importanza si verifica quando la matrice
A
{\displaystyle A}
è la matrice delle covarianze . Un tale matrice può essere rappresentata dal prodotto
D
′
D
{\displaystyle D'D}
, dove
D
{\displaystyle D}
è una matrice di dati empirici e
D
′
{\displaystyle D'}
la sua trasposta . Essendo simmetrica ,
A
{\displaystyle A}
possiede autovalori non negativi e autovettori ortogonali (più precisamente, ortonormalizzabili ). Infatti:
A
v
i
=
D
′
D
v
i
=
λ
i
v
i
{\displaystyle Av_{i}=D'Dv_{i}=\lambda _{i}v_{i}}
⇒
v
i
′
D
′
D
v
i
=
v
i
′
λ
i
v
i
{\displaystyle \Rightarrow v_{i}'D'Dv_{i}=v_{i}'\lambda _{i}v_{i}}
⇒
‖
D
v
i
‖
2
=
λ
i
‖
v
i
‖
2
{\displaystyle \Rightarrow \left\|Dv_{i}\right\|^{2}=\lambda _{i}\left\|v_{i}\right\|^{2}}
⇒
λ
i
=
‖
D
v
i
‖
2
‖
v
i
‖
2
≥
0
{\displaystyle \Rightarrow \lambda _{i}={\frac {\left\|Dv_{i}\right\|^{2}}{\left\|v_{i}\right\|^{2}}}\geq 0}
ovvero gli autovalori
λ
i
{\displaystyle \lambda _{i}}
non sono negativi. Inoltre:
A
v
i
=
λ
i
v
i
⇒
v
j
′
A
v
i
=
λ
i
v
j
′
v
i
⇒
(
A
v
j
)
′
v
i
=
λ
j
v
j
′
v
i
⇒
λ
j
v
j
′
v
i
=
λ
i
v
j
′
v
i
⇒
(
λ
j
−
λ
i
)
v
j
′
v
i
=
0
⇒
v
j
′
v
i
=
0
{\displaystyle {\begin{aligned}&\qquad \qquad Av_{i}=\lambda _{i}v_{i}\\&\Rightarrow v_{j}'Av_{i}=\lambda _{i}v_{j}'v_{i}\\&\Rightarrow \left(Av_{j}\right)'v_{i}=\lambda _{j}v_{j}'v_{i}\\&\Rightarrow \lambda _{j}v_{j}'v_{i}=\lambda _{i}v_{j}'v_{i}\\&\Rightarrow \left(\lambda _{j}-\lambda _{i}\right)v_{j}'v_{i}=0\\&\Rightarrow v_{j}'v_{i}=0\end{aligned}}}
ovvero gli autovettori
v
j
{\displaystyle v_{j}}
sono ortogonali (ortonormalizzabili nel caso di autovettori differenti/molteplici).
Per mostrare che il quoziente di Rayleigh è massimizzato dall'autovettore relativo al più grande autovalore (raggio spettrale ), si consideri la decomposizione di un generico vettore
x
{\displaystyle x}
nella base degli autovettori
v
i
{\displaystyle v_{i}}
:
x
=
∑
i
=
1
n
α
i
v
i
{\displaystyle x=\sum _{i=1}^{n}\alpha _{i}v_{i}}
dove:
α
i
=
x
′
v
i
v
i
′
v
i
=
⟨
x
,
v
i
⟩
‖
v
i
‖
2
{\displaystyle \alpha _{i}={\frac {x'v_{i}}{v_{i}'v_{i}}}={\frac {\langle x,v_{i}\rangle }{\left\|v_{i}\right\|^{2}}}}
è la coordinata di
x
{\displaystyle x}
proiettata ortogonalmente su
v
i
{\displaystyle v_{i}}
. Quindi si ha:
R
(
A
,
x
)
=
x
′
D
′
D
x
x
′
x
=
(
∑
j
=
1
n
α
j
v
j
)
′
(
D
′
D
)
(
∑
i
=
1
n
α
i
v
i
)
(
∑
j
=
1
n
α
j
v
j
)
′
(
∑
i
=
1
n
α
i
v
i
)
{\displaystyle R(A,x)={\frac {x'D'Dx}{x'x}}={\frac {\left(\sum _{j=1}^{n}\alpha _{j}v_{j}\right)'\left(D'D\right)\left(\sum _{i=1}^{n}\alpha _{i}v_{i}\right)}{\left(\sum _{j=1}^{n}\alpha _{j}v_{j}\right)'\left(\sum _{i=1}^{n}\alpha _{i}v_{i}\right)}}}
che per la mutua perpendicolarità degli autovettori diventa:
R
(
A
,
x
)
=
∑
i
=
1
n
α
i
2
λ
i
∑
i
=
1
n
α
i
2
=
∑
i
=
1
n
λ
i
(
x
′
v
i
)
2
(
x
′
x
)
(
v
i
′
v
i
)
{\displaystyle R(A,x)={\frac {\sum _{i=1}^{n}\alpha _{i}^{2}\lambda _{i}}{\sum _{i=1}^{n}\alpha _{i}^{2}}}=\sum _{i=1}^{n}\lambda _{i}{\frac {(x'v_{i})^{2}}{(x'x)(v_{i}'v_{i})}}}
ovvero il quoziente di Rayleigh è la somma dei coseni al quadrato degli angoli formati tra
x
{\displaystyle x}
e gli autovettori
v
i
{\displaystyle v_{i}}
, pesata per i rispettivi autovalori.
Se un vettore
x
{\displaystyle x}
massimizza
R
(
A
,
x
)
{\displaystyle R(A,x)}
, allora anche ogni scalare non nullo
k
x
{\displaystyle kx}
massimizza
R
{\displaystyle R}
e pertanto il problema può essere ridotto al metodo di Lagrange per massimizzare
∑
i
=
1
n
α
i
2
λ
i
{\displaystyle \sum _{i=1}^{n}\alpha _{i}^{2}\lambda _{i}}
, a condizione che:
∑
i
=
1
n
α
i
2
=
1
{\displaystyle \sum _{i=1}^{n}\alpha _{i}^{2}=1}
Questo risultato può essere ricavato anche utilizzando il metodo dei moltiplicatori di Lagrange . Il problema consiste nel trovare i punti critici della funzione:
R
(
A
,
x
)
=
x
T
A
x
{\displaystyle R(A,x)=x^{T}Ax}
soggetta al vincolo
‖
x
‖
2
=
x
T
x
=
1
{\displaystyle \|x\|^{2}=x^{T}x=1}
. Si tratta cioè di trovare i punti critici di:
L
(
x
)
=
x
T
A
x
−
λ
(
x
T
x
−
1
)
{\displaystyle {\mathcal {L}}(x)=x^{T}Ax-\lambda \left(x^{T}x-1\right)}
dove
λ
{\displaystyle \lambda }
è un moltiplicatore di Lagrange. Il punto stazionario di
L
(
x
)
{\displaystyle {\mathcal {L}}(x)}
si verifica quando:
d
L
(
x
)
d
x
=
0
{\displaystyle {\frac {d{\mathcal {L}}(x)}{dx}}=0}
⇒
2
x
T
A
T
−
2
λ
x
T
=
0
{\displaystyle \Rightarrow 2x^{T}A^{T}-2\lambda x^{T}=0}
⇒
A
x
=
λ
x
{\displaystyle \Rightarrow Ax=\lambda x}
e:
R
(
A
,
x
)
=
x
T
A
x
x
T
x
=
λ
x
T
x
x
T
x
=
λ
{\displaystyle R(A,x)={\frac {x^{T}Ax}{x^{T}x}}=\lambda {\frac {x^{T}x}{x^{T}x}}=\lambda }
Quindi, gli autovettori
x
1
,
⋯
,
x
n
{\displaystyle x_{1},\cdots ,x_{n}}
di
A
{\displaystyle A}
sono i punti critici del quoziente di Rayleigh e i rispettivi autovalori
λ
1
,
⋯
,
λ
n
{\displaystyle \lambda _{1},\cdots ,\lambda _{n}}
sono i valori stazionari di
R
{\displaystyle R}
.
Utilizzo nella teoria di Sturm-Liouville
modifica
La teoria di Sturm-Liouville studia l'azione dell'operatore lineare :
L
(
y
)
=
1
w
(
x
)
(
−
d
d
x
[
p
(
x
)
d
y
d
x
]
+
q
(
x
)
y
)
{\displaystyle L(y)={\frac {1}{w(x)}}\left(-{\frac {d}{dx}}\left[p(x){\frac {dy}{dx}}\right]+q(x)y\right)}
sullo spazio prehilbertiano definito da:
⟨
y
1
,
y
2
⟩
=
∫
a
b
w
(
x
)
y
1
(
x
)
y
2
(
x
)
d
x
{\displaystyle \langle {y_{1},y_{2}}\rangle =\int _{a}^{b}w(x)y_{1}(x)y_{2}(x)\,dx}
composto da funzioni che soddisfano alcune specifiche condizioni al contorno in
a
{\displaystyle a}
e
b
{\displaystyle b}
. In tal caso il quoziente di Rayleigh è:
⟨
y
,
L
y
⟩
⟨
y
,
y
⟩
=
∫
a
b
y
(
x
)
(
−
d
d
x
[
p
(
x
)
d
y
d
x
]
+
q
(
x
)
y
(
x
)
)
d
x
∫
a
b
w
(
x
)
y
(
x
)
2
d
x
{\displaystyle {\frac {\langle {y,Ly}\rangle }{\langle {y,y}\rangle }}={\frac {\int _{a}^{b}y(x)\left(-{\frac {d}{dx}}\left[p(x){\frac {dy}{dx}}\right]+q(x)y(x)\right)dx}{\int _{a}^{b}{w(x)y(x)^{2}}dx}}}
Talvolta è presentato in una forma equivalente, ottenuta separando l'integrale al numeratore e utilizzando l'integrazione per parti :
⟨
y
,
L
y
⟩
⟨
y
,
y
⟩
=
{
∫
a
b
y
(
x
)
(
−
d
d
x
[
p
(
x
)
y
′
(
x
)
]
)
d
x
}
+
{
∫
a
b
q
(
x
)
y
(
x
)
2
d
x
}
∫
a
b
w
(
x
)
y
(
x
)
2
d
x
=
{
−
y
(
x
)
[
p
(
x
)
y
′
(
x
)
]
|
a
b
}
+
{
∫
a
b
y
′
(
x
)
[
p
(
x
)
y
′
(
x
)
]
d
x
}
+
{
∫
a
b
q
(
x
)
y
(
x
)
2
d
x
}
∫
a
b
w
(
x
)
y
(
x
)
2
d
x
=
{
−
p
(
x
)
y
(
x
)
y
′
(
x
)
|
a
b
}
+
{
∫
a
b
[
p
(
x
)
y
′
(
x
)
2
+
q
(
x
)
y
(
x
)
2
]
d
x
}
∫
a
b
w
(
x
)
y
(
x
)
2
d
x
{\displaystyle {\begin{aligned}{\frac {\langle {y,Ly}\rangle }{\langle {y,y}\rangle }}&={\frac {\left\{\int _{a}^{b}y(x)\left(-{\frac {d}{dx}}\left[p(x)y'(x)\right]\right)dx\right\}+\left\{\int _{a}^{b}{q(x)y(x)^{2}}\,dx\right\}}{\int _{a}^{b}{w(x)y(x)^{2}}\,dx}}\\&={\frac {\left\{\left.-y(x)\left[p(x)y'(x)\right]\right|_{a}^{b}\right\}+\left\{\int _{a}^{b}y'(x)\left[p(x)y'(x)\right]\,dx\right\}+\left\{\int _{a}^{b}{q(x)y(x)^{2}}\,dx\right\}}{\int _{a}^{b}w(x)y(x)^{2}\,dx}}\\&={\frac {\left\{\left.-p(x)y(x)y'(x)\right|_{a}^{b}\right\}+\left\{\int _{a}^{b}\left[p(x)y'(x)^{2}+q(x)y(x)^{2}\right]\,dx\right\}}{\int _{a}^{b}{w(x)y(x)^{2}}\,dx}}\end{aligned}}}
(EN ) Shi Yu, Léon-Charles Tranchevent, Bart Moor, Yves Moreau, Kernel-based Data Fusion for Machine Learning: Methods and Applications in Bioinformatics and Text Mining , Ch. 2, Springer, 2011.
(EN ) Horn, R. A. and C. A. Johnson. 1985. Matrix Analysis . Cambridge University Press. pp. 176–180.
(EN ) Parlet B. N. The symmetric eigenvalue problem , SIAM, Classics in Applied Mathematics, 1998.