Test di Kolmogorov-Smirnov

Il test di Kolmogorov-Smirnov è un test non parametrico sviluppato per due campioni da Smirnov nel 1939, sulla base delle considerazioni relative a un solo campione di Kolmogorov del 1933,^[1] che verifica la forma delle distribuzioni campionarie; in particolare può essere utilizzato per confrontare un campione con una distribuzione di riferimento oppure per confrontare due campioni.

La statistica del test a una coda è calcolata come la distanza tra la funzione di ripartizione di riferimento e la funzione di ripartizione empirica del campione. La statistica del test a due code è calcolata come la distanza tra le funzioni di ripartizione empiriche dei due campioni ed è applicabile a dati per lo meno ordinali. Nella sua formulazione esatta prevede che le variabili siano continue. Non richiede di per sé alcuna ipotesi sulla distribuzione campionaria, salvo nel caso a un campione, in cui viene testata una distribuzione a propria scelta.

Descrizione del test a due code - un campione

Sia $X$ una variabile casuale generatrice continua, con funzione di ripartizione $F(x)$ . Un problema che spesso ricorre nella pratica è quello di verificare che la variabile casuale $X$ abbia funzione di ripartizione uguale ad una data $F_{0}(x)$ . In simboli, il problema di ipotesi è del tipo:

H_{0}:F(x)=F_{0}(x),\ \forall x

H_{1}:F(x)\neq F_{0}(x),\ {\mbox{per }}{\mbox{qualche }}x

Questo significa che l'ipotesi non si riferisce soltanto ad un parametro della variabile casuale X (come accade nel test dei segni), ma all'intera sua funzione di ripartizione.

Sia allora $(X_{1},...,X_{n})$ un campione casuale di ampiezza $n$ della variabile casuale $X$ . Sulla base di esso si vuole costruire un test per il problema di ipotesi. Poiché tale problema riguarda la funzione di ripartizione della variabile casuale $X$ , è intuitivo basare la statistica test sulla funzione di ripartizione empirica. Dette quindi $X(1),...,X(n)$ le $n$ variabili casuali campionarie ordinate, la funzione di ripartizione empirica è definita come:

${\hat {F}}_{n}(x)=\left\{{\begin{matrix}0,&{\mbox{se }}x\leq X(1)\\{\frac {k}{n}},&{\mbox{se }}X(k)\leq x<X(k+1)\\1,&{\mbox{se }}x\geq X(n)\end{matrix}}\right.$

o equivalentemente in forma più compatta:

${\hat {F}}_{n}(x)={1 \over n}\sum _{i=1}^{n}I_{X(i)\leq x}$

dove $I_{X(i)\leq x}$ è la funzione indicatrice.

La ${\hat {F}}_{n}(x)$ è una "stima campionaria" della "vera" funzione di ripartizione $F(x)$ della variabile casuale $X$ . Anzi, siamo in presenza di uno stimatore consistente, poiché si può dimostrare che, come conseguenza della legge debole dei grandi numeri, qualunque sia $x$ la ${\hat {F}}_{n}(x)$ tende in probabilità, per $n\longrightarrow \infty$ , a $F(x)$ .

Poiché ${\hat {F}}_{n}(x)$ stima la "vera" funzione di ripartizione $F(x)$ , è logico basarsi su una qualche "distanza" tra ${\hat {F}}_{n}(x)$ e $F_{0}(x)$ . Se ${\hat {F}}_{n}(x)$ e $F_{0}(x)$ sono "vicine", cioè sufficientemente "simili", non si rifiuta l'ipotesi nulla, mentre la si rifiuta se ${\hat {F}}_{n}(x)$ e $F_{0}(x)$ sono "lontane", cioè se "molto dissimili".

Come "distanza" si usa la seguente:

$D_{n}=\sup _{-\infty <x<+\infty }\left|{\hat {F}}_{n}(x)-F_{0}(x)\right|$

dove $\sup _{x}$ è l'estremo superiore dell'insieme delle distanze, cioè la massima differenza in valore assoluto tra la funzione di ripartizione empirica ${\hat {F}}_{n}(x)$ e la funzione di ripartizione teorica $F_{0}(x)$ ipotizzata come vera. Per valori "grandi" di $D_{n}$ si rifiuta l'ipotesi nulla, mentre non la si rifiuta per valori "piccoli" di $D_{n}$ (vedasi variabile casuale test di Kolmogorov-Smirnov).

Dunque, il "senso" della statistica $D_{n}$ è intuitivamente evidente. Molto complicato invece è il calcolo della sua distribuzione di probabilità (sotto l'ipotesi nulla). Si può comunque dimostrare che sotto l'ipotesi nulla la distribuzione di probabilità della statistica test $D_{n}$ non dipende dalla particolare forma funzionale di $F_{0}(x)$ .

Questi risultati sono validi per le variabili casuali che hanno funzione di ripartizione continua. Se invece $X$ è una variabile casuale discreta e la sua funzione di ripartizione è quindi discontinua, la distribuzione di probabilità della variabile casuale $D_{n}$ dipende proprio dalla discontinuità della funzione di ripartizione di $X$ .

Storia

Nel 1933 Andrej Nikolaevič Kolmogorov introdusse la statistica $|F_{n}(x)-F_{0}(x)|$ , e nel 1939 Nikolaj Vasil'evič Smirnov la utilizzò per ricavare quello che oggi è noto come test di Kolmogorov-Smirnov.^[1]

Test alternativi

Il test di Kolmogorov-Smirnov è per certi versi l'alternativa non parametrica al test t di Student; quando tale test è applicabile (ipotesi parametrica di distribuzione gaussiana) e si sceglie lo stesso il test di Kolmogorov-Smirnov, allora l'efficienza-potenza è pari a circa il 95% per piccoli campioni e diminuisce leggermente per campioni grandi.

Rispetto ai non parametrici test della mediana e test del chi quadrato (applicato a dati ordinali) è più potente e dunque da preferire.

Si ritiene che per campioni molto piccoli il test di Kolmogorov-Smirnov sia da preferire al test di Wilcoxon-Mann-Whitney mentre per campioni grandi sia quest'ultimo da preferire.

Note

^ ^a ^b Kolmogorov-Smirnov Test - an overview | ScienceDirect Topics, su web.archive.org, 30 marzo 2022. URL consultato il 30 marzo 2022 (archiviato dall'url originale il 30 marzo 2022).

Voci correlate

variabile casuale test di Kolmogorov-Smirnov
Test di Kuiper
statistica non parametrica, test non parametrico
Andrey Nikolaevich Kolmogorov
Test di Girone
Test di Shapiro-Wilk, test statistico per la verifica di normalità di un insieme di valori

Portale Matematica

Portale Scienza e tecnica

[:0-1] Kolmogorov-Smirnov Test - an overview | ScienceDirect Topics, su web.archive.org, 30 marzo 2022. URL consultato il 30 marzo 2022 (archiviato dall'url originale il 30 marzo 2022).

[1]