Test di Kolmogorov-Smirnov

Il test di Kolmogorov-Smirnov è un test non parametrico sviluppato per due campioni da Smirnov nel 1939, sulla base delle considerazioni relative a un solo campione di Kolmogorov del 1933,[1] che verifica la forma delle distribuzioni campionarie; in particolare può essere utilizzato per confrontare un campione con una distribuzione di riferimento oppure per confrontare due campioni.

La statistica del test a una coda è calcolata come la distanza tra la funzione di ripartizione di riferimento e la funzione di ripartizione empirica del campione. La statistica del test a due code è calcolata come la distanza tra le funzioni di ripartizione empiriche dei due campioni ed è applicabile a dati per lo meno ordinali. Nella sua formulazione esatta prevede che le variabili siano continue. Non richiede di per sé alcuna ipotesi sulla distribuzione campionaria, salvo nel caso a un campione, in cui viene testata una distribuzione a propria scelta.

Descrizione del test a due code - un campione

modifica

Sia   una variabile casuale generatrice continua, con funzione di ripartizione  . Un problema che spesso ricorre nella pratica è quello di verificare che la variabile casuale   abbia funzione di ripartizione uguale ad una data  . In simboli, il problema di ipotesi è del tipo:

 
 

Questo significa che l'ipotesi non si riferisce soltanto ad un parametro della variabile casuale X (come accade nel test dei segni), ma all'intera sua funzione di ripartizione.

Sia allora   un campione casuale di ampiezza   della variabile casuale  . Sulla base di esso si vuole costruire un test per il problema di ipotesi. Poiché tale problema riguarda la funzione di ripartizione della variabile casuale  , è intuitivo basare la statistica test sulla funzione di ripartizione empirica. Dette quindi   le   variabili casuali campionarie ordinate, la funzione di ripartizione empirica è definita come:

 

o equivalentemente in forma più compatta:

 

dove   è la funzione indicatrice.

La   è una "stima campionaria" della "vera" funzione di ripartizione   della variabile casuale  . Anzi, siamo in presenza di uno stimatore consistente, poiché si può dimostrare che, come conseguenza della legge debole dei grandi numeri, qualunque sia   la   tende in probabilità, per  , a  .

Poiché   stima la "vera" funzione di ripartizione  , è logico basarsi su una qualche "distanza" tra   e  . Se   e   sono "vicine", cioè sufficientemente "simili", non si rifiuta l'ipotesi nulla, mentre la si rifiuta se   e   sono "lontane", cioè se "molto dissimili".

Come "distanza" si usa la seguente:

 

dove   è l'estremo superiore dell'insieme delle distanze, cioè la massima differenza in valore assoluto tra la funzione di ripartizione empirica   e la funzione di ripartizione teorica   ipotizzata come vera. Per valori "grandi" di   si rifiuta l'ipotesi nulla, mentre non la si rifiuta per valori "piccoli" di   (vedasi variabile casuale test di Kolmogorov-Smirnov).

Dunque, il "senso" della statistica   è intuitivamente evidente. Molto complicato invece è il calcolo della sua distribuzione di probabilità (sotto l'ipotesi nulla). Si può comunque dimostrare che sotto l'ipotesi nulla la distribuzione di probabilità della statistica test   non dipende dalla particolare forma funzionale di  .

Questi risultati sono validi per le variabili casuali che hanno funzione di ripartizione continua. Se invece   è una variabile casuale discreta e la sua funzione di ripartizione è quindi discontinua, la distribuzione di probabilità della variabile casuale   dipende proprio dalla discontinuità della funzione di ripartizione di  .

Nel 1933 Andrej Nikolaevič Kolmogorov introdusse la statistica  , e nel 1939 Nikolaj Vasil'evič Smirnov la utilizzò per ricavare quello che oggi è noto come test di Kolmogorov-Smirnov.[1]

Test alternativi

modifica

Il test di Kolmogorov-Smirnov è per certi versi l'alternativa non parametrica al test t di Student; quando tale test è applicabile (ipotesi parametrica di distribuzione gaussiana) e si sceglie lo stesso il test di Kolmogorov-Smirnov, allora l'efficienza-potenza è pari a circa il 95% per piccoli campioni e diminuisce leggermente per campioni grandi.

Rispetto ai non parametrici test della mediana e test del chi quadrato (applicato a dati ordinali) è più potente e dunque da preferire.

Si ritiene che per campioni molto piccoli il test di Kolmogorov-Smirnov sia da preferire al test di Wilcoxon-Mann-Whitney mentre per campioni grandi sia quest'ultimo da preferire.

  1. ^ a b Kolmogorov-Smirnov Test - an overview | ScienceDirect Topics, su web.archive.org, 30 marzo 2022. URL consultato il 30 marzo 2022 (archiviato dall'url originale il 30 marzo 2022).

Voci correlate

modifica