Test di verifica d'ipotesi

In statistica, i test di verifica d'ipotesi si utilizzano per verificare la bontà di un'ipotesi.

Per ipotesi è da intendersi un'affermazione che ha come oggetto accadimenti nel mondo reale, che si presta ad essere confermata o smentita dai dati osservati sperimentalmente.

Il metodo con cui si valuta l'attendibilità di un'ipotesi è il metodo sperimentale. Quest'ultimo consiste nel determinare le conseguenze di un'ipotesi in termini di eventi osservabili, e di valutare se la realtà effettivamente osservata si accorda o meno con l'ipotesi su di essa fatta.

Spiegazione intuitivaModifica

Nel secondo caso la situazione è modificata in quanto interviene un elemento nuovo, ovvero il caso e/o l'errore di misura. Si supponga di avere una moneta recante due facce contrassegnate con testa e croce. Volendo verificare l'ipotesi di bilanciamento della moneta si eseguono 20 lanci e si contano quelli che danno esito testa. La conseguenza del bilanciamento consiste nell'osservare un valore di teste attorno a 10. Tuttavia anche in ipotesi di bilanciamento non si può escludere di osservare 20 teste. D'altronde, l'ipotesi di bilanciamento è logicamente compatibile con un numero di teste variabile tra 0 e 20. In tale contesto una qualsiasi decisione in merito all'ipotesi da verificare comporta un rischio di errore.

Nel procedere alla verifica dell'ipotesi di bilanciamento della moneta, si considera che il numero totale di teste, se la moneta è bilanciata, è una variabile aleatoria discreta con distribuzione binomiale  . Questo modello matematico ci permette di associare a ogni possibile risultato sperimentale una misura di probabilità.

Ora supponiamo di aver fatto il nostro esperimento e di aver contato 15 teste su 20 tiri: quanto è distante tale risultato dal valore medio della distribuzione  ? Tale distanza è sufficiente per rigettare l'ipotesi che vorrebbe la moneta ben bilanciata? Il valore medio della distribuzione   è  , e per valutare la distanza tra il valore sperimentale e quello atteso si valuta la probabilità di ottenere un valore sperimentale pari a 15 oppure maggiore. Siccome si tratta di un test intorno al valore medio, dobbiamo anche considerare la probabilità di ottenere un valore minore o uguale a 5, per specularità. In simboli:

 

Tale valore p è la probabilità di ottenere un valore altrettanto o più estremo di quello osservato, ammesso che la moneta fosse effettivamente bilanciata. Nel nostro caso è pari a 0,041, ovvero del 4,1%. Giudicando bassa tale probabilità, rigettiamo l'ipotesi di bilanciamento della moneta in esame, ritenendo accettabilmente basso il rischio di compiere un errore di giudizio. La probabilità di rifiutare l'ipotesi sottoposta a verifica, nel caso questa fosse corretta, è pari al massimo valore-p che saremmo stati disposti ad accettare. E a questo punto diventa chiaro perché è necessario sommare le probabilità di ottenere 5 teste o meno, a quelle di ottenerne almeno 15: se avessimo contato 5 o meno teste, avremmo parimenti giudicato la moneta sbilanciata, quindi è giusto che le due probabilità siano sommate.

Teoria dei test delle ipotesi di FisherModifica

L'esempio dato sopra è un test di verifica d'ipotesi secondo Fisher, che ne compose la teoria fondante intorno al 1925[1], influenzato in particolare maniera dalle teorie in filosofia della scienza di Karl Popper, e specificamente dal principio di falsificabilità. Popper sosteneva che la conoscenza scientifica avanza tramite la creazioni di ipotesi che vengono in seguito smentite e sostituite con nuove ipotesi più generali e precise. Fisher propose un metodo statistico di verifica d'ipotesi che richiede la specificazione di un'ipotesi falsificabile, ritenuta vera fino a prova contraria. Quest'ipotesi è chiamata ipotesi nulla e viene indicata con il simbolo H0, e il test ha lo scopo di verificare se i dati smentiscono tale ipotesi.

A seconda del tipo di problema affrontato, si sceglierà un qualche tipo di procedura valida come test delle ipotesi, nell'esempio precedente abbiamo applicato un test binomiale, ma in ogni caso, il metodo scelto consiste nel calcolare un valore, funzione del campione, che ha l'obbiettivo di misurarne l'aderenza all'ipotesi nulla. Questa funzione viene chiamata statistica test. La distribuzione della statistica test è completamente determinata sotto ipotesi nulla.

Punto centrale del test delle ipotesi secondo Fisher è il concetto di significatività statistica, rappresentato dal valore p (spesso chiamato col nome inglese di p-value). che, come già definito sopra, è la probabilità, sotto H0, di ottenere un valore della statistica test altrettanto o più estremo di quello osservato. Il valore p riassume quindi la significatività dell'evidenza statistica contro l'ipotesi nulla: minore è p, maggiore è questa evidenza. Osservato un certo valore p, possiamo ammettere che H0 è vera e che è avvenuto un evento tale per cui la probabilità di osservarne uno altrettanto estremo è tanto bassa quanto lo è p, oppure possiamo rigettare H0 ritenendo che fallisca nello spiegare i risultati. In genere una seconda ipotesi alternativa viene avanzata a partire dai dati, quando H0 è rigettata[1].

Livello di significatività e regione di rifiutoModifica

 
Distribuzione della statistica test binomiale X dell'esempio della moneta; la regione di rifiuto è evidenziata in rosso e sono segnalati i valori critici. Nel caso di test a una coda destro, la coda sinistra esce dalla regione di rifiuto e il punto 14, evidenziato in giallo, vi entra.

Sebbene non sia necessario secondo Fisher[1], prima di calcolare il valore sperimentale della statistica test, si consiglia in genere di scegliere il livello di significatività, indicato convenzionalmente col simbolo α. Questa scelta è giustificata dalla natura stocastica del risultato del test: non è possibile annullare la probabilità di rigettare H0 per errore, per cui se si vuole conoscere tale probabilità, deve essere stabilita in anticipo. Tale valore stabilito è appunto α. Il suo impiego è quello di discrimine per il valore p: il risultato del test si dice significativo se p < α, altrimenti si considera non significativo. H0 è rifiutata se il risultato è significativo.

Maggiore è la fiducia riposta nell'ipotesi nulla, maggiore l'evidenza richiesta per smentirla, e minore deve essere α, scelte tipiche sono 0,1 (molto lasco), 0,05 (estremamente utilizzato, addirittura convenzionale – gli studiosi mettono in guardia dallo scegliere questo valore acriticamente, solo per consuetudine), e 0,01 (nel caso si richieda una forte evidenza contro H0).

Dato un certo livello di significatività, l'insieme dei valori della statistica test a cui corrisponde un p minore di α si chiama regione di rifiuto. Nell'esempio precedente, per α = 0.05, la regione di rifiuto era l'insieme {0, 1, 2, 3, 4, 5, 15, 16, 17, 18, 19, 20}, e viceversa l'insieme {6, 7, …14} era la cosiddetta regione di accettazione. Si chiamano invece valori critici i punti che separano le regioni di rifiuto ed accettazione.

Test a una o due codeModifica

In alcuni casi, e anche nell'esempio della moneta sbilanciata, la distribuzione della statistica test è simmetrica, e può essere sottoposta a un test "a due code", come nell'esempio sopra, oppure ad una coda. Ricorriamo alla seconda possibilità se abbiamo intenzione di rifiutare l'ipotesi nulla solo quando osserviamo un valore estremo maggiore di quello medio, ma non minore, oppure viceversa. In tal caso concentreremo la regione di rifiuto su una sola delle code della distribuzione, avvicinando il valore critico a quello medio; quando calcoliamo il valore p, non ci sarà bisogno di sommare le probabilità per entrambe le code.

Tornando all'esempio della moneta, supponiamo che noi già prima di fare l'esperimento sospettassimo che fosse sbilanciata verso la testa, in tal caso potremmo dire che l'ipotesi nulla, che noi abbiamo intenzione di smentire, è che la probabilità che esca testa sia minore o uguale a 0,5, anziché necessariamente pari a 0,5. In tal modo evitiamo di rifiutare l'ipotesi nulla se otteniamo un numero di teste basso, ma se, al contrario, contiamo più di 10 teste, calcoliamo il valore-p senza tenere in considerazione i possibili risultati inferiori a 10. Come risultato, la regione di rifiuto perde gli elementi da 1 a 5, ma si allarga sulla destra includendo 14.

Per spiegare meglio la differenza tra test sulla coda sinistra, sulla coda destra e a due code, viene talvolta utilizzato il concetto di ipotesi alternativa, indicata col simbolo H1. Per Fisher l'unica ipotesi alternativa a H0 è la sua negazione, perciò H1 è implicita (se H0 afferma che la probabilità di ottenere testa con la moneta sia minore o uguale a 0,5, allora H1 dichiara, al contrario, che quella stessa probabilità sia maggiore di 0,5) e non è necessario specificarla. Da non confondere con l'ipotesi alternativa secondo Neyman-Pearson, che è un concetto ben distinto[1].

Teoria dei test delle ipotesi di Neyman-PearsonModifica

 
Analisi della potenza del test nell'esempio della moneta, a una coda – l'ipotesi alternativa è di 80% di probabilità di ottenere testa a ogni lancio. La somma delle probabilità evidenziate in rosso è l'errore di seconda specie, la somma di quelle in verde è la potenza del test. Nel complesso la parte colorata è la distribuzione di X sotto ipotesi alternativa.

Jerzy Neyman e Egon Pearson erano critici nei confronti della teoria di Fisher, e proposero un approccio alternativo, per certi versi più rigido e più potente. L'approccio di Neyman-Pearson propugna un maggior lavoro di preparazione della raccolta dei dati (progettazione dell'esperimento) ed introduce un'ipotesi alternativa completamente specificata, oltre ai concetti di errore di primo e secondo tipo e di potenza del test. Da un punto di vista teorico, l'approccio di Neyman-Pearson è diverso da quello di Fisher in quanto pone maggiore enfasi sull'idea che i test delle ipotesi siano esperimenti ripetibili, perciò è più adatto a un contesto come il controllo della qualità che non alla ricerca scientifica, dove è raro che gli esperimenti vengano veramente ripetuti[1].

Per un test secondo Neyman-Person, è necessario specificare in anticipo non una ipotesi, ma due, diverse ed alternative. La prima è H0, mentre la seconda viene indicata con H1 e chiamata ipotesi alternativa. Si conosce la distribuzione della statistica test sia sotto H0 che sotto H1, la statistica test stessa deve essere scelta in modo che le due distribuzioni risultino ben distinte. Le due ipotesi però non sono sullo stesso piano: in pratica si mantiene un approccio simile a quello di Fisher, per cui l'attenzione è puntata su H0, mentre H1 serve essenzialmente per definire la potenza del test (e scegliere quindi quello più potente) e calcolare la numerosità campionaria necessaria.

Come già osservato, il modo di condurre un test statistico comporta un rischio di errore. Nella teoria di Neyman-Pearson si individuano due tipi di errori:

  1. rifiutare H0 quando è vera, errore di primo tipo (α) (o errore di prima specie);
  2. non rifiutare H0 quando piuttosto è vera H1, errore di secondo tipo (β) (o errore di seconda specie).

Una volta scelto un errore di primo tipo α (equivalente al livello di significatività secondo Fisher), il valore critico che separa H0 da H1 è univocamente determinato. A sua volta, β dipende direttamente da tale valore. Quando si riduce α, il valore critico si allontana da H0 e si avvicina ad H1, perciò β aumenta. La potenza del test è definita come 1 − β.

Tornando all'esempio della moneta in cui la regione di accettazione è data dall'insieme di valori {6, 7, ... 14}, la probabilità di rifiutare H0 quando è vera è stato calcolato pari a 0,041.Tale probabilità rappresenta il rischio di incorrere in un errore di primo tipo e si indica con α. Per valutare la probabilità di un errore di secondo tipo è necessario specificare propriamente un'ipotesi alternativa. Si supponga che la nostra H1 è che la moneta mostra testa l'80% delle volte, in tal caso la distribuzione della statistica test è nota ed è  .

Con tale distribuzione di probabilità, l'errore di tipo 2 si calcola sommando le probabilità relative ai valori di X della zona di accettazione, ciò supponendo H1 vera. Si trova quindi che la probabilità cercata è pari a circa 0,20. Tale probabilità quantifica il rischio di incorrere nell'errore di tipo 2 e si indica convenzionalmente con β. La potenza del test è uguale a 1 − β = 0,8 ed esprime quindi la capacità di un test statistico di riconoscere la falsità di H0 quando questa è effettivamente falsa (ed è piuttosto vera H1). La potenza del test trova applicazione nella pratica statistica in fase di pianificazione di un esperimento.

Differenze tra le impostazioni teoricheModifica

Nell'uso statistico attuale, l'approccio di Fisher e quello di Neyman-Pearson sono state fuse insieme in una pratica sincretica che eredita alcuni aspetti dalla teoria di Fisher e alcuni da quella di Neyman-Pearson. Questo approccio misto è controverso, perché è ambiguo e tende a sorvolare sugli aspetti metodologici che distinguono le due teorie, e che sono ben definiti sotto la rispettiva teoria di riferimento. Bisogna sottolineare le importanti differenze filosofiche e di interpretazione dei risultati tra le due teorie in esame, ad esempio[1]:

  • secondo Fisher, la scelta è tra rifiutare H0 o meno, senza un'alternativa precisa, mentre secondo Neyman-Pearson tra due ipotesi bisogna accettare H0 o in caso contrario H1
  • secondo Fisher la scelta finale tra H0 e il suo rifiuto è piuttosto soggettiva, il valore p mostra varie gradazioni di significatività, e può essere giudicato senza stabilire un livello di significatività in anticipo; al contrario il metodo di Neyman-Pearson porta a una scelta netta tra H0 e H1
  • secondo Neyman-Pearson i test delle ipotesi devono essere pianificati con cura prima dell'esperimento, così che il risultato sia valido da un punto di vista probabilistico; questo rigore non è necessario secondo Fisher: il test delle ipotesi può essere fatto a posteriori, e la significatività del risultato può essere giudicata di conseguenza.

Ulteriori approcci sono stati proposti, e particolare menzione va riservata ai test delle ipotesi bayesiano, la teoria della decisione, e la teoria della detezione del segnale.

Voci correlateModifica

NoteModifica

  1. ^ a b c d e f Jose D. Perezgonzalez, Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing, in Frontiers in Psychology, vol. 6, 3 marzo 2015, DOI:10.3389/fpsyg.2015.00223. URL consultato il 17 aprile 2020.

Collegamenti esterniModifica