Analisi discriminante

disciplina statistico-matematica

L'analisi discriminante è una disciplina statistico-matematica sviluppata per separare oggetti ed osservazioni in classi distinte (clustering) e per allocare nuove osservazioni in una delle classi precedentemente definite (classificazione). Gli oggetti possono essere immagini (come foto, documenti scritti, video), impronte digitali, visi di persone, segnali elettromagnetici, raggi cosmici, esami del sangue o in generale qualsiasi tipo di misurazione che necessita di una classificazione. Quando la classificazione degli oggetti in classi viene operata da sistemi basati sull’intelligenza artificiale (machine intelligence), sistemi cioè realizzati con il preciso scopo di prendere decisioni, tali oggetti vengono indicati con il termine generico di pattern mentre le variabili osservate si dicono features. In tale contesto si è soliti riferirsi all’analisi discriminante con il termine di riconoscimento di pattern.

Analisi discriminante lineare modifica

L’analisi discriminante si definisce lineare quando i classificatori impiegati sono funzioni lineari nelle osservazioni e godono della proprietà di discriminare le osservazioni tra le classi meglio di qualsiasi altra funzione lineare. Esempi di applicazione dell’analisi discriminante lineare sono:

  • la misurazione delle variabili economiche e finanziarie estratte dai bilanci societari (indici di bilancio) le quali concorrono al punteggio complessivo della funzione discriminante. Sulla base dei punteggi ottenuti si determina la probabilità di insolvenza/bancarotta delle società (z-score di Altman)
  • la distinzione tra flussi di protoni e neutrini nell’analisi energetica della composizione spettrale dei raggi cosmici (Osservatorio Pierre Auger, ultra high-energy comsic rays)
  • l’analisi delle dichiarazioni dei redditi nella lotta all’evasione fiscale nota come studio di settore

Se ad esempio sono assegnati 2 campioni costituiti rispettivamente da   e   oggetti e si considera un numero p di variabili   da misurare allora una volta effettuate le p misurazioni   su ciascuno degli   oggetti la funzione discriminante lineare è della forma

 

La funzione discriminante risulta essere una combinazione lineare delle variabili   con coefficienti gli scalari  . I coefficienti della funzione discriminante vengono scelti in modo tale da meglio distinguere gli oggetti di una classe da quelli dell’altra. La distinzione tra le classi viene operata grazie al valore numerico   assunto dalla funzione discriminante rispetto ad un valore di riferimento  .

Nell’esempio delle due classi si dice che la generica osservazione   appartiene alla classe 1 se risulta

 

Diversamente si attribuisce l’osservazione   alla classe 2 se risulta

 

Compito primario dell'analisi discriminante lineare è trovare le combinazioni lineari delle variabili tali per cui la differenza tra le classi è massima. Il punto di partenza fondamentale per determinare i coefficienti della funzione discriminante risiede nella misura che si intende adottare per valutare la somiglianza, la similarità tra le osservazioni in esame. La misura della similarità per variabili di tipo quantitativo si attua ricorrendo ad una funzione opportuna che prende il nome di distanza o metrica.

Regola di classificazione modifica

Una volta adottata una distanza d capace di esprimere la nozione di vicinanza per le osservazioni, risulta possibile introdurre una regola di classificazione per le osservazioni rispetto ad un rappresentante di ciascuna classe. Il carattere statistico dell'analisi discriminante scaturisce dal fatto che la media o la media campionaria delle popolazioni in esame viene scelta essere il rappresentante di ciascuna classe. Nell’esempio delle due classi, indicato con   la media della prima popolazione e con   la media della seconda popolazione, si attribuisce l’osservazione   alla classe 1 se

 

ossia se   è più vicino a  . Ricordato che ogni prodotto scalare definito positivo   induce una norma e che a sua volta la norma induce una metrica, risulta possibile introdurre un prodotto scalare opportuno per definire la regola di classificazione. È sufficiente considerare   per esprimere la regola di appartenenza alla classe 1 in termini di prodotto scalare come

 

La relazione appena scritta, sfruttando la proprietà di bilinearità del prodotto scalare, può riscriversi dopo semplici passaggi come

 

Indicato con

 

la regola di classificazione per gli elementi della classe 1 diviene

 

mentre per gli elementi della classe 2 è

 

L'iperpiano discriminante modifica

Vediamo ora il caso in cui   è tale per cui risulta  . L’equazione appena scritta rappresenta l’equazione normale di un iperpiano che passa per   ed è perpendicolare al vettore  . Si è soliti chiamare tale iperpiano come iperpiano discriminante e consiste di tutti i vettori   per i quali   risulta ortogonale al vettore  . Lo spazio delle variabili risulta così diviso dall’iperpiano discriminante in due semispazi aperti:   e  . Si osservi che il prodotto scalare adottato essendo definito positivo risulta essere non degenere, per cui valendo   per qualsiasi   necessariamente deve essere  , in altre parole non è possibile discriminare a quale classe appartenga l’osservazione   qualora si abbia  . Il punto individuato dal vettore   viene detto cut-off point.

La funzione discriminante lineare modifica

L’espressione matriciale di una forma bilineare simmetrica   applicata ai vettori  è la seguente

 

dove   è la matrice associata al prodotto scalare nel sistema di riferimento  .

I vettori della Classe 1 sono soluzione della disequazione matriciale seguente

 

Note le medie delle due classi   e  , l'espressione

 

risulta essere una funzione lineare nelle osservazioni   e a tale espressione ci si riferisce con il termine di funzione discriminante lineare.

Posto   ed indicato con   si giunge ad una scrittura più snella e compatta per la funzione discriminante. Adottato come notazione per il prodotto scalare il simbolo   si può scrivere

 

Si attribuisce l'osservazione  

  • alla classe 1 se risulta  
  • alla classe 2 se risulta  

La funzione discriminante lineare nella sua forma più semplice modifica

Scelto come riferimento R una base qualsiasi, la regola di classificazione per la Classe 1 scritta per esteso è

 

dove si è indicato con   l'azione del prodotto scalare sui vettori della base. Si ricerca quindi di individuare un diverso riferimento R’ per il quale l’espressione polinomiale risulti essere più semplice. Dal momento che il prodotto scalare adottato è stato ipotizzato essere definito positivo, si può essere certi che esiste un riferimento R’ ortonormale rispetto al quale la matrice associata a   risulti essere diagonale. Indicata con   la matrice del cambiamento delle variabili nel passaggio dal riferimento R al riferimento R’ (sostituzione lineare delle variabili), il teorema spettrale garantisce la riduzione in forma diagonale della matrice  

 

Rispetto al sistema di riferimento R’ il prodotto scalare   risulta quindi essere esprimibile come un polinomio omogeneo di secondo grado con ciascun dei due gruppi di p variabili che separatamente presentano grado uno:

 

dove   sono gli elementi posti sulla diagonale principale della matrice  .

Posto   per ogni   la forma più semplice della funzione discriminante è la seguente

 

Il punteggio di soglia   nel riferimento R' è dato da

 

Storia modifica

La statistica antropologica aveva sviluppato metodi per attribuire degli individui "dubbi" ad un gruppo piuttosto che ad un altro. Questi metodi erano però talmente legati all'antropologia che era difficile usarli in altri ambiti.

Nel 1936 R. A. Fisher pubblicò in The use of multiple measurements in taxonomic problems il primo metodo astratto per la suddivisione di "individui" in gruppi che non fosse legato ad una particolare scienza. Tale metodo è quello oggi noto come analisi discriminante lineare e venne poi sviluppato ulteriormente fino alla analisi discriminante multivariata. Fisher nello specifico determinò la regola per ripartire, classificare 50 fiori di Iridacee coltivati assieme nella medesima serra tra due specie: una era l'Iris setosa e l'altra era l'Iris versicolore. La distinzione venne compiuta sulla base dei valori assunti da quattro variabili (caratteri, features, fattori) quantitative ed oggetto di misurazione: la lunghezza del sepalo  , la larghezza del sepalo  , la lunghezza del petalo   e la larghezza del petalo  . La ripartizione tra i due gruppi (Iris setosa o Iris versicolore) venne effettuata da Fisher esprimendo le quattro variabili come combinazione lineare con il parametro  . Ciascuna componente del parametro   venne scelta in modo da discriminare le miglior modo l'appartenenza di un fiore ad uno dei gruppi sulla base delle misure   per esso disponibili. Il parametro   venne scelto in modo da massimizzare il rapporto tra le medie dei due gruppi e la deviazione standard (o varianza) all'interno di ciascun gruppo.

 

La funzione discriminante ottenuta veniva così a costituire la regola di assegnazione dei fiori alle due specie: il carattere previsionale dell’analisi risiedeva nel fatto che la funzione discriminante fu generata da 2 gruppi (sotto-popolazioni o campioni) per i quali si conoscevano 50 osservazioni delle 4 variabili- Per ciascuna osservazione era noto a quale specie appartenesse il fiore in esame. L’applicazione della funzione discriminante ad un nuovo fiore di cui non si fosse conosciuta la specie di appartenenza avrebbe consentito di assegnare, grazie alla misurazione delle quattro variabili, la specie di appartenenza del fiore.

Analisi discriminante lineare ed Intelligenza Artificiale modifica

In generale un algoritmo riceve un insieme di valori in ingresso (dati di input) e da questi genera un valore di uscita detta soluzione (dato di output). Scrivere un algoritmo significa definire una funzione   che associ ad ogni dato di input   la corrispondente uscita. Una volta fornita all'elaboratore la sequenza delle istruzioni che descrivono   e che permettono di calcolare il risultato  , l’elaboratore sarà in grado di determinare la soluzione   in corrispondenza dello specifico dato di input  . Qualora il programmatore non specifichi all'elaboratore le operazioni per giungere da   al risultato  , ma fornisce allo stesso l’abilità di apprendere attraverso esempi come giungere alla soluzione del problema si entra nel campo dell'apprendimento automatico supervisionato (supervised learning). Formalmente un modello matematico di apprendimento automatico consiste di un dominio   (insieme dei dati di input) e di un insieme di arrivo   (insieme degli output). L’apprendimento automatico si interessa di scoprire o di stimare la funzione   tale che  .

Il termine supervisionato deriva dal fatto che è disponibile un insieme di esempi (training set) di coppie di dati etichettati:

Training Set,  

sulla base dei quali si dovrà determinare la funzione  . Il carattere predittivo della funzione   risiede nel fatto che   è in grado di prevedere l’output   per valori non osservati di  , ossia non appartenenti al training set. Questo modo di agire dell’elaboratore ricalcherebbe quel processo psichico tipico dell'apprendimento animale per prove ed errori che consiste nell'imparare da esempi etichettati (esperienza) per poi modificare l'output di risposta a seguito di un input dato. Si riscontra dunque una sorta di apprendimento cognitivo in quanto vengono colte le relazioni essenziali nel problema: si tratta di un processo di acquisizione di conoscenza consistente nello scoprire l’associazione esistente tra i dati   perpetrata attraverso l’analisi di un campione ridotto di dati (training set), ed estesa poi alla totalità della popolazione dei dati di input   e dei dati di output  .

Nei problemi di classificazione gli elementi   di   sono classi nel senso che rappresentano le categorie con cui i diversi dati di input vengono etichetti. Agli input   del training set è assegnata (etichettata) una classe   e si è interessati a determinare la funzione   che assegni ogni   ad una delle   classi disgiunte   laddove   per   e   per  .

Formalmente per   si ha

 

Esempi modifica

I seguenti esempi di classificazione costituiscono modelli di classificazione binari lineari in quanto la funzione   è rappresentata da una funzione lineare di   che separa gli elementi delle due classi per mezzo di un iperpiano. I diversi modelli si differenziano per il diverso metodo di apprendere (calcolare) i parametri incogniti di   e   che definiscono l’iperpiano separatore  ; la notazione   rappresenta un prodotto scalare opportuno.

Classificazione binaria secondo R. Fisher (1936)
 
 
Classificazione binaria secondo F. Rosenblatt (perceptrone, 1958).

La convergenza dell’algoritmo ai valori di   e   venne fornita da A. Novikoff nel 1962 sotto l’ipotesi che le due classi fossero linearmente separabili.

Classificazione binaria secondo V. Vapnik - A. Cherrnovenkis (macchine a vettori di supporto, 1963)
 
 

Voci correlate modifica

Altri progetti modifica

Controllo di autoritàThesaurus BNCF 36963 · GND (DE4012470-8
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica