Percettrone

tipo di rete neurale artificiale
(Reindirizzamento da Perceptron)

Il percettrone (in inglese perceptron) è un modello di rete neurale artificiale, il primo di questo genere, introdotto nel 1958 dallo psicologo statunitense Frank Rosenblatt.

Descrizione modifica

Nell'apprendimento automatico, il percettrone è un tipo di classificatore binario che mappa i suoi ingressi   (un vettore di tipo reale) in un valore di output   (uno scalare di tipo reale) calcolato con

 

dove   è un vettore di pesi con valori reali, l'operatore   è il prodotto scalare (che calcola una somma pesata degli input),   è il bias, un termine costante che non dipende da alcun valore in input e   è la funzione di output. Le scelte più comuni per la funzione   sono:

  1.  
  2.  
  3.  

dove   è la funzione di Heaviside

Il primo caso corrisponde a un classificatore binario (l'output può assumere solamente i valori   e  ); un caso particolarmente studiato è quello in cui sia gli input   che l'output   sono binari.

Il bias   può essere pensato come un settaggio della funzione di attivazione (per esempio quando   è come nel caso 3), o come un livello base di attivazione per l'output del neurone (per esempio quando   è come nei casi 1 e 2). In quest'ultima situazione, il valore   rappresenta un valore di soglia che la somma pesata degli input deve superare affinché il dispositivo sia attivo (cioè che l'output sia positivo).

Il percettrone può essere considerato come il più semplice modello di rete neurale feed-forward,[1][2] in quanto gli input alimentano direttamente l'unità di output attraverso connessioni pesate. Nel caso in cui gli input e gli output sono dello stesso tipo, è possibile creare reti più complesse unendo più percettroni insieme, per esempio usando un gruppo (o strato) di percettroni come input per un secondo gruppo di percettroni, oppure facendo in modo che l'input di ogni percettrone della rete sia dato dall'output di ogni altro percettrone (rete fully-connected).

Storia modifica

Il percettrone fu proposto da Frank Rosenblatt nel 1958 come un'entità con uno strato di ingresso ed uno di uscita ed una regola di apprendimento basata sulla minimizzazione dell'errore, la cosiddetta funzione di error back-propagation (retropropagazione dell'errore) che in base alla valutazione sull'uscita effettiva della rete rispetto ad un dato ingresso altera i pesi delle connessioni (sinapsi) come differenza tra l'uscita effettiva e quella desiderata.

L'entusiasmo fu enorme e nacque il settore della cibernetica, ma dopo che Marvin Minsky e Seymour Papert dimostrarono i limiti del percettrone e cioè la sua capacità di riconoscere dopo un opportuno addestramento solamente funzioni linearmente separabili (ad esempio la funzione logica XOR non può essere implementata da un percettrone) l'interesse scemò rapidamente.

Di fatto una rete a più livelli di percettroni poteva risolvere problemi più complessi, ma la crescente complessità computazionale dell'addestramento rendeva impraticabile questa strada. Solo nel decennio successivo si riprese a considerare l'utilità di questa entità operazionale.

Il problema dell'apprendimento modifica

Simulazione di un percettrone con un neurone. Il compito è trovare una linea che divide i dati in due gruppi diversi. Questo approccio non funziona a causa del problema XOR

Modificando il vettore dei pesi  , è possibile modulare l'output di un percettrone, con lo scopo d'ottenere delle proprietà di apprendimento o di memorizzazione. Per esempio, si può cercare di istruire un percettrone in modo che, dato un input  , l'output   sia quanto più vicino possibile a un dato valore   scelto a priori; le capacità computazionali di un singolo percettrone sono tuttavia limitate, e le prestazioni che è possibile ottenere dipendono fortemente sia dalla scelta degli input (che potrebbero per esempio essere limitati ad un sottoinsieme di tutti gli input possibili, oppure venire estratti a caso secondo una certa distribuzione di probabilità prefissata) che dalla scelta della funzione che si desidera implementare,  . In misura minore, dipendono anche da come viene quantificata la distanza tra gli output effettivi e quelli attesi.

Una volta che si sia definito il problema dell'apprendimento, si può cercare di trovare l'assegnazione ottimale di pesi   per il problema dato.

Algoritmo di apprendimento standard modifica

L'algoritmo di apprendimento standard è un algoritmo iterativo, definito come segue: ad ogni iterazione  , un vettore di input   viene presentato al percettrone, che calcola l'output   e lo confronta con il risultato desiderato  ; quindi, il vettore dei pesi   viene aggiornato come segue:

 

dove   è una costante di apprendimento strettamente positiva che regola la velocità dell'apprendimento[3]. Al passo successivo, il nuovo input   verrà pesato secondo il nuovo vettore  , che verrà poi nuovamente modificato in   e così via.

L'insieme   da cui sono estratti i campioni   presentati al percettrone durante il periodo dell'apprendimento è detto training set.

 
I pesi appropriati (w) vengono applicati agli input (x) che passati ad una funzione che produce l'output (y)

Nel caso in cui esistano:

  • un certo vettore  
  • una certa costante  
  • una certa costante  

il training set è detto linearmente separabile (geometricamente, questa condizione descrive la situazione in cui esiste un iperpiano in grado di separare, nello spazio vettoriale degli input, quelli che richiedono un output positivo da quelli che richiedono un output negativo). In questo caso, Novikoff (1962) ha provato che l'algoritmo standard converge, nel senso che il numero di errori è limitato da  , in un numero finito di passi.[4] Non è invece garantito che l'algoritmo descritto converga se il training set non è linearmente separabile. Inoltre, altri algoritmi (per esempio l'algoritmo adatron), possono avere, in determinate situazioni, prestazioni migliori in termini di tempo di convergenza, di capacità di apprendimento, di generalizzazione, eccetera.

Note modifica

  1. ^ Cristianini, Nello; Shawe-Taylor, John. Support Vector Machines and other Kernel-based learning methods. Cambridge University Press: 2000.
  2. ^ HAYKIN , Simon . Neural Networks - A Comprehensive Foundation. Second edition. Pearson Prentice Hall: 1999.
  3. ^ (EN) Bishop, Christopher M., Pattern recognition and machine learning, Springer, 2006, pp. 192-196, ISBN 0387310738, OCLC 71008143. URL consultato il 10 agosto 2018.
  4. ^ Michael Collins, Convergence Proof for the Perceptron Algorithm (PDF), su cs.columbia.edu, Columbia University - Dipartimento di informatica. URL consultato il 1º luglio 2017 (archiviato il 25 giugno 2017).

Bibliografia modifica

Voci correlate modifica

Collegamenti esterni modifica

Controllo di autoritàLCCN (ENsh85099714 · GND (DE4173941-3 · J9U (ENHE987007536098005171 · NDL (ENJA00569067