Paradosso di Sayre
Il paradosso di Sayre è un dilemma che si incontra nel progettare sistemi automatici di riconoscimento della scrittura. Una tipica formulazione del paradosso è che una parola scritta in corsivo non può essere riconosciuta senza essere segmentata e non può essere segmentata senza essere riconosciuta. Il paradosso fu articolato per la prima volta in una pubblicazione del 1973 di Kenneth M. Sayre, dal quale prese il nome.[1]
Natura del problema
modificaÈ relativamente facile progettare sistemi automatici capaci di riconoscere parole scritte in un formato a stampa. Tali parole sono segmentate in lettere all'atto stesso di scriverle sulla pagina. Dati dei modelli che abbinano determinate forme a determinate lettere, le singole lettere possono essere identificate con un alto grado di probabilità. In casi di ambiguità, le sequenze di lettere considerate probabili possono essere confrontate con una selezione di parole scritte correttamente nella lingua in cui il documento è scritto (il cosiddetto "lessico").[2] Se necessario, le caratteristiche sintattiche della lingua possono essere applicate per ottenere una identificazione generalmente precisa delle parole in questione.[3] I sistemi di riconoscimento di caratteri stampati sono comunemente usati per processare documenti governativi standardizzati, per ordinare la posta in base ai codici postali e così via.
Nella scrittura corsiva, invece, le lettere che compongono una data parola tipicamente scorrono in sequenza senza spazi che le dividano. Diversamente da una sequenza di lettere stampate, le lettere scritte in corsivo non sono segmentate a priori. Qui entra in gioco il paradosso di Sayre: a meno che una parola non sia già segmentata in lettere, le tecniche precedentemente descritte che abbinano le lettere a dei modelli non possono essere applicate, poiché la segmentazione a priori è necessaria per il riconoscimento delle parole; d'altro canto, non ci sono tecniche affidabili per segmentare una parola in lettere a meno che la parola stessa non sia già stata identificata in precedenza. Il riconoscimento delle parole richiede la segmentazione delle lettere e la segmentazione delle lettere richiede il riconoscimento delle parole: nessun sistema di riconoscimento della scrittura corsiva può compiere simultaneamente le due mansioni impiegando le tecniche standard di abbinamento tra lettere e modelli.
L'uso di sistemi di riconoscimento automatico della scrittura corsiva comprenderebbero lo smistamento della posta con indirizzi manoscritti, la lettura di assegni bancari manoscritti e la digitalizzazione automatica di documenti manoscritti.[4] Questi sono incentivi pratici a trovare modi di aggirare il paradosso di Sayre.
Evitare il paradosso
modificaUn modo per ridurre gli effetti negativi del paradosso è normalizzare le parole da riconoscere. La normalizzazione consiste nell'eliminare le idiosincrasie presenti nella grafia dello scrittore, ad esempio un'insolita pendenza delle lettere o un'insolita inclinazione della linea corsiva.[2] Questa procedura può aumentare la probabilità di un corretto abbinamento tra lettera e modello, che comporta un incremento nella percentuale di successo del sistema. Poiché un miglioramento di questo tipo dipende ancora una volta da una precisa segmentazione, tuttavia, esso rimane soggetto alle limitazioni del paradosso di Sayre.[4] I ricercatori sono giunti alla conclusione che l'unico modo di aggirare il paradosso è non contare su una precisa segmentazione.[4]
Attuali linee di ricerca
modificaLa segmentazione è accurata in proporzione della precisione con cui distingue le diverse lettere nei testi presentati al sistema (l'input); questa segmentazione viene a volte definita "segmentazione esplicita".[2] Per contro la "segmentazione implicita". è la divisione della linea corsiva in un numero di parti maggiore rispetto alle lettere presenti nella linea corsiva stessa: processare queste "parti implicite" per ottenere l'identificazione finale delle parole richiede delle specifiche procedure statistiche che coinvolgono il modello di Markov nascosto (HMM).
Un modello di Markov è una rappresentazione statistica di un processo casuale, cioè di un processo in cui le condizioni future sono indipendenti dalle condizioni precedenti a quella attuale. In un simile processo una data condizione dipende soltanto dalla probabilità condizionale del suo seguire la condizione immediatamente precedente ad essa. Esempio: una serie di risultati ottenuti lanciando più volte un dado. Un modello di Markov nascosto è un modello di Markov in cui le singole condizioni non sono completamente note. Le probabilità condizionali tra le diverse condizioni sono già determinate, ma le identità delle singole condizioni non sono completamente palesi.
Il riconoscimento procede abbinando HMM di parole da riconoscere ad HMM precedentemente preparati di parole contenute nel lessico. Il miglior abbinamento in un dato caso è usato per indicare l'identità della parola manoscritta in questione. Come i sistemi basati sulla segmentazione esplicita, i sistemi basati sulla segmentazione implicita sono considerati più o meno affidabili in base alla percentuale di corrette identificazioni che compiono.
Oggi la maggior parte dei sistemi di riconoscimento di testi manoscritti usano la segmentazione implicita associata a procedure di abbinamento basate su HMM.[4] I problemi riassunti nel paradosso di Markov sono largamente responsabili di questo cambiamento di approccio.
Note
modifica- ^ (EN) Kenneth M. Sayre, Machine Recognition of Handwritten Words: A Project Report, in Pattern Recognition, V, 1973, pp. 213-228.
- ^ a b c Vinciarelli, Survey.
- ^ Vedi Introduction of Statistical Information.
- ^ a b c d Vinciarelli, Offline Cursive Handwriting.
Bibliografia
modifica- (EN) Alessandro Vinciarelli, Offline Cursive Handwriting: From Word to Text Recognition.
- Alessandro Vinciarelli, A Survey on [sic] Off-line Cursive Word Recognition, in Pattern Recognition, XXXV, n. 7, luglio 2002, pp. 1433-1446.
- (EN) C.R. Rao e Venu Govindaraju (a cura di), Handbook of Statistics, XXXI (Machine Learning: Theory and Applications), B. V. Elsevier, 1998, p. 422.
- (EN) André O. Maroneze, Bertrant Coüashon e Aurélie Lemaitre, Introduction of Statistical Information in a Syntactic analyzer for Document Image Recognition.