Backus-Naur Form

formalismo attraverso cui è possibile descrivere la sintassi di linguaggi formali

La BNF (Backus-Naur Form o Backus Normal Form) è una metasintassi, ovvero un formalismo attraverso cui è possibile descrivere la sintassi di linguaggi formali (il prefisso meta ha proprio a che vedere con la natura circolare di questa definizione). Si tratta di uno strumento molto usato per descrivere in modo preciso e non ambiguo la sintassi dei linguaggi di programmazione, dei protocolli di rete e così via, benché non manchino in letteratura esempi di sue applicazioni a contesti anche non informatici e addirittura non tecnologici. La BNF viene usata nella maggior parte dei testi sulla teoria dei linguaggi di programmazione e in molti testi introduttivi su specifici linguaggi.

In termini formali, la BNF può essere vista come un formalismo per descrivere grammatiche libere dal contesto. La BNF fu proposta da John Backus nel corpo della definizione del linguaggio di programmazione ALGOL. L'acronimo BNF era inizialmente inteso come Backus Normal Form ("forma normale di Backus"); su suggerimento di Donald Knuth, fu in seguito riletto come Backus-Naur Form, in onore di Peter Naur, un altro membro del comitato ALGOL e pioniere dei linguaggi di programmazione (e più in particolare della realizzazione di compilatori).

Introduzione modifica

Una specifica BNF è un insieme di regole di derivazione, ciascuna espressa nella forma:

<simbolo> ::= __espressione__

o nella forma equivalente:

<simbolo> → __espressione__

Le due forme sono assolutamente equivalenti ma la seconda è sbagliata perché non fa parte della BNF. È un'invenzione di chi l'ha scritto. La prima forma, che verrà utilizzata nel seguito, utilizza caratteri ASCII standard ed è quella più utilizzata per scrivere grammatiche che devono essere utilizzate dai calcolatori e lette in file di testo. La seconda forma è meno utilizzabile nella pratica, ma è comune nei testi e negli articoli di informatica teorica in quanto meglio esprime l'operazione di derivazione delle stringhe di un linguaggio a causa dell'applicazione delle regole di derivazione. Oltre a queste due forme se ne possono trovare altre decine, l'importante è capire che la BNF è un metalinguaggio formale e non prevede altri simboli se non ::=. Altri metalinguaggi che utilizzano altri simboli non sono la BNF.

Nelle regole di derivazione <simbolo> (i caratteri < e > sono obbligatori) viene detto un simbolo nonterminale e __espressione__ è costituita da una o più sequenze di simboli terminali (descritti più avanti) o nonterminali, identificabili perché racchiusi tra < >; se le sequenze sono più di una esse sono separate dalla barra verticale '|'. La regola esprime il fatto che il nonterminale a sinistra della regola può essere sostituito da una qualsiasi delle sequenze indicate sulla destra. Inoltre in una sequenza alcuni simboli o sottosequenze possono essere indicati come opzionali racchiudendoli fra parentesi quadre.

I simboli che non appaiono mai a sinistra di una regola di derivazione sono detti terminali. I terminali sono in un certo senso il punto di arrivo, perché rappresentano elementi che si troveranno effettivamente in un testo scritto secondo le regole sintattiche che la specifica BNF descrive. I simboli nonterminali, viceversa, sono strumenti utilizzati esclusivamente dalla BNF e sono racchiusi tra <>; essi rappresentano gli elementi astratti della grammatica.

Esempio modifica

Si vuole descrivere in modo formale, preciso e non ambiguo le regole da seguire per scrivere un indirizzo su una lettera. Anche un "micro-linguaggio" come questo richiede una specifica BNF piuttosto articolata quindi l'esempio ha subito alcune semplificazioni. Questo primo esempio contiene solo simboli non terminali e la sua specifica BNF potrebbe essere:

<indirizzo postale> ::= <destinatario> <indirizzo> <localita>

<destinatario> ::= [<titolo>] [<nome>|<iniziale>] <cognome> <a capo>

<indirizzo> ::= <via> <numero civico> <a capo>

<localita> ::= [<CAP>] <comune> <provincia>

Questo frammento di specifica può essere tradotto in italiano come segue:

un indirizzo postale include un destinatario, seguito da un indirizzo, seguito da una indicazione di località;
il destinatario comprende sicuramente un cognome, a cui si possono far precedere, nell'ordine, un titolo (come Sig. o Dott. ecc.) e un nome o una iniziale;
l'indirizzo comprende necessariamente una indicazione di via (o piazza, viale, ecc.) e il numero civico;
l'indicazione della località comprende un codice di avviamento postale opzionale, seguito dal nome del comune e dalla provincia.

L'interpretazione più intuitiva della BNF è probabilmente quella generativa: si sostituisce il nonterminale principale <indirizzo postale> con la sequenza indicata sulla destra e poi si ripete il procedimento sostituendo via via ciascun nonterminale con una sequenza data da una regola di derivazione per quel nonterminale.

Come esempio:

<indirizzo postale>
(applicando la regola 1 diventa)
<destinatario> <indirizzo> <localita>
(applicando la regola 2 diventa)
[<titolo>] [<nome>|<iniziale>] <cognome> <a capo> <indirizzo> <localita>
(applicando la regola 3 diventa)
[<titolo>] [<nome>|<iniziale>] <cognome> <a capo> <via> <numero civico> <a capo> <localita>

eccetera. Il procedimento termina quando il testo è composto solo da terminali e quindi rappresenta un indirizzo postale sintatticamente corretto. Per mostrare una regola che includa dei terminali, si consideri l'esempio del CAP:

<CAP> ::= <cifra><cifra><cifra><cifra><cifra>

<cifra> ::= 0|1|2|3|4|5|6|7|8|9

Questo frammento dice che un CAP è composto da cinque cifre, e che le cifre sono '0', '1', '2', '3', '4', '5', '6', '7', '8', '9'. Nella regola di derivazione per cifra non compaiono le parentesi angolari "<" e ">"; infatti i simboli a destra sono terminali, ovvero rappresentano proprio i simboli concreti che devono apparire nel testo finale di un indirizzo.

Una specifica come quella sopra (una volta completata) può essere utilizzata per stabilire se un indirizzo postale è sintatticamente corretto. Infatti un testo è sintatticamente corretto rispetto alla sintassi descritta da un insieme di regole BNF se può essere ricavato partendo dal nonterminale principale applicando ripetutamente le regole di sostituzione un numero finito di volte.

La specifica della sintassi di un linguaggio di programmazione ha tipicamente un nonterminale principale <programma> e un insieme di regole di derivazione che descrivono come un programma è strutturato in moduli, i moduli in istruzioni, le istruzioni in espressioni, e via dicendo. Un testo scritto da un programmatore si può considerare sintatticamente corretto, e quindi effettivamente un programma nel linguaggio in questione, se è possibile ricavarlo per sostituzioni successive a partire dal nonterminale <programma>. Questo tipo di verifica, dato il testo da verificare e una specifica BNF, si presta a essere eseguito in modo automatico. Una verifica di questo tipo rappresenta infatti una parte importante del funzionamento dei compilatori.

Può essere interessante notare che usando la BNF è possibile descrivere la sintassi della BNF stessa.

Varianti modifica

In letteratura sono state proposte molte varianti ed estensioni della BNF. In effetti alcune strutture nell'esempio riportato sopra non erano previste dalla BNF originale, ma sono state introdotte in seguito dai progettisti della IBM per descrivere la sintassi del linguaggio PL/1. Infatti nella definizione originale della BNF non era previsto né l'uso di più sequenze alternative di simboli separate dal carattere |, né l'uso delle parentesi quadre per identificare simboli opzionali. Per rappresentare queste situazioni era quindi necessario definire differenti regole di produzione per lo stesso simbolo nonterminale a sinistra, una per ciascuna delle sequenze possibili. Comunque queste estensioni, il cui scopo è quello di avere una rappresentazione più chiara e compatta della grammatica, sono riconosciute ormai universalmente come parte integrante della BNF. Per rendersi conto del notevole vantaggio, di codice e di chiarezza, che si ottiene utilizzando questi costrutti notiamo che una delle regole di produzione viste sopra:

<destinatario> ::= [<titolo>] [<nome>|<iniziale>] <cognome> <a capo>

senza i costrutti [] e | richiederebbe ben 6 regole di produzione:

<destinatario> ::= <cognome> <a capo>
<destinatario> ::= <nome> <cognome> <a capo>
<destinatario> ::= <iniziale> <cognome> <a capo>
<destinatario> ::= <titolo> <cognome> <a capo>
<destinatario> ::= <titolo> <nome> <cognome> <a capo>
<destinatario> ::= <titolo> <iniziale> <cognome> <a capo>

Invece le vere e proprie varianti o estensioni introducono modifiche più sostanziali, come i metacaratteri tipici delle espressioni regolari. Alcuni esempi sono la EBNF (Extended Backus-Naur form) e la ABNF (Augmented Backus-Naur form), che conta, fra le sue applicazioni tipiche, la descrizione dei protocolli IETF.

Voci correlate modifica

  • EBNF Extended Backus-Naur form
  • ABNF Augmented Backus-Naur form

Altri progetti modifica

Collegamenti esterni modifica