SMILES

rappresentazione della struttura di una molecola con stringa ASCII

SMILES (acronimo di Simplified Molecular Input Line Entry System[1]) è un metodo per descrivere la struttura di una molecola usando una breve stringa ASCII.

Le stringhe SMILES vengono importate da gran parte dei software per il disegno delle molecole per creare modelli bidimensionali o tridimensionali.

La codifica SMILES è stata sviluppata nel 1980 da Arthur Weininger e David Weininger, poi modificata ed estesa da altri, di cui il maggiore è Daylight Chemical Information Systems Inc. Altre notazioni lineari sono il Wiswesser Line Notation (WLN), ROSDAL and SLN (Tripos Inc). Recentemente la IUPAC ha introdotto l'InChI (International Chemical Identifier) come standard di rappresentazione delle formule.

SMILES canonico e SMILES isomerico modifica

Il termine SMILES canonico (Canonical SMILES) indica la versione delle specifiche SMILES che detta le regole affinché ogni molecola abbia una sola rappresentazione SMILES. Un'applicazione comune è l'indicizzazione delle molecole in un database.

Il termine SMILES isomerico (Isomeric SMILES) indica la versione delle specifiche SMILES che include le regole per specificare gli isomeri, la chiralità e le configurazioni del doppio legame.

SMILES come rappresentazione di un grafo modifica

In termini di procedure computazionali basate sui grafi, SMILES è una stringa ottenuta per stampa dei simboli dei nodi presenti sul grafo che rappresenta la formula di struttura. Dal grafo vengono prima rimossi gli atomi di idrogeno, quindi i cicli vengono aperti per convertire il grafo in un albero aperto. Dove i cicli sono stati aperti, vengono aggiunti dei suffissi numerici per indicare quali sono i nodi connessi. Le ramificazioni dell'albero sono indicate attraverso l'uso di parentesi.

Esempi modifica

Gli atomi sono rappresentati utilizzando il loro simbolo chimico chiuso tra parentesi quadre, come [Au] per oro. L'anione idrossido è [OH-]. Le parentesi quadre possono essere omesse per gli atomi "organici" C, N, O, P, S, Br, Cl e I. Tutti gli altri elementi devono essere racchiusi tra parentesi quadre. Se si omettono le parentesi quadre, si presume che il numero degli atomi di idrogeno sia implicito; per esempio lo SMILES per l'acqua è semplicemente O e per l'etanolo è CCO.

Il doppio legame del biossido di carbonio è rappresentato come O=C=O e il triplo legame dell'acido cianidrico come C#N.

Il cicloesano è rappresentato come C1CCCCC1, l'idea è che i due uno indicano la stessa posizione nella molecola, formando così un anello con sei atomi di carbonio. Da notare che è il numerale (in questo caso 1) che rappresenta la posizione piuttosto che la combinazione "C1". Ecco la notazione espansa per chiarire: (C1)-(C)-(C)-(C)-(C)-(C)-1 piuttosto che (C1)-(C)-(C)-(C)-(C)-(C)-(C1).

Gli atomi di C, O, S e N aromatici vengono rappresentati con i loro caratteri minuscoli, rispettivamente 'c', 'o', 's' e 'n'.

Le ramificazioni sono rappresentate da parentesi tonde, ad esempio CCC(=O)O per l'acido propionico e C(F)(F)F per il fluoroformio, che potrebbe anche essere descritto con la formula non canonica: FC(F)F.

SMILES isomerici modifica

 
Struttura del cis-difluoroetilene

Configurazioni del doppio legame sono rappresentate usando i caratteri "/" e "\". Per esempio, F/C=C/F rappresenta il trans-difluoroetilene, dove gli atomi di fluoro sono dalla parte opposta rispetto al doppio legame, invece F/C=C\F rappresenta il cis-difluoroetilene, dove gli atomi di fluoro sono dallo stesso lato del doppio legame.

Estensioni modifica

SMARTS è una variante di SMILES che consente l'indicazione di atomi e legami "jolly". Questa funzione è utilizzata ampiamente negli algoritmi di ricerca in database di dati chimici.

Note modifica

Voci correlate modifica

Altri progetti modifica

Collegamenti esterni modifica

  Portale Chimica: il portale della scienza della composizione, delle proprietà e delle trasformazioni della materia