Bioinformatica

branca della biologia che si occupa di raccogliere, archiviare ed analizzare mediante banche dati informazioni biologiche

La bioinformatica è una disciplina scientifica dedicata alla risoluzione di problemi biologici a livello molecolare con metodi informatici.

L'evoluzione storica della bioinformatica, che inizialmente si occupava principalmente dello studio del DNA e RNA, ha portato a un così vasto uso dell'informatica in molti settori della biologia che è stato coniato il nuovo termine, ormai universalmente accettato, di Biologia Computazionale che esplicita con maggior chiarezza e precisione i reali e più vasti contenuti scientifici e disciplinari del connubio tra informatica e biologia nel XXI secolo[1].

La bioinformatica, a volte, viene considerata anche come appartenente a un gruppo di discipline che va sotto il nome inglese di X-informatics, caratterizzate da un'indagine scientifica multidisciplinare, in cui l'informatica rappresenta lo strumento primario (esempi: astroinformatica, geoinformatica ecc.).

Nel novembre 2023 viene realizzato il primo computer ibrido fra un chip elettronico e neuroni umani assemblati in un organoide. Il dispositivo ha eseguito operazioni di riconoscimento vocale e calcolo dell'evoluzione di un sistema dinamico.[2]

Descrizione

modifica

La bioinformatica contribuisce alla descrizione dal punto di vista quantitativo dei fenomeni biologici coinvolgendo, oltre alla biologia e all'informatica, altri campi tra cui matematica applicata, statistica, biochimica e intelligenza artificiale.

La bioinformatica principalmente si occupa di:

  • fornire modelli statistici validi per l'interpretazione dei dati provenienti da esperimenti di biologia molecolare e biochimica al fine di identificare tendenze e leggi numeriche,
  • generare nuovi modelli e strumenti matematici per l'analisi di sequenze di DNA, RNA e proteine al fine di creare un corpus di conoscenze relative alla frequenza di sequenze rilevanti, la loro evoluzione ed eventuale funzione,
  • organizzare le conoscenze acquisite a livello globale su genoma e proteoma in basi di dati al fine di rendere tali dati accessibili a tutti, e ottimizzare gli algoritmi di ricerca dei dati stessi per migliorarne l'accessibilità.

Gli attuali ambiti di ricerca includono l'allineamento di sequenze, la predizione genica, l'allineamento di sequenze proteiche, la predizione di struttura proteica, l'espressione genica e l'interazione proteina-proteina.

Per raccogliere e organizzare i dati raccolti si utilizzano file di testo con estensione .VCF.

Aree di ricerca

modifica

Analisi di sequenze

modifica
  Lo stesso argomento in dettaglio: Sequenziamento e Allineamento di sequenze.

Dopo il sequenziamento del DNA del fago Phi X 174 nel 1977, i genomi di centinaia di organismi sono stati sequenziati e conservati in database. Le informazioni vengono analizzate per determinare quali geni codificano polipeptidi. Il confronto di geni all'interno di una specie, o tra specie differenti, può mostrare similarità tra la funzione di proteine e relazione tra le specie.

L'analisi di sequenze è stata resa possibile da diversi algoritmi specializzati. Tra i primi furono Needleman e Wunsh nel 1970, e Smith e Watermann nel 1981. L'obiettivo era comparare due o più sequenze di amminoacidi ed evidenziare identità, similarità (sostituzioni conservative) e disuguaglianze (sostituzioni, inserimenti e rimozioni). Da questi programmi poi ne sono stati messi a punto altri, che hanno permesso alla bioinformatica di evolversi nel tempo e dare un contributo fondamentale nell'attuazione dei progetti di mappatura dei genomi dei viventi. L'allineamento di sequenze è una variante di questo problema, ed è utilizzato anche nel sequenziamento.

La tecnica di sequenziamento detta shotgun (usata, per esempio, dall'Institute for Genomic Research per il sequenziamento del primo genoma batterico, Haemophilus influenzae) non riporta una lista di nucleotidi, ma una sequenza di migliaia di frammenti di DNA, ognuno lungo da 600 a 800 nucleotidi. Le estremità di questi frammenti possono essere sovrapposte e, una volta allineate nel modo giusto, rappresentano l'intero genoma. Questo tipo di sequenziamento è molto rapido, ma la ricostruzione del genoma a partire dai frammenti diventa presto molto complicata per grandi genomi. Lo shotgun è il metodo di sequenziamento maggiormente usato, e lo sviluppo di algoritmi per l'allineamento dei frammenti è un'area di critica importanza nella ricerca bioinformatica.

Annotazione genica

modifica

L'annotazione a livello genetico è il processo che consiste nel mappare geni e altre caratteristiche biologiche all'interno di una sequenza di DNA. Il primo software per l'annotazione genica fu sviluppato nel 1995 dal Dr. Owen White, membro del team che ha sequenziato e analizzato per primo genoma del batterio Haemophilus influenzae. White creò un programma per trovare geni, RNA transfer e altre caratteristiche, e per assegnare loro identificazioni.

Annotazione proteica

modifica

L'annotazione a livello proteico è il processo che consiste nel mappare caratteristiche biologiche all'interno di una sequenza proteica.

- Annotazione manuale Swiss-Prot - Annotazione automatica TrEMBL Algoritmi di data mining che estrapolano informazioni da database di proteine annotate manualmente (Swiss-Prot) applicate poi a sequenze di proteine non ancora annotate (TrEMBL). I sistemi di annotazione automatica a loro volta si suddividono in: - completamente automatici - semi-automatici

Biologia evolutiva computazionale

modifica

Biodiversità

modifica

Analisi dell'espressione genica

modifica

L'espressione di molti geni può essere determinata misurando i livelli di mRNA con varie tecniche, tra cui microarray di DNA, expressed sequence tag e altre. Tutte le tecniche sono soggette a errori e contaminazioni. Vengono perciò ricercati modi per distinguere i segnali dalle interferenze. Un esempio è la determinazione di geni coinvolti in una determinata patologia: si possono confrontare i dati dei microarray di cellule epiteliali cancerose e di cellule non colpite dal cancro per determinare la regolazione di fattori in una particolare popolazione di cellule cancerose.

Espressione proteica

modifica

Analisi di mutazioni cancerogene

modifica

La biologia computazionale tumorale mira a determinare le future mutazioni del cancro attraverso algoritmi di analisi dei dati. La ricerca in questo campo ha portato all'utilizzo di misurazioni di alto rendimento: queste misurazioni consentono la raccolta e l'analisi di milioni di dati, utilizzando la robotica e altri metodi di rilevamento (cristallografia a raggi x, marcatori molecolari, ecc) delle strutture e delle mutazioni di DNA, RNA e altre strutture biologiche. Le aree di ricerca includono la determinazione delle caratteristiche del tumore, l'analisi di molecole potenzialmente oncogeniche.

Predizione di struttura proteica

modifica
  Lo stesso argomento in dettaglio: Predizione di struttura proteica.

Predire la struttura terziaria significa predire la posizione nelle tre dimensioni di ogni atomo della proteina. Esistono tre tipi di predizioni:

  • ab initio, viene predetta la struttura con la sola conoscenza della sequenza proteica;
  • fold recognition, si guarda se la proteina di studio può avere una conformazione simile a un'altra, che viene presa come modello;
  • modelli per omologia, si fa un modello di proteina partendo da una proteina omologa.

Predizione di funzione proteica

modifica

Simulazione di sistemi biologici

modifica

La simulazione di sistemi biologici è una disciplina nata negli ultimi anni per fornire un approccio più moderno allo studio dei sistemi biologici che ha come scopo di modellarne il comportamento, oltre che esclusivamente la loro struttura come avviene nell'approccio riduttivo tipico della bioinformatica statica.

Software e strumenti informatici

modifica

Il software impiegato nella bioinformatica spazia dalle semplici interfacce a riga di comando a più complessi programmi grafici e web service stand-alone, messi a disposizione da diversi istituti pubblici e aziende bioinformatiche (tra cui Inte:Ligand e Invitrogen). Un esempio è il progetto open source BALL, sviluppato da diverse università tedesche dal 2010, che mette a disposizione sia un'interfaccia grafica che una linea di comando.

Molte applicazioni nel campo della bioinformatica hanno interfacce basate su SOAP e REST, che consentono l'accesso ad algoritmi, dati e risorse su server in tutto il mondo. I principali servizi sono classificati dall'Istituto Bioinformatico Europeo e dall'Istituto Svizzero di Bioinformatica in software di ricerca, allineamento di multiple sequenze, e analisi (tra cui Bgee un database che raccoglie dati di espressione genica).

  1. ^ Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-Rudloff E., Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective, in Bioinformatics - Trends and Methodologies, InTech, 2011. URL consultato l'8 gennaio 2012 (archiviato dall'url originale il 25 gennaio 2012).
  2. ^ Funzionano i mini-computer ibridi, con neuroni umani, su rainews.it, 11 dicembre 2023.

Voci correlate

modifica

Altri progetti

modifica

Collegamenti esterni

modifica
Controllo di autoritàThesaurus BNCF 38883 · LCCN (ENsh00003585 · GND (DE4611085-9 · BNF (FRcb144116742 (data) · J9U (ENHE987007291740605171 · NDL (ENJA00870420