UniProt
UniProt (Universal Protein) è il più grande database bioinformatico per le sequenze proteiche di tutti gli organismi viventi e dei virus. Molte informazioni derivano da progetti di sequenziamento del genoma.
UniProt Taxonomy Database sito web | |
---|---|
URL | www.uniprot.org/ e www.uniprot.org/ |
Tipo di sito | Database |
Lingua | Inglese |
Commerciale | no |
Proprietario | UniProt Consortium |
Creato da | EMBL-EBI, UK; SIB, Switzerland; PIR, US. |
Lancio | dicembre 2003 |
Stato attuale | Attivo |
Il Consorzio UniProt
modificaIl Consorzio UniProt (UniProt Consortium) comprende l'Istituto europeo di bioinformatica (EBI), l'Istituto svizzero di bioinformatica (SIB) e la Protein Information Resource (PIR). EBI, che si trova presso il Wellcome Trust Genome Campus a Hinxton, Regno Unito, ospita un grande centro di database e servizi di bioinformatica. SIB, con sede a Ginevra, Svizzera, gestisce i server della ExPASy (Expert Protein Analysis System) che sono una risorsa centrale per strumenti e database di proteomica. PIR, ospitato dal National Biomedical Research Foundation (NBRF) al Georgetown University Medical Center a Washington, DC, USA, è l'erede del più antico database di sequenze proteiche, Atlas of Protein Sequence and Structure di Margaret Dayhoff, pubblicato la prima volta nel 1965.[1] Nel 2002 EBI, SIB, e PIR hanno unito le loro forze, con il nome di Consorzio UniProt[2].
Le origini dei database UniProt
modificaOgni membro del consorzio è fortemente impegnato nella gestione del database di proteine e nelle annotazioni. Fino a poco tempo fa, EBI e SIB insieme producevano i database Swiss-Prot e TrEMBL, mentre PIR produceva il suo database delle sequenze proteiche (Protein Sequence, PIR-PSD).[3][4][5] Questi database coesistevano con priorità diverse di copertura e annotazioni delle sequenze proteiche.
Swiss-Prot è stata creata nel 1986 da Amos Bairoch durante il suo dottorato e sviluppata dall'Istituto svizzero di bioinformatica e dall'Istituto europeo di bioinformatica.[6][7] Swiss-Prot ha lo scopo di fornire sequenze proteiche affidabili associate a un elevato livello di annotazioni (come la descrizione della funzione di una proteina, la struttura del suo dominio, le modificazioni post traduzionali, le varianti, etc.), un livello minimo di ridondanza e un alto livello di integrazione con altre banche dati. Riconoscendo che i dati della sequenza venivano prodotte ad un ritmo superiore alla capacità di gestirli di Swiss-Prot, venne creata TrEMBL (Translated EMBL Nucleotide Sequence Data Library) per fornire annotazioni automatizzate per le proteine non ancora presenti in Swiss-Prot. Nel frattempo, PIR mantenne il PIR-PSD e i relativi database, compreso iProClass, un database di sequenze proteiche e famiglie.
I membri del consorzio hanno unito le loro risorse e competenze che si sovrapponevano, e lanciato UniProt nel dicembre 2003.[8]
Organizzazione dei database UniProt
modificaUniProt fornisce quattro database principali:
UniProtKB
modificaUniProt Knowledgebase (UniProtKB) è un database di proteine curato da esperti, composto da due sezioni. UniProtKB/Swiss-Prot (contenente voci revisionate, annotate manualmente) e UniProtKB/TrEMBL (contenente voci non revisionate, annotate automaticamente).[9] Nella versione 2010_09 del 10 agosto 2010, UniProtKB/Swiss-Prot conteneva 519.348 voci, e UniProtKB/TrEMBL conteneva 11.636.205 voci.[10][11]
UniProtKB/Swiss-Prot
modificaUniProtKB/Swiss-Prot è un database di sequenze proteiche di alta qualità, annotato manualmente, non ridondante. Esso combina le informazioni estratte dalla letteratura scientifica e l'analisi computazionale valutata da biocurator. Lo scopo di UniProtKB/Swiss-Prot è quello di fornire tutte le informazioni note relative ad una particolare proteina. Le annotazioni vengono riviste periodicamente per tenere il passo con le attuali conoscenze scientifiche. Le annotazioni manuali di una voce comprendono analisi dettagliate delle sequenze proteiche e della letteratura scientifica.[12]
Le sequenze dello stesso gene e della stessa specie vengono fuse nella stessa voce del database. Le differenze tra le sequenze vengono identificate, e la loro causa documentata (per esempio Splicing alternativo, variazione naturale, luoghi di iniziazione non corretti, confini di esone non corretti, frameshifts, conflitti non identificati). Una gamma di strumenti di analisi di sequenza viene utilizzata nelle annotazioni delle voci di UniProtKB/Swiss-Prot. Previsioni computerizzate sono valutate manualmente, e i risultati pertinenti vengono selezionati per essere inclusi nella voce. Queste previsioni includono le modificazioni post-traduzionali, dominii transmembrani e topologia, peptide segnali, identificazione di dominio, e classificazione della famiglia di proteine.[12][13]
Vengono identificate tramite banche dati di ricerca come Pubmed le pubblicazioni sull'argomento. Viene letto il testo completo di ogni documento, e l'informazione viene estratta ed inserita nella voce. Le annotazioni derivanti dalla letteratura scientifica includono (ma non si limitano):[12][13][14]
- Nome proteina e gene
- Funzione
- Specifica informazione dell'Enzima come attività catalitica, cofattori e residui catalitici
- localizzazioni subcellulari
- Interazione proteina-proteina
- Pattern d'espressione
- Posizioni e ruoli di domini e siti significativi
- Siti Ion-, substrato- e legame di cofattore
- Forme varianti della proteina prodotte dalla naturale variabilità genetica, RNA editing, Splicing alternativo, processo proteolitico e modificazione post traduzionale
Le voci annotate vengono sottoposte al controllo di qualità, prima dell'inclusione nell'UniProtKB/Swiss-Prot. Quando i nuovi dati sono disponibili, le voci vengono aggiornate.
UniProtKB/TrEMBL
modificaUniParc
modificaUniRef
modificaUniMes
modificaNote
modifica- ^ Dayhoff, Margaret O., Atlas of protein sequence and structure, Silver Spring, Md, National Biomedical Research Foundation, 1965, ISBN.
- ^ 2002 Release: NHGRI Funds Global Protein Database, su genome.gov. URL consultato il 5 maggio 2019 (archiviato dall'url originale il 13 aprile 2019).
- ^ O'Donovan C, Martin MJ, Gattiker A, Gasteiger E, Bairoch A, Apweiler R, High-quality protein knowledge resource: SWISS-PROT and TrEMBL, in Brief. Bioinformatics, vol. 3, n. 3, settembre 2002, pp. 275–84, PMID 12230036.
- ^ Wu CH, Yeh LS, Huang H, et al., The Protein Information Resource, in Nucleic Acids Res., vol. 31, n. 1, gennaio 2003, pp. 345–7, PMC 165487, PMID 12520019.
- ^ Boeckmann B, Bairoch A, Apweiler R, et al., The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003, in Nucleic Acids Res., vol. 31, n. 1, gennaio 2003, pp. 365–70, PMC 165542, PMID 12520024.
- ^ Bairoch Amos, [http://bioinformatics.oupjournals.org/cgi/reprint/16/1/48 Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!], in Bioinformatics, vol. 16, n. 1, 2000, pp. 48–64, DOI:10.1093/bioinformatics/16.1.48, PMID 10812477.
- ^ Séverine Altairac, "Naissance d'une banque de données: Interview du prof. Amos Bairoch". Protéines à la Une, agosto 2006. ISSN 1660-9824.
- ^ Ongoing and future developments at the Universal Protein Resource, in Nucleic Acids Research, vol. 39, Database issue, gennaio 2011, pp. D214–9, DOI:10.1093/nar/gkq1020, PMC 3013648, PMID 21051339.
- ^ The Universal Protein Resource (UniProt) in 2010, in Nucleic Acids Res., vol. 38, Database issue, gennaio 2010, pp. D142–8, DOI:10.1093/nar/gkp846, PMC 2808944, PMID 19843607.
- ^ UniProtKB/SwissProt release statistics
- ^ UniProtKB/TrEMBL release statistics, su ebi.ac.uk. URL consultato il 5 maggio 2019 (archiviato dall'url originale il 25 aprile 2019).
- ^ a b c Annotazioni di UniProtKB
- ^ a b Apweiler R, Bairoch A, Wu CH, et al., UniProt: the Universal Protein knowledgebase, in Nucleic Acids Res., vol. 32, Database issue, gennaio 2004, pp. D115–9, DOI:10.1093/nar/gkh131, PMC 308865, PMID 14681372.
- ^ Apweiler R, Bairoch A, Wu CH, Protein sequence databases, in Curr Opin Chem Biol, vol. 8, n. 1, febbraio 2004, pp. 76–80, DOI:10.1016/j.cbpa.2003.12.004, PMID 15036160.