UniProt (Universal Protein) è il più grande database bioinformatico per le sequenze proteiche di tutti gli organismi viventi e dei virus. Molte informazioni derivano da progetti di sequenziamento del genoma.

UniProt Taxonomy Database
sito web
Logo
Logo
URLwww.uniprot.org/ e www.uniprot.org/
Tipo di sitoDatabase
LinguaInglese
Commercialeno
ProprietarioUniProt Consortium
Creato daEMBL-EBI, UK; SIB, Switzerland; PIR, US.
Lanciodicembre 2003
Stato attualeAttivo

Il Consorzio UniProt modifica

Il Consorzio UniProt (UniProt Consortium) comprende l'Istituto europeo di bioinformatica (EBI), l'Istituto svizzero di bioinformatica (SIB) e la Protein Information Resource (PIR). EBI, che si trova presso il Wellcome Trust Genome Campus a Hinxton, Regno Unito, ospita un grande centro di database e servizi di bioinformatica. SIB, con sede a Ginevra, Svizzera, gestisce i server della ExPASy (Expert Protein Analysis System) che sono una risorsa centrale per strumenti e database di proteomica. PIR, ospitato dal National Biomedical Research Foundation (NBRF) al Georgetown University Medical Center a Washington, DC, USA, è l'erede del più antico database di sequenze proteiche, Atlas of Protein Sequence and Structure di Margaret Dayhoff, pubblicato la prima volta nel 1965.[1] Nel 2002 EBI, SIB, e PIR hanno unito le loro forze, con il nome di Consorzio UniProt[2].

Le origini dei database UniProt modifica

Ogni membro del consorzio è fortemente impegnato nella gestione del database di proteine e nelle annotazioni. Fino a poco tempo fa, EBI e SIB insieme producevano i database Swiss-Prot e TrEMBL, mentre PIR produceva il suo database delle sequenze proteiche (Protein Sequence, PIR-PSD).[3][4][5] Questi database coesistevano con priorità diverse di copertura e annotazioni delle sequenze proteiche.

Swiss-Prot è stata creata nel 1986 da Amos Bairoch durante il suo dottorato e sviluppata dall'Istituto svizzero di bioinformatica e dall'Istituto europeo di bioinformatica.[6][7] Swiss-Prot ha lo scopo di fornire sequenze proteiche affidabili associate a un elevato livello di annotazioni (come la descrizione della funzione di una proteina, la struttura del suo dominio, le modificazioni post traduzionali, le varianti, etc.), un livello minimo di ridondanza e un alto livello di integrazione con altre banche dati. Riconoscendo che i dati della sequenza venivano prodotte ad un ritmo superiore alla capacità di gestirli di Swiss-Prot, venne creata TrEMBL (Translated EMBL Nucleotide Sequence Data Library) per fornire annotazioni automatizzate per le proteine non ancora presenti in Swiss-Prot. Nel frattempo, PIR mantenne il PIR-PSD e i relativi database, compreso iProClass, un database di sequenze proteiche e famiglie.

I membri del consorzio hanno unito le loro risorse e competenze che si sovrapponevano, e lanciato UniProt nel dicembre 2003.[8]

Organizzazione dei database UniProt modifica

UniProt fornisce quattro database principali:

UniProtKB modifica

UniProt Knowledgebase (UniProtKB) è un database di proteine curato da esperti, composto da due sezioni. UniProtKB/Swiss-Prot (contenente voci revisionate, annotate manualmente) e UniProtKB/TrEMBL (contenente voci non revisionate, annotate automaticamente).[9] Nella versione 2010_09 del 10 agosto 2010, UniProtKB/Swiss-Prot conteneva 519.348 voci, e UniProtKB/TrEMBL conteneva 11.636.205 voci.[10][11]

UniProtKB/Swiss-Prot modifica

UniProtKB/Swiss-Prot è un database di sequenze proteiche di alta qualità, annotato manualmente, non ridondante. Esso combina le informazioni estratte dalla letteratura scientifica e l'analisi computazionale valutata da biocurator. Lo scopo di UniProtKB/Swiss-Prot è quello di fornire tutte le informazioni note relative ad una particolare proteina. Le annotazioni vengono riviste periodicamente per tenere il passo con le attuali conoscenze scientifiche. Le annotazioni manuali di una voce comprendono analisi dettagliate delle sequenze proteiche e della letteratura scientifica.[12]

Le sequenze dello stesso gene e della stessa specie vengono fuse nella stessa voce del database. Le differenze tra le sequenze vengono identificate, e la loro causa documentata (per esempio Splicing alternativo, variazione naturale, luoghi di iniziazione non corretti, confini di esone non corretti, frameshifts, conflitti non identificati). Una gamma di strumenti di analisi di sequenza viene utilizzata nelle annotazioni delle voci di UniProtKB/Swiss-Prot. Previsioni computerizzate sono valutate manualmente, e i risultati pertinenti vengono selezionati per essere inclusi nella voce. Queste previsioni includono le modificazioni post-traduzionali, dominii transmembrani e topologia, peptide segnali, identificazione di dominio, e classificazione della famiglia di proteine.[12][13]

Vengono identificate tramite banche dati di ricerca come Pubmed le pubblicazioni sull'argomento. Viene letto il testo completo di ogni documento, e l'informazione viene estratta ed inserita nella voce. Le annotazioni derivanti dalla letteratura scientifica includono (ma non si limitano):[12][13][14]

Le voci annotate vengono sottoposte al controllo di qualità, prima dell'inclusione nell'UniProtKB/Swiss-Prot. Quando i nuovi dati sono disponibili, le voci vengono aggiornate.

UniProtKB/TrEMBL modifica

UniParc modifica

UniRef modifica

UniMes modifica

Note modifica

  1. ^ Dayhoff, Margaret O., Atlas of protein sequence and structure, Silver Spring, Md, National Biomedical Research Foundation, 1965, ISBN.
  2. ^ 2002 Release: NHGRI Funds Global Protein Database, su genome.gov. URL consultato il 5 maggio 2019 (archiviato dall'url originale il 13 aprile 2019).
  3. ^ O'Donovan C, Martin MJ, Gattiker A, Gasteiger E, Bairoch A, Apweiler R, High-quality protein knowledge resource: SWISS-PROT and TrEMBL, in Brief. Bioinformatics, vol. 3, n. 3, settembre 2002, pp. 275–84, PMID 12230036.
  4. ^ Wu CH, Yeh LS, Huang H, et al., The Protein Information Resource, in Nucleic Acids Res., vol. 31, n. 1, gennaio 2003, pp. 345–7, PMC 165487, PMID 12520019.
  5. ^ Boeckmann B, Bairoch A, Apweiler R, et al., The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003, in Nucleic Acids Res., vol. 31, n. 1, gennaio 2003, pp. 365–70, PMC 165542, PMID 12520024.
  6. ^ Bairoch Amos, [http://bioinformatics.oupjournals.org/cgi/reprint/16/1/48 Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!], in Bioinformatics, vol. 16, n. 1, 2000, pp. 48–64, DOI:10.1093/bioinformatics/16.1.48, PMID 10812477.
  7. ^ Séverine Altairac, "Naissance d'une banque de données: Interview du prof. Amos Bairoch". Protéines à la Une, agosto 2006. ISSN 1660-9824.
  8. ^ Ongoing and future developments at the Universal Protein Resource, in Nucleic Acids Research, vol. 39, Database issue, gennaio 2011, pp. D214–9, DOI:10.1093/nar/gkq1020, PMC 3013648, PMID 21051339.
  9. ^ The Universal Protein Resource (UniProt) in 2010, in Nucleic Acids Res., vol. 38, Database issue, gennaio 2010, pp. D142–8, DOI:10.1093/nar/gkp846, PMC 2808944, PMID 19843607.
  10. ^ UniProtKB/SwissProt release statistics
  11. ^ UniProtKB/TrEMBL release statistics, su ebi.ac.uk. URL consultato il 5 maggio 2019 (archiviato dall'url originale il 25 aprile 2019).
  12. ^ a b c Annotazioni di UniProtKB
  13. ^ a b Apweiler R, Bairoch A, Wu CH, et al., UniProt: the Universal Protein knowledgebase, in Nucleic Acids Res., vol. 32, Database issue, gennaio 2004, pp. D115–9, DOI:10.1093/nar/gkh131, PMC 308865, PMID 14681372.
  14. ^ Apweiler R, Bairoch A, Wu CH, Protein sequence databases, in Curr Opin Chem Biol, vol. 8, n. 1, febbraio 2004, pp. 76–80, DOI:10.1016/j.cbpa.2003.12.004, PMID 15036160.

Collegamenti esterni modifica

  • UniProt, su uniprot.org.
  • neXtProt, su beta.nextprot.org. URL consultato il 5 agosto 2019 (archiviato dall'url originale l'11 maggio 2011).
  • EBI, su ebi.ac.uk.
  • SIB, su isb-sib.ch.
  • PIR, su pir.georgetown.edu. URL consultato il 14 maggio 2011 (archiviato dall'url originale il 12 marzo 2014).