CASP
Critical Assessment of protein Structure Prediction, o CASP, è un esperimento a livello mondiale per la previsione della struttura proteica che si svolge ogni due anni dal 1994.[1] CASP offre ai gruppi di ricerca l'opportunità di testare oggettivamente i propri metodi di previsione della struttura e fornisce una valutazione indipendente dello stato dell'arte nella modellazione della struttura delle proteine alla comunità di ricerca e agli utenti del software. Anche se l'obiettivo principale del CASP è aiutare a far progredire i metodi di identificazione della struttura tridimensionale delle proteine dalla sua sequenza di amminoacidi, molti vedono l'esperimento più come un "campionato del mondo" in questo campo della scienza. Più di 100 gruppi di ricerca da tutto il mondo partecipano regolarmente a CASP e non è raro che interi gruppi sospendano le loro altre ricerche per mesi mentre si concentrano sulla preparazione dei loro server per l'esperimento e sull'esecuzione delle previsioni dettagliate.
Selezione dei domini
modificaAl fine di garantire che nessun predittore possa avere informazioni preliminari sulla struttura di una proteina che lo metterebbero in vantaggio, è importante che l'esperimento sia condotto in doppio cieco: né i predittori, né gli organizzatori e i valutatori conoscono le strutture delle proteine nel momento in cui vengono fatte le previsioni. Gli obiettivi per la previsione della struttura sono strutture che saranno presto risolte mediante cristallografia a raggi X o spettroscopia NMR, o strutture che sono state appena risolte (principalmente da uno dei centri di genomica strutturale) e sono tenute in sospeso dalla Protein Data Bank. Se si trova che la sequenza data è correlata per discendenza comune a una sequenza proteica di struttura nota (chiamata modello), è possibile utilizzare la modellazione proteica comparativa per prevedere la struttura terziaria. I modelli possono essere trovati utilizzando metodi di allineamento della sequenza (es BLAST o HHsearch) o metodi di threading proteico, che sono migliori per trovare modelli lontanamente correlati. Altrimenti, deve essere applicata la predizione della struttura proteica de novo (per esempio Rosetta), che è molto meno affidabile ma a volte può fornire modelli con il ripiegamento corretto (di solito per proteine inferiori a 100-150 amminoacidi). I nuovi ripiegamenti stanno diventando piuttosto rari tra i dominii,[2][3] rendendo la categoria più piccola di quanto desiderabile.
Valutazione
modificaIl principale metodo di valutazione[4] è un confronto della previsione della posizione del carbonio α con quella nel dominio. Il confronto è mostrato visivamente dai grafici cumulativi delle distanze tra coppie dicarbonio αcarbonio α equivalenti nell'allineamento del modello e della struttura, come mostrato nella figura (un modello perfetto rimarrebbe a zero completamente), e viene assegnato un punteggio numerico GDT-TS (Global Distance Test - Total Score) che descrive la percentuale di residui ben modellati nel modello rispetto al dominio.[5] La modellazione libera (senza modelli o de novo) viene valutata anche visivamente dai valutatori, poiché i punteggi numerici non funzionano altrettanto bene per trovare ampie somiglianze nei casi più difficili.[6] Le previsioni basate su modelli di alta precisione sono state valutate in CASP7 valutando se funzionavano per la sostituzione molecolare della struttura cristallina nativa[7] con successi seguiti successivamente,[8] e dal modello completo (non solo carbonio αcarbonio α) qualità e corrispondenza del modello completo con l'obiettivo in CASP8.[9]
La valutazione dei risultati viene effettuata nelle seguenti categorie di previsione:
- previsione della struttura terziaria (tutti i CASP)
- previsione della struttura secondaria (abbandonata dopo CASP5)
- previsione dei complessi di struttura (solo CASP2; un esperimento separato - CAPRI - prosegue su questo argomento)
- previsione del contatto residuo-residuo (a partire da CASP4)
- previsione delle regioni intrinsecamente disordinate (a partire dal CASP5)
- previsione dei confini del dominio (CASP6 – CASP8)
- previsione della funzione (a partire da CASP6)
- valutazione della qualità del modello (a partire dal CASP7)
- perfezionamento del modello (a partire da CASP7)
- previsione basata su modello ad alta precisione (a partire da CASP7)
La categoria di previsione della struttura terziaria è stata ulteriormente suddivisa in:
- modellazione di omologia
- riconoscimento dei ripiegamenti (chiamato anche threading proteico; Nota, questo non è corretto poiché il threading è un metodo)
- predizione della struttura de novo, ora denominata "New Fold" poiché molti metodi applicano funzioni di valutazione, o punteggio, influenzate dalla conoscenza delle strutture proteiche native, come una rete neurale artificiale.
A partire dal CASP7, le categorie sono state ridefinite per riflettere gli sviluppi nei metodi. La categoria "Modelli basati su modelli" include tutti i precedenti modelli comparativi, modelli omologhi basati sui ripiegamenti e alcuni analoghi modelli. La categoria "template free modeling (FM)" include modelli di proteine con ripiegamenti mai visti prima e modelli basati su analoghi ripiegamenti rari. A causa del numero limitato di tipologie di dominio (sono piuttosto rari), nel 2011 è stato introdotto il cosiddetto CASP ROLL. Questo esperimento CASP continuo (a rotazione) mira a una valutazione più rigorosa dei metodi di previsione privi di tipologie attraverso la valutazione di un numero maggiore di ripiegamenti al di fuori della normale stagione di previsione CASP. A differenza di LiveBench ed EVA, questo esperimento è nello spirito di previsione di CASP, cioè tutte le previsioni sono fatte su strutture ancora sconosciute.[10]
I risultati del CASP sono pubblicati in numeri speciali supplementari della rivista scientifica Proteins, tutti accessibili tramite il sito web CASP.[11] Un articolo principale in ciascuno di questi supplementi descrive le specifiche dell'esperimento[12][13] mentre un articolo conclusivo valuta i progressi nel campo.[14][15]
Nel dicembre 2018, CASP13 ha fatto notizia quando è stato vinto da AlphaFold, un programma di intelligenza artificiale creato da DeepMind.[16]
Note
modifica- ^ Moult, J., A large-scale experiment to assess protein structure prediction methods, in Proteins, vol. 23, n. 3, 1995, pp. ii–iv, DOI:10.1002/prot.340230303, PMID 8710822.
- ^ Tress, M., Target domain definition and classification in CASP8, in Proteins, vol. 77, Suppl 9, 2009, pp. 10–17, DOI:10.1002/prot.22497, PMID 19603487.
- ^ The protein structure prediction problem could be solved using the current PDB library, in Proc Natl Acad Sci USA, vol. 102, n. 4, 2005, pp. 1029–1034, DOI:10.1073/pnas.0407152101, PMID 15653774.
- ^ Cozzetto, D., Evaluation of template-based models in CASP8 with standard measures, in Proteins, vol. 77, Suppl 9, 2009, pp. 18–28, DOI:10.1002/prot.22561, PMID 19731382.
- ^ Zemla A, LGA: A method for finding 3D similarities in protein structures, in Nucleic Acids Research, vol. 31, n. 13, 2003, pp. 3370–3374, DOI:10.1093/nar/gkg571, PMID 12824330.
- ^ Ben-David, M., Assessment of CASP8 structure predictions for template free targets, in Proteins, vol. 77, Suppl 9, 2009, pp. 50–65, DOI:10.1002/prot.22591, PMID 19774550.
- ^ Read, R.J. e Chavali, G., Assessment of CASP7 predictions in the high accuracy template-based modeling category, in Proteins: Structure, Function, and Bioinformatics, vol. 69, Suppl 8, 2007, pp. 27–37, DOI:10.1002/prot.21662, PMID 17894351.
- ^ Qian, B., High-resolution structure prediction and the crystallographic phase problem, in Nature, vol. 450, n. 7167, 2007, pp. 259–264, DOI:10.1038/nature06249, PMID 17934447.
- ^ Keedy, D.A., CJ Williams e JJ Headd, The other 90% of the protein: Assessment beyond the α-carbon for CASP8 template-based and high-accuracy models, in Proteins, vol. 77, Suppl 9, 2009, pp. 29–49, DOI:10.1002/prot.22551, PMID 19731372.
- ^ A Kryshtafovych, B Monastyrskyy e K Fidelis, CASP prediction center infrastructure and evaluation measures in CASP10 and CASP ROLL, in Proteins: Structure, Function, and Bioinformatics, 82 Suppl 2, 2014, pp. 7–13, DOI:10.1002/prot.24399, PMID 24038551.
- ^ predictioncenter.org, http://predictioncenter.org/index.cgi?page=proceedings .
- ^ Moult, J., Critical assessment of methods of protein structure prediction — Round VII, in Proteins, vol. 69, Suppl 8, 2007, pp. 3–9, DOI:10.1002/prot.21767, PMID 17918729.
- ^ Moult, J., Critical assessment of methods of protein structure prediction — Round VIII, in Proteins, vol. 77, Suppl 9, 2009, pp. 1–4, DOI:10.1002/prot.22589, PMID 19774620.
- ^ Kryshtafovych, A., Progress from CASP6 to CASP7, in Proteins: Structure, Function, and Bioinformatics, vol. 69, Suppl 8, 2007, pp. 194–207, DOI:10.1002/prot.21769, PMID 17918728.
- ^ Kryshtafovych, A., CASP8 results in context of previous experiments, in Proteins, vol. 77, Suppl 9, 2009, pp. 217–228, DOI:10.1002/prot.22562, PMID 19722266.
- ^ Ian Sample, Google's DeepMind predicts 3D shapes of proteins, in The Guardian, 2 December 2018. URL consultato il 19 July 2019.
Collegamenti esterni
modificaClassifica dei risultati
modificaValutazioni automatizzate per CASP13 (2018)
Valutazioni automatizzate per CASP12 (2016)
Valutazioni automatizzate per CASP11 (2014)
- Classifica ufficiale solo per server (126 dominii)
- Classifica ufficiale per umani e server (78 dominii)
Valutazioni automatizzate per CASP10 (2012)
- Classifica ufficiale solo per server (127 dominii)
- Classifica ufficiale per umani e server (71 dominii)
- Classifica di Zhang Lab
Valutazioni automatizzate per CASP9 (2010)
- Classifica ufficiale solo per server (147 dominii)
- Classifica ufficiale per umani e server (78 dominii)
- Classifica di Grishin Lab (solo per server)
- Classifica di Grishin Lab (per umani e server)
- Classifica di Zhang Lab
- Classifica di Cheng Lab
Valutazioni automatizzate per CASP8 (2008)
- Classifica ufficiale solo per server
- Classifica ufficiale per umani e server
- Classifica di Zhang Lab
- Classifica di Grishin Lab
- Classifica McGuffin Lab
- Classifica di Cheng Lab
Valutazioni automatizzate per CASP7 (2006)