Indice di fissazione

L'indice di fissazione (F_ST) è una misura di differenziazione delle popolazioni dovuta alla struttura genetica. È spesso valutato in base ai dati dei polimorfismi genetici, come i polimorfismi a singolo nucleotide (SNPs) o i microsatelliti (STRs). Sviluppato come un caso speciale della statistica F di Sewall Wright, è una delle formule statistiche più comunemente usate in genetica delle popolazioni.

Definizione modifica

Due delle definizioni più comunemente usate per l'F_ST in un determinato locus sono basate sulla varianza di frequenze alleliche tra le popolazioni, e sulla probabilità di identità per discendenza.

Se ${\bar {p}}$ è la frequenza media di un allele nella popolazione totale, $\sigma _{S}^{2}$ è la varianza nella frequenza dell'allele tra sottopopolazioni diverse, ponderata dalla dimensione delle sottopopolazioni, e $\sigma _{T}^{2}$ è la varianza dello stato allelico nella popolazione totale, F_ST è definito come^[1]

F_{ST}={\frac {\sigma _{S}^{2}}{\sigma _{T}^{2}}}={\frac {\sigma _{S}^{2}}{{\bar {p}}(1-{\bar {p}})}}

La definizione di Wright mostra che l'F_ST misura la quantità di varianza genetica che può essere spiegata dalla struttura della popolazione. Può anche essere inteso come la frazione della diversità totale che non è una conseguenza della diversità media all'interno delle sottopopolazioni, dove la diversità è misurata dalla probabilità che due alleli selezionati a caso siano diversi, cioè $2p(1-p)$ .

Se la frequenza dell'allele nella $i$ esima popolazione è $p_{i}$ e la dimensione relativa della popolazione $i$ esima è $c_{i}$ , allora

F_{ST}={\frac {{\bar {p}}(1-{\bar {p}})-\sum c_{i}p_{i}(1-p_{i})}{{\bar {p}}(1-{\bar {p}})}}={\frac {{\bar {p}}(1-{\bar {p}})-{\overline {p(1-p)}}}{{\bar {p}}(1-{\bar {p}})}}

In alternativa^[2]:

F_{ST}={\frac {f_{0}-{\bar {f}}}{1-{\bar {f}}}}

dove $f_{0}$ è la probabilità di identità per discendenza di due individui che sono nella stessa sottopopolazione, e ${\bar {f}}$ è la probabilità che due individui presi dalla popolazione totale sono identici per discendenza. Usando questa definizione, F_ST può essere interpretato come una misura per la vicinanza genetica tra due individui della stessa sottopopolazione, rispetto al totale della popolazione. Se il tasso di mutazione è basso, questa interpretazione può essere resa più esplicita collegando la probabilità dell'identità per discendenza ai tempi di coalescenza: sia T₀ che T denotano il tempo medio di coalescenza, il primo per gli individui della stessa sottopopolazione e il secondo della popolazione totale. Quindi,

F_{ST}\approx 1-{\frac {T_{0}}{T}}

Questa formula è maggiormente vantaggiosa in quanto il tempo previsto di coalescenza può facilmente essere stimato in base ai dati genetici, che hanno portato allo sviluppo di diversi stimatori per F_ST.

Stima modifica

Praticamente, nessuno dei quantitativi utilizzati per le definizioni può essere facilmente misurato. Di conseguenza, sono stati proposti diversi stimatori. Uno stimatore particolarmente semplice, applicabile ai dati di sequenza di DNA, è^[3]:

F_{ST}={\frac {\pi _{\text{Between}}-\pi _{\text{Within}}}{\pi _{\text{Between}}}}

dove $\pi _{\text{Between}}$ e $\pi _{\text{Within}}$ rappresentano la variazione genetica tra due individui campionati di diverse sotto-popolazioni ( $\pi _{\text{Between}}$ ) o della stessa sottopopolazione ( $\pi _{\text{Within}}$ ). La variazione genetica all'interno di una popolazione può essere calcolato come la somma delle differenze a coppie diviso per il numero di coppie. Tuttavia, questo stimatore è polarizzato quando le dimensioni del campione sono piccole o variano tra le popolazioni. Pertanto, nella pratica per calcolare l'F_ST sono utilizzati metodi più elaborati. Due di questi metodi più utilizzati sono lo stimatore di Weir & Cockerham (1984)^[4], o l'analisi della varianza molecolare.

Interpretazione modifica

Questo confronto della variabilità genetica all'interno e tra le popolazioni è spesso usato in genetica delle popolazioni applicata. I valori vanno da 0 a 1. Un valore pari a zero implica una completa panmissia, ovvero il caso in cui le due popolazioni si incrociano liberamente. Un valore pari a uno implica invece che tutta la variazione genetica è dovuta alla struttura della popolazione, e che le due popolazioni non condividono alcuna diversità genetica.

Per i modelli idealizzati, come il modello "ad isole" di Wright, l'F_ST può essere utilizzato per stimare i tassi di migrazione. In base a tale modello, il tasso di migrazione è

{\hat {M}}\approx {\frac {1}{2}}\left({\frac {1}{F_{ST}}}-1\right)

L'interpretazione dell'F_ST può essere difficile quando i dati analizzati sono altamente polimorfici. In questo caso, la probabilità di identificare una discendenza è molto basso e l'F_ST può avere un limite superiore arbitrariamente basso, il che potrebbe portare a un'errata interpretazione dei dati. Inoltre l'F_ST in senso stretto non è una distanza genetica, in quanto non soddisfa la disuguaglianza triangolare; di conseguenza continuano ad essere sviluppati nuovi strumenti per misurare la differenziazione genetica.

Negli esseri umani modifica

La distanza media Fst tra le popolazioni umane è di circa 0,15. Lewontin ha sostenuto che ciò rappresenti una piccola variazione razziale.^[5] Harpending, d'altra parte, ha argomentato che tale distanza implichi parentela tra individui della stessa razza equivalente alla parentela tra fratellastri in una popolazione che si accoppia casualmente, e che una persona di una certa razza è geneticamente più vicina a un individuo non correlato della stessa razza che non a un fratellastro di razza mista.^[6]

Note modifica

^ (EN) Kent E. Holsinger e Bruce S. Weir, Genetics in geographically structured populations: defining, estimating and interpreting FST, in Nature Reviews Genetics, vol. 10, n. 9, 1º settembre 2009, pp. 639-650, DOI:10.1038/nrg2611. URL consultato il 14 ottobre 2015.
^ (EN) Richard Durrett, Probability Models for DNA Sequence Evolution, Springer, 15 dicembre 2008, ISBN 9780387781693. URL consultato il 14 ottobre 2015.
^ R. R. Hudson, M. Slatkin e W. P. Maddison, Estimation of Levels of Gene Flow from DNA Sequence Data, in Genetics, vol. 132, n. 2, 1º ottobre 1992, pp. 583-589. URL consultato il 15 ottobre 2015.
^ B. S. Weir e C. Clark Cockerham, Estimating F-Statistics for the Analysis of Population Structure, in Evolution, vol. 38, n. 6, 1º novembre 1984, pp. 1358-1370, DOI:10.2307/2408641. URL consultato il 15 ottobre 2015.
^ https://link.springer.com/chapter/10.1007/978-1-4684-9063-3_14
^ https://www.jstor.org/stable/27503827

Altri progetti modifica

Wikimedia Commons contiene immagini o altri file su Indice di fissazione

Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica

[1] (EN) Kent E. Holsinger e Bruce S. Weir, Genetics in geographically structured populations: defining, estimating and interpreting FST, in Nature Reviews Genetics, vol. 10, n. 9, 1º settembre 2009, pp. 639-650, DOI:10.1038/nrg2611. URL consultato il 14 ottobre 2015.

[2] (EN) Richard Durrett, Probability Models for DNA Sequence Evolution, Springer, 15 dicembre 2008, ISBN 9780387781693. URL consultato il 14 ottobre 2015.

[3] R. R. Hudson, M. Slatkin e W. P. Maddison, Estimation of Levels of Gene Flow from DNA Sequence Data, in Genetics, vol. 132, n. 2, 1º ottobre 1992, pp. 583-589. URL consultato il 15 ottobre 2015.

[4] B. S. Weir e C. Clark Cockerham, Estimating F-Statistics for the Analysis of Population Structure, in Evolution, vol. 38, n. 6, 1º novembre 1984, pp. 1358-1370, DOI:10.2307/2408641. URL consultato il 15 ottobre 2015.

[5] ttps://link.springer.com/chapter/10.1007/978-1-4684-9063-3_14

[6] ttps://www.jstor.org/stable/27503827

[1]

[2]

[3]

[4]

[5]

[6]