Métodos de Distancias y Prueba de Bootstrap

Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx

Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 1

Inferencia filogentica molecular Mtodos de distancia

Tipos de datos:- caracteres: proveen informacin sobre cada OTU individual- distancias: cuantificacin de la dis-similitud entre pares de OTUs

Caracter: (caracterstica o variable independiente bien definida que en un OTU puedepresentar dos o ms estados mutuamente excluyentes; estados de caracter)

- cuantitativos (est. de car. generalmente contnuos; ej. altura)- cualitativos (est. de car. discretos; binarios o multiestado; gralte. revesibles)

Evolucin de caracteres:Los mtodos de reconstruccin filogentica requieren que se hagan suposiciones explcitassobre:

1.- no. de pasos discretos necesarios para que se d un cambio en estado de caracter2.- la probabilidad con la que acontece un cambio en estado de caracter

Direccionalidad en la evolucin de los cambios de estado de caracter (EC):

- caracteres ordenados: siguen secuencia especfica de pasos (matrices de pasos)

- caracteres desordenados: los cambios en EC se dan en un solo paso (nt)

Inferencia filogentica molecular Mtodos de distancia

Datos de distancia:

- siempre involucran la comparacin entre pares de OTUs

- la mayor parte de los mtodos moleculares generan datos de caracteres; stos han de ser transformados en distancias para poder ser analizados pormtodos basados en matrices de distancias (p. ej. NJ, UPGMA, EM)

Porqu transformar caracteres en distancias?

1.- Una larga lista de estados de caracter, como una secuencia de DNA aa, carece en s

misma de significado evolutivo; en cambio, decir que 3 secuencias A B C presentan

95% y 50% de identidad entre ellas evoca una imagen intuitiva del grado de parentesco

2.- Los modelos de sust. de secuencias corrigen posibles mltiples sustituciones;

estas correcciones se aplican a las distancias pero no a las secuencias (o datos)

3.- Los mtodos de reconstruccn basados en matrices de dist. son muy rpidos

Inferencia filogentica molecular clasificacn de mtodos

Podemos clasificar a los mtodos de reconstruccin filogentica en base al tipo dedatos que emplean (caracteres discretos vs. distancias) y si usan un mtodo algortmicoo un mtodo de bsqueda basado en un criterio de optimizacin para encontrarla topologa ptima bajo el criterio seleccionado

UPGMAy

Neighborjoining

Mnimoscuadrados

yEvolucin

mnima

Mximaparsimonia

yMxima

verosimilitud

Tipo de datos

distanciascaracteresdiscretos

M

t

o

d

o

d

e

r

e

c

o

n

s

t

r

u

c

c

i

n

B

s

q

u

e

d

a

s

b

a

j

o

c

r

i

t

e

r

i

o

d

e

o

p

t

i

m

i

z

a

c

i

n

a

l

g

o

r

i

t

m

o

d

e

a

g

r

u

p

a

m

i

e

n

t

o

Inferencia filogentica molecular mtodos basados en matrices de distancias

Los mtodos de distancia se basan en la idea de que si conocisemos las distanciasevolutivas entre OTUs, podramos reconstruir adecuadamente su historia evolutiva. Este concepto se deriva de la relacin existente entre distancias y rboles:

- la distancia evolutiva representa una escala mtrica topolgica y por lo tanto define un rbol

En la prctica, empero, las distancias rara vez son mtricos topolgicos exactos.para que una distancia pueda reflejar perfectamente a la filogenia subyacente debede cumplir dos requisitos: ha de ser mtrica y aditiva

Distancias mtricas (condiciones):

1. d (a,b) 0 (no-negatividad)2. d (a,b) = d (b,a) (simetra)3. d (a,c) d (a,b) + d (b,c) (inecualidad triangular)4. d (a,b) = 0 slo si a = b (distincin)

C

B

A7

65

La dist. entre cualquier parde secs. no puede ser mayorque la existente entre ellasy una tercera




Distancias ultramtricas (condiciones):

d (a,b) mximo [d (a,c), d (b,c) ] (distancias ms largas definen un tringulo issceles)

La inecualidad ultramtrica. Las dos distanciaspareadas ms largas [d (a,c) y d (b, c)] son iguales,y por lo tanto la ultrametricidad define un tringuloissceles

4B

C

A

6 6

Las distancias ultramtricas tienen la virtud de implicar igual tasa de evolucin entreOTUs a lo largo de toda la filogenia

De ah que por ejemplo el test de tasas relativas para el reloj molecular se basa en cuantificar si las distancias entre tres secuencias departen o no significativamentede la condicin de ultrametricidad

AB

C


Ser una medida mtrica (o ultramtrica) es una condicin necesaria pero no suficientepara representar una medida vlida del cambio evolutivo. Para ello tiene que satisfacertambin la condicin de los cuatro puntos:

d (a,b) + d (c,d) mximo [d (a,c) + d (b,d), d (a,d) + d (b,c)]

lo que equivale a requerir que de las tres sumas [ d (a,b) + d (c,d), d (a,c) + d (b,d) yd (a,d) + d (b,c)], las dos ms grandes son iguales

Esta condicin matemtica equivale a decir que las distancias son aditivas.

Cuando las distanciasno son mtricas y aditivas,puede ser convenienterepresentar las sealesno aditivas como ciclosadicionales en las grficaso rboles, lo que permiteacomodar mejor a estas seales,las cuales son generalmentehomoplsicas.

Estos ciclos pueden tambin acomodar seales no aditivasoriginadas por eventos derecombinacin.

NJ-HKY

Splits tree graphof HKY distances

Inferencia filogentica molecular mtodos de distancias

Las distancias ultramtricas definenuna topologa ultramtrica.Biolgicamente dist. ultram. se ajustana un rbol enraizado bajo el reloj molecularLa sec. d es equidistante a todas lasdems y la sec. c es equidist. de a y b.Si tomamos 3 secs. cualesquiera, lasdist. entre ellas definen un tringulo issceles, por lo quelas distancias mostradas son ultramtricas. Para cualquier par de secs, el valor de dist. en la matriz se corresponde con la sumade long. de ramas en el caminio ms corto que las une en el rbol

Las distancias aditivas o mtricasdefinen a una topologa aditiva.El rbol mtrico representa perfectamentea las distancias aditivas. Ntese que lassecs. b y c son las ms similares[d (b,c) = 3], pero no son las ms relacionadasevolutivamente. El nivel de similitud y relacin evolutivacoincidirn slamente cuando las distancias son ultramtricas. Datos reales nunca son perfectamente aditivos

Distancias topolgicas



En un mundo perfecto, las distancias evolutivas estimadas seran perfectamente aditivas,

en cuyo caso podramos encontrar una combinacin de long. de ramas (a, b, c, d, e) tales que

el camino a travs del rbol conectando el OTU i con el j (pij = distancia topolgica opatrstica) reflejara exactamente la distancia evolutiva correspondiente (dij ).Pero el mundo (homoplasias) y los mtodos no son perfectos ...


- De ah que existan 2 estrategias que buscan minimizar el desfase entre la distanciaevolutiva y la distancia topolgica y por lo tanto representan criterios de optimizacin:

1. mtodos de bondad de ajuste: buscan el rbol mtrico que mejor acomodalas distancias observadas usando el mtodo de mnimos cuadrados

2. mtods de evolucin mnima: buscan el rbol cuya suma de longitudes de rama es la mnima

Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)

El mtodo de los mnimos cuadrados permite encontrar lacombinacin de valores de (a, b, c, d y e) que maximiza elajuste entre pij y dij. Encontrar las long. de ramas mejorajustadas implica minimizar la suma ponderada de cuadra-dos.w = 1/ d Kij representa un factor de ponderacininversamente proporcional a la distancia estimada,donde k = 0 k =2. As las divergencias profundas tienenmenor peso que las ms recientes, las cuales se puedenestimar mejor.


diag. super.: dist. patrsticas

diag. infer.: dist. evolutivas



Distancias K2P (sobre la diagonal) y distancias topolgicas obtenidas por MC para mtDNAs. En negritas dt > de; en cursiva dt < de (dt =dist. topol.; de = dist. observada o evolutiva)

Las dt > de pueden explicarse por homopla-sias en algunas ramas

Las dt < de no pueden explicarse fcilmente yson contra-intuitivas, ya que implicaran que acon-teci menos cambio evolutivo que el observado!

Ello ha llevado a algunos investigadores a criti-car fuertemente el mtodo de los MC para esti-mar la long. de las ramas

rbol aditivo



(2n-3) = 7 ramasindependientes

(n-1) = 4 ramasindependientes

topologas aditivas y ultramtricas para las mismas secuencias. La topologa ultramtricatiene menor nmero de ramas con longitudes nicas dadas las restricciones impuestas

A mayor desvo del reloj molecular (igualdad de tasas evolutivas entre linajes) mayor des-vo de la ultrametricidad de los datos y mayor la diferencia en el ajuste entre los rbolesaditivos y ultramtricos a los datos

Los aditivos tienen entonces mayor ajuste dado que no tienen restricciones de ultrametric.

SS = 0.000033144SS = 0.26577





rbol aditivo rbol ultramtrico

raz

Criterio de optimizacin de Evolucin Mnima


- dados dos rboles, aquel que minimiza la suma de longitudes de ramas L(estimadas por MC) es el mejor segn el criterio de EM

- dada una topologa aditiva para n secuencias, existen (2n - 3) ramas, cada una con unalongitud li. La suma de estas long. de ramas es la longitud L del rbol:

El criterio de optimizacin de EM es por tanto similar al de MP, si bien el primero calculaL directamente de una matriz de distancias pareada, mientras que el segundo calcula Len base al ajuste entre caracteres discretos y topologas

Al igual que para los caracteres discretos, encontrar el rbol de distancias ptimo es com-putacionalmente difcil. Para nmeros chicos de secs. se pueden usar mtodos exactos; paranmeros grandes, se emplean mtodos heursticos (aproximados):

1.- mtodo de los vecinos2.- mtodo de unin de vecinos (NJ)3.- UPGMA



Se pueden encontrar rboles de EM mediante tcnicas de programacin lineal (encontrar unasolucin ptima dadas unas constricciones). Aplicado a encontrar la longitud de un rbol lasconstricciones son: 1) ramas de long. 0; 2) que para cada par de secuencias las distanciastopolgicas nunca sean < que las observadas (pij dij para todos los pares ij )

distancias observadas (p) sobre diagonal; distancias topolgicabajo la diagonal obtenidas mediante programacin lineal

rbol de EM con las long. de ramas calculadas de lasdist. observadas p usando progr. lineal. La long. totaldel rbol es 331.5



La optimizacin de long. de ramas mediante PL es computacionalmente costosa paramuchos OTUs (>20).

Se usa ms frecuentemente el mtodo de mnimos cuadrados para estimar laslongitudes de rama. Las long. de rama obtenidas por MC se suman para obtener la L

El mtodo de los mnimos cuadrados permite encontrar lacombinacin de valores de (a, b, c, d y e) que maximiza elajuste entre pij y dij. Encontrar las long. de ramas mejorajustadas implica minimizar la suma ponderada de cuadra-dos.

w = 1/ d Kij representa un factor de ponderacininversamente proporcional a la distancia estimada,donde k = 0 k =2. As las divergencias profundas tienenmenor peso que las ms recientes, las cuales se puedenestimar mejor.




Unweighted pair group method with arithmetic means (UPGMA)

- este es uno de los pocos mtodos que construye rboles ultramtricos (todas las hojas

equidistantes de la raz), es decir asume un reloj molecular perfecto a lo largo de toda

la topologa

- se puede concebir como un mtodo heurstico para encontrar la topologa ultramtrica

de mnimos cuadrados para una matriz de distancias pareadas



OTU A B CB dABC dAC dBCD dAD dBD dCD

OTU (AB) CC d(AB)CD d(AB)D dCD

d(AB)C = (dAC + dBC )/2, y d(AB)D = (dAD + dBD )/2=

l(AB)C = d(AB)C/2



el punto de ramificacin (PR) entre dos OTUs sencillos, i y j, se posiciona en el punto medio entre ellos

el PR entre un OTU sencillo y uno compuesto (jm ), se posiciona en el punto medio de la media aritmtica de la distancia entre i y los constituyentes del OTU compuesto (jm )

el PR entre dos OTUs compuestos se posiciona a la mitadde la media aritmtica de las distancias entrelos constituyentes de los OTUs sencillos decada OTU compuesto. As el PR entre (ij ) y (mn )es:

UPGMA, por construir un rbol ultramtrico, resulta en una topologa enraizada.Adems se obtienen las longitudes de rama simultneamente con la topologa

B) Calcula una matriz de distancias pareadas en base al nmero observado de diferencias entre OTUs, y en base a ella dibuja un rbol de UPGMA, indicando las longitudes de cada rama

Ejercicios del examen de la seccin de inferencia filogenticaBGE-IV 2005

Rhizobium GGA GGG AGG AGG CCTAgrobacterium GGC GGG AGG AGG CCTSinorhizobium GGG GGA AGG TGT CCGBradyrhizobium GGT CGT AGC TGT GTG

1. Alineamiento: No. sitios : 15; OTUs (taxa) = 4

2. Matriz de distancias: d : distancia (no. de diferencias observadas)

[ A B C D ][Rhizobium, A][Agrobacterium, B] 1.0[Sinorhizobium, C] 5.0 5.0[Bradyrhizobium, D] 9.0 9.0 6.0




Inferencia de un rbol UPGMA usando el no. de dif. obs. como medida de la distancia gentica entre OTUs

RhizobiumAgrobacterium

0.500.50

OTU A B CB dABC dAC dBCD dAD dBD dCD

1.

d(AB)C = (dAC + dBC )/2, y d(AB)D = (dAD + dBD )/2=

= d(AB)C = (5 + 5 )/2, y d(AB)D = (9 + 9)/2

OTU (AB) CC d(AB)CD d(AB)D dCD

2.

OTU (AB) CC 5D 9 6

3. RhizobiumAgrobacteriumSinorhizobium

0.500.50

2.50

2.00

d(AB)C/2

Matriz de distancias:

OTU (ABC) DD d(ABC)D

d(ABC)D = (dAD + dBD + dCD) / 3=

= d(AB)C = (9 + 9 + 6 ) / 3 = 8




4.

RhizobiumAgrobacteriumSinorhizobiumBradyrhizobium

0.500.50

2.50

4.00

2.001.50

1 d(ABC)D / 2

5.




RhizobiumAgrobacteriumSinorhizobiumBradyrhizobium

0.500.50

2.50

4.00

2.001.50

1 d(ABC)D / 2

Notan alguna inconsistencia entre las distancias topolgicas y observadas?

- La distancia entre C y D no es aditiva y no queda adecuadamente reflejadaen la correspondiente longitud de rama


Mtodo neighbor-joining (NJ)

Se trata de un mtodo puramente algortmico, representando una buena aproximacinheurstica para encontrar el rbol de evolucin mnima ms corto. Secuencialmente encuen-tra vecinos que minimizan la longitud total del rbol

Es muy rpido y proporciona un solo rbol

N(N-1)/2 modosde buscar paresde OTUs en X

rbol estrella paraN OTUS

- expresin para la suma de todas las long. de ramas- se busca el par que minimiza S y se considera como

un OTU compuesto- se calcula una nueva matriz de dist. como en UPGMA- se reitera hasta encontrar todas las N-3 ramas internas




Objeciones a los mtodos de distancia

- hay que diferenciar entre los algoritmos para encontrar los rboles y los mtodos paraestimar las dist. evolutivas

- si se escoge un modelo inadecuado de sust. el mtodo de distancia puede fallar en recu-perar la topologa correcta

1. Prdida de informacin

cuando matrices de datos cualitativos han de ser transformada en dist.se pierde mucha informacin. P. ej. ya no se puede trazar la evolucin de cada caractero categoras de caracteres sobre la topologa; no se pueden estimar los valores para losparmetros de un modelo de sustitucin (ti, tv, etc.)

2. Longitudes de rama sin sentido biolgico- Podemos encontrar rboles de EM con L = nmero no entero (p. ej. 331.5)- este rbol es adems mucho ms corto que el calculado por MP (L = 353). El rbol obte-

nido mediante PL es internamente consistente pero biolgicamente imposible

Clculo de lmites de confianza para topologas Exactitud y precisin en filogentica

En filogentica la exactitud de una topologa indica su grado de proximidad a la

realidad (filogenia verdadera a estimar), mientras que la precisin tiene que ver con

la cantidad de rboles alternativos que el mtodo es capaz de desechar.

Si tenemos dos termmetros (A y B) con los que medimos la temperatura de agua

hirviendo (a 1 atm. de presin) y obtenemos las medidas A = 101C y B = 97.35 C

diramos que A es ms exacto pero menos preciso.

Ojo, mtodos filogenticos basados en criterios de optimizacin que producen puntajes

(scores) como nmeros reales como el de mxima verosimilitud (-lnL = 3598.2483) danuna falsa impresin de mayor precisin que aquellos CO como el de mxima parsimonia

que trabajan con nmeros enteros (no. de pasos mutacionales) (L = 257 pasos). En elsegundo caso simplemente existe un nmero finito de pasos mutacionales que definen

a las longitudes de un rbol. De ah que independientemente del mtodo de recons-

truccin utilizado para recuperar una filogenia, la precisin de sta se mide en base al

nmero de topologas alternas que se descartan. Idealmente todas salvo una.

Homoplasias y error de muestreo

Si un set de datos contiene homoplasias implica que distintos sitios del alineamiento van

a apoyar diferentes topologas. Por lo tanto, qu rbol (o rboles) van a ser apoyados por

un set de datos depender del subconjunto de caracteres muestreados.

90 sitios parsimonia informativos (de 986 sitios de coi ) que resultan en el rbol:((human,(chimp,gorilla)),orang,gibbon).

La calidad de la seal filogentica de los datos es una de las fuentes de posible error

en la estima filogentica, pudiendo afectar tanto a la exactitud como a la precisin de la

estima.

El muestreo de las aprox. 16.000 pb del genoma mitocondrial de estos primates y sets de datos ms extensos (con ms OTUs) soportan el rbol:

(((human,chimp),gorilla),orang,gibbon).

Por tanto, para minimizar los errores de muestreo (debidos a homoplasias) hay que tratar deobtener secuencias lo ms largas posibles para el mayor nmero posible de genes

Pero si se muestreasen slo los primeros 31 sitios del aln (5 sitios Pi) obtendramos unrbol de MP con la siguiente topologa: (((human,gorilla),chimp),orang,gibbon), que no secorresponde con el rbol de MP para el set completo de datos. El primer sito apoya(human, gorilla), el 2 (human,chimp,gorilla) y la 3. (chimp,gorilla), que contradice a la relacin apoyada por la 1a. pos.

Homoplasias y error de muestreo



Estima del error de muestreo mediante el mtodo de bootstrap

Una va de estimar el error de muestreo es tomar mltiples muestras de la poblaciny comparar las estimas obtenidas de ellas. La dispersin entre estas muestras nos dauna idea del error de muestreo

El mtodo de bootstrap se basa en remuestrear una muestra nica

Estima del error de muestreo en un alineamiento mltiplemediante el mtodo de bootstrap

Alineamiento original1. Pseudorplicas de bootstrap (muestreo aleatoriode caracteres con reemplazo hasta obtener unamatriz de igual no. de caracteres que la original

2. Obtener el rbol consenso que resumela informacin de las topologas recuperadasde cada pseudorplica de bootstrap.

3. Mapear las proporciones de bootstrapsobre la topologa original

Homo sapiens Pan

Gorilla Pongo

Hylobates M sylvanus

M fascicularis Macaca fuscata M mulatta

Saimiri sciureus Tarsius syrichta

Lemur catta

0.05

Estima del error de muestreo mediante el mtodo de bootstrap

Filogenia NJ-K2P+G estimada a partirde secuencias de NADH-DH mitocondrialde 12 primates.

Estn todas las biparticionesigualmente soportadas?O planteado de otra manera: qu tan resuelta est esta filogenia?

Homo sapiens Pan

Gorilla Pongo

Hylobates M sylvanus

M fascicularis Macaca fuscata M mulatta

Saimiri sciureus Tarsius syrichta

Lemur catta

10099

100

100

97

100

96

83100

0.05

Un anlisis de bootstrap con500 pseudorplicas indica queel rbol est muy bien resuelto:

todas las biparticiones estnltamente justificadas por losdatos segn indican las propor-ciones de bootstrap (expresadasen porcentaje)

el mtodo de bootstrap: consideraciones crticas

Un aspecto importante a tener en cuenta es que el mtodo de bootstrap asume la inde-pendencia de caracteres y que estn distribudos idnticamente. Es decir, asume que cadasitio es independiente de todas las dems y que la tasa de variacin est distribuda homo-gneamente a lo largo del alineamiento.

Cummings et al. (1995) pusieron a prueba el supuesto deindependencia analizando 10 genomas completos de mito-condrias comparando los rboles obtenidos para datosobtenidos de estos genomas siguiendo dos estrategiascontrastantes de muestreo: 1) bloques contiguos de secuencia vs. 2) caracteres muestreados al azar a lo argo de los genomas. (Cummings et al. 1995. MBE, 12:814-22)

Si el supuesto de independencia es cierto, ambos sets de resultados deberan representarbuenas aproximaciones del rbol genmico (Fig.1) . Pero de hecho el muestreo de caracteresal azar represent una mejor aprox. al rbol genmico que muestreando caracteres porbloques. No est claro qu robusto es el bootstrap a violaciones al supuesto de independ.

Métodos de Distancias y Prueba de Bootstrap

Documents

Transcript of Métodos de Distancias y Prueba de Bootstrap