Métodos de Distancias y Prueba de Bootstrap

8
Tema 5: Métodos de distancia y prueba de bootstrap Genómica Evolutiva I, LCG-UNAM, México. http://www.lcg.unam.mx © Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 1 Inferencia filogenética molecular – Métodos de distancia Tipos de datos: - caracteres: proveen informacin sobre cada OTU individual - distancias: cuantificacin de la dis-similitud entre pares de OTUs Caracter: (caracterstica o variable independiente bien definida que en un OTU puede presentar dos o mÆs estados mutuamente excluyentes; estados de caracter) - cuantitativos (est. de car. generalmente contnuos; ej. altura) - cualitativos (est. de car. discretos; binarios o multiestado; gralte. revesibles) Evolución de caracteres: Los mØtodos de reconstruccin filogenØtica requieren que se hagan suposiciones explcitas sobre: 1.- no. de pasos discretos necesarios para que se dØ un cambio en estado de caracter 2.- la probabilidad con la que acontece un cambio en estado de caracter Direccionalidad en la evolución de los cambios de estado de caracter (EC): - caracteres ordenados: siguen secuencia especfica de pasos (matrices de pasos) - caracteres desordenados: los cambios en EC se dan en un solo paso (nt) Inferencia filogenética molecular – Métodos de distancia Datos de distancia: - siempre involucran la comparación entre pares de OTUs - la mayor parte de los mØtodos moleculares generan datos de caracteres; Østos han de ser transformados en distancias para poder ser analizados por mØtodos basados en matrices de distancias (p. ej. NJ, UPGMA, EM) ¿Porqué transformar caracteres en distancias? 1.- Una larga lista de estados de caracter, como una secuencia de DNA aa, carece en s misma de significado evolutivo; en cambio, decir que 3 secuencias A <-> B <-> C presentan 95% y 50% de identidad entre ellas evoca una imagen intuitiva del grado de parentesco 2.- Los modelos de sust. de secuencias corrigen posibles mœltiples sustituciones; estas correcciones se aplican a las distancias pero no a las secuencias (o datos) 3.- Los mØtodos de reconstruccn basados en matrices de dist. son muy rÆpidos Inferencia filogenética molecular – clasificacón de métodos Podemos clasificar a los mØtodos de reconstruccin filogenØtica en base al tipo de datos que emplean (caracteres discretos vs. distancias) y si usan un método algorítmico o un método de búsqueda basado en un criterio de optimización para encontrar la topologa ptima bajo el criterio seleccionado UPGMA y Neighbor joining Mnimos cuadrados y Evolucin mnima MÆxima parsimonia y MÆxima verosimilitud Tipo de datos distancias caracteres discretos Método de reconstrucción Búsquedas bajo criterio de optimización algoritmo de agrupamiento Inferencia filogenética molecular – métodos basados en matrices de distancias Los mØtodos de distancia se basan en la idea de que si conociØsemos las distancias evolutivas entre OTUs, podramos reconstruir adecuadamente su historia evolutiva. Este concepto se deriva de la relacin existente entre distancias y Ærboles: - la distancia evolutiva representa una escala métrica topológica y por lo tanto define un árbol En la práctica, empero, las distancias rara vez son métricos topológicos exactos. para que una distancia pueda reflejar perfectamente a la filogenia subyacente debe de cumplir dos requisitos: ha de ser métrica y aditiva Distancias métricas (condiciones): 1. d (a,b) 0 (no-negatividad) 2. d (a,b) = d (b,a) (simetra) 3. d (a,c) d (a,b) + d (b,c) (inecualidad triangular) 4. d (a,b) = 0 slo si a = b (distincin) C B A 7 6 5 La dist. entre cualquier par de secs. no puede ser mayor que la existente entre ellas y una tercera

description

Aplicaciones estructurales. Nuevos métodos para bootstrap.

Transcript of Métodos de Distancias y Prueba de Bootstrap

  • Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx

    Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 1

    Inferencia filogentica molecular Mtodos de distancia

    Tipos de datos:- caracteres: proveen informacin sobre cada OTU individual- distancias: cuantificacin de la dis-similitud entre pares de OTUs

    Caracter: (caracterstica o variable independiente bien definida que en un OTU puedepresentar dos o ms estados mutuamente excluyentes; estados de caracter)

    - cuantitativos (est. de car. generalmente contnuos; ej. altura)- cualitativos (est. de car. discretos; binarios o multiestado; gralte. revesibles)

    Evolucin de caracteres:Los mtodos de reconstruccin filogentica requieren que se hagan suposiciones explcitassobre:

    1.- no. de pasos discretos necesarios para que se d un cambio en estado de caracter2.- la probabilidad con la que acontece un cambio en estado de caracter

    Direccionalidad en la evolucin de los cambios de estado de caracter (EC):

    - caracteres ordenados: siguen secuencia especfica de pasos (matrices de pasos)

    - caracteres desordenados: los cambios en EC se dan en un solo paso (nt)

    Inferencia filogentica molecular Mtodos de distancia

    Datos de distancia:

    - siempre involucran la comparacin entre pares de OTUs

    - la mayor parte de los mtodos moleculares generan datos de caracteres; stos han de ser transformados en distancias para poder ser analizados pormtodos basados en matrices de distancias (p. ej. NJ, UPGMA, EM)

    Porqu transformar caracteres en distancias?

    1.- Una larga lista de estados de caracter, como una secuencia de DNA aa, carece en s

    misma de significado evolutivo; en cambio, decir que 3 secuencias A B C presentan

    95% y 50% de identidad entre ellas evoca una imagen intuitiva del grado de parentesco

    2.- Los modelos de sust. de secuencias corrigen posibles mltiples sustituciones;

    estas correcciones se aplican a las distancias pero no a las secuencias (o datos)

    3.- Los mtodos de reconstruccn basados en matrices de dist. son muy rpidos

    Inferencia filogentica molecular clasificacn de mtodos

    Podemos clasificar a los mtodos de reconstruccin filogentica en base al tipo dedatos que emplean (caracteres discretos vs. distancias) y si usan un mtodo algortmicoo un mtodo de bsqueda basado en un criterio de optimizacin para encontrarla topologa ptima bajo el criterio seleccionado

    UPGMAy

    Neighborjoining

    Mnimoscuadrados

    yEvolucin

    mnima

    Mximaparsimonia

    yMxima

    verosimilitud

    Tipo de datos

    distanciascaracteresdiscretos

    M

    t

    o

    d

    o

    d

    e

    r

    e

    c

    o

    n

    s

    t

    r

    u

    c

    c

    i

    n

    B

    s

    q

    u

    e

    d

    a

    s

    b

    a

    j

    o

    c

    r

    i

    t

    e

    r

    i

    o

    d

    e

    o

    p

    t

    i

    m

    i

    z

    a

    c

    i

    n

    a

    l

    g

    o

    r

    i

    t

    m

    o

    d

    e

    a

    g

    r

    u

    p

    a

    m

    i

    e

    n

    t

    o

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Los mtodos de distancia se basan en la idea de que si conocisemos las distanciasevolutivas entre OTUs, podramos reconstruir adecuadamente su historia evolutiva. Este concepto se deriva de la relacin existente entre distancias y rboles:

    - la distancia evolutiva representa una escala mtrica topolgica y por lo tanto define un rbol

    En la prctica, empero, las distancias rara vez son mtricos topolgicos exactos.para que una distancia pueda reflejar perfectamente a la filogenia subyacente debede cumplir dos requisitos: ha de ser mtrica y aditiva

    Distancias mtricas (condiciones):

    1. d (a,b) 0 (no-negatividad)2. d (a,b) = d (b,a) (simetra)3. d (a,c) d (a,b) + d (b,c) (inecualidad triangular)4. d (a,b) = 0 slo si a = b (distincin)

    C

    B

    A7

    65

    La dist. entre cualquier parde secs. no puede ser mayorque la existente entre ellasy una tercera

  • Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx

    Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 2

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Distancias ultramtricas (condiciones):

    d (a,b) mximo [d (a,c), d (b,c) ] (distancias ms largas definen un tringulo issceles)

    La inecualidad ultramtrica. Las dos distanciaspareadas ms largas [d (a,c) y d (b, c)] son iguales,y por lo tanto la ultrametricidad define un tringuloissceles

    4B

    C

    A

    6 6

    Las distancias ultramtricas tienen la virtud de implicar igual tasa de evolucin entreOTUs a lo largo de toda la filogenia

    De ah que por ejemplo el test de tasas relativas para el reloj molecular se basa en cuantificar si las distancias entre tres secuencias departen o no significativamentede la condicin de ultrametricidad

    AB

    C

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Ser una medida mtrica (o ultramtrica) es una condicin necesaria pero no suficientepara representar una medida vlida del cambio evolutivo. Para ello tiene que satisfacertambin la condicin de los cuatro puntos:

    d (a,b) + d (c,d) mximo [d (a,c) + d (b,d), d (a,d) + d (b,c)]

    lo que equivale a requerir que de las tres sumas [ d (a,b) + d (c,d), d (a,c) + d (b,d) yd (a,d) + d (b,c)], las dos ms grandes son iguales

    Esta condicin matemtica equivale a decir que las distancias son aditivas.

    Cuando las distanciasno son mtricas y aditivas,puede ser convenienterepresentar las sealesno aditivas como ciclosadicionales en las grficaso rboles, lo que permiteacomodar mejor a estas seales,las cuales son generalmentehomoplsicas.

    Estos ciclos pueden tambin acomodar seales no aditivasoriginadas por eventos derecombinacin.

    NJ-HKY

    Splits tree graphof HKY distances

    Inferencia filogentica molecular mtodos de distancias

    Las distancias ultramtricas definenuna topologa ultramtrica.Biolgicamente dist. ultram. se ajustana un rbol enraizado bajo el reloj molecularLa sec. d es equidistante a todas lasdems y la sec. c es equidist. de a y b.Si tomamos 3 secs. cualesquiera, lasdist. entre ellas definen un tringulo issceles, por lo quelas distancias mostradas son ultramtricas. Para cualquier par de secs, el valor de dist. en la matriz se corresponde con la sumade long. de ramas en el caminio ms corto que las une en el rbol

    Las distancias aditivas o mtricasdefinen a una topologa aditiva.El rbol mtrico representa perfectamentea las distancias aditivas. Ntese que lassecs. b y c son las ms similares[d (b,c) = 3], pero no son las ms relacionadasevolutivamente. El nivel de similitud y relacin evolutivacoincidirn slamente cuando las distancias son ultramtricas. Datos reales nunca son perfectamente aditivos

    Distancias topolgicas

  • Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx

    Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 3

    En un mundo perfecto, las distancias evolutivas estimadas seran perfectamente aditivas,

    en cuyo caso podramos encontrar una combinacin de long. de ramas (a, b, c, d, e) tales que

    el camino a travs del rbol conectando el OTU i con el j (pij = distancia topolgica opatrstica) reflejara exactamente la distancia evolutiva correspondiente (dij ).Pero el mundo (homoplasias) y los mtodos no son perfectos ...

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    - De ah que existan 2 estrategias que buscan minimizar el desfase entre la distanciaevolutiva y la distancia topolgica y por lo tanto representan criterios de optimizacin:

    1. mtodos de bondad de ajuste: buscan el rbol mtrico que mejor acomodalas distancias observadas usando el mtodo de mnimos cuadrados

    2. mtods de evolucin mnima: buscan el rbol cuya suma de longitudes de rama es la mnima

    Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)

    El mtodo de los mnimos cuadrados permite encontrar lacombinacin de valores de (a, b, c, d y e) que maximiza elajuste entre pij y dij. Encontrar las long. de ramas mejorajustadas implica minimizar la suma ponderada de cuadra-dos.w = 1/ d Kij representa un factor de ponderacininversamente proporcional a la distancia estimada,donde k = 0 k =2. As las divergencias profundas tienenmenor peso que las ms recientes, las cuales se puedenestimar mejor.

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    diag. super.: dist. patrsticas

    diag. infer.: dist. evolutivas

    Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Distancias K2P (sobre la diagonal) y distancias topolgicas obtenidas por MC para mtDNAs. En negritas dt > de; en cursiva dt < de (dt =dist. topol.; de = dist. observada o evolutiva)

    Las dt > de pueden explicarse por homopla-sias en algunas ramas

    Las dt < de no pueden explicarse fcilmente yson contra-intuitivas, ya que implicaran que acon-teci menos cambio evolutivo que el observado!

    Ello ha llevado a algunos investigadores a criti-car fuertemente el mtodo de los MC para esti-mar la long. de las ramas

    rbol aditivo

    Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    (2n-3) = 7 ramasindependientes

    (n-1) = 4 ramasindependientes

    topologas aditivas y ultramtricas para las mismas secuencias. La topologa ultramtricatiene menor nmero de ramas con longitudes nicas dadas las restricciones impuestas

    A mayor desvo del reloj molecular (igualdad de tasas evolutivas entre linajes) mayor des-vo de la ultrametricidad de los datos y mayor la diferencia en el ajuste entre los rbolesaditivos y ultramtricos a los datos

    Los aditivos tienen entonces mayor ajuste dado que no tienen restricciones de ultrametric.

    SS = 0.000033144SS = 0.26577

  • Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx

    Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 4

    Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    rbol aditivo rbol ultramtrico

    raz

    Criterio de optimizacin de Evolucin Mnima

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    - dados dos rboles, aquel que minimiza la suma de longitudes de ramas L(estimadas por MC) es el mejor segn el criterio de EM

    - dada una topologa aditiva para n secuencias, existen (2n - 3) ramas, cada una con unalongitud li. La suma de estas long. de ramas es la longitud L del rbol:

    El criterio de optimizacin de EM es por tanto similar al de MP, si bien el primero calculaL directamente de una matriz de distancias pareada, mientras que el segundo calcula Len base al ajuste entre caracteres discretos y topologas

    Al igual que para los caracteres discretos, encontrar el rbol de distancias ptimo es com-putacionalmente difcil. Para nmeros chicos de secs. se pueden usar mtodos exactos; paranmeros grandes, se emplean mtodos heursticos (aproximados):

    1.- mtodo de los vecinos2.- mtodo de unin de vecinos (NJ)3.- UPGMA

    Criterio de optimizacin de Evolucin Mnima

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Se pueden encontrar rboles de EM mediante tcnicas de programacin lineal (encontrar unasolucin ptima dadas unas constricciones). Aplicado a encontrar la longitud de un rbol lasconstricciones son: 1) ramas de long. 0; 2) que para cada par de secuencias las distanciastopolgicas nunca sean < que las observadas (pij dij para todos los pares ij )

    distancias observadas (p) sobre diagonal; distancias topolgicabajo la diagonal obtenidas mediante programacin lineal

    rbol de EM con las long. de ramas calculadas de lasdist. observadas p usando progr. lineal. La long. totaldel rbol es 331.5

    Criterio de optimizacin de Evolucin Mnima

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    La optimizacin de long. de ramas mediante PL es computacionalmente costosa paramuchos OTUs (>20).

    Se usa ms frecuentemente el mtodo de mnimos cuadrados para estimar laslongitudes de rama. Las long. de rama obtenidas por MC se suman para obtener la L

    El mtodo de los mnimos cuadrados permite encontrar lacombinacin de valores de (a, b, c, d y e) que maximiza elajuste entre pij y dij. Encontrar las long. de ramas mejorajustadas implica minimizar la suma ponderada de cuadra-dos.

    w = 1/ d Kij representa un factor de ponderacininversamente proporcional a la distancia estimada,donde k = 0 k =2. As las divergencias profundas tienenmenor peso que las ms recientes, las cuales se puedenestimar mejor.

  • Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx

    Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 5

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Unweighted pair group method with arithmetic means (UPGMA)

    - este es uno de los pocos mtodos que construye rboles ultramtricos (todas las hojas

    equidistantes de la raz), es decir asume un reloj molecular perfecto a lo largo de toda

    la topologa

    - se puede concebir como un mtodo heurstico para encontrar la topologa ultramtrica

    de mnimos cuadrados para una matriz de distancias pareadas

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Unweighted pair group method with arithmetic means (UPGMA)

    OTU A B CB dABC dAC dBCD dAD dBD dCD

    OTU (AB) CC d(AB)CD d(AB)D dCD

    d(AB)C = (dAC + dBC )/2, y d(AB)D = (dAD + dBD )/2=

    l(AB)C = d(AB)C/2

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Unweighted pair group method with arithmetic means (UPGMA)

    el punto de ramificacin (PR) entre dos OTUs sencillos, i y j, se posiciona en el punto medio entre ellos

    el PR entre un OTU sencillo y uno compuesto (jm ), se posiciona en el punto medio de la media aritmtica de la distancia entre i y los constituyentes del OTU compuesto (jm )

    el PR entre dos OTUs compuestos se posiciona a la mitadde la media aritmtica de las distancias entrelos constituyentes de los OTUs sencillos decada OTU compuesto. As el PR entre (ij ) y (mn )es:

    UPGMA, por construir un rbol ultramtrico, resulta en una topologa enraizada.Adems se obtienen las longitudes de rama simultneamente con la topologa

    B) Calcula una matriz de distancias pareadas en base al nmero observado de diferencias entre OTUs, y en base a ella dibuja un rbol de UPGMA, indicando las longitudes de cada rama

    Ejercicios del examen de la seccin de inferencia filogenticaBGE-IV 2005

    Rhizobium GGA GGG AGG AGG CCTAgrobacterium GGC GGG AGG AGG CCTSinorhizobium GGG GGA AGG TGT CCGBradyrhizobium GGT CGT AGC TGT GTG

    1. Alineamiento: No. sitios : 15; OTUs (taxa) = 4

    2. Matriz de distancias: d : distancia (no. de diferencias observadas)

    [ A B C D ][Rhizobium, A][Agrobacterium, B] 1.0[Sinorhizobium, C] 5.0 5.0[Bradyrhizobium, D] 9.0 9.0 6.0

  • Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx

    Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 6

    [ A B C D ][Rhizobium, A][Agrobacterium, B] 1.0[Sinorhizobium, C] 5.0 5.0[Bradyrhizobium, D] 9.0 9.0 6.0

    Inferencia de un rbol UPGMA usando el no. de dif. obs. como medida de la distancia gentica entre OTUs

    RhizobiumAgrobacterium

    0.500.50

    OTU A B CB dABC dAC dBCD dAD dBD dCD

    1.

    d(AB)C = (dAC + dBC )/2, y d(AB)D = (dAD + dBD )/2=

    = d(AB)C = (5 + 5 )/2, y d(AB)D = (9 + 9)/2

    OTU (AB) CC d(AB)CD d(AB)D dCD

    2.

    OTU (AB) CC 5D 9 6

    3. RhizobiumAgrobacteriumSinorhizobium

    0.500.50

    2.50

    2.00

    d(AB)C/2

    Matriz de distancias:

    OTU (ABC) DD d(ABC)D

    d(ABC)D = (dAD + dBD + dCD) / 3=

    = d(AB)C = (9 + 9 + 6 ) / 3 = 8

    [ A B C D ][Rhizobium, A][Agrobacterium, B] 1.0[Sinorhizobium, C] 5.0 5.0[Bradyrhizobium, D] 9.0 9.0 6.0

    Inferencia de un rbol UPGMA usando el no. de dif. obs. como medida de la distancia gentica entre OTUs

    Matriz de distancias:

    4.

    RhizobiumAgrobacteriumSinorhizobiumBradyrhizobium

    0.500.50

    2.50

    4.00

    2.001.50

    1 d(ABC)D / 2

    5.

    [ A B C D ][Rhizobium, A][Agrobacterium, B] 1.0[Sinorhizobium, C] 5.0 5.0[Bradyrhizobium, D] 9.0 9.0 6.0

    Inferencia de un rbol UPGMA usando el no. de dif. obs. como medida de la distancia gentica entre OTUs

    Matriz de distancias:

    RhizobiumAgrobacteriumSinorhizobiumBradyrhizobium

    0.500.50

    2.50

    4.00

    2.001.50

    1 d(ABC)D / 2

    Notan alguna inconsistencia entre las distancias topolgicas y observadas?

    - La distancia entre C y D no es aditiva y no queda adecuadamente reflejadaen la correspondiente longitud de rama

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Mtodo neighbor-joining (NJ)

    Se trata de un mtodo puramente algortmico, representando una buena aproximacinheurstica para encontrar el rbol de evolucin mnima ms corto. Secuencialmente encuen-tra vecinos que minimizan la longitud total del rbol

    Es muy rpido y proporciona un solo rbol

    N(N-1)/2 modosde buscar paresde OTUs en X

    rbol estrella paraN OTUS

    - expresin para la suma de todas las long. de ramas- se busca el par que minimiza S y se considera como

    un OTU compuesto- se calcula una nueva matriz de dist. como en UPGMA- se reitera hasta encontrar todas las N-3 ramas internas

  • Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx

    Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 7

    Inferencia filogentica molecular mtodos basados en matrices de distancias

    Objeciones a los mtodos de distancia

    - hay que diferenciar entre los algoritmos para encontrar los rboles y los mtodos paraestimar las dist. evolutivas

    - si se escoge un modelo inadecuado de sust. el mtodo de distancia puede fallar en recu-perar la topologa correcta

    1. Prdida de informacin

    cuando matrices de datos cualitativos han de ser transformada en dist.se pierde mucha informacin. P. ej. ya no se puede trazar la evolucin de cada caractero categoras de caracteres sobre la topologa; no se pueden estimar los valores para losparmetros de un modelo de sustitucin (ti, tv, etc.)

    2. Longitudes de rama sin sentido biolgico- Podemos encontrar rboles de EM con L = nmero no entero (p. ej. 331.5)- este rbol es adems mucho ms corto que el calculado por MP (L = 353). El rbol obte-

    nido mediante PL es internamente consistente pero biolgicamente imposible

    Clculo de lmites de confianza para topologas Exactitud y precisin en filogentica

    En filogentica la exactitud de una topologa indica su grado de proximidad a la

    realidad (filogenia verdadera a estimar), mientras que la precisin tiene que ver con

    la cantidad de rboles alternativos que el mtodo es capaz de desechar.

    Si tenemos dos termmetros (A y B) con los que medimos la temperatura de agua

    hirviendo (a 1 atm. de presin) y obtenemos las medidas A = 101C y B = 97.35 C

    diramos que A es ms exacto pero menos preciso.

    Ojo, mtodos filogenticos basados en criterios de optimizacin que producen puntajes

    (scores) como nmeros reales como el de mxima verosimilitud (-lnL = 3598.2483) danuna falsa impresin de mayor precisin que aquellos CO como el de mxima parsimonia

    que trabajan con nmeros enteros (no. de pasos mutacionales) (L = 257 pasos). En elsegundo caso simplemente existe un nmero finito de pasos mutacionales que definen

    a las longitudes de un rbol. De ah que independientemente del mtodo de recons-

    truccin utilizado para recuperar una filogenia, la precisin de sta se mide en base al

    nmero de topologas alternas que se descartan. Idealmente todas salvo una.

    Homoplasias y error de muestreo

    Si un set de datos contiene homoplasias implica que distintos sitios del alineamiento van

    a apoyar diferentes topologas. Por lo tanto, qu rbol (o rboles) van a ser apoyados por

    un set de datos depender del subconjunto de caracteres muestreados.

    90 sitios parsimonia informativos (de 986 sitios de coi ) que resultan en el rbol:((human,(chimp,gorilla)),orang,gibbon).

    La calidad de la seal filogentica de los datos es una de las fuentes de posible error

    en la estima filogentica, pudiendo afectar tanto a la exactitud como a la precisin de la

    estima.

    El muestreo de las aprox. 16.000 pb del genoma mitocondrial de estos primates y sets de datos ms extensos (con ms OTUs) soportan el rbol:

    (((human,chimp),gorilla),orang,gibbon).

    Por tanto, para minimizar los errores de muestreo (debidos a homoplasias) hay que tratar deobtener secuencias lo ms largas posibles para el mayor nmero posible de genes

    Pero si se muestreasen slo los primeros 31 sitios del aln (5 sitios Pi) obtendramos unrbol de MP con la siguiente topologa: (((human,gorilla),chimp),orang,gibbon), que no secorresponde con el rbol de MP para el set completo de datos. El primer sito apoya(human, gorilla), el 2 (human,chimp,gorilla) y la 3. (chimp,gorilla), que contradice a la relacin apoyada por la 1a. pos.

    Homoplasias y error de muestreo

  • Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx

    Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 8

    Estima del error de muestreo mediante el mtodo de bootstrap

    Una va de estimar el error de muestreo es tomar mltiples muestras de la poblaciny comparar las estimas obtenidas de ellas. La dispersin entre estas muestras nos dauna idea del error de muestreo

    El mtodo de bootstrap se basa en remuestrear una muestra nica

    Estima del error de muestreo en un alineamiento mltiplemediante el mtodo de bootstrap

    Alineamiento original1. Pseudorplicas de bootstrap (muestreo aleatoriode caracteres con reemplazo hasta obtener unamatriz de igual no. de caracteres que la original

    2. Obtener el rbol consenso que resumela informacin de las topologas recuperadasde cada pseudorplica de bootstrap.

    3. Mapear las proporciones de bootstrapsobre la topologa original

    Homo sapiens Pan

    Gorilla Pongo

    Hylobates M sylvanus

    M fascicularis Macaca fuscata M mulatta

    Saimiri sciureus Tarsius syrichta

    Lemur catta

    0.05

    Estima del error de muestreo mediante el mtodo de bootstrap

    Filogenia NJ-K2P+G estimada a partirde secuencias de NADH-DH mitocondrialde 12 primates.

    Estn todas las biparticionesigualmente soportadas?O planteado de otra manera: qu tan resuelta est esta filogenia?

    Homo sapiens Pan

    Gorilla Pongo

    Hylobates M sylvanus

    M fascicularis Macaca fuscata M mulatta

    Saimiri sciureus Tarsius syrichta

    Lemur catta

    10099

    100

    100

    97

    100

    96

    83100

    0.05

    Un anlisis de bootstrap con500 pseudorplicas indica queel rbol est muy bien resuelto:

    todas las biparticiones estnltamente justificadas por losdatos segn indican las propor-ciones de bootstrap (expresadasen porcentaje)

    el mtodo de bootstrap: consideraciones crticas

    Un aspecto importante a tener en cuenta es que el mtodo de bootstrap asume la inde-pendencia de caracteres y que estn distribudos idnticamente. Es decir, asume que cadasitio es independiente de todas las dems y que la tasa de variacin est distribuda homo-gneamente a lo largo del alineamiento.

    Cummings et al. (1995) pusieron a prueba el supuesto deindependencia analizando 10 genomas completos de mito-condrias comparando los rboles obtenidos para datosobtenidos de estos genomas siguiendo dos estrategiascontrastantes de muestreo: 1) bloques contiguos de secuencia vs. 2) caracteres muestreados al azar a lo argo de los genomas. (Cummings et al. 1995. MBE, 12:814-22)

    Si el supuesto de independencia es cierto, ambos sets de resultados deberan representarbuenas aproximaciones del rbol genmico (Fig.1) . Pero de hecho el muestreo de caracteresal azar represent una mejor aprox. al rbol genmico que muestreando caracteres porbloques. No est claro qu robusto es el bootstrap a violaciones al supuesto de independ.