Congruencia- Árboles de consenso Soporte de grupos … · •Datos morfológicos versus datos de...

28
Congruencia- Árboles de consenso Soporte de grupos

Transcript of Congruencia- Árboles de consenso Soporte de grupos … · •Datos morfológicos versus datos de...

Congruencia- Árboles de consenso Soporte de grupos

Los agrupamientos obtenidos a partir de análisis filogenéticos basados en distintos sets o conjuntos de datos son con frecuencia incongruentes.

Comparaciones más frecuentes:

• Datos morfológicos versus datos de secuencias de ADN.

• Caracteres de adultos versus caracteres de larvas u otros estados inmaduros.

• Morfología externa versus anatomía.

• Caracteres vegetativos versus reproductivos.

Causas biológicas de incongruencia

1) Causas biológicas:

• Distintos conjuntos de caracteres tienen diferentes tasas evolutivas (evolución en mosaico)

• A veces hay hibridación o evolución reticulada.

• Se produce transferencia horizontal de genes (transposones o genes saltarines) que se transmiten entre especies generalmente por medio de endoparásitos.

Causas metodológicas de incongruencia

2) Causas metodológicas de incongruencia

• La aplicación de distintas estrategias de análisis de datos y métodos de filogenéticos puede dar lugar a distintos resultados para un mismo conjunto de datos (métodos de alineación de secuencias, de pesado de caracteres, de modelos moleculares ).

• Cuando el muestreo de datos es insuficiente los resultados obtenidos suelen ser incongruentes.

• Puede haber errores o distintos criterios para establecer homologías (a priori o posicionales) que determinan que los resultados sean incongruentes.

Existen dos estrategias u opciones fundamentales cuando se dispone de distintos sets de datos

• Análisis de consenso o congruencia taxonómica. Se analizan los sets de datos o particiones por

separado y ambos resultados se combinan en un árbol de consenso.

• Análisis simultáneo o de evidencia total. Los sets de datos se reúnen en una misma matriz de

datos y se analizan simultáneamente. • Una tercera opción es el análisis combinado

condicional: 1. análisis separado, 2. análisis de congruencia; 3. eventual combinación de los datos.

Congruencia taxonómica

• La evidencia (datos= caracteres) se divide en distintas particiones.

• De cada uno de ellas se obtiene uno o más árboles filogenéticos.

• Las distintas topologías se convienen en una sola mediante árboles de consenso.

• Ventajas: Se evita que los caracteres de una partición mayor (por ejemplo datos moleculares) enmascaren a los de otra partición.

• Desventajas: El resultado final no describe óptimamente los datos (el árbol de consenso es menos resuelto que los árboles combinados).

• En la actualidad los análisis simultáneos o combinados son los que más se utilizan.

• Se considera que ellos tienen mayor información y poder explicativo.

• Si bien los caracteres moleculares son mayoría con respecto a los morfológicos, representan unos pocos genes, en tanto que en la morfología se expresan numerosos genes.

Árboles de consenso y de compromiso

• Los árboles de consenso y compromiso permiten combinar la información contenida en cladogramas con distintas topologías, obtenidos a partir de un mismo conjunto o distintos conjuntos de datos.

• Hay varios métodos:

1) Árboles de consenso estricto

2) Árboles de compromiso: de mayoría, de componentes combinables, y otros.

Consenso estricto

A B C D E F G A B C E D F G

Árboles a combinar

A B C D E F G

Árbol de consenso estricto: solo los grupos monofiléticos presentes

en todos los árboles comparados aparecen en el consenso

Consenso de mayoría

A B C D E F G A B C E D F G A B C E F D G

A B C D E F G

En el consenso de mayoría el árbol incluye los grupos monofiléticos que aparecen en al menos el 50% de los árboles mas cortos.

Consenso de compromiso (componentes combinables)

A B C D E F G A B C E D F G

A B C E D F G

Frecuencia de los clados

A B C E F D G

100

66

66

66

66

El árbol de consenso incluye todos los componentes que no entran en conflicto en los árboles comparados.

• Los árboles de consenso y de compromiso se emplean también cuando como resultado de un análisis filogenético se obtienen varios árboles igualmente óptimos.

• El más utilizado es el consenso estricto (el más restrictivo).

• Los árboles de compromiso pueden presentar clados que no están presentes en algunos de los árboles comparados.

• Las politomías que aparecen en los consensos implican que existen distintas relaciones posibles para los taxones involucrados, algunas de los cuales no son justificadas por los datos.

Notación parentética

• Los cladogramas se pueden representar tanto como diagramas ramificados como mediante notación parentética. Los taxones comprendidos entre dos paréntesis forman parte del mismo clado.

• Los cladogramas parentéticos se pueden grabar en archivos que pueden ser leídos por los programas para análisis filogenéticos.

• De este modo se pueden comparar los cladogramas obtenidos con otros publicados previamente.

• Ejemplos de cladogramas parentéticos:

• (A(BC))((DE)(FG)H)

• (B(AC))(((DF)E)(GH))

Medidas de soporte de grupos

Son medidas de la estabilidad de los grupos que se recuperan en los cladogramas. Algunas de las más utilizadas son:

• Bootstrap

• Jackknife

• Soporte de Bremer

Las dos primeras son técnicas basadas en “remuestreo”

Bootstrap • Remuestreo con reposición

• Obtención de matriz re-muestreada o pseudoréplica

• Por cada matriz re-muestreada se obtiene un árbol

• El grado de conflicto entre los árboles se mide mediante el consenso de mayoría

• El porcentaje de las veces que aparecen los grupos en todos los árboles comparados se toma como una medida de soporte

Los valores de bootstrap se indican como porcentajes sobre las ramas del árbol

Los grupos bien soportados varían entre 50% y 100%, a valores más altos mayor apoyo. Actualmente se analizan aproximadamente 1000 pseudoréplicas. Algunos clados del árbol más corto no aparecen en el árbol de bootstrap.

Pha.candidusPha.elegans

Pha.viridis

P.horridusP.picipes

P.stupidus

P.albosignatus

P.sulfureus

P.straboP.globicollis

P.bondari

P.cinerosus

P.humilis

P.ambiguus

P.anthribiformis

P.simmilis

P.ruiziP.auripes

P.viridisquamosus

S.pascoei

E.unicolor

E.oblongusE.globosus

E.birabeniE.fallax

At.sordidusAt.convexifrons

At.marginatus

At.taeniatulus

Ar.globoculusAr.planioculus

Ar.conirostrisAr.tessellatus

Pa.quatuordecimpunctatus

Pa.fluctuosusAs.cervinus

84

65

82

88

73

81

60

100

58

Jackknife

• Es similar al bootstrap pero aplica una técnica de remuestreo sin reposición.

• Se crean “n” matrices, eligiendo al azar una proporción (por ejemplo un tercio) de los caracteres de la matriz original. Los demás se excluyen.

• Las matrices remuestreadas se analizan y para los árboles obtenidos se obtiene un consenso de mayoría.

Soporte o índice de Bremer

• Estima cuántos pasos extras se necesitan para que un clado particular colapse.

• El índice de Bremer para un clado es la diferencia de pasos entre a) el árbol más corto en que el clado en cuestión no aparece y b) el árbol más corto.

• El valor mínimo de apoyo es 1. Solo los clados que aparecen en todos los árboles más cortos tendrán un valor mayor a 0. A mayores valores mayor soporte de los clados.

• Los valores del índice de Bremer son absolutos. No están escalados.

Strict consensus of 4 trees (0 taxa excluded)

Pha.candidusPha.elegans

Pha.viridis

P.horridusP.picipes

P.stupidus

P.femoratus

P.albosignatus

P.sulfureus

P.straboP.globicollis

P.bondari

P.cinerosus

P.humilis

P.ambiguus

P.anthribiformis

P.simmilis

P.ruiziP.auripes

P.viridisquamosus

S.pascoei

E.unicolor

E.oblongusE.globosus

E.birabeniE.fallax

At.sordidusAt.convexifrons

At.marginatus

At.taeniatulus

Ar.globoculusAr.planioculus

Ar.conirostrisAr.tessellatus

Pa.quatuordecimpunctatus

Pa.fluctuosusAs.cervinus

N.virescens

N.sulphuratusN.laticeps

N.minorN.peregrinus

N.leucolomaN.verecundus

N.purpureoviolaceus

N.chordinusN.tremolerasi

N.versatilis

N.navicularis

N.dissimulator

N.dissimilisN.xanthographus

N.condecoratus

N.cinereidorsum

N.cyphoidesN.argentinensis

N.angulithoraxN.sulphurifer

N.bruchiN.rivulosus

A.curtusA.longimanus

M.ocellatusM.micaceus

G.darwiniG.galapagoensis

9069

99

97

99

66

84

65

82

88

73

81

60

100

99

78

58

Cladograma de especies de gorgojos del complejo Pantomorus-Naupactus Se observan valores de bootstrap

Especies de gorgojos del complejo Pantomorus-Naupactus

Izquierda: cladograma datos morfológicos //Derecha: cladograma evidencia total. Debajo de las ramas se observan los valores de soporte de Bremer.

Cladogramas de gorgojos del género Aramigus.

Izquierda: cladograma con datos morfológicos. Derecha: cladograma datos moleculares.

Optimización de caracteres Tree 0, char. 0 (10 steps)

Pha_candidus

Pha_elegans

Pha_viridis

P_horridus

P_picipes

P_stupidus

P_femoratus

P_albosignatus

P_sulfureus

P_strabo

P_globicollis

P_bondari

P_cinerosus

P_humilis

P_ambiguus

P_anthribiformis

P_simmilis

P_ruizi

P_auripes

P_viridisquamosus

S_pascoei

E_unicolor

E_oblongus

E_globosus

E_birabeni

E_fallax

At_sordidus

At_convexifrons

At_marginatus

At_taeniatulus

Ar_globoculus

Ar_planioculus

Ar_conirostris

Ar_tessellatus

Pa_quatuordecimpunctatus

Pa_fluctuosus

As_cervinus

N_virescens

N_sulphuratus

N_laticeps

N_minor

N_peregrinus

N_leucoloma

N_verecundus

N_purpureoviolaceus

N_chordinus

N_tremolerasi

N_versatilis

N_navicularis

N_dissimulator

N_dissimilis

N_xanthographus

N_condecoratus

N_cinereidorsum

N_cyphoides

N_argentinensis

N_angulithorax

N_sulphurifer

N_bruchi

N_rivulosus

A_curtus

A_longimanus

M_ocellatus

M_micaceus

G_darwini

G_galapagoensis

T_vittatus

T_elegans

T_nodicollis

T_gibbicollisstate 0state 1state 2

state 3state 4state 5

state 6state 7

state 8state 9Ambiguous

Tamaño corporal en mm

¿Cuán buena es la señal filogenética de un árbol? Una forma de evaluar la señal filogenética es analizando las longitudes de los árboles óptimos (más cortos) y subóptimos (un paso más largos que el o los árboles óptimos). Si se obtienen muchos cladogramas subóptimos, significa que la señal filogenética es débil y que la topología del árbol óptimo es inestable (los caracteres son incongruentes, entran en conflicto). Si se obtienen pocos cladogramas subóptimos, la señal filogenética es robusta.

Longitud mínima del árbol obtenido de datos “reales”

Distribución de los árboles de longitudes mínimas obtenidos a partir de datos al azar

Confianza estadística de los árboles: Se analiza si el árbol de lóngitud mínima para un conjunto de datos real es significativamente diferente al que se puede esperar a partir de un conjunto de datos al azar (DCL= distribution cladogram length).

¿ Qué se debería preferir? ¿árboles con menos homoplasia (más cortos) o más decisivos, a pesar de que puedan ser un paso más largos?

• Goloboff (1991) acuña el término decisividad para referirse a las

razones para preferir un cladograma sobre otros, independientemente de la homoplasia.

• Por ejemplo, si a partir de un conjunto de datos moleculares se obtiene un solo cladograma, y a partir de una matriz de datos morfológicos se obtienen 10 cladogramas menos homoplásicos que los anteriores, se puede decir que la decisividad de los datos moleculares es mayor, a pesar de ser más homoplásicos.