El virus de la gripemathgene.usc.es/.../herramientas_gripe.pdf · El virus de la gripe española...

Post on 08-May-2020

13 views 0 download

Transcript of El virus de la gripemathgene.usc.es/.../herramientas_gripe.pdf · El virus de la gripe española...

El virus de la gripeAnálisis bioinformático

• Es una enfermedad respiratoria, de origen vírico y altamente contagiosa.

• Obliga a hospitalizar a 200.000 personas al año en USA.

• Está relacionada con 30.000 muertes al año en USA.

• Generalmente, un ataque de un virus, si no es letal, convierte al paciente en resistente al ataque del mismo virus.

• En el caso de la gripe, el virus cambia su exterior cada año.

•Es necesario estudiar la evolución del virus para conocer sus mecanismos e intentar desactivarlo.

•Para ello la secuenciación del genoma de numerosos virus es necesario pero no es suficiente sino va acompañado de la capacidad de análisis de los datos.

•Las herramientas para dicho análisis las proporciona la Bioinformática.

Internet

Web

Bases de datos

InformáticaProbabilidades

Matemática discreta

Geometría

Matemática

Álgebra

Algoritmos de optimización

Estructura de datos

Computación

Estadística

Biología computacional

Bioinformática

Bases de datos genómicas

Un ejemplo de colaboración internacional

Bases de datos Genómicas

•Hay varios “grandes” proyectos en marcha. Los resultados obtenidos se encuentran en la base de datos del NCBI.

•A la vista de la importancia del tema de la gripe, el NCBI ha creado una página web específica.

El estudio genómico del virus de la gripe

http://www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html

Común a muchas bases de datos

Específico de la bioinformática

Base de datosAcceso a la secuencias

El virus de la gripe española (1918) comparado con el de la gripe aviar del 2006

El alineamiento con ClustalX

Española

Aviar

Delecciones

Inserción

Entre ambos virus hay toda una historia evolutiva.

La principal herramienta bioinformática que se usa para su estudio es el árbol filogenético.

Árboles filogenéticos

Una herramienta matemática para entender la evolución

Árboles filogenéticosSurgen a partir de la teoría de la evolución de Darwin.

Son representaciones gráficas de las relaciones evolutivas entre un grupo de organismos vivos.

Primer árbol filogenético debido a Haeckel 1866

Todas las especies descienden por evolución de una especie ancestral común.

La aparición de una nueva especie se produce por la subdivisión de una existente en dos subespecies que han divergido tanto que pierden la capacidad de cruzarse.

Árboles filogenéticosPunto de vista matemático

Orangután

GorilaChimpancé

Tiempo

Gorila

Chimpancé

Australophitecus

Humanos

Ardiphitecus

Raí

z

Orangután

Ejemplo: Árbol filogenético para el grupo Hominidae

Orangután

GorilaChimpancé

Tiempo

Gorila

Chimpancé

Australophitecus

Humanos

Ardiphitecus

Raí

z

Orangután

Ejemplo: Árbol filogenético para el grupo Hominidae

Tiempo

Gorila

Chimpancé

Australophitecus

HumanosPeriodo evolutivo del

ancestro común a Austrolophitecus y Humanos

Momento en que aparece la especie humana

Ardiphitecus

Raí

z

Comienza la existencia del ancestro común a

Austrolophitecus y Humanos

Orangután

Ejemplo: Árbol filogenético para el grupo Hominidae

Tiempo

Gorila

Chimpancé

Australophitecus

Humanos

Ardiphitecus

Raí

z

Orangután

Ejemplo: Árbol filogenético para el grupo Hominidae

Tiempo

Gorila

Chimpancé

Australophitecus

Humanos

Ardiphitecus

Raí

z

Orangután

Ejemplo: Árbol filogenético para el grupo Hominidae

Hojas

Nodos

Los datos

¿Qué datos se usan?

¿Qué datos se usan?Secuencias alineadas “sin huecos” de ADN, ARN o mARN.

¿Qué datos se usan?Secuencias alineadas “sin huecos” de ADN, ARN o mARN.

Secuencias

¿Qué datos se usan?Secuencias

¿Qué datos se usan?Secuencias

Tabla de caracteres morfológicos codificados

¿Qué datos se usan?Secuencias

Datos morfológicos

¿Qué datos se usan?Secuencias

Datos morfológicos

Lista ordenada de genes si se dispone del genoma completo

¿Qué datos se usan?Secuencias

Datos morfológicos

Lista ordenada

¿Qué datos se usan?Secuencias

Datos morfológicos

Lista ordenada

Lugares de restricción, SNPs, Secuencias de aminoácidos, etc

Los métodos

Principales métodos

Métodos de distancia

Máxima parsimonia

Máxima verosimilitud

Árbol filogenético

Métodos de distancia

Datos Estimación

Árbol filogenético

Métodos de distancia

Datos Estimación

Estimación

Árbol filogenético

Métodos de distancia

Datos Estimación

Matriz de distanciasEstim

ación

Árbol filogenético

Métodos de distancia

Datos Estimación

Matriz de distancias

Constr

ucció

nEstimación

Árbol filogenético

Métodos de distancia

Datos Estimación

Matriz de distancias

Constr

ucció

nEstimación

Árbol filogenético

Métodos de distancia

Datos Estimación

Matriz de distancias

Constr

ucció

nEstimación

Modelo biológico

Árbol filogenético

Métodos de distancia

Datos Estimación

Matriz de distancias

Constr

ucció

nEstimación

Modelo biológico

Modelo biológico

Métodos de distancia

¿Qué mide la distancia entre dos especies?

•Habitualmente la distancia entre dos especies mide el número de años (o generaciones) transcurridos desde la subdivisión de la especie ancestral común en las dos especies en cuestión.

•Esa distancia no es conocida y hay que estimarla a partir de los datos usando modelos evolutivos.

•El modelo usado depende, entre otros factores, del tipo de datos que se tiene, del tipo de organismo y del criterio del investigador.

Métodos de distancia

La matriz de distanciasT1 T2 . . . Tn

!

"

"

#

d11 d12 . . . d1n

d21 d22 . . . d23

. . . . . . . . . . . .

dn1 dn2 . . . dnn

$

%

%

&

T1

T2

.

.

.

Tn

T1 T2 . . . Tn

dij es la distancia observada entre las especies i,j.

En general no es una distancia en el sentido matemático del término

Métodos de distancia

Construcción!

"

"

#

d11 d12 . . . d1n

d21 d22 . . . d2n

. . . . . . . . . . . .

dn1 dn2 . . . dnn

$

%

%

&

Cálculo

Métodos de distancia

Construcción!

"

"

#

d11 d12 . . . d1n

d21 d22 . . . d2n

. . . . . . . . . . . .

dn1 dn2 . . . dnn

$

%

%

&

Cálculo

Se busca el mínimo de las

distancias

C y D son las más próximas

Métodos de distancia

Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única

Paso 1

Se busca el mínimo de las

distancias

C y D son las más próximas

Métodos de distancia

Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única

Paso 1

Se busca el mínimo de las

distancias

C y D son las más próximas

Métodos de distancia

Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única

Paso 1

Se busca el mínimo de las

distancias

C y D son las más próximas

Métodos de distancia

Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única

Paso 1

Métodos de distancia

Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única

Métodos de distancia

dUA =(dAC + dAD)

2

UPGMA

Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única

Métodos de distancia

Datos Reconstrucción

A

B C

D

Si la matriz no es ultramétrica

B C

Ancestro común a B y C

El algoritmo de Neighbor-Joining intenta corregir el problema

Métodos de distancia

El algoritmo de Neighbor-JoiningEl procedimiento es el mismo que el del UPGMA, salvo que para buscar el mínimo usa una distancia corregida.

La idea es cambiar la noción de vecino. Vecinos serán aquellos que están próximos pero también

alejados de los demás.

Cálculo de distancias

¿Cómo se calculan las distancias entre secuencias de nucleótidos?

¿Cómo se calculan las distancias entre secuencias de nucleótidos?

Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta

distancia no refleja correctamente el proceso evolutivo.

¿Cómo se calculan las distancias entre secuencias de nucleótidos?

Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta

distancia no refleja correctamente el proceso evolutivo.

Podría pasar que después de varias mutaciones volviésemos al mismo nucleótido de partida

¿Cómo se calculan las distancias entre secuencias de nucleótidos?

Lo más correcto es usar un modelo probabilístico de evolución de nucleótidos.

Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta

distancia no refleja correctamente el proceso evolutivo.

Podría pasar que después de varias mutaciones volviésemos al mismo nucleótido de partida

Los modelos de evolución

La probabilidad entra en escena

Las secuencias evolucionan mediante mutaciones, inserciones, delecciones, etc. Nosotros nos vamos

a restringir al caso de mutaciones.

Hay muchos modelos aplicables. Nosotros sólo veremos los dos más sencillos, Jules-Cantor y

Kimura con dos parámetros.

Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma

independiente.

La probabilidad entra en escena

Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma

independiente.

S = s1s2s3 . . . sn!1sn

R = r1r2r3 . . . rn!1rn

Dadas dos secuencias alineadas

La probabilidad entra en escena

Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma

independiente.

S = s1s2s3 . . . sn!1sn

R = r1r2r3 . . . rn!1rn

Dadas dos secuencias alineadas

P (S | R, t) =n!

i=1

P (si | ri, t)La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:

La probabilidad entra en escena

Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma

independiente.

S = s1s2s3 . . . sn!1sn

R = r1r2r3 . . . rn!1rn

Dadas dos secuencias alineadas

P (S | R, t) =n!

i=1

P (si | ri, t)La probabilidad de que S haya evolucionado a partir de R en un tiempo t es:

Sólo necesitamos el modelo de evolución de cada sitio

La probabilidad entra en escena

Sólo necesitamos el modelo de evolución de cada sitio

Como en cada sitio puede haber 4 estados A,G,C,T necesitamos conocer las probabilidades de cada una

de las mutaciones en un tiempo t.!

"

"

#

P (A | A, t) P (A | G, t) P (A | C, t) P (A | T, t)P (G | A, t) P (G | G, t) P (G | C, t) P (G | T, t)P (C | A, t) P (C | G, t) P (C | C, t) P (C | T, t)P (T | A, t) P (T | G, t) P (T | C, t) P (T | T, t)

$

%

%

&

Para modelizar se usan cadenas de Markov continuas, por lo que la matriz anterior no se da directamente.

En su lugar se da la matriz de “velocidades”

Modelo de Jules-Cantor (1969)

Matriz de “velocidades”

!

"

"

#

!3! ! ! !

! !3! ! !

! ! !3! !

! ! ! !3!

$

%

%

&

Modelo de Jules-Cantor (1969)

Matriz de “velocidades”

!

"

"

#

!3! ! ! !

! !3! ! !

! ! !3! !

! ! ! !3!

$

%

%

&

Matriz de probabilidades!

"

"

"

"

"

"

"

"

#

1

4+

3

4e!4!t 1

4!

1

4e!4!t 1

4!

1

4e!4!t 1

4!

1

4e!4!t

1

4!

1

4e!4!t 1

4+

3

4e!4!t 1

4!

1

4e!4!t 1

4!

1

4e!4!t

1

4!

1

4e!4!t 1

4!

1

4e!4!t 1

4+

3

4e!4!t 1

4!

1

4e!4!t

1

4!

1

4e!4!t 1

4!

1

4e!4!t 1

4!

1

4e!4!t 1

4+

3

4e!4!t

$

%

%

%

%

%

%

%

%

&

A G

C T

Purinas

Piramidinas

Modelo de Kimura 2 parámetros

A G

C T

Purinas

Piramidinas

Modelo de Kimura 2 parámetros

Transiciones

A G

C T

Purinas

Piramidinas

Modelo de Kimura 2 parámetros

Transversiones

Una vez escogido el modelo, la distancia entre dos secuencias se puede pensar como la suma del tiempo de evolución transcurrido desde la “bifurcación” de su

ancestro común más cercano

S R

Ancestro?

El problema es que este ancestro no es conocido!!

Por lo tanto hay que estimar esa distancia evolutiva.

La forma más usual, ya que estamos metidos de lleno en probabilidades, es buscar lo más probable

(verosimil).

Como los sitios se suponen evolucionan de forma independiente, nos basta trabajar el

principio con secuencias de longitud 1.

S R

Ancestro?

Datos iniciales:El árbol, los nucleótidos de S y R

Datos a estimar: v1, v2

V1 V2

S R

Ancestro?

Datos iniciales:El árbol, los nucleótidos de S y R

Datos a estimar: v1, v2

V1 V2

Si el ancestro fuese una G tendríamos

S R

Ancestro?

Datos iniciales:El árbol, los nucleótidos de S y R

Datos a estimar: v1, v2

V1 V2

Si el ancestro fuese una G tendríamos

S R

Ancestro?

Datos iniciales:El árbol, los nucleótidos de S y R

Datos a estimar: v1, v2

V1 V2

Si el ancestro fuese una G tendríamos

Esto nos lo da el modelo elegido

Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:

Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:

Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos:

Lo que buscamos son los valores de v1, v2 que hagan máxima esa probabilidad.

Como los modelos que usamos son reversibles, esa probabilidad sólo depende de la suma v1+v2.

(Principio de la polea de Felsenstein)

Máxima verosimilitud

Máxima verosimilitud

Para un árbol arbitrario, se puede hacer algo análogo, salvo que tendremos muchos más parámetros que estimar.

El método de máxima verosimilitud se basa en la optimización de una función de verosimilitud obtenida a partir del árbol bajo el establecimiento de un modelo de

evolución y unas premisas o hipótesis simplificadoras.

Computacionalmente, si para un árbol, la búsqueda del óptimo no es sencilla, la búsqueda del árbol óptimo es casi

imposible si el número de taxones es alto.

Máxima parsimonia

Máxima parsimoniaParece ser el más usado.

La idea de partida es que las hipótesis simples son mejores que las más complejas y que las hipótesis

“ad hoc” deben ser evitadas si es posible.

Lo que se busca es encontrar el mínimo número de cambios que explique los datos.

Máxima parsimoniaEl algoritmo más simple es el de Fitch.

En un primer paso, se recorre el árbol hacia la raíz para determinar el número mínimo de cambios

que se necesitan.

En un segundo paso se intenta, ya partiendo de la raíz, reconstruir las secuencias de los ancestros

para obtener ese número mínimo.

Como los cambios en un sitio no afectan a los otro sitios, se puede hacer sitio a sitio.

Máxima parsimonia

1 32 4 5a g a t a

Máxima parsimonia

1 32 4

{a,t}

5a g a t a

Máxima parsimonia

1 32 4

{a,t}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

1 32 4

{a,t}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

1 32 4

{a,t}

{a}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

1 32 4

{a,t}

{a}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

1 32 4

{a,t}

{a}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

El número mínimo de cambios es 2.

1 32 4

{a,t}

{a}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

El número mínimo de cambios es 2.

1 32 4

{a,t}

{a}

5

{a}

a g a t a

Máxima parsimonia

{a, g}

El número mínimo de cambios es 2.

Reconstrucción

1 32 4

{a,t}

{a}

5

{a}

a g a t a

Ejemplos de uso de los árboles filogenéticos en el estudio del virus de la

gripe

La principal proteína de la capsula es la hemaglutinina. Ésta se une al ácido siálico de la superficie celular para entrar en ella.

La Hemaglutinina es también la primera proteína reconocida y atacada por el sistema inmune.

La supervivencia del virus depende de su capacidad de encontrar nuevos receptores o de su capacidad de mutación.

El virus de la gripe evoluciona a una velocidad de 6.7x 10–3 mutaciones por nucleótido por año. Es decir 1 millón de veces más rápido que los humanos.

Tras un examen de virus conocidos de 1968-1987

hecho por Fitch, se constató que en lugar de una variedad de linajes derivados de los

distintos virus del año 1968, había sólo uno y los otros se

habían extinguido.

Fitch y sus coautores comprobaron la hipótesis de un mayor número de mutaciones en la región antigénica en la línea vírica persistente que en las extintas.

Además las mutaciones sinónimas (el cambio en el nucleótido no modifica la proteína) aparecían en menor proporción.

Todo ello abunda en la tesis de la selección positiva.

El virus se especializa, y se observan diferentes tipos que infectan principalmente a humanos, principalmente cerdos,

principalmente pájaros, etc. respectivamente

En la pandemia de 1968, irrumpe el subtipo H3 en los humanos. ¿De dónde vino?

La hipótesis más aceptada entre los investigadores es que la pandemias

humanas comienzan cuando las cepas de la gripe de aves y humanos infectan simultáneamente un cerdo e

allí intercambian genes y se desplazan de cerdos a humanos.

¿Cómo podemos hacer una filogenia en la web

del NCBI?

AvesHumanosPorcino

Otras herramientasNo menos importantes

BLASTBases de datos de proteínas (PDBI, SwissProt, etc) Bases de datos funcionales (KEGG, GO)Etc...