Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza...

Paulino Gomez-Puertas Bioinformática.

Alineamiento de Secuencias

INTRODUCCIÓN A LA BIOINFORMÁTICA

¿ Por qué comparar secuencias ?

¿ Cómo comparar secuencias ?

Molecular chaperonin

subunit

heptamer

(Dr Jianpeng Ma, Harvard Univ.)

Cambios en las secuencias :

• Reemplazo puntual – Sinónimos/No-Sinónimos

• Inserción y Delección (InDels) – Afecta pautas de

lectura

• Traslocación

• Duplicación

The Standard Code

AAA K ACA T AGA R ATA I

AAC N ACC T AGC S ATC I

AAG K ACG T AGG R ATG M

AAT N ACT T AGT S ATT I

CAA Q CCA P CGA R CTA L

CAC H CCC P CGC R CTC L

CAG Q CCG P CGG R CTG L

CAT H CCT P CGT R CTT L

GAA E GCA A GGA G GTA V

GAC D GCC A GGC G GTG V

GAG E GCG A GGG G GTG V

GAT D GCT A GGT G GTT V

TAA . TCA S TGA . TTA L

TAC Y TCC S TGC C TTC F

TAG . TCG S TGG W TTG L

TAT Y TCT S TGT C TTT F

GAT GCA TAG

ATG GAC CCA CGT TCG GAG MDPRSE… DA *

Modelo evolutivo: cambio al azar + selección natural

Hace mucho tiempo… ACCGTACGGTTAA

ACGGTACGGTTAA

ACCGTCCGGTTAA

ACCGT-CGGTTAA

CCCGTACGGTTAA

ACCCGTACGGTTAA

ACCG-CCGGTTAA

ACCCTCCGGTTAA

ACCGTCCGGTTCCCAA

TCCGTCCGGTTAA

ACCGTCCGCTTAA

Etc, etc…

tiempo

x n especies

ACCTCTAGTTAA

ACCGTTCCGAA

ACCGTCCGGTTGA

GGAGTACGGTTAA

ACCTGCAATTA

ACCGTACGGTTATA

ACCGTCGTAA

ACCGTACCCCGGTTAA GCCGTACCGTGGTCCA

CCGTCCCGTTAA

AACCGTACGGTTAA

(F. Abascal, 2008)

Cambio al azar + selección natural + duplicaciones génicas

Superfamilia: grupo de proteínas

con un origen común.

Familia / Subfamilia: grupo de

proteínas con una función común

(jerarquía subjetiva).

proteínas ATP/GTP binding (superfamilia)

familia ras proteínas GTP-binding

factores de elongación

proteínas ATP-binding

rab (H. sapiens)

rab (M. musculus)

rab (C. elegans)

ras (H. sapiens)

ras (M. musculus)

ras (C. elegans)

ras2 (H. sapiens)

Subfamilia ras

Subfamilia rab Dos formas de representarlo

ras rab

(F. Abascal, 2008)

Homólogos: ortólogos y parálogos.

Ortólogos: genes que comparten el

último ancestro común y cuya

divergencia se debe a la

especiación.

Los mismos genes en distintas

especies.

Parálogos: genes que debido a una

duplicación, ya no comparten el

último ancestro. Frecuentemente

tienen funciones distintas.

(F. Abascal, 2008)

Hexokinase

Structural alignment

Structure comparison

¿ Cómo comparar secuencias ?

http://www.ebi.ac.uk/dali/

FSSP DaliDD CATH SCOP

Comparación de secuencias

Secuencia. Cadena lineal finita y ordenada de símbolos

pertenecientes a un alfabeto

Alfabeto. Conjunto de símbolos básicos de las secuencias

ADN: A= {a,c,g,t|u}

Proteinas= A={a,c,d,e,f,g,h,I,k,l,m,n,p,q,r,s,t,v,w,y}

ADN y Proteinas son cadenas co-lineales

Existen otros diversos alfabetos

Comparación. Encontrar la posición relativa entre dos

secuencias que maximice su parecido

Conceptos Generales

Seq X = TCA GAC GAT TG (n=11)

Seq Y = ATC GGA GCT G (m=10)

Comparación por Identidades

Algoritmo: Desplazar una secuencia debajo de la otra anotando el número de coincidencias que ocurren, seleccionando como resultado

la posición de mayor valor

TCAGACGATTG (r=0)

ATCGGAGCTG

TCAGACGATTG (r=1)

ATCGGAGCTG

TCAGACGATTG (r=0)

ATCGGAGCTG

TCAGACGATTG (r=4)

ATCGGAGCTG

TCAGACGATTG (r=2)

ATCGGAGCTG

TCAGACGATTG (r=0)

ATCGGAGCTG

TCAGACGATTG (r=0)

ATCGGAGCTG

Resultado: Posición con mayor número de coincidencias

TCAGACGATTG (r=4)

ATCGGAGCTG

0 1 2 3 4 5 6 7 8 9 10 11

┌───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┐

0 │ │ T │ C │ A │ G │ A │ C │ G │ A │ T │ T │ G │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-1 │ A │ │ │ 1 │ │ 1 │ │ │ 1 │ │ │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-2 │ T │ 1 │ │ │ │ │ │ │ │ 2 │ 1 │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-3 │ C │ │ 2 │ │ │ │ 1 │ │ │ │ │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-4 │ G │ │ │ │ 1 │ │ │ 2 │ │ │ │ 3 │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-5 │ G │ │ │ │ 3 │ │ │ 1 │ │ │ │ 1 │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-6 │ A │ │ │ 1 │ │ 4 │ │ │ 2 │ │ │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-7 │ G │ │ │ │ 2 │ │ │ 2 │ │ │ │ 2 │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-8 │ C │ │ 1 │ │ │ │ 1 │ │ │ │ │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-9 │ T │ 1 │ │ │ │ │ │ │ │ 3 │ 1 │ │

├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤

-10│ G │ │ │ │ 2 │ │ │ 3 │ │ │ │ 2 │

└───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┘

TCAGACGATTG (r=4)

ATCGGAGCTG

h 12345

sH ACCGT

sV CAGT

v 1234

D= h – v Si xh alínea con yv

Diagonal = desplazamiento relativo entre secuencias

ACCGT ACCGT

CAGT CAGT

ACCGT ACCGT

CAGT CAGT

ACCGT ACCGT

CAGT CAGT

ACCGT ACCGT

CAGT CAGT

A C C G T

2 Complejidad algorítmica O(N * M) O(N )

Desplazar una secuencia bajo la otra equivale a recorrer una

matriz por sus diagonales.

Los fragmentos alineados aparecen

como diagonales en la matriz

Reducción de la Complejidad Algorítmica Optimización para reducir tiempos de cálculo

Tabla de Dispersión (Hash)

Lista con las posiciones de los símbolos de la secuencia

pos : 1234 5678 901

seqX : TCAG ACGA TTG n=11 Tabla Hash (seqX) A 3, 5, 8 C 2, 6 G 4, 7, 11 T 1, 9, 10

Secuencia a comparar

pos : 1234567890

seqY: ATCGGAGCTG m=10

Acumular identidades en cada diagonal

(d= h - v, si xh alínea con yv)

y1 (A) en d2 (3-1), d4 (5-1) y d7 (8-1) y2 (T) en d-1 (1-2), d7 (9-2) y d8 (10-2)

Complejidad : Cada elemento de sY vs el número de elementos hash para ese símbolo

O(N*media) media=M / LongTabla (N, M long de SeqX y SeqY)

k-tuplas : [+] entradas (L=lAlfk) -> [-] elementos por entrada

Proteinas : lAlf=20, Si k=2 => L= 202 = 400 entradas. Long. Proteina N=400 -> 1 valor por entrada => complejidad O(N+M)

Comparación por Semejanzas Mejoras en la Sensibilidad

Limitaciones de los Métodos

basados en Identidad

•Código genético redundante

•Sustituciones sin influencia sobre la función global

•Inserción y pérdida de residuos.

•Cantidad de información (frecuencia) de cada símbolo

•Conocimiento biológico en la valoración

Distancia: El coste de transformar una secuencia en otra por medio de la aplicación de una serie de operaciones (sustitución, inserción, borrado), cada una con un coste asociado. Para cada pareja de símbolos (ai,aj) A2 un esquema de costes w(ai,aj) establece la relación entre ellos

Esquemas de Puntuación Capturar el significado biológico de las semejanzas

Considerar los reemplazos conservativos y las diferencias en las frecuencias observadas

Matrices PAM. Dayhoff (1972) Evolutivo, proporcional a log(fAB/f'

AB) para alinear el residuo A con el B fAB frecuencia AB en alineamientos relacionados f'

AB frecuencia en los alineamientos no relacionados (f'AB=fAxfB)

fAB Depende de la semejanza entre las proteinas

[Pequeña] para secuencias muy relacionadas [Crece] a mayores distancias evolutivas [Azar] a distancias evolutivas muy grandes

Fuente: Alineamientos múltiples con no más de un 15% de diferencias por identidad. Tablas de las frecuencias de sustitución entre residuos

Normalizar (en 100 residuos 1 mutación) => PAM, 1% Percent Accepted Mutation Extrapolar a diferentes distancias (120, 250, 320, etc) PAMs.

Matrices BLOSUM. Altschul (1991) No se conoce a priori lo semejante que son las secuencias a buscar PAM extrapola las relaciones lejanas a partir de relaciones cercanas (Hipótesis que favorece las posiciones más mutables)

BLOSUMnn (BLOcks SUbstitution Matrices) (nn : umbral de identidad utilizado para la seleccionar bloques) Un blosum bajo (umbral bajo de identidad) se corresponde con un número alto de PAM (distancia evolutiva grande).

EKPRKVMLMVRAGDVVDQFIEALLPHLEEG

EKPRKIFLMVTAGKPVDSVIQSLKPLLEEG

ETPRKILLMVKAGTATDATIQSLLPHLEKD

ETPRRILLMVKAGAGTDAAIDSLKPYLDKG

ETPRRILLMVKAGSGTDSAIDSLKPYLDKG

Fuente: Alineamientos de bloques de secuencias.

Bloque Matriz cuyas filas representan

segmentos de secuencias

alineadas sin interrupciones

pam250 (inferior) y BLOSUM62 (superior)

A R N D C Q E G H I L K M F P S T W Y V B Z X *

--+-------------------------------------------------------------------------+---

| 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 | A

| 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 | R

A | 2 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 | N

R | -2 6 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 | D

N | 0 0 2 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 | C

D | 0 -1 2 4 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 | Q

C | -2 -4 -4 -5 12 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 | E

Q | 0 1 1 2 -5 4 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 | G

E | 0 -1 1 3 -5 2 4 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 | H

G | 1 -3 0 1 -3 -1 0 5 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 | I

H | -1 2 2 1 -3 3 1 -2 6 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 | L

I | -1 -2 -2 -2 -2 -2 -2 -3 -2 5 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 | K

L | -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 | M

K | -1 3 1 0 -5 1 0 -2 0 -2 -3 5 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 | F

M | -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 | P

F | -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 4 1 -3 -2 -2 0 0 0 -4 | S

P | 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6 5 -2 -2 0 -1 -1 0 -4 | T

S | 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 11 2 -3 -4 -3 -2 -4 | W

T | 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 7 -1 -3 -2 -1 -4 | Y

W | -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 4 -3 -2 -1 -4 | V

Y | -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 4 1 -1 -4 | B

V | 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 4 -1 -4 | Z

B | 0 -1 2 3 -4 1 2 0 1 -2 -3 1 -2 -5 -1 0 0 -5 -3 -2 2 -1 -4 | X

Z | 0 0 1 3 -5 3 3 -1 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3 1 | *

X | 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |

--+-------------------------------------------------------------------------+---

A R N D C Q E G H I L K M F P S T W Y V B Z X *

Glx Asx

Esquema de Pesos ┌───┬───┬───┬───┬───┐ │ │ A │ C │ G │ T │ ├───┼───┼───┼───┼───┤ │ A │ 4 │-3 │ 1 │-3 │ ├───┼───┼───┼───┼───┤ │ C │-3 │ 4 │-3 │ 1 │ ├───┼───┼───┼───┼───┤ │ G │ 1 │-3 │ 4 │-3 │ ├───┼───┼───┼───┼───┤ │ T │-3 │ 1 │-3 │ 4 │ └───┴───┴───┴───┴───┘

4: Residuos iguales 1: Residuos del mismo tipo purinas (AG), pirimidinas (CT) -3: Combinaciones restantes.

Score 1 4 4-3 4 4-3 1-3 4

SeqH G T C C G A C T A G T G

SeqV C A T C G G A G C T G

Acum 1 5 9 6 1 1 1 1 9 1

0 4 1 2 3

G T C C G A C T A G

C -3 1 4 4 -3 -3 4 1 -3 -3

A 1 -3 -3 -3 1 4 -3 -3 4 1

T -3 4 1 1 -3 -3 1 4 -3 -3

C -3 1 4 4 -3 -3 4 1 -3 -3

G 4 -3 -3 -3 4 1 -3 -3 1 4

A 1 -3 -3 -3 1 4 -3 -3 4 1

G 4 -3 -3 -3 4 1 -3 -3 1 4

C -3 1 4 4 -3 -3 4 1 -3 -3

T -3 4 1 1 -3 -3 1 4 -3 -3

G 4 -3 -3 -3 4 1 -3 -3 1 4

4 -6 -2 3 7 0 -14 -13 13

Comparación por Semejanzas (Global)

Needleman-Wunsch

Comparación por Semejanzas (LOCAL)

Fragmento con puntuación acumulada máxima

No se puede incrementar estirando ni recortando por los extremos

Inicia en Celda positiva

Avanza acumulando valores

(mientras acum>0)

Fin: Fin de diagonal

Acumulado < 0

-> regresar al máximo

No incorpora zonas no-conservadas

G T C C G A C T A G T G

C -1 -4 (4 -4 (1 (1

A (1 1 (4 4 (1 1)=2

T 4 (1 -1 -3 1 (4 -3 4)=5

C -1 4 4 4)=6 1 -3 1

G -4 -3 4 -1 1 4)=5 4)=7

G -4 4 1)=10 (1 4 -4

A -1 (1 4)=14 (4 1)=2 -3 -1

G (4 -4 1 -1 4 4)=1

2C 1 (4 -4 4 -1 1)=9

T -4 1)=6 1 -1 4 (4

G -4 4)=9 -1 1)=11 -4 4)8

┌───┬───┬───┬───┬───┐ │ │ A │ C │ G │ T │ ├───┼───┼───┼───┼───┤ │ A │ 4 │-3 │ 1 │-3 │ ├───┼───┼───┼───┼───┤ │ C │-3 │ 4 │-3 │ 1 │ ├───┼───┼───┼───┼───┤ │ G │ 1 │-3 │ 4 │-3 │ ├───┼───┼───┼───┼───┤ │ T │-3 │ 1 │-3 │ 4 │ └───┴───┴───┴───┴───┘

Recorrido Exhaustivo de Diagonales

Smith-Waterman

Global vs local Needleman-Wunsch / Smith-Waterman

Diag. 0: 2 [n+m-1 diags]

D. -1: 5 D.1: 2

-2: 2 D.2: 3

-3: 1 D.3: 2

-4: 1 D.4: 3

-5: 2 D.5: 2

-6: 2 D.6: 2

-7: 1 D.7: 2

-8: 1 D.8: 1

-9: 0 D.9: 0

-10: 1 D10: 0

D11: 0

Una Heurística para Comparar por Semejanza Velocidad a cambio de Precisión

No asegura un resultado óptimo, pero en ocasiones es la única solución

Exhaustivo : Recorrer todas las diagonales O(NM)

Heurístico : Limitar las diagonales a recorrer (aquellas con más identidades)

Posic: 123456789012

Seq.H: GTCCGACTAGTG

Tabla A : 6, 9

Hash C : 3, 4, 7

G : 1, 5,10,12

T : 2, 8,11

Secuencia a comparar

Posic: 12345678901

Seq.V: CATCGGAGCTG

Diag = (h - v)

si xh alínea con yv

Sensibilidad

recursos

Lipman & Pearson

Las Interrupciones (Gaps) Aumentar el parecido deformando los

objetos

X: TCAG-ACG-ATTG TCAGACGATTG

|| | | | | | || || | | |

Y: ATC-GGA-GC-T-G ATCGGA-GCT-G

La idea

Frg {TT, CC, AG, GG, AA} (Sc=18) puede:

(a) Extender en diagonal (C y G) sin gaps

(pierde 3 puntos, hasta 15).

(b) Emparejar C (sX) con alguno (CTG) sY

(gaps en sY)

(c) Emparejar G (sY) con alguno (GATTG) sX

(gaps en la sec.X)

Programación Dinámica

Esquema de Pesos

[ 4] residuos iguales

[ 2] residuos del mismo tipo

[-3] Resto.

iGap: -5

eGap: -2

Mejor alineamiento:

TCAGACGATTG

||.|| ..||

ATCGGA--GCTG

Clasificación de las aplicaciones

N=1, M=1

Pairwise comparison (lo visto hasta ahora).

N=1, M>>1

Búsquedas en bases de datos : FASTA, BLAST, PSI-BLAST

N>1, M>1

Alineamiento múltiple : PILEUP, CLUSTAL-W, T-COFFEE, HMMs

Búsquedas Rápidas: FASTA (Lipman & Pearson, 1985, Pearson & Lipman 1988)

Etapa I : Búsqueda de Regiones (diagonales) por

Identidad y sin Gaps Uso de k-tuplas para acelerar

Resultado : Las mejores diagonales (10) Complejidad O(N+M)

Etapa II:Re-evaluación de las regiones por semejanza Unión de regiones con Gaps

Etapa III:Evaluación exhaustiva de las mejores secuencias

Reducir el espacio de búsqueda

¿ En qué diagonales es más probable que se encuentre el mejor alineamiento ?

Reducciones de hasta 2 órdenes de magnitud en los tiempos de búsqueda. Velocidad a cambio de sensibilidad y selectividad

(pierde reemplazos conservativos y palabras más pequeñas que k)

Basic Local Alignment Search Tool (BLAST)

Altschul, S.F., Gish W., Miller W., Myers E.W., and Lipman D.J. J. Mol. Biol. (1990) 215:403-10.

Identificación de las mejores diagonales utilizando criterios de semejanza

Uso de k-tuplas por semejanza (amplía el espacio de búsqueda de FASTA)

Corte estadístico (baja probabilidad de ocurrencia)

(a) Identificación rápida de segmentos (MSP: maximal segment pair.

Segmento: sub-secuencia continua de cualquier longitud.

Puntaje: Suma de la semejanza de cada par

(b) Análisis detallado de MSPs con mas probabilidad de formar el alineamiento final

- Artículo más citado en la década de los 90 -

P = 1 – e -E

E = -KMn e -lS

e-value (E)

A partir de un modelo en el que estudiaron qué “scores” alcanzaban los alineamientos de secuencias

generadas al azar (según las frecuencias observadas de aminoácidos), Karlin & Altschul desarrollaron la

siguiente fórmula para el cálculo del e-value:

El e-value (E) de un determinado score indica cuántos alineamientos esperamos que por azar alcancen

un score igual o mayor (no confundir con el p-value, que indica la probabilidad de que un score se haya

alcanzado por azar al menos en una ocasión). E-value y p-value se relacionan mediante la siguiente

fórmula:

(P y E tienen un valor prácticamente

idéntico en la escala de 0 a 0.01)

En una búsqueda en bases de datos de secuencia, K y l son dos parámetros que se determinan

empíricamente a partir del máximo y la anchura de la distribución de “scores” tras la comparación de

secuencias “random”, N es la longitud de la secuencia y S es el “score” del alineamiento. M es el tamaño

de la base de datos (número total de aminoácidos o nucleótidos; tras aplicar una cierta corrección).

Más información:

http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html

Lesk, AM. Introduction to Bioinformatics. 2nd Ed. p183

Probability values

10-1: reliable

(Large databases, as

GenBank, EMBL,

Uniprot, PDB..)

10-5: almost certain

P = 1 – e -E

E = -KMn e -lS

P-value

0 < < 1

0 < < M

Gapped BLAST and PSI-BLAST. A new Generation of Protein DB search Programs. Altschul, S.F., Madden T.L., Schaffer A.A., Zhanng J., Zhang Z., Miller W., and Lipman

D.J. Nucleid Acids Research (1997) 25: 3389-3402 PSI-BLAST: Búsqueda iterativa

Construcción de una matriz de pesos específica por posición.

Uso de la matriz para realizar una nueva búsqueda.

Intermediate sequence searches:

PROTOMAP database

Alineamientos múltiples

Si alinear 2 secuencias de 300 residuos tardase 1 segundo:

Entonces:

alinear 3 secuencias tardaría 300 segundos

alinear 10 secuencias aprox 3008 segs (+ que la edad del universo)

CLUSTAL-W:

Clustal-W: improving the sensitivity of progressive multiple sequence alignment

through sequence weighting position specific gap penalties and weight matrix choice.

Thomson JD, Higgins DG, Gibson TJ (1994)

Nucleid Acids Research 22, 4673-4680.

Formación de clusters de secuencias (Clustal-W): La pareja más parecida se alinea para formar un único cluster. Este cluster se toma ahora como una sola secuencia y el proceso se repite hasta tener un solo cluster con todas las secuencias alineadas. Los alineamientos múltiples permiten: Inferir filogenias. Construir perfiles.

T-COFFEE:

T-Coffee: a novel method for fast and accurate multiple sequence alignment.

Notredame C, Higgins DG & Heringa J. (2000)

Journal of Molecular Biology. 302, 205-217.

Motivos, perfiles y dominios

¿A qué llamamos motivos?

Observación: En proteínas de la misma familia podemos

detectar pequeñas regiones conservadas, a menudo asociadas

a su función.

Ej. Sitios de unión, centros activos de enzimas, etc.

Características: La conservación no es perfecta. No son

detectables mediante técnicas de homología de secuencia

(BLAST, FASTA, etc).

Y… ¿para qué se usan?

Los motivos se conservan incluso a grandes distancias

evolutivas debido a restricciones estructurales o funcionales

luego...

Están relacionados con la función Predicción

Se conservan Detección de homólogos remotos

Motivos: descripción

•Expresiones regulares

•Perfiles

•HMMs

Expresiones regulares

ALRDFATHDDF

SMTAEATHDSI

ECDQAATHEAS

A-T-H-[DE]

Expresiones regulares

•Cualquier aminoácido: x

•Ambigüedad: [A,B…] A, o B... o {A,B..} cualquiera menos A, B…

•Repetición: A(2,4) A-A o A-A-A o A-A-A-A

•N terminal: <, C-terminal: >

[AC]-x-V-x(4)-{E,D}.

[Ala or Cys]-any-Val-any-any-

any-any-{any but Glu or Asp}

F K L L S H C L L V F K A F G Q T M F Q

Y P I V G Q E L L G

F P V V K E A I L K

F K V L A A V I A D

L E F I S E C I I Q

F K L L G N V L V C

A -18 -10 -1 -8 8 -3 3 -10 -2 -8

C -22 -33 -18 -18 -22 -26 22 -24 -19 -7

D -35 0 -32 -33 -7 6 -17 -34 -31 0

E -27 15 -25 -26 -9 23 -9 -24 -23 -1

F 60 -30 12 14 -26 -29 -15 4 12 -29

G -30 -20 -28 -32 28 -14 -23 -33 -27 -5

H -13 -12 -25 -25 -16 14 -22 -22 -23 -10

I 3 -27 21 25 -29 -23 -8 33 19 -23

K -26 25 -25 -27 -6 4 -15 -27 -26 0

L 14 -28 19 27 -27 -20 -9 33 26 -21

M 3 -15 10 14 -17 -10 -9 25 12 -11

N -22 -6 -24 -27 1 8 -15 -24 -24 -4

P -30 24 -26 -28 -14 -10 -22 -24 -26 -18

Q -32 5 -25 -26 -9 24 -16 -17 -23 7

R -18 9 -22 -22 -10 0 -18 -23 -22 -4

S -22 -8 -16 -21 11 2 -1 -24 -19 -4

T -10 -10 -6 -7 -5 -8 2 -10 -7 -11

V 0 -25 22 25 -19 -26 6 19 16 -16

W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28

Y 34 -18 -1 1 -23 -12 -19 0 0 -18

Más sensibles que las

expresiones regulares

A tiene más baja probabilidad que M

que, aunque no aparece, sabemos

que M es fisicoquímicamente más

similar a L, I, V y F.

Usa pesos discriminatorios no solo

para los AAs que aparecen. Para los

que no aparecen se basan en las

frecuencias observadas y en la

probabilidad de que el AA sea

sustituido

Perfiles

Hidden Markov models (HMMs) son modelos estadísticos

de la estructura primaria de las secuencias.

Se supone que lo que vemos es resultado de un proceso

oculto (hidden) del que tenemos un modelo.

Todos o algunos

de los parámetros

pueden ser

estimados de los

HMMs y motivos

Este es el más usado. Corresponde a un alineamiento con

tres estados (m1, m2, m3) con 20 probabilidades de ser un

residuo (barras) cuatro estados de inserción (i0, i1, i2, i3) y

tres estados de delección (d1, d2, d3). Las flechas representan

las probabilidades de transición entre estados

Bases de datos

PROSITE: Expresiones regulares y perfiles.

Basada en motivos conocidos (SwissProt)

BLOCKS: Perfiles. Basada en PROSITE.

PRINTS: Perfiles. Basada en motivos conocidos

Pfam: Perfiles HMM.

Generación automática de motivos.

SwissProt + SP-TrEMBL

Comparación Información

Precisión

Expresiones

regulares

Perfiles

simples múltiples HMMs

issPro

PROSITE BLOCKS PRINTS

http://www.sanger.ac.uk/Pfam

Pfam Protein families database

of alignments and HMMs

pfam-A & pfam-B

(UniProt)

Pfam Protein families database of alignments and HMMs

Molecular chaperonin GroEL

subunit heptamer ATP

(Dr Jianpeng Ma, Harvard Univ.)

Extracción de información evolutiva a partir de alineamientos múltiples de proteína.

Information extracted from multiple sequence alignments

Integration of Evolutive Information

conserved

tree-determinants correlated mutations

conserved

a4 b5 a3 b4 b3

a6 b7 b6 a5

a1 b1 b2 a2

a8 b8 a7

Hydroxymethylglutaryl-CoA lyase (HMGL)

F.G. HEGARDT. UB

J. PIE. Univ. Zar.

N . CASALS. UIC.

Hydroxymethylglutaryl-CoA lyase (HMGL)

D42 R41

E279 S75

L263 D42 R41 H233

FG. Hegardt

J. Pie

N. Casals

correlated mutations

SINGLE

MUTATION

DECREASED

STABILITY

"RESTORED"

STABILITY SECOND COMPENSATORY

MUTATION

Correlated Mutations

Pazos et al.

J. Mol. Biol., 1997

Correlated mutations

D415 (monomer A)

R297 (monomer B)

Phenylalanine hydroxylase (PAH)

homotetramer.

intra-protein contacts

inter-protein contacts

tree-determinants

L-CPT I

M-CPT I

CPT II

malonyl-CoA regulated

malonyl-CoA insensitive

choline

carnitine

carnitine/choline acyl transferases F.G. Hegardt

Malonyl-CoA regulation: Met vs. Ser

Carnitine-Choline: Thr/Glu/Thr vs. Val/Asp/Asn

Short vs. Long substrate: Gly vs. Met

palmitoyl-CoA

carnitine

Model (Cordente et al, 2004; JBC)

Crystal structure (Hsiao et al, 2004; JBC)

Dto. Arquitectura de Computadores

Universidad de Málaga

Oswaldo Trelles

Gracias a:

Joaquín Dopazo CSAT - Príncipe Felipe

Valencia

Museo Nacional de Ciencias

Naturales. Madrid

Federico Abascal

Cuestiones…

Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza...

Documents

Transcript of Alineamiento de Secuenciasbioweb.cbm.uam.es/courses/MasterVirol2013/... · Depende de la semejanza...

alineamiento dial invertido.pdf

Cam_p 3a Alineamiento

CURSO ALINEAMIENTO

ALINEAMIENTO HORIZONTAL1

Manual alineamiento Laser

SEMEJANZA - lc.fie.umich.mx

S2 semejanza

Alineamiento horizontal trabajo

Memoria Sobre Alineamiento

Alineamiento ç

Alineamiento y Nivelacion

Semejanza 1

ALINEAMIENTO (1)

TECNICAS ALINEAMIENTO

Autoevaluación: La semejanza. Aplicacionesceahformacion.es/data/documents/E4M_6_la semejanza aplicaciones.pdf · Aplicaciones Unidad 6. La semejanza. Aplicaciones PÁGINA 139 ¿Manejas

Alineamiento de ejes

Alineamiento Vertical_curva Vertical

Alineamiento de bombas

05 casos de semejanza y congruencia de triángulos semejanza

Puente Alineamiento