Post on 25-Aug-2020
Paulino Gomez-Puertas Bioinformática.
Alineamiento de Secuencias
INTRODUCCIÓN A LA BIOINFORMÁTICA
2012
Paulino Gomez-Puertas Bioinformática.
¿ Por qué comparar secuencias ?
¿ Cómo comparar secuencias ?
Paulino Gomez-Puertas Bioinformática.
¿ Por qué comparar secuencias ?
Paulino Gomez-Puertas Bioinformática.
Molecular chaperonin
GroEL
subunit
heptamer
(Dr Jianpeng Ma, Harvard Univ.)
ATP
¿ Por qué comparar secuencias ?
Paulino Gomez-Puertas Bioinformática.
Cambios en las secuencias :
• Reemplazo puntual – Sinónimos/No-Sinónimos
• Inserción y Delección (InDels) – Afecta pautas de
lectura
• Traslocación
• Duplicación
The Standard Code
AAA K ACA T AGA R ATA I
AAC N ACC T AGC S ATC I
AAG K ACG T AGG R ATG M
AAT N ACT T AGT S ATT I
CAA Q CCA P CGA R CTA L
CAC H CCC P CGC R CTC L
CAG Q CCG P CGG R CTG L
CAT H CCT P CGT R CTT L
GAA E GCA A GGA G GTA V
GAC D GCC A GGC G GTG V
GAG E GCG A GGG G GTG V
GAT D GCT A GGT G GTT V
TAA . TCA S TGA . TTA L
TAC Y TCC S TGC C TTC F
TAG . TCG S TGG W TTG L
TAT Y TCT S TGT C TTT F
¿ Por qué comparar secuencias ?
GAT GCA TAG
ATG GAC CCA CGT TCG GAG MDPRSE… DA *
Paulino Gomez-Puertas Bioinformática.
Modelo evolutivo: cambio al azar + selección natural
Hace mucho tiempo… ACCGTACGGTTAA
ACGGTACGGTTAA
ACCGTCCGGTTAA
ACCGT-CGGTTAA
CCCGTACGGTTAA
ACCCGTACGGTTAA
ACCG-CCGGTTAA
ACCCTCCGGTTAA
ACCGTCCGGTTCCCAA
TCCGTCCGGTTAA
ACCGTCCGCTTAA
Etc, etc…
tiempo
x n especies
ACCTCTAGTTAA
ACCGTTCCGAA
ACCGTCCGGTTGA
GGAGTACGGTTAA
ACCTGCAATTA
ACCGTACGGTTATA
ACCGTCGTAA
ACCGTACCCCGGTTAA GCCGTACCGTGGTCCA
CCGTCCCGTTAA
AACCGTACGGTTAA
¿ Por qué comparar secuencias ?
(F. Abascal, 2008)
Paulino Gomez-Puertas Bioinformática.
¿ Por qué comparar secuencias ?
Paulino Gomez-Puertas Bioinformática.
Cambio al azar + selección natural + duplicaciones génicas
Superfamilia: grupo de proteínas
con un origen común.
Familia / Subfamilia: grupo de
proteínas con una función común
(jerarquía subjetiva).
proteínas ATP/GTP binding (superfamilia)
familia ras proteínas GTP-binding
factores de elongación
proteínas ATP-binding
rab (H. sapiens)
rab (M. musculus)
rab (C. elegans)
ras (H. sapiens)
ras (M. musculus)
ras (C. elegans)
ras2 (H. sapiens)
Subfamilia ras
Subfamilia rab Dos formas de representarlo
ras rab
(F. Abascal, 2008)
Paulino Gomez-Puertas Bioinformática.
Homólogos: ortólogos y parálogos.
Ortólogos: genes que comparten el
último ancestro común y cuya
divergencia se debe a la
especiación.
Los mismos genes en distintas
especies.
Parálogos: genes que debido a una
duplicación, ya no comparten el
último ancestro. Frecuentemente
tienen funciones distintas.
(F. Abascal, 2008)
Paulino Gomez-Puertas Bioinformática.
Paulino Gomez-Puertas Bioinformática.
DnaK
FtsA
Actin
Hexokinase
Hsc70
MreB
Paulino Gomez-Puertas Bioinformática.
Structural alignment
Paulino Gomez-Puertas Bioinformática.
Structural alignment
Paulino Gomez-Puertas Bioinformática.
Structure comparison
¿ Cómo comparar secuencias ?
http://www.ebi.ac.uk/dali/
FSSP DaliDD CATH SCOP
Paulino Gomez-Puertas Bioinformática.
EMBL
PDB
Paulino Gomez-Puertas Bioinformática.
Comparación de secuencias
Paulino Gomez-Puertas Bioinformática.
Secuencia. Cadena lineal finita y ordenada de símbolos
pertenecientes a un alfabeto
Alfabeto. Conjunto de símbolos básicos de las secuencias
ADN: A= {a,c,g,t|u}
Proteinas= A={a,c,d,e,f,g,h,I,k,l,m,n,p,q,r,s,t,v,w,y}
ADN y Proteinas son cadenas co-lineales
Existen otros diversos alfabetos
Comparación. Encontrar la posición relativa entre dos
secuencias que maximice su parecido
Conceptos Generales
Paulino Gomez-Puertas Bioinformática.
Seq X = TCA GAC GAT TG (n=11)
Seq Y = ATC GGA GCT G (m=10)
Comparación por Identidades
Algoritmo: Desplazar una secuencia debajo de la otra anotando el número de coincidencias que ocurren, seleccionando como resultado
la posición de mayor valor
Paulino Gomez-Puertas Bioinformática.
TCAGACGATTG (r=0)
ATCGGAGCTG
TCAGACGATTG (r=1)
ATCGGAGCTG
TCAGACGATTG (r=0)
ATCGGAGCTG
TCAGACGATTG (r=4)
ATCGGAGCTG
TCAGACGATTG (r=2)
ATCGGAGCTG
TCAGACGATTG (r=0)
ATCGGAGCTG
TCAGACGATTG (r=0)
ATCGGAGCTG
Resultado: Posición con mayor número de coincidencias
TCAGACGATTG (r=4)
ATCGGAGCTG
Comparación por Identidades
Paulino Gomez-Puertas Bioinformática.
0 1 2 3 4 5 6 7 8 9 10 11
┌───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┐
0 │ │ T │ C │ A │ G │ A │ C │ G │ A │ T │ T │ G │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-1 │ A │ │ │ 1 │ │ 1 │ │ │ 1 │ │ │ │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-2 │ T │ 1 │ │ │ │ │ │ │ │ 2 │ 1 │ │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-3 │ C │ │ 2 │ │ │ │ 1 │ │ │ │ │ │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-4 │ G │ │ │ │ 1 │ │ │ 2 │ │ │ │ 3 │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-5 │ G │ │ │ │ 3 │ │ │ 1 │ │ │ │ 1 │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-6 │ A │ │ │ 1 │ │ 4 │ │ │ 2 │ │ │ │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-7 │ G │ │ │ │ 2 │ │ │ 2 │ │ │ │ 2 │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-8 │ C │ │ 1 │ │ │ │ 1 │ │ │ │ │ │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-9 │ T │ 1 │ │ │ │ │ │ │ │ 3 │ 1 │ │
├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤
-10│ G │ │ │ │ 2 │ │ │ 3 │ │ │ │ 2 │
└───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┘
TCAGACGATTG (r=4)
|| ||
ATCGGAGCTG
h 12345
sH ACCGT
sV CAGT
v 1234
D= h – v Si xh alínea con yv
Diagonal = desplazamiento relativo entre secuencias
Comparación por Identidades
Paulino Gomez-Puertas Bioinformática.
ACCGT ACCGT
CAGT CAGT
ACCGT ACCGT
CAGT CAGT
ACCGT ACCGT
CAGT CAGT
ACCGT ACCGT
CAGT CAGT
A C C G T
C
A
G
T
2 Complejidad algorítmica O(N * M) O(N )
Desplazar una secuencia bajo la otra equivale a recorrer una
matriz por sus diagonales.
Comparación por Identidades
Paulino Gomez-Puertas Bioinformática.
Los fragmentos alineados aparecen
como diagonales en la matriz
Comparación por Identidades
Paulino Gomez-Puertas Bioinformática.
Comparación por Identidades
Paulino Gomez-Puertas Bioinformática.
Reducción de la Complejidad Algorítmica Optimización para reducir tiempos de cálculo
Tabla de Dispersión (Hash)
Lista con las posiciones de los símbolos de la secuencia
pos : 1234 5678 901
seqX : TCAG ACGA TTG n=11 Tabla Hash (seqX) A 3, 5, 8 C 2, 6 G 4, 7, 11 T 1, 9, 10
Secuencia a comparar
pos : 1234567890
seqY: ATCGGAGCTG m=10
Acumular identidades en cada diagonal
(d= h - v, si xh alínea con yv)
y1 (A) en d2 (3-1), d4 (5-1) y d7 (8-1) y2 (T) en d-1 (1-2), d7 (9-2) y d8 (10-2)
Complejidad : Cada elemento de sY vs el número de elementos hash para ese símbolo
O(N*media) media=M / LongTabla (N, M long de SeqX y SeqY)
k-tuplas : [+] entradas (L=lAlfk) -> [-] elementos por entrada
Proteinas : lAlf=20, Si k=2 => L= 202 = 400 entradas. Long. Proteina N=400 -> 1 valor por entrada => complejidad O(N+M)
Paulino Gomez-Puertas Bioinformática.
Comparación por Semejanzas Mejoras en la Sensibilidad
Limitaciones de los Métodos
basados en Identidad
•Código genético redundante
•Sustituciones sin influencia sobre la función global
•Inserción y pérdida de residuos.
•Cantidad de información (frecuencia) de cada símbolo
•Conocimiento biológico en la valoración
Distancia: El coste de transformar una secuencia en otra por medio de la aplicación de una serie de operaciones (sustitución, inserción, borrado), cada una con un coste asociado. Para cada pareja de símbolos (ai,aj) A2 un esquema de costes w(ai,aj) establece la relación entre ellos
AQUI
Paulino Gomez-Puertas Bioinformática.
Esquemas de Puntuación Capturar el significado biológico de las semejanzas
Considerar los reemplazos conservativos y las diferencias en las frecuencias observadas
Matrices PAM. Dayhoff (1972) Evolutivo, proporcional a log(fAB/f'
AB) para alinear el residuo A con el B fAB frecuencia AB en alineamientos relacionados f'
AB frecuencia en los alineamientos no relacionados (f'AB=fAxfB)
fAB Depende de la semejanza entre las proteinas
[Pequeña] para secuencias muy relacionadas [Crece] a mayores distancias evolutivas [Azar] a distancias evolutivas muy grandes
Fuente: Alineamientos múltiples con no más de un 15% de diferencias por identidad. Tablas de las frecuencias de sustitución entre residuos
Normalizar (en 100 residuos 1 mutación) => PAM, 1% Percent Accepted Mutation Extrapolar a diferentes distancias (120, 250, 320, etc) PAMs.
v
Paulino Gomez-Puertas Bioinformática.
Esquemas de Puntuación Capturar el significado biológico de las semejanzas
Matrices BLOSUM. Altschul (1991) No se conoce a priori lo semejante que son las secuencias a buscar PAM extrapola las relaciones lejanas a partir de relaciones cercanas (Hipótesis que favorece las posiciones más mutables)
BLOSUMnn (BLOcks SUbstitution Matrices) (nn : umbral de identidad utilizado para la seleccionar bloques) Un blosum bajo (umbral bajo de identidad) se corresponde con un número alto de PAM (distancia evolutiva grande).
EKPRKVMLMVRAGDVVDQFIEALLPHLEEG
EKPRKIFLMVTAGKPVDSVIQSLKPLLEEG
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRRILLMVKAGAGTDAAIDSLKPYLDKG
ETPRRILLMVKAGSGTDSAIDSLKPYLDKG
Fuente: Alineamientos de bloques de secuencias.
Bloque Matriz cuyas filas representan
segmentos de secuencias
alineadas sin interrupciones
Paulino Gomez-Puertas Bioinformática.
Esquemas de Puntuación Capturar el significado biológico de las semejanzas
pam250 (inferior) y BLOSUM62 (superior)
A R N D C Q E G H I L K M F P S T W Y V B Z X *
--+-------------------------------------------------------------------------+---
| 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 | A
| 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 | R
A | 2 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 | N
R | -2 6 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 | D
N | 0 0 2 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 | C
D | 0 -1 2 4 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 | Q
C | -2 -4 -4 -5 12 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 | E
Q | 0 1 1 2 -5 4 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 | G
E | 0 -1 1 3 -5 2 4 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 | H
G | 1 -3 0 1 -3 -1 0 5 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 | I
H | -1 2 2 1 -3 3 1 -2 6 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 | L
I | -1 -2 -2 -2 -2 -2 -2 -3 -2 5 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 | K
L | -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 | M
K | -1 3 1 0 -5 1 0 -2 0 -2 -3 5 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 | F
M | -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 | P
F | -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 4 1 -3 -2 -2 0 0 0 -4 | S
P | 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6 5 -2 -2 0 -1 -1 0 -4 | T
S | 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 11 2 -3 -4 -3 -2 -4 | W
T | 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 7 -1 -3 -2 -1 -4 | Y
W | -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 4 -3 -2 -1 -4 | V
Y | -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 4 1 -1 -4 | B
V | 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 4 -1 -4 | Z
B | 0 -1 2 3 -4 1 2 0 1 -2 -3 1 -2 -5 -1 0 0 -5 -3 -2 2 -1 -4 | X
Z | 0 0 1 3 -5 3 3 -1 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3 1 | *
X | 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |
--+-------------------------------------------------------------------------+---
A R N D C Q E G H I L K M F P S T W Y V B Z X *
Glx Asx
Glx
Asx
Paulino Gomez-Puertas Bioinformática.
Esquemas de Puntuación Capturar el significado biológico de las semejanzas
Glx Asx
Paulino Gomez-Puertas Bioinformática.
Esquema de Pesos ┌───┬───┬───┬───┬───┐ │ │ A │ C │ G │ T │ ├───┼───┼───┼───┼───┤ │ A │ 4 │-3 │ 1 │-3 │ ├───┼───┼───┼───┼───┤ │ C │-3 │ 4 │-3 │ 1 │ ├───┼───┼───┼───┼───┤ │ G │ 1 │-3 │ 4 │-3 │ ├───┼───┼───┼───┼───┤ │ T │-3 │ 1 │-3 │ 4 │ └───┴───┴───┴───┴───┘
4: Residuos iguales 1: Residuos del mismo tipo purinas (AG), pirimidinas (CT) -3: Combinaciones restantes.
Score 1 4 4-3 4 4-3 1-3 4
SeqH G T C C G A C T A G T G
SeqV C A T C G G A G C T G
Acum 1 5 9 6 1 1 1 1 9 1
0 4 1 2 3
G T C C G A C T A G
C -3 1 4 4 -3 -3 4 1 -3 -3
A 1 -3 -3 -3 1 4 -3 -3 4 1
T -3 4 1 1 -3 -3 1 4 -3 -3
C -3 1 4 4 -3 -3 4 1 -3 -3
G 4 -3 -3 -3 4 1 -3 -3 1 4
G 4 -3 -3 -3 4 1 -3 -3 1 4
A 1 -3 -3 -3 1 4 -3 -3 4 1
G 4 -3 -3 -3 4 1 -3 -3 1 4
C -3 1 4 4 -3 -3 4 1 -3 -3
T -3 4 1 1 -3 -3 1 4 -3 -3
G 4 -3 -3 -3 4 1 -3 -3 1 4
4 -6 -2 3 7 0 -14 -13 13
Comparación por Semejanzas (Global)
Needleman-Wunsch
Paulino Gomez-Puertas Bioinformática.
Comparación por Semejanzas (LOCAL)
Fragmento con puntuación acumulada máxima
No se puede incrementar estirando ni recortando por los extremos
Inicia en Celda positiva
Avanza acumulando valores
(mientras acum>0)
Fin: Fin de diagonal
Acumulado < 0
-> regresar al máximo
No incorpora zonas no-conservadas
G T C C G A C T A G T G
C -1 -4 (4 -4 (1 (1
A (1 1 (4 4 (1 1)=2
T 4 (1 -1 -3 1 (4 -3 4)=5
C -1 4 4 4)=6 1 -3 1
G -4 -3 4 -1 1 4)=5 4)=7
G -4 4 1)=10 (1 4 -4
A -1 (1 4)=14 (4 1)=2 -3 -1
G (4 -4 1 -1 4 4)=1
2C 1 (4 -4 4 -1 1)=9
T -4 1)=6 1 -1 4 (4
G -4 4)=9 -1 1)=11 -4 4)8
┌───┬───┬───┬───┬───┐ │ │ A │ C │ G │ T │ ├───┼───┼───┼───┼───┤ │ A │ 4 │-3 │ 1 │-3 │ ├───┼───┼───┼───┼───┤ │ C │-3 │ 4 │-3 │ 1 │ ├───┼───┼───┼───┼───┤ │ G │ 1 │-3 │ 4 │-3 │ ├───┼───┼───┼───┼───┤ │ T │-3 │ 1 │-3 │ 4 │ └───┴───┴───┴───┴───┘
Recorrido Exhaustivo de Diagonales
Smith-Waterman
Paulino Gomez-Puertas Bioinformática.
Global vs local Needleman-Wunsch / Smith-Waterman
Paulino Gomez-Puertas Bioinformática.
Diag. 0: 2 [n+m-1 diags]
D. -1: 5 D.1: 2
-2: 2 D.2: 3
-3: 1 D.3: 2
-4: 1 D.4: 3
-5: 2 D.5: 2
-6: 2 D.6: 2
-7: 1 D.7: 2
-8: 1 D.8: 1
-9: 0 D.9: 0
-10: 1 D10: 0
D11: 0
Una Heurística para Comparar por Semejanza Velocidad a cambio de Precisión
No asegura un resultado óptimo, pero en ocasiones es la única solución
Exhaustivo : Recorrer todas las diagonales O(NM)
Heurístico : Limitar las diagonales a recorrer (aquellas con más identidades)
Posic: 123456789012
Seq.H: GTCCGACTAGTG
Tabla A : 6, 9
Hash C : 3, 4, 7
G : 1, 5,10,12
T : 2, 8,11
Secuencia a comparar
Posic: 12345678901
Seq.V: CATCGGAGCTG
Diag = (h - v)
si xh alínea con yv
Sensibilidad
vs.
recursos
Lipman & Pearson
Paulino Gomez-Puertas Bioinformática.
Las Interrupciones (Gaps) Aumentar el parecido deformando los
objetos
X: TCAG-ACG-ATTG TCAGACGATTG
|| | | | | | || || | | |
Y: ATC-GGA-GC-T-G ATCGGA-GCT-G
La idea
Frg {TT, CC, AG, GG, AA} (Sc=18) puede:
(a) Extender en diagonal (C y G) sin gaps
(pierde 3 puntos, hasta 15).
(b) Emparejar C (sX) con alguno (CTG) sY
(gaps en sY)
(c) Emparejar G (sY) con alguno (GATTG) sX
(gaps en la sec.X)
Paulino Gomez-Puertas Bioinformática.
Programación Dinámica
Esquema de Pesos
[ 4] residuos iguales
[ 2] residuos del mismo tipo
[-3] Resto.
iGap: -5
eGap: -2
Mejor alineamiento:
TCAGACGATTG
||.|| ..||
ATCGGA--GCTG
Paulino Gomez-Puertas Bioinformática.
Clasificación de las aplicaciones
N=1, M=1
Pairwise comparison (lo visto hasta ahora).
N=1, M>>1
Búsquedas en bases de datos : FASTA, BLAST, PSI-BLAST
N>1, M>1
Alineamiento múltiple : PILEUP, CLUSTAL-W, T-COFFEE, HMMs
Paulino Gomez-Puertas Bioinformática.
Búsquedas Rápidas: FASTA (Lipman & Pearson, 1985, Pearson & Lipman 1988)
Etapa I : Búsqueda de Regiones (diagonales) por
Identidad y sin Gaps Uso de k-tuplas para acelerar
Resultado : Las mejores diagonales (10) Complejidad O(N+M)
Etapa II:Re-evaluación de las regiones por semejanza Unión de regiones con Gaps
Etapa III:Evaluación exhaustiva de las mejores secuencias
Reducir el espacio de búsqueda
¿ En qué diagonales es más probable que se encuentre el mejor alineamiento ?
Reducciones de hasta 2 órdenes de magnitud en los tiempos de búsqueda. Velocidad a cambio de sensibilidad y selectividad
(pierde reemplazos conservativos y palabras más pequeñas que k)
Paulino Gomez-Puertas Bioinformática.
Basic Local Alignment Search Tool (BLAST)
Altschul, S.F., Gish W., Miller W., Myers E.W., and Lipman D.J. J. Mol. Biol. (1990) 215:403-10.
Identificación de las mejores diagonales utilizando criterios de semejanza
Uso de k-tuplas por semejanza (amplía el espacio de búsqueda de FASTA)
Corte estadístico (baja probabilidad de ocurrencia)
(a) Identificación rápida de segmentos (MSP: maximal segment pair.
Segmento: sub-secuencia continua de cualquier longitud.
Puntaje: Suma de la semejanza de cada par
(b) Análisis detallado de MSPs con mas probabilidad de formar el alineamiento final
- Artículo más citado en la década de los 90 -
Paulino Gomez-Puertas Bioinformática.
Basic Local Alignment Search Tool (BLAST)
P = 1 – e -E
E = -KMn e -lS
e-value (E)
A partir de un modelo en el que estudiaron qué “scores” alcanzaban los alineamientos de secuencias
generadas al azar (según las frecuencias observadas de aminoácidos), Karlin & Altschul desarrollaron la
siguiente fórmula para el cálculo del e-value:
El e-value (E) de un determinado score indica cuántos alineamientos esperamos que por azar alcancen
un score igual o mayor (no confundir con el p-value, que indica la probabilidad de que un score se haya
alcanzado por azar al menos en una ocasión). E-value y p-value se relacionan mediante la siguiente
fórmula:
(P y E tienen un valor prácticamente
idéntico en la escala de 0 a 0.01)
En una búsqueda en bases de datos de secuencia, K y l son dos parámetros que se determinan
empíricamente a partir del máximo y la anchura de la distribución de “scores” tras la comparación de
secuencias “random”, N es la longitud de la secuencia y S es el “score” del alineamiento. M es el tamaño
de la base de datos (número total de aminoácidos o nucleótidos; tras aplicar una cierta corrección).
Más información:
http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html
Lesk, AM. Introduction to Bioinformatics. 2nd Ed. p183
Paulino Gomez-Puertas Bioinformática.
Basic Local Alignment Search Tool (BLAST)
Paulino Gomez-Puertas Bioinformática.
Basic Local Alignment Search Tool (BLAST)
Probability values
10-1: reliable
(Large databases, as
GenBank, EMBL,
Uniprot, PDB..)
10-5: almost certain
P = 1 – e -E
E = -KMn e -lS
P-value
P-value
0 < < 1
0 < < M
Paulino Gomez-Puertas Bioinformática.
Gapped BLAST and PSI-BLAST. A new Generation of Protein DB search Programs. Altschul, S.F., Madden T.L., Schaffer A.A., Zhanng J., Zhang Z., Miller W., and Lipman
D.J. Nucleid Acids Research (1997) 25: 3389-3402 PSI-BLAST: Búsqueda iterativa
Construcción de una matriz de pesos específica por posición.
Uso de la matriz para realizar una nueva búsqueda.
Paulino Gomez-Puertas Bioinformática.
Intermediate sequence searches:
PROTOMAP database
Paulino Gomez-Puertas Bioinformática.
Alineamientos múltiples
Si alinear 2 secuencias de 300 residuos tardase 1 segundo:
Entonces:
alinear 3 secuencias tardaría 300 segundos
alinear 10 secuencias aprox 3008 segs (+ que la edad del universo)
Paulino Gomez-Puertas Bioinformática.
CLUSTAL-W:
Clustal-W: improving the sensitivity of progressive multiple sequence alignment
through sequence weighting position specific gap penalties and weight matrix choice.
Thomson JD, Higgins DG, Gibson TJ (1994)
Nucleid Acids Research 22, 4673-4680.
Formación de clusters de secuencias (Clustal-W): La pareja más parecida se alinea para formar un único cluster. Este cluster se toma ahora como una sola secuencia y el proceso se repite hasta tener un solo cluster con todas las secuencias alineadas. Los alineamientos múltiples permiten: Inferir filogenias. Construir perfiles.
T-COFFEE:
T-Coffee: a novel method for fast and accurate multiple sequence alignment.
Notredame C, Higgins DG & Heringa J. (2000)
Journal of Molecular Biology. 302, 205-217.
Paulino Gomez-Puertas Bioinformática.
Motivos, perfiles y dominios
Paulino Gomez-Puertas Bioinformática.
¿A qué llamamos motivos?
Observación: En proteínas de la misma familia podemos
detectar pequeñas regiones conservadas, a menudo asociadas
a su función.
Ej. Sitios de unión, centros activos de enzimas, etc.
Características: La conservación no es perfecta. No son
detectables mediante técnicas de homología de secuencia
(BLAST, FASTA, etc).
Paulino Gomez-Puertas Bioinformática.
Y… ¿para qué se usan?
Los motivos se conservan incluso a grandes distancias
evolutivas debido a restricciones estructurales o funcionales
luego...
Están relacionados con la función Predicción
Se conservan Detección de homólogos remotos
Paulino Gomez-Puertas Bioinformática.
Motivos: descripción
•Expresiones regulares
•Perfiles
•HMMs
Paulino Gomez-Puertas Bioinformática.
Expresiones regulares
ALRDFATHDDF
SMTAEATHDSI
ECDQAATHEAS
A-T-H-[DE]
Paulino Gomez-Puertas Bioinformática.
Expresiones regulares
•Cualquier aminoácido: x
•Ambigüedad: [A,B…] A, o B... o {A,B..} cualquiera menos A, B…
•Repetición: A(2,4) A-A o A-A-A o A-A-A-A
•N terminal: <, C-terminal: >
[AC]-x-V-x(4)-{E,D}.
[Ala or Cys]-any-Val-any-any-
any-any-{any but Glu or Asp}
Paulino Gomez-Puertas Bioinformática.
F K L L S H C L L V F K A F G Q T M F Q
Y P I V G Q E L L G
F P V V K E A I L K
F K V L A A V I A D
L E F I S E C I I Q
F K L L G N V L V C
A -18 -10 -1 -8 8 -3 3 -10 -2 -8
C -22 -33 -18 -18 -22 -26 22 -24 -19 -7
D -35 0 -32 -33 -7 6 -17 -34 -31 0
E -27 15 -25 -26 -9 23 -9 -24 -23 -1
F 60 -30 12 14 -26 -29 -15 4 12 -29
G -30 -20 -28 -32 28 -14 -23 -33 -27 -5
H -13 -12 -25 -25 -16 14 -22 -22 -23 -10
I 3 -27 21 25 -29 -23 -8 33 19 -23
K -26 25 -25 -27 -6 4 -15 -27 -26 0
L 14 -28 19 27 -27 -20 -9 33 26 -21
M 3 -15 10 14 -17 -10 -9 25 12 -11
N -22 -6 -24 -27 1 8 -15 -24 -24 -4
P -30 24 -26 -28 -14 -10 -22 -24 -26 -18
Q -32 5 -25 -26 -9 24 -16 -17 -23 7
R -18 9 -22 -22 -10 0 -18 -23 -22 -4
S -22 -8 -16 -21 11 2 -1 -24 -19 -4
T -10 -10 -6 -7 -5 -8 2 -10 -7 -11
V 0 -25 22 25 -19 -26 6 19 16 -16
W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28
Y 34 -18 -1 1 -23 -12 -19 0 0 -18
Más sensibles que las
expresiones regulares
A tiene más baja probabilidad que M
que, aunque no aparece, sabemos
que M es fisicoquímicamente más
similar a L, I, V y F.
Usa pesos discriminatorios no solo
para los AAs que aparecen. Para los
que no aparecen se basan en las
frecuencias observadas y en la
probabilidad de que el AA sea
sustituido
Perfiles
Paulino Gomez-Puertas Bioinformática.
HMMs
Hidden Markov models (HMMs) son modelos estadísticos
de la estructura primaria de las secuencias.
Se supone que lo que vemos es resultado de un proceso
oculto (hidden) del que tenemos un modelo.
Paulino Gomez-Puertas Bioinformática.
Todos o algunos
de los parámetros
pueden ser
estimados de los
datos
HMMs y motivos
Este es el más usado. Corresponde a un alineamiento con
tres estados (m1, m2, m3) con 20 probabilidades de ser un
residuo (barras) cuatro estados de inserción (i0, i1, i2, i3) y
tres estados de delección (d1, d2, d3). Las flechas representan
las probabilidades de transición entre estados
Paulino Gomez-Puertas Bioinformática.
Bases de datos
PROSITE: Expresiones regulares y perfiles.
Basada en motivos conocidos (SwissProt)
BLOCKS: Perfiles. Basada en PROSITE.
PRINTS: Perfiles. Basada en motivos conocidos
Pfam: Perfiles HMM.
Generación automática de motivos.
SwissProt + SP-TrEMBL
Paulino Gomez-Puertas Bioinformática.
Comparación Información
Precisión
Expresiones
regulares
Perfiles
simples múltiples HMMs
Sw
issPro
t S
P-T
rEM
BL
PROSITE BLOCKS PRINTS
Pfam
Paulino Gomez-Puertas Bioinformática.
http://www.sanger.ac.uk/Pfam
Pfam Protein families database
of alignments and HMMs
pfam-A & pfam-B
(UniProt)
Paulino Gomez-Puertas Bioinformática.
Pfam Protein families database of alignments and HMMs
PKR
Paulino Gomez-Puertas Bioinformática.
Molecular chaperonin GroEL
subunit heptamer ATP
(Dr Jianpeng Ma, Harvard Univ.)
Paulino Gomez-Puertas Bioinformática.
Extracción de información evolutiva a partir de alineamientos múltiples de proteína.
Paulino Gomez-Puertas Bioinformática.
Information extracted from multiple sequence alignments
Integration of Evolutive Information
conserved
tree-determinants correlated mutations
Paulino Gomez-Puertas Bioinformática.
Information extracted from multiple sequence alignments
Integration of Evolutive Information
conserved
Paulino Gomez-Puertas Bioinformática.
a4 b5 a3 b4 b3
a6 b7 b6 a5
a1 b1 b2 a2
a8 b8 a7
Hydroxymethylglutaryl-CoA lyase (HMGL)
F.G. HEGARDT. UB
J. PIE. Univ. Zar.
N . CASALS. UIC.
Paulino Gomez-Puertas Bioinformática.
Hydroxymethylglutaryl-CoA lyase (HMGL)
a1 a2
a3
a4
a5
a6
a7
a8
S75
D42 R41
L263
E279
H233
D204
S201
E279 S75
V70
S201
L263 D42 R41 H233
D204
H233
D204
S75
D42
L263
N C
C
FG. Hegardt
J. Pie
N. Casals
Paulino Gomez-Puertas Bioinformática.
Information extracted from multiple sequence alignments
Integration of Evolutive Information
correlated mutations
Paulino Gomez-Puertas Bioinformática.
SINGLE
MUTATION
DECREASED
STABILITY
"RESTORED"
STABILITY SECOND COMPENSATORY
MUTATION
Correlated Mutations
Pazos et al.
J. Mol. Biol., 1997
Paulino Gomez-Puertas Bioinformática.
Correlated mutations
D415 (monomer A)
R297 (monomer B)
Phenylalanine hydroxylase (PAH)
homotetramer.
intra-protein contacts
inter-protein contacts
Paulino Gomez-Puertas Bioinformática.
Information extracted from multiple sequence alignments
Integration of Evolutive Information
tree-determinants
Paulino Gomez-Puertas Bioinformática.
L-CPT I
M-CPT I
COT
CPT II
CrAT
ChAT
malonyl-CoA regulated
malonyl-CoA insensitive
choline
carnitine
carnitine/choline acyl transferases F.G. Hegardt
Paulino Gomez-Puertas Bioinformática.
Malonyl-CoA regulation: Met vs. Ser
Carnitine-Choline: Thr/Glu/Thr vs. Val/Asp/Asn
Short vs. Long substrate: Gly vs. Met
Paulino Gomez-Puertas Bioinformática.
H12
E14
palmitoyl-CoA
carnitine
H473
V481
G482
G711
V488
M489
A490
V706
G710
G709
W485
Model (Cordente et al, 2004; JBC)
Crystal structure (Hsiao et al, 2004; JBC)
Paulino Gomez-Puertas Bioinformática.
Dto. Arquitectura de Computadores
Universidad de Málaga
Oswaldo Trelles
Gracias a:
Joaquín Dopazo CSAT - Príncipe Felipe
Valencia
Museo Nacional de Ciencias
Naturales. Madrid
Federico Abascal
Paulino Gomez-Puertas Bioinformática.
Cuestiones…