ALINEAMIENTOS SIMPLE Y MÚLTIPLE

Post on 20-Jan-2016

57 views 0 download

description

ALINEAMIENTOS SIMPLE Y MÚLTIPLE. Juan José Nieto Lunes, 11 de Julio de 2005. ALINEAMIENTO SIMPLE. Consiste en establecer un segmento entre dos secuencias biológicas donde el número de coincidencias sea máximo. INDELS. Inserción: IN SERT Se asigna una base demasiado pronto - PowerPoint PPT Presentation

Transcript of ALINEAMIENTOS SIMPLE Y MÚLTIPLE

ALINEAMIENTOS ALINEAMIENTOS SIMPLE Y MÚLTIPLESIMPLE Y MÚLTIPLE

Juan José Nieto

Lunes, 11 de Julio de 2005

ALINEAMIENTO SIMPLEALINEAMIENTO SIMPLE

Consiste en establecer un segmento entre dos secuencias biológicas donde

el número de coincidencias sea máximo

INDELSINDELS

Inserción: INSERT Se asigna una base demasiado pronto

Eliminación: DELETEDQueda sin asignar una base

Se introduce una nueva letra en el alfabeto DNA: El “hueco” (gap) -

ComparaciónComparación

Secuencia 1: M A R I ASecuencia 2: M I R I A MSecuencia 3: M A R I OSecuencia 4: A R I A D N A

ComparaciónComparación

Secuencia 1: MM A R I AR I ASecuencia 2: MM I R I AR I A M

4 coincidencias

ComparaciónComparación

Secuencia 1: MM AA R I R I ASecuencia 3: MM AA R I R I O

3 coincidencias

ComparaciónComparación

Secuencia 1: M A R I ASecuencia 4: A R I A D N A

0 Coincidencias

ComparaciónComparación

Secuencia 1: M A R I AA R I ASecuencia 4: - A R I AA R I A D N A

4 Coincidencias

ComparaciónComparación

Secuencia 5: J O S E

Secuencia 6: P E P E

ComparaciónComparación

Secuencia 5: J O S EE

Secuencia 6: P E P E E

1 coincidencia

Comparación DNA - Comparación DNA - Leucina

Secuencia : T T T A

Secuencia : C T T G

1 coincidencia

ALINEAMIENTOALINEAMIENTO

SIMILITUD

Cuantitativo

HOMOLOGÍA

Cualitativo

Clasificación Clasificación

AlineamientosAlineamientos

Por número de secuenciasPor número de secuencias

Simple

Múltiple

Por nivel de análisisPor nivel de análisis

Global

Local

ProgramasProgramas

BLAST (Basic Local Alignment Search

Tool) http://www.ncbi.nlm.nih.gov

FASTA http://www.ebi.ac.uk

BLASTBLAST

blastp blastn blastx tblastn tblastx

EjemploEjemplo

g c t g a a c g

c t a t a a t c

2 coincidencias2 coincidencias

g c t g a a c g

c t a t a a t c

Otro alineamiento (Muy malo)Otro alineamiento (Muy malo)

- - - - - - - - g c t g a a c g

c t a t a a t c - - - - - - - -

Otro alineamientoOtro alineamiento(1 coincidencia)(1 coincidencia)

- - - - g c t g a a c g

c t a t a a t c - - - -

Otro alineamiento (malo)Otro alineamiento (malo)

g c t g a - a - - c g

- - c t - a t a a t c

Otro alineamiento (bueno)Otro alineamiento (bueno)5 coincidencias

g c t g - a a - c g

- c t a t a a t c -

¿Cuántos alineamientos ¿Cuántos alineamientos posibles hay?posibles hay?

Problema combinatorio

No se permite alinear dos huecos

Hay un número finito de alineamientos

Número de alineamientosNúmero de alineamientos

Primera secuencia: 8 letras

Segunda secuencia: 8 letras

Hay 265 729 alineamientos posibles

¿Cómo elegir el mejor ¿Cómo elegir el mejor alineamiento? alineamiento?

Hay que dar un valor a cada alineamientoElegiremos el (los) que tengan mayor

puntuación.

Por ej.: Coincidencia +1 puntos

No coincidencia 0 puntos

Nos da el número de coincidenciasnúmero de coincidencias

Otra puntuaciónOtra puntuación

Por ej.: Coincidencia +2 puntos

No coincidencia -1 punto

2 coincidencias2 coincidenciasPuntuación: -2 puntosPuntuación: -2 puntos

g c t g a a c g

c t a t a a t c

Otro alineamientoOtro alineamiento-10 puntos-10 puntos

- - - - g c t g a a c g

c t a t a a t c - - - -

Otro alineamientoOtro alineamiento- 11 puntos- 11 puntos

g c t g a - a - - c g

- - c t - a t a a t c

Otro alineamientoOtro alineamiento5 puntos5 puntos

g c t g - a a - c g

- c t a t a a t c -

Algoritmo (teórico)Algoritmo (teórico)

Paso 1 : Considerar todos los alineamientos posibles

Paso 2 :Determinar un valor para ese alineamiento

Paso 3 :Guardar el valor máximo

ProblemaProblema

El número de operaciones crece e una forma “exagerada”

Número de alineamientos de Número de alineamientos de dos secuencias de longituddos secuencias de longitud

n ,mn ,m

n = m = 8 265 729 alineamientos

n = m = 10 8 097 453 alineamientos

Fórmula del número de Fórmula del número de alineamientos posibles alineamientos posibles para dos secuencias de para dos secuencias de

longitud n y m:longitud n y m:

f(n,m)f(n,m)

Fórmula de recurrenciaFórmula de recurrencia

f(n+1 , m+1) = f(n,m+1) + f(n+1,m)

+ f(n,m)

DemostraciónDemostración

Se basa en que el final de un alineamiento es: (- , letra) , (letra , - ) ó (letra , letra)

A. Torres, A. Cabada, J.J. Nieto “An exact formula for the number of alignments between two DNA sequences” DNA SEQUENCE (2003)

ConsecuenciasConsecuencias

f(n+1,n+1) > 3n

f (107 , 107 ) > 1080

Una secuencia “pequeña” tiene 200-500 nucleótidos

Una proteína sobre 200-400 aminoácidos

Alineamiento global:Alineamiento global:Algoritmo de Algoritmo de

Neddleman&Wunsch (1970)Neddleman&Wunsch (1970)

EjemploEjemplo

g c t g a a c g

c t a t a a t c

g c t g a a c g

c 1 1

t 1

a 1 1

t 1

a 1 1

a 1 1

t 1

c 1 1

¿Cómo se puede determinar ¿Cómo se puede determinar el alineamiento óptimo?el alineamiento óptimo?

Aunque no tengamos ni idea, sabemos una cosa: El alineamiento tiene que tener una de las tres terminaciones siguientes

g - g - c c

g c t g a a c g

c 1 1

t 1

a 1 1

t 1

a 1 1

a 1 1

t 1

c 1 1

TerminaciónTerminación

c g c -

g c t g a a c g

c 1 1

t 1

a 1 1

t 1

a 1 1

a 1 1

t 1

c 1 1

g c t g a a

c 1

t 1

a 1 1

t 1

a 1 1

a 1 1

t 1

Simplificación del problema Simplificación del problema originaloriginal

Secuencia 1: g c t g a a Longitud 6

Secuencia 2: c t a t a a t Longitud 7

Posibles terminacionesPosibles terminaciones

a - a - t t

g c t g a a

c 1

t 1

a 1 1

t 1

a 1 1

a 1 1

t 1

TerminaciónTerminación

a - a t

g c t g a a

c 1

t 1

a 1 1

t 1

a 1 1

a 1 1

t 1

4 últimas posiciones del 4 últimas posiciones del alineamientoalineamiento

a - c g a t c -

g c t g a c 1 t 1 a 1 t 1 a 1

g c t g a c 1 t 1 a 1 t 1 a 1

Posibles terminacionesPosibles terminaciones

a - a - a a

5 últimas posiciones del 5 últimas posiciones del alineamientoalineamiento

a a - c g a a t c -

g c t g

c 1

t 1

a

t 1

g c t g

c 1

t 1

a

t 1

Posibles terminacionesPosibles terminaciones

g - g - t t

Terminación correspondiente Terminación correspondiente a la última submatriza la última submatriz

t g t -

g c t g

c 1

t 1

a

t 1

7 últimas posiciones del 7 últimas posiciones del alineamientoalineamiento

t g a a - c g t - a a t c -

g c

c 1

t

a

g c

c 1

t

a

Posibles terminacionesPosibles terminaciones

c - c - a a

Terminación correspondiente Terminación correspondiente a la última submatriza la última submatriz

g c - - - c t a

Alineamiento FinalAlineamiento Final5 coincidencias5 coincidencias

g c - - t g a a - c g - c t a t - a a t c -

Alineamiento FinalAlineamiento Final5 coincidencias5 coincidencias

g c - - t g a a - c g - c t a t - a a t c -

Observación importanteObservación importante

Hemos valorado positivamente las coincidencias, pero no hemos penalizado la introducción de huecos ni las no coincidencias

Alineamiento globalAlineamiento globalPROGRAMACIÓN DINÁMICAPROGRAMACIÓN DINÁMICA

1.- Función de similitud2.- Los indels se penalizan con un peso3.- Se construye una matriz4.- Se recupera la solución

Programación DinámicaProgramación Dinámica

1.- Coincidencia: +1No coincidencia: 0

2.- Introducción de “huecos”: 0

EjemploEjemploProgramación dinámicaProgramación dinámica

g g a t c g a

g a a t t c a g t t a

g g a t c g a

g

a

a

t

t

c

a

g

t

t

a

g g a t c g a

0 0 0 0 0 0 0 0

g 0

a 0

a 0

t 0

t 0

c 0

a 0

g 0

t 0

t 0

a 0

g g a t c g a

0 0 0 0 0 0 0 0

g 0

a 0

a 0

t 0

t 0

c 0

a 0

g 0

t 0

t 0

a 0

Cálculo de los elementos de Cálculo de los elementos de la matrizla matriz

H(i-1,j-1) H(i,j-1)

H(i-1,j) H(i,j)

Entradas matrizEntradas matriz

H(i,j) es el máximo entre:

H(i-1,j-1)+c(xi,yi)

H(i-1,j)-w H(i,j-1)-w

g g a t c g a

0 0 0 0 0 0 0 0

g 0

a 0

a 0

t 0

t 0

c 0

a 0

g 0

t 0

t 0

a 0

g g a t c g a

0 0 0 0 0 0 0 0

g 0 1

a 0

a 0

t 0

t 0

c 0

a 0

g 0

t 0

t 0

a 0

g g a t c g a

0 0 0 0 0 0 0 0

g 0 1 1 1 1 1 1 1

a 0 1

a 0 1

t 0 1

t 0 1

c 0 1

a 0 1

g 0 1

t 0 1

t 0 1

a 0 1

g g a t c g a

0 0 0 0 0 0 0 0

g 0 1 1 1 1 1 1 1

a 0 1

a 0 1

t 0 1

t 0 1

c 0 1

a 0 1

g 0 1

t 0 1

t 0 1

a 0 1

g g a t c g a

0 0 0 0 0 0 0 0

g 0 1 1 1 1 1 1 1

a 0 1 1

a 0 1

t 0 1

t 0 1

c 0 1

a 0 1

g 0 1

t 0 1

t 0 1

a 0 1

g g a t c g a

0 0 0 0 0 0 0 0

g 0 1 1 1 1 1 1 1

a 0 1 1

a 0 1

t 0 1

t 0 1

c 0 1

a 0 1

g 0 1

t 0 1

t 0 1

a 0 1

g g a t c g a

0 0 0 0 0 0 0 0

g 0 1 1 1 1 1 1 1

a 0 1 1 2

a 0 1

t 0 1

t 0 1

c 0 1

a 0 1

g 0 1

t 0 1

t 0 1

a 0 1

g g a t c g a

0 0 0 0 0 0 0 0

g 0 1 1 1 1 1 1 1

a 0 1 1 2 2 2 2 2

a 0 1 1 2 2 2 2 3

t 0 1 1 2 3 3 3 3

t 0 1 1 2 3 3 3 3

c 0 1 1 2 3 4 4 4

a 0 1 1 2 3 4 4 5

g 0 1 2 2 3 4 5 5

t 0 1 2 2 3 4 5 5

t 0 1 2 2 3 4 5 5

a 0 1 2 3 3 4 5 6

g g a t c g a

0 0 0 0 0 0 0 0

g 0 1 1 1 1 1 1 1

a 0 1 1 2 2 2 2 2

a 0 1 1 2 2 2 2 3

t 0 1 1 2 3 3 3 3

t 0 1 1 2 3 3 3 3

c 0 1 1 2 3 4 4 4

a 0 1 1 2 3 4 4 5

g 0 1 2 2 3 4 5 5

t 0 1 2 2 3 4 5 5

t 0 1 2 2 3 4 5 5

a 0 1 2 3 3 4 5 6

AlineamientoAlineamientoProgramación dinámicaProgramación dinámica

g g a - t - c - g - - a

g - a a t t c a g t t a

AlineamientoAlineamientoProgramación dinámicaProgramación dinámica

6 coincidencias

g g a - t - c - g - - a

g - a a t t c a g t t a

EjemploEjemploProgramación dinámicaProgramación dinámica

g c t g a a c g

c t a t a a t c

c t a t a a t c

0 0 0 0 0 0 0 0 0

g 0

c 0

t 0

g 0

a 0

a 0

c 0

g 0

c t a t a a t c

0 0 0 0 0 0 0 0 0

g 0 0 0 0 0 0 0 0 0

c 0 1 1 1 1 1 1 1 1

t 0 1 2 2 2 2 2 2 2

g 0 1 2 2 2 2 2 2 2

a 0 1 2 3 3 3 3 3 3

a 0 1 2 3 3 4 4 4 3

c 0 1 2 3 3 4 4 4 5

g 0 1 2 3 3 4 4 4 5

c t a t a a t c

0 0 0 0 0 0 0 0 0

g 0 0 0 0 0 0 0 0 0

c 0 1 1 1 1 1 1 1 1

t 0 1 2 2 2 2 2 2 2

g 0 1 2 2 2 2 2 2 2

a 0 1 2 3 3 3 3 3 3

a 0 1 2 3 3 4 4 4 3

c 0 1 2 3 3 4 4 4 5

g 0 1 2 3 3 4 4 4 5

Alineamiento FinalAlineamiento FinalProgramación dinámicaProgramación dinámica

5 coincidencias / 5 puntos5 coincidencias / 5 puntos

- c t a t a a t c - g c t g - a a - c g

c t a t a a t c

0 0 0 0 0 0 0 0 0

g 0 0 0 0 0 0 0 0 0

c 0 1 1 1 1 1 1 1 1

t 0 1 2 2 2 2 2 2 2

g 0 1 2 2 2 2 2 2 2

a 0 1 2 3 3 3 3 3 3

a 0 1 2 3 3 4 4 4 3

c 0 1 2 3 3 4 4 4 5

g 0 1 2 3 3 4 4 4 5

Alineamiento FinalAlineamiento FinalProgramación dinámicaProgramación dinámica

5 coincidencias / 5 puntos5 coincidencias / 5 puntos

- c t - a t a a t c - g c t g a - a - - c g

Programación DinámicaProgramación Dinámica

1.- Coincidencia: +2No coincidencia: -1

2.- Introducción de “huecos”: -1

c t a t a a t c

0 -1 -2 -3 -4 -5 -6 -7 -8

g -1 -1 -2 -3 -4 -5 -6 -7 -8

c -2 1 0 -1 -2 -3 -4 -5 -5

t -3 0 3 2 1 0 -1 -2 -3

g -4 -1 2 2 1 0 -1 -2 -3

a -5 -2 1 4 3 3 2 1 0

a -6 -3 0 3 3 5 5 4 3

c -7 -4 -1 2 2 4 4 4 6

g -8 -5 -2 1 1 3 3 3 5

c t a t a a t c

0 -1 -2 -3 -4 -5 -6 -7 -8

g -1 -1 -2 -3 -4 -5 -6 -7 -8

c -2 1 0 -1 -2 -3 -4 -5 -5

t -3 0 3 2 1 0 -1 -2 -3

g -4 -1 2 2 1 0 -1 -2 -3

a -5 -2 1 4 3 3 2 1 0

a -6 -3 0 3 3 5 5 4 3

c -7 -4 -1 2 2 4 4 4 6

g -8 -5 -2 1 1 3 3 3 5

Alineamiento FinalAlineamiento FinalProgramación dinámicaProgramación dinámica

5 coincidencias / 4 puntos5 coincidencias / 4 puntos

- c t - a t a a t c - g c t g a - a - - c g

M. TuberculosisM. Tuberculosis 1-100 1-100

ttgaccgatgaccccggttcaggcttcaccacagtgtggaacgcggtcgtctccgaacttaacggcgaccctactaaggttgacgacggacccagcagtgatg

http://www.ebi.ac.uk

BlastNBlastN

c t a t

http://www.ebi.ac.uk

BlastNBlastN

c t a t a a t

c t a t a a tc t a t a a t

EMBL:HS216E10 Z83840 Human DNA sequence from clone CTA-216E10 on chromosone 22 ..... 122320

EMBL:CHCRRU573 U57326Chlamudomonas reinhardtii RpoC2 protein ...... 10826

Alineamiento MúltipleAlineamiento Múltiple

Alineamiento MúltipleAlineamiento Múltiple

FINFIN