Shotgun sequencing

13
Shotgun sequencing Ejemplo de aplicación de modelos y técnicas probabilísticas

description

Shotgun sequencing. Ejemplo de aplicación de modelos y técnicas probabilísticas. Introducción. Las técnicas de secuenciación de DNA no permiten secuenciar con facilidad grandes fragmentos de un vez Alternativa: Shotgun sequencing - PowerPoint PPT Presentation

Transcript of Shotgun sequencing

Page 1: Shotgun sequencing

Shotgun sequencing

Ejemplo de aplicación de modelos y técnicas

probabilísticas

Page 2: Shotgun sequencing

19/04/23 2

Introducción

Las técnicas de secuenciación de DNA no permiten secuenciar con facilidad grandes fragmentos de un vez

Alternativa: Shotgun sequencing• Fragmentar (múltiples copias) de la secuencia

en trozos pequeños

• Secuenciarlos por separado

• Recomponerlo

Page 3: Shotgun sequencing

19/04/23 3

IIustración del Shotgun Sequencing

Strand Sequence

Original XXXAGCATGCTGCAGTCATGCTTAGGCTAXXXX

First shotgun sequence XXXAGCATGCTGCAGTCATGCTXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTAGGCTAXXXX

Second shotgun sequence

XXXAGCATGXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCTGCAGTCATGCTTAGGCTAXXXX

Reconstruction XXXAGCATGCTGCAGTCATGCTTAGGCTAXXXX

Page 4: Shotgun sequencing

19/04/23 4

Problemas y soluciones

Problema• No se sabe en que punto empieza o acaba

cada fragmento Solución

• Hierarchical Shotgun sequencing method• Secuenciar varias copias de cada fragmento es

fácil reconocer la superposición

• Reconstruir el genoma a partir de las subsecuencias superpuestas

Page 5: Shotgun sequencing

19/04/23 5

Esquema del proceso

Fragmentos secuenciados

Secuencia problema

“Contigs” de secuencia reconstruída

Page 6: Shotgun sequencing

19/04/23 6

Problemas asociados

1. Proporción de la secuencia finalmente recubierta por “contigs”

2. Número medio de “contigs”

3. Tamaño medio de cada “contig”

Page 7: Shotgun sequencing

19/04/23 7

Un modelo simplificado

Secuencia S de longitud total G N fragmentos al azar de (=) tamaño L Posición de inicio de un fragmento

cualquiera ~U[0,G] Hay 2 simplificaciones

• Modelo contínuo (U(0,G)) de un fenómeno discreto (secuencia de caracteres)

• Se ignoran efectos de fin de secuencia

Page 8: Shotgun sequencing

19/04/23 8

Número de recubrimiento

Es el número de veces que todos los fragmentos juntos pueden recubrir la secuencia (“coverage number”)

Se trata de un parámetro importante

, 1 10N L

a aG

Page 9: Shotgun sequencing

19/04/23 9

Análisis del modelo

Sea X el punto de inicio de un fragmento en (0,G)

Otros fragmentos se superponen o no Sea Yi

X el indicador de que el fragmento i contiene x. Entonces:

• Y1X,…,YN

X ~ b(p), p=P[Y1x=1]=L/G

• KX=i=1N Yi

X ~ B(N, p=L/G)

Page 10: Shotgun sequencing

19/04/23 10

Aproximaciones

E[KX]=a=NL/G• a representa el # de fragmentos que se

espera que recubra X

Dado que N és grande y L pequeña se puede aproximar la binomial KX por una Poisson P(=NL/G=a)

Page 11: Shotgun sequencing

19/04/23 11

1. Porcentaje de recubrimiento

Si el recubrimiento se define• R=(i=1

NC Ci)/G=C/G

Nos interesa E(R)(=RE)• RE=P[KX>0]=1-P[KX=0]=1-e-a

Aplicación• Para RE=0.99 a=4.6, RE=0.999a=6.9

• Genoma humano: 3*109 bases. RE=0.999 3*106 sin cubrir

Page 12: Shotgun sequencing

19/04/23 12

2. Número esperado de contigs

Sea D el suceso “un fragmento está en el extremo derecho de un contig”

Y=Nº de fragmentos que “son D”• E[C]=E[Y]=N·P(D)

• P[KX=0]=e-a

El nº esperado de contigs es • E[C]=N·e-a

Page 13: Shotgun sequencing

19/04/23 13

Ejemplo

Si G=100.000, y L=500 se obtiene la tabla de arriba

Pocos fragmentos Pocos contigs Muchos fragmentos Pocos contigs grandes

a .5 .75 1 1.5 2 3 4 5 6 7

E[C] 60.7 70.8 73.6 66.9 54.1 29.9 14.7 6.7 3.0 1.3