Presentación Curso Doctorado 2009

34
Next-Generation DNA sequencing: Fundamentos, implicaciones, aplicaciones.

description

next geneation dna sequencing

Transcript of Presentación Curso Doctorado 2009

  • Next-Generation DNA sequencing: Fundamentos, implicaciones, aplicaciones.

  • Secuenciacin: Conjunto de mtodos y tcnicas bioqumicas cuya finalidad es la determinacin del orden de los nucletidos (A,C,G, y T) en un oligonucletido de ADNFrederik Sanger 1975.Walter Gilbert 1976Secuenciacin qumica:Origen en estudio DNA finger-print.Marcaje radiactivo del frag. de DNA.Escicin (G,A+G,C,C+T).Complejidad Tcnica, uso excesivo de prod. qum. peligrosos, dificultades escalado.

    Mtodo de Terminacin de la cadena (1975):

    Ms sencillo que seq. qum. rdenes de magnitud ms rpido que los mt.anteriores.Menos reactivos txicos.Menores dificultades de escalado.

    Mtodos de secuenciacin basados en la sntesis del DNA

  • Terminacin de la cadena:

    Hebra molde de DNA, primers DNA polimerasa.

    La muestra se divide en cuatro reacciones de sec. separadas (ddATP, ddGTP, ddCTP, ddTTP).

    ddNTPs se aaden en conc. muy bajas suf. para producir todas las posibilidades de fragmentos pero sufucientes para realizar la secuenciacin.

    Fragmentos se desnaturalizan y separan por tamao (resol. 1 nucletido) mediante elect. gel de poliacrilamida-urea.

    Producto de cada reacc. en carriles individuales (A,T,G y C), visualizacin, autorradiografa o luz ultravioleta.

    Lectura de la secuencia de abajo hacia arriba.

    Lectura secuenciaCorrida electroforsis

  • Variantes del mtodo:

    Marcaje en cebador + terminador sin marcar se conoce como secuenciacin mediante colorantes acoplados al cebador (dye-primer sequencing).Marcaje en la nueva cadena (dNTP marcado).

    Cuatro reacciones separadas.(A,G,T,C).Marcaje en el terminador (ddNTP) (terminacin fluorescente).(Cada ddNTP se maraca con un fluorforo de diferente long. de onda.

    Los 4 ddNTPs en una misma reaccin. (Mayor rapidez y procesatividad).Seq. Autom. + elect. capilar + analizadores de secuencia de alto rendimiento = Sistemas de Secuenciacin de Primera Generacin (ABI Prism, Applied Biosystem). (~1990-2005).

  • Electroforsis Capilar:Permite secuenciar hasta ms de 384 muestras marcadas a la vez.Se pueden llevar a cabo hasta 24 ciclos de secuenciacin al da. (1 ciclo por hora).Permite lecturas de secuencias de hasta 900-1000pb.Electroferograma (diagrama de picos de mximos de fluorescencia correspondiente a cada terminador fluorescente que incorporado en la secuencia en una posicin en cuestin).

  • Electroferograma obtenido por electroforesis capilar.Zona amarilla, extremo de la secuencia, problemas de variabilidad de los picos generalmente corregidos automticamente mediante software.

  • Secuenciacin a gran escala

  • Ensamblaje de los fragmentos secuenciados.Algoritmos bioinformticos.Relleno de los intervalos entre las secuencias ensambladas (sequence census, secuenciacin a base de transposones, etc..)Muchas lecturas menores del DNA y posterior ensamblaje de las zonas de unin de fragmentos grandes.(gran consumo de recursos bioinformticos).En zonas de secuencias repetitivas (ej: centrmeros, telmeros) ensamblaje es ms proclive al error)Genoma humano (3Gb) en realidad incompleto 93%.Def. de genoma humano sec. eucromatnica 99%.Long. de cada fragmento a secueciar 500b mn. 6 mill. de fragmentos sin tener en cuenta solapamiento.

  • Mtodos tradicionalesMtodos de Alta Procesatividad o Rendimiento (a partir del 2005).Amplificacin: Ciclic array methods.Estrategias de secuenciacin empleadas a gran escala:

  • Highthrouput sequencing (Secuenciacin de alta procesatividad o rendimiento). (Deep sequencing)454 GS FLX Life Sciences (Roche Applied Science)Solexa (Ilumina inc.)ABI/SOLiD (Applied Biosystem)HeliScope (Helicos inc)

  • 454 Life Sciences posteriormente adquirida por Roche Diagnostics.

    2005. 454 GS20 primer secuenciador de nueva generacin en el mercado.2007. 454 GS FLX2008. 454 GS FLX Titanium. (Capaz de secuenciar 400-600 Mb en 10h. Longitud. de lectura del fragmento de 400-500pb).

    En general es un mtodo de secuenciacin cclica de arreglos de secuencias de DNA. (ciclic array method sequencing).

    454 GS FLX Life Sciences (Roche Applied Science)

  • DNA se fragmenta por cualquier mtodo mecnico o enzimtico obtenindose fragmentos de 200-300pb (con la serie Titanium (2008) los fragmentos llegan a ser de hasta 500pb).Se desnaturalizan los fragmentos y se modifican in vitro ambos extremos aadiendo dos adaptadores (A y B).Adaptador B 5-biotinilado es capaz de unirse a streptavidina en la superficie de las bolas sintticas (28m dimetro).Amplificacin (PCR) se lleva a cabo en superficie de las bolas atrapadas en emulsin agua-aceite dentro de pequeas gotas de la emulsin.Se obtienen aprox. 10 millones de copias de cada fragmento por bola

    Creacin de la biblioteca o array de fragmentos a secuenciar (PCR emulsin) :

  • Secuenciacin por pirosecuenicin (Sequencing by sinthesis, pyrosequencing reaction).Incubacin de las bolas con DNA polimerasaDeposicin de las bolas en una placa (microarray) de pocillos justo del tamao de una sola bola (volumen pL: picoliter scale wells)Se aaden pequeas bolas con enzimas inmobilizadas (ATP sulfurilasa y Luciferasa).Se aaden y remueven los reactivos por un lado de la placa y por el otro lado se censa la emisin (CCD, charge-cupled device) de luz correspondiente a la reaccin de luciferasa como resultado de la liberacin de PPi en la incorporacin de un nucletido a la secuancia.Nuclet. uno a uno. Apirasa degrada nuclet. no incorporados

  • luciferin + ATP luciferyl adenylate + PPi luciferyl adenylate + O2 oxyluciferin + AMP + light

    Luciferasa: Sulfato-adeniltransferasa o ATP Sulfurilasa:ATP + sulfate diphosphate + adenylyl sulfateApyrasa:NTP ---> NDP + Pi ---> NMP + 2Pi.Un pmol de DNA 61011 molculas de ATP por nucletido incorporado

    6109 fotones una = 560 nm. Cant. de luz facilmente detectable por fotodiodos, fotomultiplicador, or a CCD-camera. Est. Cristalina de Luciferasa de Photinus pyralis (lucirnaga).

  • Limitacin fundamental de la plataforma 454 radica en los errores que se pueden cometer al leer secuencias de homopolmeros de ms de 8 bases.

    Mayor error que se comete est dado por las estimaciones de la longitud de fragmentos repetitivos, o sea error tipo, insercin delecin ms que sustitucin.Principales ventajas e inconvenientes:Principal ventaja longitud de la lectura del fragmento individual de secuencia en la superficie de cada bola. 454 FLX actuales generan aprox. 400 000 lecturas en cada corrida de una longitud de 200-500 pb.(Costo por base secuenciada ms que otras plataformas pero sigue siendo el mtodo a elegir en dependencia del uso, ej: sec. de novo.)

  • Solexa. Ilumina Genome Analizer.Creacin de la biblioteca (PCR en puente, (bridge PCR)) :2007 como resultado de la fusin de 4 compaas: Essex (UK), Lynx Therapeutiics (Hayward, CA, USA), Manteia Predictive medicine (Coinsisn, Switzerland) e Ilumina (USA).Generacin de fragmentos de DNA con extremos modificados qumicamente Fragmentos delimitados por adaptadores.Primers F y R fijos a la placa (generalmente de vidrio) mediante molcula de unin flexibe.Cada adaptador es complementario a los primers en cada extremo.Se forma un puente por hibridazin con los primers en cada extremo.Cada ciclo de PCR consiste en extensin por Bst polimerasa y desnaturalizacin con formamida. Resultado Prox 40 millones. clusters (8 lneas) de 1000 copias cada uno de cada fragmento.

  • Secuenciacin por sntesis con terminadores reversibles.Se aaden polimerasa modificada y nucletidos maracados fluoresc. y con grupo hidrolizable en 3.Cada nucletido maracado con un fluorforo determinado emite una seal de luz que es censada por CCD en 4 canales.La sntesis es sincrnica, cada cadena incorpora el nucletido que le corresponde y los 4 nucletidos se aeden juntos en cada ciclo.Luego de la lectura de la seal luminosa se eliminan los grupos terminadores y fluorescentes, se aaden nuevos nucletidos modificados y comienza otra vez el ciclo.

  • Ventajas e inconvenientesDebido al uso de polimerasa y nucletidos terminadores modificados principal error susbtitucin en lugar de deleciones o inserciones.Longitud de las secuencias ledas en cada fragmento de los clusters en el array aprox. 36 pb (recientemente modificaciones que permiten lecturas de hasta 72pb).Long. de las lecturas limitada por mltiples factores: remocin incompleta de grupos fluorescentes y terminadores causan defasaje y atenuacin de la seal.PCR bridge en general menos problemas tcnicos que emultion PCR y en general ms barato.Costo por megabase muy baratoPrincipales ventajas dependen de las aplicaciones o para que se emplee.Actualmente muy empleado para estudio de interacciones protena-DNA, resequencing, census sequencing entre otras.

  • ABI/SOLiD (Applied Biosystem).2006-2007 Applied Biosystem. Se cuenciacin por ligacin no polimerizacin.Generacin de fragmentos de DNA por cualquier mtodo y emulsion PCR en bolas de 1m de dimetro.Se fijan las bolas a una matriz de vidrio generando un array desordenado y no en clusters como en Solexa.Se aaden octmeros degenerados y marcados fluoresc. En una posicin que se correlaciona con la identidad de las dos bases centrales marcan la lectura de la secuencia en esa posicin (Ej, cada 5, 10, 15, 20 bases, etc).Terminada una lectura, se desnaturalizan los primers, se corre la lectura: aadiendo primers que comiencen un nucletido ms abajo en la secuencia y los mismos octmeros los mismo primers con octmeros diferentes.

  • Ventajas e inconvenientesComo en 454, problemas tecnolgicos relacionados con la PCR en emulsin en este caso an ms por el tamao de las bolas (1 m dimetro).Longitud de cada lectura aprox. 35pb.Principal ventaja barato sobre todo la variante Polonator que permite adems adaptar los software a las necesidades del usuario mediante cdigo abierto de programacin.

    El array en este mtodo es probablemente la forma ms eficiente de generar secuenciacin de alta densidad. Las bolas estn espacialmente en el lmite de exclusin mutuo 1 m y en el orden del lmite de difraccin de la seal lum.

  • HeliScope (2008 Helicos Boisciences Corporation)No necesita amplificacin inicial, es capaz de censar la secuenciacin de fragmentos simples de DNA . (nico mtodo capaz de hacerlo hasta hoy.)DNA se fragmenta por cualquier mtodo y se aaden adaptadores, uno de ellos cola de poli AAAA en extremo 3.Se hibridan los fragmentos sobre una placa que contiene inmobilizados olgos de poli TTTT.Se lleva a cabo la secuenciacin aadiendo los nucletidos fluorescentes uno a uno y censando la luz emitida.(mtodo asincrnico como 454).Despus de cada adicin se elimina grupo fluorescente y se aade el prximo nucletido.Se puede secuenciar dos veces (ambos sentidos) aadiendo primers correspondientes al adaptador 5 de la secuencia original.

  • Ventajas y desventajasSemejantes problemas que 454 con relacin a la secueciacin de homopolmeros.En este caso se puede controlar mejor la incorporacin de nucletidos, el quenching la fluorescencia permite diferenciar entre la incorporacin, por ej: de GG con relacin a GGGGGG.Costo de equipo el ms caro de todos aprox. $1, 350 000.Long. de secuencias ledas aprox. 30 pb.Mayor capacidad de procesamiento de todos hasta 1Gb/h !! aunque lo normal es 1 Gb/da.No necesita amplificacin reduce el costo por Mb.Costo por Mb ms barato de todos ( $1.00 / Mb) .http://www.helicosbio.com/Technology/TrueSingleMoleculeSequencing/tSMStradeHowItWorks/tabid/162/Default.aspx

  • Principales caractersticas comparativas de cada mtodo.

  • Ensamblaje de las secuencias ledas mediante cualquiera de los mtodos.Problema Grande!! Programas ensambladores (Son muchos y basados en muchos algoritmos).Bioinformticos no dan a bastoPaulino y su grupo y tantos otros all over the world.Solucin?

  • Principales aplicaciones.

  • Anlisis del transcriptoma (sequence census methods)La tcnica consiste en dividir la regin del DNA que se pretende estudiar en pequeos fragmentos (Tags), clonarlos, expresarlos, secuenciarlos y ensamblarlos teniendo en cuenta la secuencia que generalmente se conoce del gen en cuestin.Aplicaciones Mltiples.Estudio de variantes ellicas (SNP) (Reesequencing by multiple overlaping reads)Cuantificacin de expresin gnica.Estudio de ncRNA (snRNA, snoRNA, siRNA, etc)Secuenciacin de novo

  • En secuenciacin de novo problemas de ensamblaje de la secuencia.Se secuencian ambos extremos del fragmento para informacin y mejorar ensamblaje. (Paired-end maping) (PEM).Recientemente se ha comenzado a aplicar PEM en sequenciacin con 454 de Roche. Estudio de reordenamientos estructurales en genomas previamente secuenciadosDeteccin de fusiones gnicas y transcripcin de retrotransposones.

  • Anlisis de expresin gnicaIdentificacin y cuantificacin de diferentes especies de mRNA en diferentes condiciones y/o tipos celulares.Mtodos basados en microarrays.(hibridacin del cDNA en un array que contiene los genes de inters).DesventajasInformacin seicuantitativa tanto de la secuencia como de la cantidad.Problemas de standarizacin de la tcnica.Secuenciacin y cuantificacin de fragmentos de cDNA.Serial analisis of gene expresin (SAGE)Massively parallel signature sequencing (MPSS).Aislamiento del mRNA cDNA.Seleccin de fragmentos en una pos. determ.Concatenacin de fragmentos.Clonaje en vector bacterianoSecuencicin.Procesamiento informtico (cuantificacin y ensamblaje de secuencias.

  • SAGE y MPSS Clone and Count Thechnique. Mltiples ventajas sobre microarrays (standarizacin menos compleja, mayor robustez stadistca)Desventaja: costo de secuencicin y problemas de clonaje.Ideales para emplearlas con High-throghput sequencing.(454 Roche) (tamao de los fragmentos compatible con long. de lecturas en estos mtodos) Deep SAGE. Nielsen et al 2006: Anlisis del transcriptoma de patata. (300 000 tags en lugar de 50 000 por SAGE).5Rapid Analysis of Transcript End (5RATE)Long. de Tags aprox. 80bp.

  • Mtodos basados en secuenciacin completa de cDNA y generacin de ESTs (Expressed sequence tags) Poco viables por el costo de la secuencicin y problemas derivados de genracin de bibliotecas de ESTs.Con High Throughput Sequencing incrementan su potencial como metodos de sequence census en el estudio del mRNA a escala genmica.Generacin de bibliotecas de ESTs para el estudio de la expresin de genes en plantas (Arabidopsis thaliana, Weber et al 2007) ESTs para el estudio de lnea celular de cncer prosttico, LNCaP. (Bainbridge et al, 2006). 454 GS FLX Life Sciences (Roche Applied Science) (~400 000 lecturas por corrida, represen. de toda regin del transcrito indep. de log. y expresin)

  • Modificaciones epigenticas de histonas y DNA.Epigentica estudia la variabilidad de la regulacin gnica en la cual no est directamente implicada la secuencia directa del DNA. Metilacin del DNA covalentemente en 5-citosinaModificaciones postraduccionales de histonas.Proyecto Epigemnoma High Throughput sequencing!!!!

  • Estudio de patrones de metilacin del DNA por bisulfite sequencing.CitosinaTiminaUraciloTaylor et al, 2007. Usando 454 estudiarion los patrones de metilacin de islas CpG en 25 genes en diversos tumores hematopoiticos utilizando PCR amplicones tratados con Bisulfito de Sodio. 16000 copias por amplicn vs 20 copias con mtodo tradicionalNo Clonaje, mayor rapidez y procesatividad de varias muestas y genes a la vez.Bisulfito

  • Estudio de modificaciones de histonas y localizacin de secuencias de unin a protenas en el DNA.Modificaciones de Histonas: metilaciones, forforilaciones, acetilaciones y ADP-ribosilaciones.Reg. exp. gen. va accesibilidad del DNA a factores de transcripcin.Rho. et al 2004. ChIP seguido de seq. Sanger en anlisis tipo SAGE (Genome Wide Mapping Technique) (Estudio dist. H3 y H4 acetiladas).

    Bhinge et al, 2007. reemplazo de seq. Sanger por 454 (Sequence Tag Analysis of Genomic Enrichment(STAGE)). Localiz. De reg. De unin de STAT1 en genoma humano.

    Johnson et al 2007. ChIP-Seq. Next-Gen. Seq. Aplicado a la identif. de modif. hist. en genom. hum.

  • Gracias por la paciencia!!!