Next Generation Sequencing Revolution

21
La revoluci´ on cient´ ıfica del siglo XXI Miguel Blanco V´ azquez 30 de Agosto del 2011 Resumen En los ´ ultimos diez a˜ nos han aparecido una serie de t´ ecnicas de secuen- ciaci´ on de segunda generaci´ on (NGS) que han revolucionado la capacidad de obtener informaci´ on gen´ omica. Tanto que no solo han revolucionado el campo de la gen´omica de secuenciaci´ on sino otros campos de la biolog´ ıa donde la informaci´ on que de ellas se puede extraer permiten responder a preguntas antes no resolubles con la primera generaci´on de t´ ecnicas de secuenciaci´ on. Entender como es el transcriptoma de c´ elulas y tejidos en condifiones diferentes a lo largo del desarrollo y del tiempo se ha mostrado esencial para interpretar los elementos funcionales del genoma y descubrir los constituyentes moleculares que est´ an implicados en los procesos de desarrollo y enfermedad. La tecnolog´ ıa RNA-Seq es una t´ ecnica de recien- te desarrollo que precisamente pretende analizar en profundidad perfiles de transcripci´ on haciendo uso de secuenciaci´ on de alta resoluci´ on. Aunque de reciente aparici´on ya existen bases de datos y herramientas de an´ alisis de datos de RNA-Seq robustas. En este proyecto se pretende hacer uso de la plataforma Galaxy para analizar datos de RNA-Seq del estudio del perfil transcripcional de eritroblastos en Mus musculus. Introducci´ on Advenimiento de las nuevas tecnolog´ ıas de secuenciaci´ on Durante las ´ ultimas tres d´ ecadas el foco de la investigaci´ on en biolog´ ıa mo- lecular ha estado en la elucidaci´ on de los mecanismos moleculares por los cuales la informaci´ on gen´ etica codificaba la s´ ıntesis de las biomol´ eculas. As´ ı la mayor´ ıa de los estudios de este per´ ıodo se centraban habitualmente en genes individua- les a fin de obtener informaci´ on de mecanismos de transcripci´ on, modelado de cromatina, empalme y ayuste de RNA, duplicaci´ on del DNA u otros procesos gen´ omicos. Pero, aunque nuestra informaci´ on en el campo sigue creciendo y las conclusiones as´ ı extra´ ıdas parecen ser v´ alidas, estos estudios no han aportado una visi´ on de la funci´ on biol´ ogica de eses procesos a un nivel global de genoma[1]. Solo tras resoluci´ on de la estructura del DNA en los 1950s por Watson y Crick se puso ´ enfasis en conocer la secuencia del DNA con la pretensi´ on de ”hallar el c´ odigo”de todos los organismos, pasados y presentes [2]. El primer informe de una secuencia de 10 bases consecutivas de DNA se publico en 1968 pero los m´ etodos para obtener mayores longitudes y calidad, especialmente la secuenciaci´ on por los m´ etodos de Sanger y Maxam-Gilbert, no llegaron hasta el no 1977 [3]. De estos solo el m´ etodo de secuenciaci´ on de Sanger fue desarrollado lo suficiente como para poder automatizarlo. Con este hito se inicio un periodo 1

Transcript of Next Generation Sequencing Revolution

Page 1: Next Generation Sequencing Revolution

La revolucion cientıfica del siglo XXI

Miguel Blanco Vazquez

30 de Agosto del 2011

Resumen

En los ultimos diez anos han aparecido una serie de tecnicas de secuen-ciacion de segunda generacion (NGS) que han revolucionado la capacidadde obtener informacion genomica. Tanto que no solo han revolucionado elcampo de la genomica de secuenciacion sino otros campos de la biologıadonde la informacion que de ellas se puede extraer permiten respondera preguntas antes no resolubles con la primera generacion de tecnicas desecuenciacion. Entender como es el transcriptoma de celulas y tejidos encondifiones diferentes a lo largo del desarrollo y del tiempo se ha mostradoesencial para interpretar los elementos funcionales del genoma y descubrirlos constituyentes moleculares que estan implicados en los procesos dedesarrollo y enfermedad. La tecnologıa RNA-Seq es una tecnica de recien-te desarrollo que precisamente pretende analizar en profundidad perfilesde transcripcion haciendo uso de secuenciacion de alta resolucion. Aunquede reciente aparicion ya existen bases de datos y herramientas de analisisde datos de RNA-Seq robustas. En este proyecto se pretende hacer usode la plataforma Galaxy para analizar datos de RNA-Seq del estudio delperfil transcripcional de eritroblastos en Mus musculus.

Introduccion

Advenimiento de las nuevas tecnologıas de secuenciacion

Durante las ultimas tres decadas el foco de la investigacion en biologıa mo-lecular ha estado en la elucidacion de los mecanismos moleculares por los cualesla informacion genetica codificaba la sıntesis de las biomoleculas. Ası la mayorıade los estudios de este perıodo se centraban habitualmente en genes individua-les a fin de obtener informacion de mecanismos de transcripcion, modelado decromatina, empalme y ayuste de RNA, duplicacion del DNA u otros procesosgenomicos. Pero, aunque nuestra informacion en el campo sigue creciendo y lasconclusiones ası extraıdas parecen ser validas, estos estudios no han aportadouna vision de la funcion biologica de eses procesos a un nivel global de genoma[1].

Solo tras resolucion de la estructura del DNA en los 1950s por Watson yCrick se puso enfasis en conocer la secuencia del DNA con la pretension de”hallar el codigo”de todos los organismos, pasados y presentes [2]. El primerinforme de una secuencia de 10 bases consecutivas de DNA se publico en 1968pero los metodos para obtener mayores longitudes y calidad, especialmente lasecuenciacion por los metodos de Sanger y Maxam-Gilbert, no llegaron hasta elano 1977 [3]. De estos solo el metodo de secuenciacion de Sanger fue desarrolladolo suficiente como para poder automatizarlo. Con este hito se inicio un periodo

1

Page 2: Next Generation Sequencing Revolution

de 30 anos de proyectos de secuenciacion a gran escala que dieron como frutola secuencia completa de varias especias, incluida la humana [4, 3]. Esta vıa desecuenciacion de genomas serıa el comienzo de la genomica y el inicio de lasexpectativas de conocimiento mencionadas antes.

Aunque los hitos alcanzados con el metodo de secuenciacion de Sanger sonenormes, como lo fue la publicacion de lo que hoy es la unica lectura finalizadadel genoma humano; las limitaciones de esta tecnologıa, a nivel de costes y datosde lectura, hizo que se apreciara la necesidad buscar nuevas tecnicas de secuen-ciacion en masa o de mejorarlas[3, 4]. Pero la secuenciacion del genoma humanofue tan solo el inicio de la era de la secuenciacion de DNA [5]. En los ultimosdiez anos han aparecido una serie de tecnicas de segunda generacion (NGS) quehan revolucionado la capacidad de obtener informacion genomica. El alto gradode paralelizacion que estas tecnicas presentan, en la que se producen de millonesa miles de millones de reacciones de secuenciacion en al mismo tiempo y en unpequeno volumen, supone que presentan un rendimiento muchısimo mayor quelas tecnicas de secuenciacion basadas en Sanger. Ası no solo han revolucionadoel campo de la genomica de secuenciacion sino otros campos de la biologıa don-de la informacion que de ellas se puede extraer permiten responder a preguntasantes no resolubles con la primera generacion de tecnicas de secuenciacion [3].

La primera tecnologıa NGS que estuvo disponible fue el secuenciador Ro-che/454. Aunque las primeras maquinas eran capaces de producir lecturas de100 pares de bases, la generacion actual de esta maquina produce secuencias demas de 400 bases. Con ello, son las mayores longitudes que actualmente se pue-den obtener con cualquiera de las plataformas de NGS. Otras plataformas muyusadas, de introduccion algo posterior, son Ilumina/Solexa Genome Analyzery el ABI SOLiD System. Aunque tienen un mayor rendimiento, las longitudesde secuencia que producen son menores. Otra plataforma comercial, y la unicade codigo abierto, es Polonator. Su principal defecto es tener la menor longitudde lectura de todas las NGS. Hasta este momento la unica plataforma que seha desarrollado y usado que use secuenciacion de molecula unica, lo cual evitasesgos de amplificacion, es HeliScope Sequencer. Ya de muy reciente introduc-cion, Pacific Biosystems ha introducido la secuenciacion de DNA en tiempo realcon moleculas unicas de polimerasa. En teorıa las longitudes de lectura puedensuperar los 1000bp[2, 3]. Otros metodos de secuenciacion, que se especificaranmas adelante, denominados de tercera generacion estan en desarrollo o han sidointroducidos en los ultimos anos.

2

Page 3: Next Generation Sequencing Revolution

Figura 1: Diagrama de nuevas tecnicas de secuenciacion y las respuestas a dife-rentes cuestiones biologicas [3].

Tecnologıas de secuenciacion HT-NGSs

Plataformas actualmente en uso

Entre las plataformas comerciales disponibles, Roche/454 FLX, Ilumina/SolexaGenome Analyzer y Applied Biosystems (ABI) SOLiD Analyzer son las lıderesdel mercado de secuenciacion de nueva generacion. Las otras dos plataformas,Polonator G.007 y Helicos HeliScope acaban de ser recientemente lanzadas yaun no han alcanzado muchos usuarios[6, 5].

Roche GS-FLX 454 Genome Sequencer Roche GS-FLX 454 GenomeSequencer fue la primera plataforma comercial que se introdujo y lo hizo en2004. Usa la secuenciacion por sıntesis o pirosecuenciacion. La clave de esteprocedimiento es que se realizan PCRs de emulsion en la que perlas de anclaje aDNA monocatenario se encapsulan por agitacion vigorosa en micelas acuosas yen las que se atrapan reactantes de PCR rodeados por aceite amplificacion porPCR de emulsion. Durante la pirosecuenciacion, la luz emitida por las moleculasde fosfato durante la incorporacion de nucleotidos se anota segun avanza lasıntesis de la cadena de DNA. Actualmente este metodo puede alcanzar lecturasde 600bp[6, 5].

Illumina/Solexa Genome Analyzer Illumina/Solexa Genome Analyzer fuela segunda plataforma comercializada. Esta usa un sistema de secuenciacion porsıntesis en la que todos los nucleotidos se anaden simultaneamente a clusters defragmentos de oligos con primers en celulas de flujo a los que se anade DNA

3

Page 4: Next Generation Sequencing Revolution

polimerasa. La amplificacion por puente extiende los clusters con los nucleoti-dos marcados. La alta calidad y la larga longitud de lectura han hecho de estesistema el mas empleado[6, 5].

ABI SOLiD platform ABI SOLiD usa una tecnica de secuenciacion por liga-miento que se basa en una estrategia de PCR de emulsion con perlas magneticaspara amplificar fragmentos de DNA y ejecutar una secuenciacion en paralelo.Durante la secuenciacion se lleva a cabo un ligamiento de DNA para asociarespecıficamente oligonucleotidos 8-mer con fluoroforos tal que se establece unacodificacion de dinucleotidos, donde cada cuarta y quinta base estan codifica-das con un fluoroforo distinto. Ası cada marcador fluorescente en cada 8-meridentifica combinaciones de dos bases determinadas, que luego pueden ser de-terminadas por desplazamiento de primer. En cada paso de ligamiento hay unadeteccion de fluorescencia y una ronda de ligamiento posterior[6, 5].

Danaher/Dover/Azco Polonator G.007 Danaher/Dover/Azco PolonatorG.007 es una plataforma de aparicion reciente que emplea una estrategia desecuenciacion por ligamiento usando una PCR de emulsion en array, basadaen perlas para amplificar fragmentos de DNA en secuenciacion en paralelo. Lalongitud de lectura es de 26bp[6, 5].

Helicos HeliScope Helicos HeliScope Platform es la primera plataforma queusa una tecnologıa de alta sensibilidad a fluorescencia para detectar directa-mente la incorporacion nucleotidos durante la sıntesis. La caracterıstica masrelevante es que permite la secuenciacion de moleculas de DNA unicas sin haceruso de un procedimiento de amplificacion. La longitud de lectura esta entre los30bp a 35bp[6, 5].

Plataformas en desarrollo

Ya que la tecnologıa de lectura de moleculas unicas de DNA podrıa leermoldes de DNA en tiempo real sin amplificacion, ofrecerıa un sistema fiablecon lecturas potencialmente largas. Este tipo de sistemas se estan intentandoobtener con ahınco. Actualmente existen varias plataformas que avanzan en estadireccion pero hay poca informacion disponible publicamente de momento[6, 5].

Secuenciacion de molecula unica basados en fluorescencia Pacific BioS-ciences esta desarrollando un sistema de lectura en tiempo real de moleculaunica para identificar nucleotidos que estan fosfoligados con diferentes colores.Durante el proceso de sıntesis, hay una emision de fluorescencia durante la es-cision del fosfato y la incorporacion de nucleotidos por la polimerasa. En algosimilar trabaja Visigen Biotechnology usando tecnologıa de medicion en tiemporeal de senales de fluorescencia dependientes de tiempo. Y no solo estas, sinoque otras companıas tiene en desarrollo proyectos en la misma linea[6, 5].

Nano-tecnologias para la secuenciacion de moleculas unica Se puedenusar miles de nanotubos en chips para monitorizar el movimiento de polime-rasas a lo largo de una cadena de DNA durante la replicacion para procedera una secuenciacion por sıntesis sobre una unica molecula. Desde hace tiempo

4

Page 5: Next Generation Sequencing Revolution

la nanotecnologıa ha sido considerada como tecnologıa de ultima generacion aestos efectos de secuenciacion y existen ya varios conceptos y plataformas endesarrollo. Uno de estos conceptos parte de la observacion de que cuando unacadena de DNA fluye a traves de un nanoporo gracias a un flujo de corrienteelectrica cada base nuecleotıdica al pasar por el nanotubo altera de una maneraunica el patron de corriente electrica. Esta ”marca.electrica podrıa ser usadapasa secuenciar DNA[6, 5, 7].

Deteccion electronica para la secuenciacion de moleculas unicas Re-veo esta desarrollando tecnologıa para dispersar moleculas de DNA sobre super-ficies conductivas y ası hacer detecciones electronicas de bases. Una moleculade DNA estirada e inmovilizada se leerıa por medio de sondas provistas de na-nocuchillas. Intelligent Biosystems esta trabajando en proyectos similares[6, 5].

Microscopıa electronica para secuenciacion de moleculas unicas Lamicroscopıa electronica ya habıa sido propuesta antes del desarrollo de meto-do de Sanger como y este concepto ha sido re-explorado recientemente con laemergencia de nueva tecnologıa en el campo. Ya que la microscopıa de escanea-do en tunel puede llegar al nivel atomico, se esta explorando este metodo parasecuenciar DNA[6, 5].

Otras aproximaciones para para la secuenciacion de moleculas unicasIon Torrent ha desarrollado un nuevo metodo de secuenciacion basado en labien establecida caracterizacion que existe de la incorporacion de nucleotidos ala cadena de DNA por la polimerasa en la que un hidrogeno se genera comosubproducto. Han desarrollado un sensor de iones que puede transformar ladetectaccion de estos iones directamente a informacion digital[6, 5].

Aplicacion de las NGS

Las tecnologıas de NGS estan revolucionando el analisis de genomas. Estoes debido a que permiten, entre otras, el analisis de la inmunoprecipitacionde proteınas asociadas a microarrays de DNA (Chip-chip), o su secuenciacion(Chip-Seq), por la secuenciacion de RNA (

RNA-Seq

), genotipado a nivel de genoma, variacion estructural a nivel de genoma, ensam-blado de novo y reensamblado de genomas, deteccion de mutaciones y deteccionde portadores, deteccion de desordenes adquiridos o de enfermedades humanascomplejas, preparacion de librerıas de DNA, extremos pareados (pair ended) ycapturas de genoma, secuenciacion de genomas mitocondriales e incluso abrir laposibilidad a una medicina personalizada [5, 8].

Para empezar, una de las aplicaciones mas obvias de las NGS es la secuen-ciacion de genomas a coste reducidos, ya sea resecuenciacion como de novo. Laresecuenciacion esta siendo util en la confirmacion de genomas de referenciaya obtenidos previamente. Cuando se usan mapeados de lecturas de secuenciassobre genomas de referencia obtenemos otra aplicacion: la identificacion de deSNPs y variaciones en numero de copia ası como informacion de otras varian-tes estructurales. Con estas ultimas obtenemos conocimiento de las diferenciasfenotıpicas poblacionales [3, 4].

5

Page 6: Next Generation Sequencing Revolution

Por otra parte tenemos el analisis de la organizacion del genoma que per-miten las NGSs, pues con estas se pueden resolver problemas estructurales deorden superior en la estructuracion del material genetico en el nucleo eucariota.Dentro de los metodos que permiten esto estan la Hi-C (High thoughput Chro-mosome Capture), ChIP-seq (Chromatine Inmunoprecipitation Sequencing) y laMethyl-Seq [3, 4, 8].

Tambien las NGSs permiten la resolucion de problemas en el ambito delanalisis de expresion genica. De hecho tan pronto se comenzaron a aplicar lasNGSs a la (re)secuenciacion de genomas se aplico a la secuenciacion de cDNAcon lo cual se obtiene una perspectiva del transcriptoma, en lo que se conocecomo secuenciacion en profundidad del RNA o RNA-Seq. Esta tecnica se deta-llara en profundidad en lo que sigue de informe. Aparte de secuenciar y inclusodescubrir nuevos transcritos esta tecnica permite establecer las fronteras entretranscritos y los lımites intron-exon [3, 4].

Impacto y Biologıa de Sistemas

Durante los ultimos anos los analisis de datos HT-NGSs han ido revelandolas relaciones a nivel de genoma completo, entre otras, con la organizacion anivel de nucleosoma, actividad genica y regulacion genica. Ası se esta realmentellegando a una verdadera aproximacion de biologıa de sistemas con los mmetodosmencionados antes (Chip-Seq, Methyl-seq o RNA-Seq) que permiten estudiarsimultaneamente la conformacion genomica y la actividad transcripcional lo cualnos llevara a comprender mejor la biologıa celular. En el caso humano esta visionde conjunto se esta llevando a cabo en el proyecto ENCODE (Encyclopaedia ofDNA elements) y para otros organismos, como los hongos filamentosos, en otrosproyectos especializados [3, 8].

Retos Bioinformaticos

A nivel bioinformatico las nuevas tecnologıas de secuenciacion no estan exen-tas de problemas al los que los investigadores se deben enfrentar. El principalreto que hay que afrontar en estudios con NGSs es la elevadisima cantidad dedatos que generan estos experimentos y por tanto los elevados requerimientosde capacidad de calculo y almacenamiento computacional que se necesitan paratratar con toda esta informacion. Ademas otros problemas van desde que noexiste de momento ningun formato de datos unificado, se necesita ensamblarde novo miles de millones de lecturas, ensamblar transcritos que han sufridoempalme y ayuste, a que se precisa cuantificar datos de RNA-Seq [3].

Entrando en mas detalle, en cuanto al formato de datos decir que, tantocon Sanger como con la mayorıa de las NGSs, se producen senales de luz quedeben ser decodificadas a bases de DNA. Este proceso de determinacion debase (base-calling) depende de la plataforma usada. En los formatos de ficheroesta lectura asocia, o no, una secuencia a una calidad de lectura. En el procesoSanger este formato se nombro como FASTAQ y fue empleado, con variacionen las NGSs por Illumina/Solexa. Con esto, tenemos actualmente al menos tresdiferentes formatos de FASTQ. Habitualmente el primer paso en el analsis dedatos de NGSs es convertir este formato a un formato de entrada valido. Comolas lecturas realizadas se han de mapear, otro problema son los derivados de losformatos usados a este fin, que igualmente son varios. Alguno de estos formatos

6

Page 7: Next Generation Sequencing Revolution

de mapeado son especıficos de cada aplicacion y no pueden ser usados por otrasaplicaciones. Aun ası existen esfuerzos de estadarizacion en este terreno. Ası, elformato Sequence/Alignment Map (SAM) y su version comprimida (BAM) yason formatos aceptados por muchas de las aplicaciones de analisis de datos deNGSs, incluidos varios visores de genomas.

Y ya que el campo del analisis de datos NGSs es muy reciente, no existeninguna suite informatica que realice el proceso completo de analisis. Habitual-mente hay que construir pipelines de analisis especıficas para cada experimento.Por otra banda, el ensamblado de genomas a partir de datos de NGSs no esuna tarea trivial. Hay que tener en cuenta que una longitud de lectura cortaimplica que se necesitan mas lecturas de la misma region para poder tener unaconfianza alta en el ensamblado de contigs, lo cual significa que las lecturas deNGSs tiene una tasa de error mayor que los metodos de ensamblador basadosen el metodo Sanger. Aunque la tasa de error se rebajarıa con mayor lectura dela misma region en zonas altamente repetitivas, las cuales son problematicas ala hora de los analisis; sigue siendo un problema la longitud de lectura. Por eso,una mejora de las tecnicas de secuenciacion ha sido el uso de datos pair-ended,esto son lecturas en una y otra direccion de lectura de secuencia. Otra soluciones la combinacion de lecturas cortas con lecturas de secuencia largas si lo quese pretende es el ensamblaje de genomas grandes y complejos/citep*minou2010.A excepcion del ensamblado de novo, la aplicacion de NGSs requiere del ma-peo de las lecturas contra un genoma de referencia antes de proseguir con elanalisis. Esto ha requerido del desarrollo de nuevos algoritmos que puedan ha-cer este ingente trabajo, ya que aquellos disenados para secuenciacion Sangerno son adaptables a esta nueva escala de trabajo. Un problema particularmenteespecıfico en este aspecto en RNA-Seq es que una lectura que contenga unionespor empalme y ayuste no puede ser asignada a un lugar genomico concreto.Con lo cual, se han tenido que desarrollar programas para detectar uniones deempalme y ayuste que trabajen durante el mapeo de las lecturas o durante unprimer mapeo inicial[3].

Por ultimo, se ha de afrontar el problema de almacenamiento. Los ficheros dedatos de lecturas, p.ej. FASTQ, estan habitualmente en el orden de GibaBytesy los ficheros producidos por aplicaciones que se aplican a posteriori sobre estosestan tambien en tamanos similares; con lo cual un proyecto de analisis de estosdatos de alto rendimiento genera informacion en el orden de TeraBytes. Parafacilitar el alamacenamiento de esta informacion el NCBI, el EBI y el DDBJhan establecido una base de datos para informacion de NGSs, la SRA, SequenceRead Archive. Aun con esto los servicios online para visualizacion o exploracionde datos no estan aun preparados del todo para manejar tanta informacion yqueda mucho desarrollo pendiente en esta area [3].

RNA-Seq

La tecnologıa RNA-Seq es una tecnica de reciente desarrollo para analizaren profundidad el perfil de transcripcion de un tipo celular y que hace uso desecuenciacion de alta resolucion. Los estudios empleando esta tecnica ya hanalterado la perspectiva que tenemos de la complejidad de los transcriptomaseucariotas[9, 1].

Los transcriptomas son el juego completo de transcritos de una celula y su

7

Page 8: Next Generation Sequencing Revolution

cantidad para un determinado tejido y estadio de desarrollo celular. Entenderel transcriptoma es esencial para interpretar los elementos funcionales del ge-noma y descubrir los constituyentes moleculares en celulas y tejidos, ası comopara entender los procesos de desarrollo y enfermedad. Ası, las prioridades en latranscriptomica es catalogar los transcriptomas con todas sus formas de RNA(mRNA, ncRNA y small RNA) para determinar la estructura transcripcional delos genes: los inicios 5’, las terminaciones 3’, los patrones de empalme y ayustey otras modificaciones post-transcripcionales; y cuantificar el cambio de nive-les de expresion genica de cada transcrito en varias condiciones de desarrollo yfisiologıa celular. Se han desarrollado varias tecnologıas de deduccion y cuan-tificacion de transcriptomas, incluıdas tecnicas de hibridacion y secuenciacion.Pero recientemente el desarrollo de nuevos metodos de secuenciacion de alta re-solucion ha generado este metodo de RNA-Seq (RNA-Secuencing) que permitetanto cuantificar como descubrir transcritos[9].

Se hara un estudio detallado de esta tecnica ya que sera en la que la partepractica se centre.

Tecnologıa RNA-Seq

RNA-Seq esta basado en tecnologıa NGS. Brevemente, una poblacion deRNA (total o fraccionado, como poly(A)+) se convierte en una librerıa de frag-mentos de cDNA con adaptadores adheridos a ambos extremos. Cada moleculade esta librerıa, tras amplificacion o no, es secuenciada a alta resolucion (esto es,con NGSs) para obtener secuencias cortas desde un extremo (secuenciacion deextremo unico, single ended) o de ambos extremos (secuenciacion de extremospareados, pair ended). Las lecturas estan habitualmente entre 30-400bp, depen-diendo de la plataforma de secuenciacion usada. A priori cualquier plataformaNGS se puede usar para RNA-Seq y ya Illumina IG, Applied Biosystems SOliDy Roche 454 Life Science ya han sido aplicados con exito a este fin. HelicosBioscience tSMS es tambien una plataforma adecuada para RNA-Seq aunqueno existen publicaciones de trabajo con ella. Su ventaja principal serıa evitar laamplificacion de cDNA[9]. Tras la secuenciacion las lecturas resultantes han dealinearse sobre de un genoma de referencia o transcritos de referencia. Ası mis-mo, podrıan ser usados para un ensamblaje de novo de la secuencia genomicaque produce un mapa transcripcional de escala genomica con informacion tantode la estructura transcripcional como del nivel de expresion de cada gen[9].

Ventajas y retos de la RNA-Seq

Esta joven tecnologıa ofrece una serie de importantes ventajas sobre susalternativas. Primero, y al contrario que otras tecnologıas basadas en hibri-dacion, RNA-Seq no se limita a detectar transcritos que se correspoden consecuencias genomicas conocidas. Esto es particularmente ventajoso en estudiode organismos no modelo. RNA-Seq puede descrifrar la localizacion concreta delas fronteras de transcripcion a un nivel de una sola base. Ası lecturas cortasaportan informacion de como dos exones se conectan mientras lecturas largashablan de la conectividad a niveles mayores. Tambien, puede revelar variacio-nes en regiones transcripcionales. Por otra banda, RNA-Seq carece de ruido defondo en el sentido de que una secuencia se pude mapear en regiones concretasdel genoma (salvadas consideraciones hechas anteriormente), sin que tampoco

8

Page 9: Next Generation Sequencing Revolution

Figura 2: Diagrama de un experimento tıpico de RNA-Seq. En esencia, los RNAslargos se almacenan en una librerıa de fragmentos de cDNA bion por fragmenta-cion de RNA bien de DNA. Posteriormente se realiza una union de cada cadenade cDNA a adaptadores y de cada uno de estos fragmentos se obtiene una lecturaen una plataforma de secuenciacion de alto rendimiento. La secuencia resultan-te se alinea con el genoma de referencia o un transcriptoma y se clasifican trestipos de elementos: lecturas de exones, lecturas de uniones o lecturas de colasPoly(A). Estos tipos se usan para obtener un perfil de expresion para cada gencon resolucion a nivel de base[9].

exista un lımite superior de cuantificacion, en contraposion con los microarrays.Tampoco hay pasos de clonado y en algunas plataformas nin se precisa de am-plificacion[9, 10].

Sin embargo, no esta exenta de retos esta tecnologıa. La preparacion demuestras de cDNA para RNA-Seq implica manipulaciones, aunque en generalsean pocas, que pueden dificultar el analisis de perfiles de transcripcion. Alcontrario que los miRNAs, piRNAs o siRNAs que pueden ser secuenciados di-rectamente tras la union a adaptador, las moleculas de RNA largas han de serfragmentadas para ser compatibles con secuenciacion en las NGSs, y esta frag-

9

Page 10: Next Generation Sequencing Revolution

mentacion puede incluir sesgos. Tambien, durante los procesos de amplificacionpara la construccion de cDNA no podemos obviar los artefactos resultado de laPCR[9, 10].

Retos del analisis bioinformatico de RNA-Seq

En cuanto a los retos bionformaticos que plantea la RNA-Seq, decir que sonsimilares a los que en general afectan al analisis de datos HT-NGS: problemasde almacenamiento, recuperacion y procesado de datos.

Toda vez se tiene los datos de lectura el primer paso en el analisis es elmapeo de las lecturas a un genoma de referencia o ensamblarlos en contigs.Existen varias alternativas para el mapeo a un genoma, que incluyen ELAND,SOAP, MAQ y RMAP. [9]

Como las lecturas de transcriptomas son lecturas que fruto de uniones exoni-cas y en algunos casos estan poliadeniladas, el analisis se complica. En los ge-nomas donde el empalme y ayuste es raro basta con buscar secuencias ricas enA’s o T’s (cola poly(A)) y en el caso de las uniones exonicas buscar secuenciasespecıficas (GT-AG) y confirmarlas con una baja transcripcion intronica. Peroen el caso de transcriptonas complejos, con trans-splicing, el mapeado es muchomas complejo. Una solucion parcial es hacer un registro de uniones encontradaso predichas y realizar el mapeado contra esta. Aun ası se necesita desarrollaralgoritmos que identifiquen eficientemente eventos de splicing alternativo queafecten a regiones distantes [3, 9].

En transcriptomas grandes el alineamiento se complica por la multitud dehits que una secuencia puede producir a lo largo del genoma. Una solucion esasignar eses lecturas de multiple posicion basandose en el numero de lecturasde las posiciones vecinas unicas. Esta estrategia ha funcionado con secuenciasrepetitivas que aparecen en baja cantidad pero no es valida para secuenciasrepetitivas largas, que siguen representando un reto. Ası mismo, variaciones desecuenciacion o polimorfismos de mas de dos bases son tambien un reto para elmapeado[3, 9].

10

Page 11: Next Generation Sequencing Revolution

Figura 3: Pipeline de analisis de datos de origen en secuenciacion RNA-Seq

Microarrays y RNA-Seq

Los microarrays han producido mucha y muy relevante informacion sobre co-mo el transcriptoma evoluciona en diferentes celulas, tejidos, como la expresiongenica cambia a lo largo del desarrollo y sobre los fenotipos de enfermedades,tambien de su variacion a lo largo de tiempo y entre especies. Han, muy espe-cialmente, mostrado como el genoma se transcribe a RNA no codificante. Conesto debe entenderse, por tanto, que los microarrays han sido una plataformade elucidacion de patrones de expresion exitosa. Mas, ahora RNA-Seq esta apa-reciendo como una alternativa para analisis de perfiles de transcripcion. Y hayvarios aspectos a los que la secuenciacion de RNA puede llegar que los micro-arrays no. Una de ellas es que ya que esta tecnica permite un acceso directo a lasecuencia, las uniones entre exones se pueden conocer sin ser necesario un cono-cimiento previo de la estructura genica. Otras son que los eventos de edicion deRNA se pueden detectar y que conocer los polimorfismos permite una medida deexpresion alelo-especıfica. Ası mismo, los microarrays no pueden ser aplicadosdirectamente en especies de las que carecemos de genoma de referencia, mientrasque RNA-Seq si. Y aunque RNA-Seq es una tecnica muy reciente se ha com-probado que las mediciones con arrays y RNA-Seq son altamente congruentes[11, 9, 10].

11

Page 12: Next Generation Sequencing Revolution

Casos de aplicacion de secuenciacion RNA-Seq

Aunque la RNA-Seq es una tecnologıa muy joven, ha sido aplicada con exitoa varios estudios y ya hay varias revisiones y comparativas sobre esta tecnica.Como casos que resenar, Buermans et al. (2010) analizo el perfıl de transcrip-cion de miRNAs con HT-NGS y en la que propone un metodo mas eficiente paragenerar librerıas de secuencias de miRNAs. Erhard y Zimmer (2010) han clasi-ficado RNAs pequenos no codificantes (ncRNAs) usando igualmente HT-NGSsy en el que demuestran la validez de un metodo de clasificacion por puntuacionque solo hace uso de las posiciones relativas y las longitudes de lectura de datosNGS para clasificar ncRNAs. Ramsingh et al. (2010) caracterizo por primeravez en transcriptoma de miRNAs en un cancer primario humano; se baso en elestudio de las variaciones de genes de miRNA y testo alteraciones en lugares deunion a miRNAs en pacientes con leucemia mieloide aguda. Un ultimo ejemploen el campo de las revisiones es Yang et al. (2011) donde propone una nuevabase de datos, deepBase, para facilitar la anotacion y descubrimiento de smallRNAs de datos de transcripcion genomica [5, 2].

Material y Metodos

Se pretende analizar la capacidad de la plataforma Galaxy [12, 13] para elanalisis de datos de secuenciacion de alto rendimiento usando datos de RNA-Seq. Los datos escogidos se correspoden con el estudio Genome-wide maps ofepigenetic features in G1E model and in mouse primary erythroblasts (NCBIGEO Ref. GSE30142 [14]). Dentro de estos solo se han usados dos lanes dedatos de RNA-Seq para el cromosoma 12 de Mus musculus, que provienen dela plataformas Illumina Genome Analyzer II, Illumina Genome Analyzer IIx yIllumina HiSeq 2000.

Tras la importacion de los ficheros FASTQ originales, se ejecuta un analisisde calidad de los datos usando FASTQ Summary Statistics y se representa lasalida con un BoxPlot. Se realiza un analisis de los resultados para comprobarla necesidad de filtrado con FASTQ Trimmer de las bases de las lecturas por situvieran una baja calidad. Toda vez comprobado esto, se ejecuta un mapeadode las lecturas sobre del genoma de raton (NCBI37/mm9, ensamblado de 2007)usando Tophat [15], que es un mapeador rapido de uniones de empalme y ayustepara lecturas de RNA-Seq. Este alinea secuencias de RNA-Seq a genomas detamanos grandes usando el alineador de secuencias Bowtie[16] y luego analiza elresultado de mapeo para identificar uniones de empalme y ayuste entre exones.

Tras el mapeo de las lecturas se ensamblan a transcritos completos a losque se pueda aplicar analisis ulteriores, como analisis de expresion diferencialo busqueda de posiciones de empalme. A cada conjunto de datos en BAM pro-ducido en Tophat se aplica Cufflinks. Cufflinks importa datos en formato SAMo BAM y produce una salida datos de isoformas ensambladas, niveles de ex-presion a nivel de isoforma y valores de expresion a nivel de gen. Hecho estose comparan con el genoma de referencia mm9 de raton, que ha sido importa-do en formato GFT a la plataforma desde el navegador genomico USCS, conla herramienta Cuffcompare que incluye Cufflinks y que esta destinada a estefin. Finalmente la ejecucion de Cuffdiff a las salidas de Cuffcompare permitevisualizar los cambios significativos en la expresion de los transcritos, empalme

12

Page 13: Next Generation Sequencing Revolution

y ayuste u uso de promotores.

Resultados

Un boxplot sobre el resultado del analisis de FASTQ Summary Statisticsmuestra que la calidad media de las bases esta por encima de 38. De la base 24en adelante la desviacion tıpica es mayor mas no significativamente relevante.Con lo que presuponemos innecesario realizar un filtrado de posiciones con bajacalidad.

Figura 4: BoxPlot en los datos de salida de FASTQ Summary Statistics. En eleje de abscisas se muestran la posicion de la base en la lectura y en las ordenadasla calidad de la lectura.

Tras el mapeado Tophat localiza 73,324 uniones de empalme y ayuste, delos cuales un 33,06 % de los transcritos superan las 10 copias.

Las pistas generadas pueden ser visualizadas en el navegador genomico deGalaxy o verlos en el navegador de ESMBL o USCS. Se ha explorado tantoen USCS como en le navegador de Galaxy las pistas generadas por TopHat,Cufflinks, Cuffcompare y Cuffdiff.

Contrastando la informacion de la anotacion del genoma de raton con lostranscritos ensamblados podemos encontrar multiples ejemplos a lo largo denuestros datos de anotaciones coincidentes, anotaciones que no se expresan ennuestra muestra, nuevos transcritos e isoformas del mismo transcrito. Com-parando la informacion anotada en el genoma de referencia con las pistas deemplame y ayuste o de emsamblado podemos deducir toda esa informacion.

13

Page 14: Next Generation Sequencing Revolution

Figura 5: La mayorıa de los transcritos ensamblados corroboran las anotacionesrealizadas en el genoma de referencia. Las posiciones y las uniones de empalmey ayuste coinciden en ambas pistas.

Figura 6: En otros casos nos encontramos transcritos anotados en el genoma dereferencia que estan ausentes en el transcriptoma analizado

Figura 7: Al contrario, tambien nos encontramos transcritos no anotados en elgenoma de referencia que si estan presentes en el transcriptoma analizado

Figura 8: En algunos casos las uniones de union y empalme no coinciden deltodo o aparecen otras nuevas, dentro del mismo transcrito. En este caso estamosante isoformas del mismo transcrito.

Podemos comparar los niveles de expresion de los transcritos ensambladospara identificar expresiones diferenciales entre muestras. Los niveles de expresion

14

Page 15: Next Generation Sequencing Revolution

se cuantifican como fragmentos por kilobase por millon de lecturas mapeadas(FPKM) y Cuffcompare ofrece esa informacion junto con bandas de confianza.Las bandas no solapadas entre muestras indican expresion diferencial.

Figura 9: Expresion diferencial en dos pistas analizadas. Se puede comprobarque algunas de las pistas de cuffcompare no se solapan con lo que nos indicanuna expresion diferencial

Con cutdiff obtenemos los cambios de expresion en los transcritos de nues-tra muestra analizada con respecto a un genoma de referencia. En la siguientecabecera del fichero producido por Cuffdiff podemos ver la informacion que nosofrece, siendo en valor de cambio de expresion el mas interesante. En este casose han obtenido 26.000 transcritos con expresion diferencial entre las muestrasanalizadas y el genoma de referencia de Mus musculus.

est_id gene_id gene locus sample_1 sample_2 status value_1 value_2

ln(fold_change) test_stat p_value q_value significant

NM_001001130 NM_001001130 -chr13:67830198-67857775 q1 q2 OK 1.74715

0.319978 -1.69749 4.26317 2.01551e-05 4.99445e-05 yes

NM_001001144 NM_001001144 -chr9:110235796-110287450 q1 q2 OK 2.88935

3.23605 0.113323 -0.544143 0.586343 0.67294 no

NM_001001152 NM_001001152 -chr13:67355853-67370004 q1 q2 OK 0.760322

0.117624 -1.86625 3.84734 0.000119405 0.000268869 yes

NM_001001160 NM_001001160 -chr6:85419571-85452880 q1 q2 NOTEST 0 0.0103522

1.79769e+308 1.79769e+308 0.158655 1 no

NM_001001176 NM_001001176 -chrX:103402212-103416497 q1 q2 OK 1.50126

2.01928 0.296438 -1.02307 0.306273 0.377534 no

Discusion

Las tecnologıas de NGS estan ofreciendo todo una nueva vıa para llegar adescubrimientos en campos muy variados de investigacion biologica, incluso al-gunos en los que las tecnicas de secuenciacion no habıan sido aplicadas. Aunquehay muchos puntos que mejorar, sobre todo en cuanto a tasas de error en las lec-turas, tanto las plataformas NGS como las herramientas de analisis informaticode los datos producidos por estas han evolucionado ya hasta tal punto que hanpermitido el ensamblado, por ejemplo, de genomas de novo solo usando datosprocedentes de NGSs, y por tanto pueden considerarse ya herramientas solidas.Aun ası las NGSs nos plantean como manejar toda esa cantidad de informacionque nos ofrecen con lo que el desarrollo y avance de herramientas informaticasy bases de datos seran esenciales. La tecnica en la que he fijado la atencion, laRNA-Seq y aun con todos los retos que afronta y que han sido descritos ante-riormente, ha permitido ya una perspectiva sin precedentes del transcriptomade una pequena pero significativa cantidad de especies.

15

Page 16: Next Generation Sequencing Revolution

Galaxy, la plaforma usada para el analisis de los datos, es un plataformade analisis que facilita la exploracion de los datos genomicos alto rendimientoa investigadores sin grandes conocimientos de bioinformatica y con la como-didad de ejecucion dentro de un navegador, sin necesidad de instalaciones. Almismo tiempo que esconde los detalles de operacion computacional permite rea-lizar analisis complejos y robustos con herramientas de estudio solidas. Es porlo tanto, una herramienta consolidada y de calidad para el analisis de datosbiologicos de alto rendimiento, como ha sido este caso de estudio de RNA-Seqo como prodrıan ser otros como Chip-Seq. Con esta plataforma se ha podidoanalizar un complejo set de datos que analizados en local requerirıan de unaalta capacidad de procesamiento computacional. Se ha ejecutado un analisis decalidad de los datos, un filtrado de calidad de los datos, un mapeado a un ge-noma de referencia, un ensamblado y un analisis de transcritos y identificacionde isoformas de transcritos – lo cual constituye un analisis realmente completode la informacion.

Anexo I: Analisis de RNA-Seq con Bioconductor

Bioconductor [17] ofrece herramientas para el analisis de datos genomicos dealto rendimient. Bioconductor usa el lenguaje de programacion estadıstico R yes de codigo abierto. Con mas de 460 paquetes ofrece soluciones al analisis dediferentes tipos de datos, desde microarrays, analisis de secuencias, anotaciony de ensayos HT-NGSs. Aunque de RNA-Seq es de reciente aparicion, Biocon-ductor ya cuenta con paquetes especializados en el analisis de datos producidosmediante esta tecnica, especialmente de analisis de expresion diferencial. En es-te anexo se pretende hacer una pequena introducion a algunas herramientas deanalisis de RNA-Seq disponibles para Bioconductor.

ArrayExpressHTS

ArrayExpressHTS [18] es un pipeline basado en R para preprocesado, esti-macion de expresion y analisis de calidad de datos de datos de alto rendimientoproducidos por RNA-Seq. El pipeline comienza con la secuencia original y pro-duce los objetos en R con las medidas de transcripcion para analisis downstreamjunto con informes de calidad de los datos. Puede ser ejecutado localmente o enun servidor R remoto, como el alojado en en European Bioinformatics Institute.

Los pasos que sigue el pipeline son:

Preparacion de los datos y metadatos experimentales

Analizar la calidad de los datos en bruto y produccion de un informe decalidad

Alinear las secuencias a una referencia, como un genoma de referencia

Filtrado de las lecturas

Analizar la calidad de las secuencias y produccion de un informe de calidad

Estimar la expresion

16

Page 17: Next Generation Sequencing Revolution

Con las configuraciones por defecto se iniciarıa el pipeline del siguiente modo,donde se da la clave de acceso a unos datos alojados publicamente en NCBIGEO:

library("ArrayExpressHTS")

aehts <- ArrayExpressHTS("E-GEOD-30142GS")

Si no queremos usar la referencia de EMBL, podremos obtener nuestro ge-noma o secuencia de referencia de esta manera:

prepareReference("Mus_musculus", version = "current", type = "genome",

location = referencefolder )

prepareReference("Mus_musculus", version = "current", type = "transcriptome",

location = referencefolder )

y preparar la anotacion:

prepareAnnotation("Mus_musculus", "NCBIM37.61", location = referencefolder )

Estableciendo este entorno de trabalo, donde se copia en local los datos:

srcfolder <- system.file("expdata", "testExperiment", package="ArrayExpressHTS");

dstfolder <- tempdir();

file.copy(srcfolder, dstfolder, recursive = TRUE);

El pipeline se ejecutarıa de esta manera:

aehts = ArrayExpressHTSFastQ(accession = "testExperiment",

organism = "Homo_sappiens", dir = dstfolder);

El set de datos de expresion se cargarıa ası:

loadednames = load(paste(dstfolder, "/testExperiment/eset_notstd_rpkm.RData",

sep=""));

loadednames;

get(’library’)(Biobase);

Obtendriamos los valores de expresion ejecutando:

head(assayData(eset)$exprs);

Y los metadatos del experimento haciendo lo siguiente

experimentData(eset);

pData(eset);

17

Page 18: Next Generation Sequencing Revolution

DEseq

El analisis de expresion diferencial para los datos recolectados puede ser rea-lizado con otras herramientas, luego de un analisis con ArrayExpressHTS, conpaquetes como edgeR o DEseq. En los experimentos con RNA-Seq o relacio-nados, se trabaja con tablas de recuento, que recopilan para cada muestra, elnumero de lecturas que han sido asignadas a cada gen, o otro tipo de entidad.DEseq[19] ofrece una herramienta potente de estimacion de la varianza paraestos datos y test de expresion diferencial.

Si los datos estuvieran en un data frame countsTable con unas condicionesconds

> head(countsTable)

T1a T1b T2 T3 N1 N2

Gene_00001 0 0 2 0 0 1

Gene_00002 20 8 12 5 19 26

Gene_00003 3 0 2 0 0 0

Gene_00004 75 84 241 149 271 257

Gene_00005 10 16 4 0 4 10

Gene_00006 129 126 451 223 243 149

> conds

[1] T T T Tb N

Levels: N T Tb N

Un analisis mınimo completo consistirıa en:

> cds <- newCountDataSet( countsTable, conds )

> cds <- estimateSizeFactors( cds )

> cds <- estimateVarianceFunctions( cds )

> res <- nbinomTest( cds, "T", "N")

La ultima instruccion realiza un test diferencial entre las condiciones etique-tadas como T y N y devuelve una frame de datos con p-valores (en bruto yajustados), valores medios, tasas de cambio y otra informacion util. Un ejemploserıa este:

id baseMean baseMeanA baseMeanB foldChange log2FoldChange

1 Gene_00001 0.4509631 0.3938651 0.536610 1.3624208 0.4461724

2 Gene_00002 17.9472488 16.0027575 20.863986 1.3037744 0.3826943

3 Gene_00003 1.0629635 1.7716058 0.000000 0.0000000 -Inf

Referencias

[1] E. Birney, J. A. Stamatoyannopoulos, A. Dutta, R. Guigo, T. R. Gingeras,E. H. Margulies, Z. Weng, M. Snyder, E. T. Dermitzakis, R. E. Thurman,M. S. Kuehn, C. M. Taylor, S. Neph, C. M. Koch, S. Asthana, A. Malho-tra, I. Adzhubei, J. A. Greenbaum, R. M. Andrews, P. Flicek, P. J. Boyle,H. Cao, N. P. Carter, G. K. Clelland, S. Davis, N. Day, P. Dhami, S. C.Dillon, M. O. Dorschner, H. Fiegler, P. G. Giresi, J. Goldy, M. Hawrylycz,A. Haydock, R. Humbert, K. D. James, B. E. Johnson, E. M. Johnson,

18

Page 19: Next Generation Sequencing Revolution

T. T. Frum, E. R. Rosenzweig, N. Karnani, K. Lee, G. C. Lefebvre, P. A.Navas, F. Neri, S. C. Parker, P. J. Sabo, R. Sandstrom, A. Shafer, D. Ve-trie, M. Weaver, S. Wilcox, M. Yu, F. S. Collins, J. Dekker, J. D. Lieb,T. D. Tullius, G. E. Crawford, S. Sunyaev, W. S. Noble, I. Dunham, F. De-noeud, A. Reymond, P. Kapranov, J. Rozowsky, D. Zheng, R. Castelo,A. Frankish, J. Harrow, S. Ghosh, A. Sandelin, I. L. Hofacker, R. Baertsch,D. Keefe, S. Dike, J. Cheng, H. A. Hirsch, E. A. Sekinger, J. Lagarde, J. F.Abril, A. Shahab, C. Flamm, C. Fried, J. Hackermuller, J. Hertel, M. Lin-demeyer, K. Missal, A. Tanzer, S. Washietl, J. Korbel, O. Emanuelsson,J. S. Pedersen, N. Holroyd, R. Taylor, D. Swarbreck, N. Matthews, M. C.Dickson, D. J. Thomas, M. T. Weirauch, J. Gilbert, J. Drenkow, I. Bell,X. Zhao, K. G. Srinivasan, W. K. Sung, H. S. Ooi, K. P. Chiu, S. Foissac,T. Alioto, M. Brent, L. Pachter, M. L. Tress, A. Valencia, S. W. Choo,C. Y. Choo, C. Ucla, C. Manzano, C. Wyss, E. Cheung, T. G. Clark, J. B.Brown, M. Ganesh, S. Patel, H. Tammana, J. Chrast, C. N. Henrichsen,C. Kai, J. Kawai, U. Nagalakshmi, J. Wu, Z. Lian, J. Lian, P. Newburger,X. Zhang, P. Bickel, J. S. Mattick, P. Carninci, Y. Hayashizaki, S. Weiss-man, T. Hubbard, R. M. Myers, J. Rogers, P. F. Stadler, T. M. Lowe,C. L. Wei, Y. Ruan, K. Struhl, M. Gerstein, S. E. Antonarakis, Y. Fu,E. D. Green, U. Karaoz, A. Siepel, J. Taylor, L. A. Liefer, K. A. Wetters-trand, P. J. Good, E. A. Feingold, M. S. Guyer, G. M. Cooper, G. Asimenos,C. N. Dewey, M. Hou, S. Nikolaev, J. I. Montoya-Burgos, A. Loytynoja,S. Whelan, F. Pardi, T. Massingham, H. Huang, N. R. Zhang, I. Hol-mes, J. C. Mullikin, A. Ureta-Vidal, B. Paten, M. Seringhaus, D. Church,K. Rosenbloom, W. J. Kent, E. A. Stone, S. Batzoglou, N. Goldman, R. C.Hardison, D. Haussler, W. Miller, A. Sidow, N. D. Trinklein, Z. D. Zhang,L. Barrera, R. Stuart, D. C. King, A. Ameur, S. Enroth, M. C. Bieda,J. Kim, A. A. Bhinge, N. Jiang, J. Liu, F. Yao, V. B. Vega, C. W. Lee,P. Ng, A. Shahab, A. Yang, Z. Moqtaderi, Z. Zhu, X. Xu, S. Squazzo, M. J.Oberley, D. Inman, M. A. Singer, T. A. Richmond, K. J. Munn, A. Rada-Iglesias, O. Wallerman, J. Komorowski, J. C. Fowler, P. Couttet, A. W.Bruce, O. M. Dovey, P. D. Ellis, C. F. Langford, D. A. Nix, G. Euskirchen,S. Hartman, A. E. Urban, P. Kraus, S. V. Calcar, N. Heintzman, T. H. Kim,K. Wang, C. Qu, G. Hon, R. Luna, C. K. Glass, M. G. Rosenfeld, S. F.Aldred, S. J. Cooper, A. Halees, J. M. Lin, H. P. Shulha, X. Zhang, M. Xu,J. N. Haidar, Y. Yu, Y. Ruan, V. R. Iyer, R. D. Green, C. Wadelius, P. J.Farnham, B. Ren, R. A. Harte, A. S. Hinrichs, H. Trumbower, H. Clawson,J. Hillman-Jackson, A. S. Zweig, K. Smith, A. Thakkapallayil, G. Barber,R. M. Kuhn, D. Karolchik, L. Armengol, C. P. Bird, P. I. de Bakker, A. D.Kern, N. Lopez-Bigas, J. D. Martin, B. E. Stranger, A. Woodroffe, E. Davy-dov, A. Dimas, E. Eyras, I. B. Hallgrimsdottir, J. Huppert, M. C. Zody,G. R. Abecasis, X. Estivill, G. G. Bouffard, X. Guan, N. F. Hansen, J. R.Idol, V. V. Maduro, B. Maskeri, J. C. McDowell, M. Park, P. J. Thomas,A. C. Young, R. W. Blakesley, D. M. Muzny, E. Sodergren, D. A. Wheeler,K. C. Worley, H. Jiang, G. M. Weinstock, R. A. Gibbs, T. Graves, R. Ful-ton, E. R. Mardis, R. K. Wilson, M. Clamp, J. Cuff, S. Gnerre, D. B. Jaffe,J. L. Chang, K. Lindblad-Toh, E. S. Lander, M. Koriabine, M. Nefedov,K. Osoegawa, Y. Yoshinaga, B. Zhu, and P. J. de Jong, “Identificationand analysis of functional elements in 1 % of the human genome by theENCODE pilot project,” Nature, vol. 447, pp. 799–816, Jun 2007.

19

Page 20: Next Generation Sequencing Revolution

[2] R. Cullum, O. Alder, and P. A. Hoodless, “The next generation: using newsequencing technologies to analyse gene regulation,” Respirology, vol. 16,pp. 210–222, Feb 2011.

[3] M. Nowrousian, “Next-generation sequencing techniques for eukaryotic mi-croorganisms: sequencing-based solutions to biological problems,” Eukar-yotic Cell, vol. 9, pp. 1300–1310, Sep 2010.

[4] M. L. Metzker, “Sequencing technologies - the next generation,” Nat. Rev.Genet., vol. 11, pp. 31–46, Jan 2010.

[5] C. S. Pareek, R. Smoczynski, and A. Tretyn, “Sequencing technologies andgenome sequencing,” J Appl Genet, Jun 2011.

[6] J. Zhang, R. Chiodini, A. Badr, and G. Zhang, “The impact of next-generation sequencing on genomics,” J Genet Genomics, vol. 38, pp. 95–109, Mar 2011.

[7] D. Fologea, M. Gershow, B. Ledden, D. S. McNabb, J. A. Golovchenko,and J. Li, “Detecting single stranded DNA with a solid state nanopore,”Nano Lett., vol. 5, pp. 1905–1909, Oct 2005.

[8] E. Liu, S. Pott, and M. Huss, “Q & a: Chip-seq technologies and the studyof gene regulation,” BMC biology, vol. 8, no. 1, p. 56, 2010.

[9] Z. Wang, M. Gerstein, and M. Snyder, “Rna-seq: a revolutionary tool fortranscriptomics.,” Nat Rev Genet, vol. 10, pp. 57–63, Jan. 2009.

[10] V. Costa, C. Angelini, I. D. Feis, and A. Ciccodicola, “Uncovering thecomplexity of transcriptomes with RNA-Seq,” J. Biomed. Biotechnol.,vol. 2010, p. 853916, 2010.

[11] J. Malone and B. Oliver, “Microarrays, deep sequencing and the true mea-sure of the transcriptome,” BMC biology, vol. 9, no. 1, p. 34, 2011.

[12] J. Goecks, A. Nekrutenko, J. Taylor, E. Afgan, G. Ananda, D. Baker,D. Blankenberg, R. Chakrabarty, N. Coraor, J. Goecks, G. Von Kuster,R. Lazarus, K. Li, A. Nekrutenko, J. Taylor, and K. Vincent, “Galaxy: acomprehensive approach for supporting accessible, reproducible, and trans-parent computational research in the life sciences,” Genome Biol., vol. 11,p. R86, 2010.

[13] D. Blankenberg, G. Von Kuster, N. Coraor, G. Ananda, R. Lazarus,M. Mangan, A. Nekrutenko, and J. Taylor, “Galaxy: a web-based geno-me analysis tool for experimentalists,” Curr Protoc Mol Biol, vol. Chapter19, pp. 1–21, Jan 2010.

[14] T. Barrett, D. B. Troup, S. E. Wilhite, P. Ledoux, C. Evangelista, I. F. Kim,M. Tomashevsky, K. A. Marshall, K. H. Phillippy, P. M. Sherman, R. N.Muertter, M. Holko, O. Ayanbule, A. Yefanov, and A. Soboleva, “NCBIGEO: archive for functional genomics data sets–10 years on,” Nucleic AcidsRes., vol. 39, pp. D1005–1010, Jan 2011.

20

Page 21: Next Generation Sequencing Revolution

[15] C. Trapnell, L. Pachter, and S. L. Salzberg, “TopHat: discovering splicejunctions with RNA-Seq,” Bioinformatics, vol. 25, pp. 1105–1111, May2009.

[16] B. Langmead, C. Trapnell, M. Pop, and S. L. Salzberg, “Ultrafast andmemory-efficient alignment of short DNA sequences to the human genome,”Genome Biol., vol. 10, p. R25, 2009.

[17] Bioconductor, “Bioconductor,” January 2011.

[18] A. T. A. Goncalves, “Arrayexpresshts,” January 2011.

[19] S. Anders, “Deseq,” January 2011.

21