RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana...

RNA-seq y Anotación Funcional

Ana Conesa & Diego de Pannis 26-28 Noviembre 2013

FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

Programa

Dia 1 Mañana: Introducción a RNA-‐seq Introducción a las tecnologías de

ultrasecuenciacion, aplicaciones y limitaciones.

Conceptos básicos de RNA-‐seq. Preparación de librerías, diseño experimental, RNA-‐seq en presencia y ausencia de un genoma de referencia.

Control de calidad en secuenciación masiva.

Tarde: RNA-‐seq con genoma de

referencia Mapeo CuanEficación Expresión diferencial Enriquecimiento funcional

Dia 2 Mañana: RNA-‐seq sin genoma de

referencia Reconstrucción de tránscritos Calidad e idenEficación de nuevos

tránscritos Tarde: Anotación Funcional Conceptos de Anotación Funcional Herramienta Blast2GO.

Dia 3 Mañana: Asignación de función

Métodos de anotación automáCca

EstadísEcas de anotación Estrategias de anotación. Que

hacer en sets de datos diPciles?

Tarde: Análisis de información

Funcional Visualización Análisis de Enriquecimiento

NGS: using sequencing to study mulEple aspects of nucleic acids

Cost-effective Fast

Ultra throughput Cloning-free Short reads

Next GeneraEon Sequencing

Comparison of NGS technologies

• Short fragments • 2x150

• Errors: Hexamer bias • High throughput • Cheap

• Resequencing: • ChipSeq • RNASeq • MethylSeq

• Short fragments • 2x75

• Color-space • High throughput • Cheap

• Resequencing: • ChipSeq • RNASeq • MethylSeq

• Long fragments • 800-20000

• Errors: poly nts/Many • Low throughput • Expensive

• De novo sequencing • Amplicon sequencing • Closing genomes • Full-length transcripts

Roche 454 Solexa SOLiD PacBio

Long Reads Low throughput

Short Reads High throughput

ApplicaEons De novo sequencing Resequencing Exome Sequencing RNA-seq Genome annotation Chip-seq Methyl-seq …….

RNA-‐seq: transcript idenEficaEon

Haas and Zody, 2010 Mortazavi, 2008

RNA-‐seq: quanEficaEon

Map to transcripts Map to genomes

ApplicaEons of RNA-‐seq

• AlternaEve splicing • IdenEficaEon of transcripts * AnEsense expression * Extragenic expression * AlternaEve 5’ and 3’ usage * DetecEon of fusion transcripts ….

* DifferenEal expression * Dynamic range of gene expression ….

Qualitative Quantitative

Advantages of RNA-‐seq

* Non targeted transcript detecEon * No need of reference genome * Strand specificity * Find novels splicing sites * Larger dynamic range * Detects expression and SNVs * Detects rare transcripts ….

* Restricted to probes on array * Needs genome knowledge * Normally, not strand specific * Exon arrays difficult to use * Smaller dynamic range * Does not provide sequence info * Rare transcripts difficult ….

RNA-seq

microarrays

and…. are there any disadvantages?????

Sequence preprocessing

Mapping

QuanEficaEon

DifferenEal expression Transcript assembly FuncEonal annotaEon

InterpretaEon

Library preparaEon

RNA-‐seq pipeline

Mapping

QuanEficaEon

InterpretaEon

Library preparaCon

RNA-‐seq pipeline

RNA-‐seq protocol*

total RNA purification

oligodT

mRNA preparation

2nd strand synthesis fragmentation 1st strand synthesis

RNA DNA *Solexa Pair-End

RNA-‐seq protocol (II)

adenylation 3’ ends

ligate adapters

amplification

SEQUENCING!

library

400-200

Strand-‐specific RNA-‐seq

RNA-‐seq landscape

Some surprises of RNA-‐seq

RNAseq

In RNA-seq, there is a relationship between the chance that a gene is declared differentially expressed and its length

The relative distribution of transcript species depends on the sequencing depth

Positive correlation between expression level and transcript length. Also with RPKM!!!

Mapping

QuanEficaEon

InterpretaEon

Library preparaEon

RNA-‐seq pipeline

Fastq Format for RNA-‐seq data

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

n  1. Header (like the fasta but starEng with “@”)

n  2. Sequence (string of nt)

n  3. “+” and sequence ID (opEonal)

n  4. Encoded quality of the sequence

¨  Phred scores

Phred Quality Score

Probability of incorrect base

Base call accuracy

10 1 in 10 90% 20 1 in 100 99% 30 1 in 1000 99.9% 40 1 in 10000 99.99% 50 1 in 100000 99.999%

Quality codificaEon

FastQC: Quality Control

¨  Good data ¤  Consistent ¤ High quality along the read

l  The central red line is the median value l  The yellow box represents the inter-quartile range (25-75%) l  The upper and lower whiskers represent the 10% and 90% points l  The blue line represents the mean quality

Sequence quality per base posiEon

¨  Bad data ¤  High variance ¤  Quality decrease with length

SOLiD characteristic pattern

Sequence quality per base posiEon

¨  Good data ¤  Most are high-‐quality sequences

Per sequence quality distribuEon

¨  Bad data ¤  Non-‐uniform

distribuEon

Low Quality Reads

Per sequence quality distribuEon

Per base sequence content

¨  Good data ¤  Smooth over length ¤  Organism dependent

¨  Bad data ¤  Sequence posiEon bias

¨  Good data ¤  Fits with expected ¤  Organism dependent

¨  Bad data ¤  Does not fit with expected ¤  Library contaminaEon?

Per sequence GC content

¨  Good data

¨  Bad data

Not good if there are N bias per base

posiCon

Per base N content

¨  In transcriptomics, you expect higher number of duplicated sequences. ¨  In genomics you should be worried if this happens → PCR arEfact?

Sequence duplicaEon levels

¨  Removing bad quality data will improve our confidence on downstream analysis

Filtering & trimming

¨  Sequence filtering ¤  Mean quality ¤  Read length ¤  Read length aper

trimming ¤  Percentage of bases

above Q ¤  Adapter trimming ¤  Adapter reads

minimum quality

threshold

Filtering & trimming

¨  Sequence filtering tools ¤  Fastx-‐toolkit ¤  Galaxy (hqps://main.g2.bx.psu.edu/) ¤  SeqTK (hqps://github.com/lh3/seqtk) ¤  Cutadapt (hqp://code.google.com/p/cutadapt/) ¤  And more....

Exercise 1. Quality Control

Mapping

QuanEficaEon

InterpretaEon

Library preparaEon

RNA-‐seq pipeline

Mapping

Mapping (First step)

Mapping (Second step)

Small Length Reads

Long Length Reads

Considering library-‐type

¨  Strand-‐specific (ssRNASeq) data

¨  and not strand-‐specific (nsRNASeq) data

Considering Library type

¨  Single Reads (SR) and Paired-‐end Target (PET)

¨  Single Reads result in One fastq file, Paired-‐end in Two

Insert length

Fragment length

Forward Read Reverse

IdenEfying library-‐type for mapping

Mapping with TopHat

Fast splice juncEon mapper for RNA-‐Seq reads

Free and open-‐source sopware tool

TopHat algorithm

Tophat mapea con BowCe TopHat ensambla con mac TopHat2 usa BowCe2, un mapeador con huecos, apto para lecutras de 50 a 100/1000 nts.

Esquema mapeo TopHat

Genoma referencia (fichero fasta)

Ficheros índice (6 files.ebwt)

bow1e-‐build

RNA-‐seq data (fichero fastq)

TopHat

Ficheros de mapeo (bam and bed files)

Sintaxis para el indexado del genoma

1) Indexado del genoma de referencia Sintax: bowCe-‐build [opCons]* <reference_in> <ebwt_base> <reference_in> Una lista de ficheros FASTA separados por comas, con el

genoma de referencia. <ebwt_base> El nombre base dado a los ficheros indexados [opCons]* Para ajustar parámetros a cada análisis

-‐C/-‐-‐color Indexado en color space

http://bowtie-bio.sourceforge.net/manual.html

Sintaxis para el indexado del genoma

1) Indexado del genoma de referencia Sintax: bowCe-‐build [opCons]* <reference_in> <ebwt_base> Ejemplo: > bowCe-‐build NC_002127.fna e_coli_O157_H7 Output index files: e_coli_O157_H7.1.ebwt e_coli_O157_H7.2.ebwt e_coli_O157_H7.3.ebwt e_coli_O157_H7.4.ebwt e_coli_O157_H7.rev.1.ebwt e_coli_O157_H7.rev.2.ebwt

Sintaxis para el mapeado con TopHat

1) Sopware se necesita: TopHat2, Botwie2 y samtools Sintax > tophat [opCons]* <index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2] <index_base> Genoma indexado, obtenido con BowEe <reads1_1[,...,readsN_1]> Ficheros lecturas par 1 [reads1_2,...readsN_2] Ficheros lecturas par 2 [opCons]* Para ajustar parámetros a cada análisis -‐I or -‐i Maximum and minimum intron length -‐-‐library_type By default unstranded

OpEons for –library-‐type

Ejemplo sintaxis mapping > tophat -‐-‐library_type fr-‐firtstrand e_coli_O157_H7 raw_data_1,raw_data_2,raw_data_3

Output tophat files: accepted_hits.bam Resultado del mapeo align_summary.txt Info sobre lecturas meadas tdeleEons.bed Posiciones y tamaño de delecciones inserEons.bed Posiciones y tamaño de insercciones juncEons.bed Posiciones de las uniones de exones Logs Info sobre el proceso de mapeo prep_reads.info unmapped.bam Lecturas no mapeadas

Visualización de los datos

Bash Linux commands

> ls –l lista los ficheros del directorio

Visualización de los datos

Bash Linux commands (para ficheros de texto, no bam)

> cat muestra todo el contenido del fichero > more muestra el principio del fichero > less muestra el final del fichero > head muestra las primeras líneas del fichero

Visualización de los datos Samtools: programa para manejar ficheros de secuenciacion

accepted_hits.bam List of read alignments (binary file)

Openning binary file using samtools view

accepted_hits.sam List of read alignments (text file)

Transform .bam in .sam

Bam/Sam format Más info en hqp://samtools.sourceforge.net/SAMv1.pdf

1 2 3 4 5 6 7 8 9 10

BED format > head deleCons.bed

chr start end counts

> Head insercCons.bed

chr start end nt couts

> head juncCons.bed

chr start end junct. Name counts strand

Exercise 2: Mapping

Mapping

QuanEficaEon

InterpretaEon

Library preparaEon

RNA-‐seq pipeline

CuanEficación en RNA-‐seq ¿Qué es cuanCficación en RNA-‐seq? •  El número de lecturas en genes o tránscritos es una medida de la expresión del gen •  Aproximación más simple: contar el número de lecturas

Objeto de la cuanCficación: •  Determinar el número de genes expresados en una muestra •  Necesario para análisis de expresión diferencial

Problemas: •  Diferentes aproximaciones à diferentes resultados •  Lecturas de mulEmapeo •  Lecturas solapantes •  Especificiad de hebra •  No uniformidad de distribución de lecturas a lo largo del gen

Mapeo vs. CuanEficación

Programas

hqp://www-‐huber.embl.de/users/anders/HTSeq/doc/count.html

hqp://cufflinks.cbcb.umd.edu/manual.html

hqp://qualimap.bioinfo.cipf.es/

Cufflinks

Sintax: > cufflinks [opCons]* <aligned_reads.(sam/bam)>

[opCons]* -‐ G Se uEliza un g{ proporcionado. No ensambla transcritos -‐ g Ensambla pero usando el gp proporcionado de referencia

-‐ u para tratar las mulEreads -‐-‐library-‐type Igual que para TopHat

* EsEma Fragment per Kilobase of exon Model per Million fragments mapped (FPKM) * Usa un método de máxima verosimilitud to asignar reads a transcritos solapantes. * Intenta considerar distribuciones heterogéneas de lecturas en la long.del transcrito * No Eene por que ser una solucion parsimoniosa.

Cufflinks output

Htseq-‐count

Sintax: > htseq-‐count [opCons]* <sam_file> <gff_file>

<sam_file> Generado con un programa que hace gapped alignment (TopHat) Si se uEliza paired-‐end data, fichero Eene que estar ordenado (sort)

<gq_file> Indica las posiciones de las features del genoma Está disponible para casi todos los genomas

[opCons]* -‐ m modo para lecturas solapantes (see next slide) -‐ s si es strand-‐specific [yes, no, reverse]

-‐ t feature type. Tercera columna del g{. Defecto es exon -‐i Defecto es gene_id

Modos Htseq-‐count

Htseq-‐count output

Fichero de texto con los conteos de cada feature. Al final se idica: No_feature lecturas que no solapan con features del g{ Ambiguous según el modo y el esquema anterior Too_low_aQual baja calidad (según parámetro –a) Not_aligned Lecturas en SAM sin alginment Alignmnent not unique lecturas con mulEmapping

Qualimap

* Implementa una version intersecEon-‐reach del Htseq-‐count * Mucho más rápido * Considera las lecturas con múliples mapeos * Permite QC de conteos

Use this opEon for beqer treatment Of mulEmapping reads

Use the right sequencing protocol

Choose gene or transcript

Choose exon reads

Htseq-‐count/Qualimap output

Exercise 3: Conteos

Mapping

QuanEficaEon

InterpretaEon

Library preparaEon

RNA-‐seq pipeline

RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana...

Documents

Transcript of RNA-seq y Anotación Funcional - · PDF fileRNA-seq y Anotación Funcional Ana...

ESTUDIO DEL TRANSCRIPTOMA MEDIANTE RNA-SEQ CON … · indizadas por PubMed sobre secuenciación masiva de cDNA sintetizado a partir de RNA (RNA-seq; Fig. 1). El RNA-seq es una herramienta

Anotación Genómica de la región ENCODE ENm011

Reglamento hdt seq

Especial Electoral de Anotación Negativa

Treebank y anotación semántica en euskara

lA ANOTACIÓN ALGEBLA ANOTACIÓN ALGEBRAICA...APRENDE A JUGAR AL AJEDREZ actiludis.com focaclipart.wordpress.com Anota la posición de las siguientes piezas 1 2 3 ANOTACIÓN ANOTACIÓN

Órgano Profesional de la Sociedad Española de Quimioterapia (SEQ) · 2017-04-24 · Órgano Profesional de la Sociedad Española de Quimioterapia (SEQ) Edita: Instituto LeBlu Año

JGB − Curso básico de ajedrezsd8c45c0b4fd00a61.jimcontent.com/.../ajedrezjgb.pdf · Índice Sistemas de anotación de las partidas.....32 Sistema de anotación algebraica abreviada.....32

TEMA 3. Conceptos Avanzados del Protocolo TCP...SEQ = 1 (bytes del 1 al 100) SEQ = 101 (bytes del 101 al 200) SEQ = 201 (bytes del 201 al 300) SEQ = 301 (bytes del 301 al 400) ACK

EDICIÓN Y ANOTACIÓN DE TEXTOS COLONIALES ...

Anotación Negativa N° 50

Desarrollo de un proceso de análisis de datos RNA-seq ...

Anotación 1

Anotación Negativa N° 31

ANOTACIÓN PRELIMINAR ARTÍCULO PRIMERO» del con idéntico …

Seq CorpseBride

GUÍA DE ANOTACIÓN Y NORMALIZACIÓN DE COMPUESTOS …

GBRIO SEQ SP 5 0 - eifu.esaote.com

-CITE-Seq シングルセル -死細胞除去 受託解析 Single Cell RNA ... Assets/NGS_scRNA...Single Cell RNA-Seqなら見えないものが見えてくる！ 従来のRNA-Seq

Revisión - SEQ

-CITE-Seq シングルセル -死細胞除去受託解析 Single Cell RNA ... Assets/NGS_scRNA...Single Cell RNA-Seqなら見えないものが見えてくる！従来のRNA-Seq