Post on 05-Mar-2018
RNA-seq y Anotación Funcional
Ana Conesa & Diego de Pannis 26-28 Noviembre 2013
FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina
Programa
Dia 1 Mañana: Introducción a RNA-‐seq Introducción a las tecnologías de
ultrasecuenciacion, aplicaciones y limitaciones.
Conceptos básicos de RNA-‐seq. Preparación de librerías, diseño experimental, RNA-‐seq en presencia y ausencia de un genoma de referencia.
Control de calidad en secuenciación masiva.
Tarde: RNA-‐seq con genoma de
referencia Mapeo CuanEficación Expresión diferencial Enriquecimiento funcional
Dia 2 Mañana: RNA-‐seq sin genoma de
referencia Reconstrucción de tránscritos Calidad e idenEficación de nuevos
tránscritos Tarde: Anotación Funcional Conceptos de Anotación Funcional Herramienta Blast2GO.
Dia 3 Mañana: Asignación de función
Métodos de anotación automáCca
EstadísEcas de anotación Estrategias de anotación. Que
hacer en sets de datos diPciles?
Tarde: Análisis de información
Funcional Visualización Análisis de Enriquecimiento
NGS: using sequencing to study mulEple aspects of nucleic acids
Cost-effective Fast
Ultra throughput Cloning-free Short reads
Next GeneraEon Sequencing
Comparison of NGS technologies
• Short fragments • 2x150
• Errors: Hexamer bias • High throughput • Cheap
• Resequencing: • ChipSeq • RNASeq • MethylSeq
• Short fragments • 2x75
• Color-space • High throughput • Cheap
• Resequencing: • ChipSeq • RNASeq • MethylSeq
• Long fragments • 800-20000
• Errors: poly nts/Many • Low throughput • Expensive
• De novo sequencing • Amplicon sequencing • Closing genomes • Full-length transcripts
Roche 454 Solexa SOLiD PacBio
Long Reads Low throughput
Short Reads High throughput
ApplicaEons De novo sequencing Resequencing Exome Sequencing RNA-seq Genome annotation Chip-seq Methyl-seq …….
RNA-‐seq: transcript idenEficaEon
Haas and Zody, 2010 Mortazavi, 2008
RNA-‐seq: quanEficaEon
16 18
4 6
Map to transcripts Map to genomes
ApplicaEons of RNA-‐seq
• AlternaEve splicing • IdenEficaEon of transcripts * AnEsense expression * Extragenic expression * AlternaEve 5’ and 3’ usage * DetecEon of fusion transcripts ….
* DifferenEal expression * Dynamic range of gene expression ….
Qualitative Quantitative
Advantages of RNA-‐seq
* Non targeted transcript detecEon * No need of reference genome * Strand specificity * Find novels splicing sites * Larger dynamic range * Detects expression and SNVs * Detects rare transcripts ….
* Restricted to probes on array * Needs genome knowledge * Normally, not strand specific * Exon arrays difficult to use * Smaller dynamic range * Does not provide sequence info * Rare transcripts difficult ….
RNA-seq
microarrays
and…. are there any disadvantages?????
Sequence preprocessing
Mapping
QuanEficaEon
DifferenEal expression Transcript assembly FuncEonal annotaEon
InterpretaEon
Library preparaEon
RNA-‐seq pipeline
Sequence preprocessing
Mapping
QuanEficaEon
DifferenEal expression Transcript assembly FuncEonal annotaEon
InterpretaEon
Library preparaCon
RNA-‐seq pipeline
RNA-‐seq protocol*
total RNA purification
oligodT
RiboZ
mRNA preparation
2nd strand synthesis fragmentation 1st strand synthesis
RNA DNA *Solexa Pair-End
RNA-‐seq protocol (II)
A
A
A
A
A
A
A
A
A
A
adenylation 3’ ends
ligate adapters
amplification
SEQUENCING!
library
100b
p lad
400-200
400-200
Strand-‐specific RNA-‐seq
Strand-‐specific RNA-‐seq
RNA-‐seq landscape
Some surprises of RNA-‐seq
RNAseq
In RNA-seq, there is a relationship between the chance that a gene is declared differentially expressed and its length
Some surprises of RNA-‐seq
The relative distribution of transcript species depends on the sequencing depth
Some surprises of RNA-‐seq
The relative distribution of transcript species depends on the sequencing depth
Positive correlation between expression level and transcript length. Also with RPKM!!!
Sequence preprocessing
Mapping
QuanEficaEon
DifferenEal expression Transcript assembly FuncEonal annotaEon
InterpretaEon
Library preparaEon
RNA-‐seq pipeline
Fastq Format for RNA-‐seq data
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
n 1. Header (like the fasta but starEng with “@”)
n 2. Sequence (string of nt)
n 3. “+” and sequence ID (opEonal)
n 4. Encoded quality of the sequence
23
¨ Phred scores
Phred Quality Score
Probability of incorrect base
call
Base call accuracy
10 1 in 10 90% 20 1 in 100 99% 30 1 in 1000 99.9% 40 1 in 10000 99.99% 50 1 in 100000 99.999%
Quality codificaEon
FastQC: Quality Control
¨ Good data ¤ Consistent ¤ High quality along the read
l The central red line is the median value l The yellow box represents the inter-quartile range (25-75%) l The upper and lower whiskers represent the 10% and 90% points l The blue line represents the mean quality
Sequence quality per base posiEon
¨ Bad data ¤ High variance ¤ Quality decrease with length
SOLiD characteristic pattern
Sequence quality per base posiEon
¨ Good data ¤ Most are high-‐quality sequences
Per sequence quality distribuEon
¨ Bad data ¤ Non-‐uniform
distribuEon
Low Quality Reads
Per sequence quality distribuEon
Per base sequence content
¨ Good data ¤ Smooth over length ¤ Organism dependent
(GC)
Per base sequence content
¨ Bad data ¤ Sequence posiEon bias
Per base sequence content
¨ Good data ¤ Fits with expected ¤ Organism dependent
¨ Bad data ¤ Does not fit with expected ¤ Library contaminaEon?
Per sequence GC content
¨ Good data
¨ Bad data
Not good if there are N bias per base
posiCon
Per base N content
¨ In transcriptomics, you expect higher number of duplicated sequences. ¨ In genomics you should be worried if this happens → PCR arEfact?
Sequence duplicaEon levels
¨ Removing bad quality data will improve our confidence on downstream analysis
Filtering & trimming
¨ Sequence filtering ¤ Mean quality ¤ Read length ¤ Read length aper
trimming ¤ Percentage of bases
above Q ¤ Adapter trimming ¤ Adapter reads
minimum quality
threshold
Filtering & trimming
¨ Sequence filtering tools ¤ Fastx-‐toolkit ¤ Galaxy (hqps://main.g2.bx.psu.edu/) ¤ SeqTK (hqps://github.com/lh3/seqtk) ¤ Cutadapt (hqp://code.google.com/p/cutadapt/) ¤ And more....
Exercise 1. Quality Control
Sequence preprocessing
Mapping
QuanEficaEon
DifferenEal expression Transcript assembly FuncEonal annotaEon
InterpretaEon
Library preparaEon
RNA-‐seq pipeline
Mapping
Mapping (First step)
Mapping (Second step)
Small Length Reads
Long Length Reads
Considering library-‐type
¨ Strand-‐specific (ssRNASeq) data
¨ and not strand-‐specific (nsRNASeq) data
40
Considering Library type
¨ Single Reads (SR) and Paired-‐end Target (PET)
¨ Single Reads result in One fastq file, Paired-‐end in Two
SR
PET
Insert length
Fragment length
Forward Read Reverse
Read
IdenEfying library-‐type for mapping
Mapping with TopHat
Fast splice juncEon mapper for RNA-‐Seq reads
Free and open-‐source sopware tool
TopHat algorithm
Tophat mapea con BowCe TopHat ensambla con mac TopHat2 usa BowCe2, un mapeador con huecos, apto para lecutras de 50 a 100/1000 nts.
Esquema mapeo TopHat
Genoma referencia (fichero fasta)
Ficheros índice (6 files.ebwt)
bow1e-‐build
RNA-‐seq data (fichero fastq)
TopHat
Ficheros de mapeo (bam and bed files)
Sintaxis para el indexado del genoma
1) Indexado del genoma de referencia Sintax: bowCe-‐build [opCons]* <reference_in> <ebwt_base> <reference_in> Una lista de ficheros FASTA separados por comas, con el
genoma de referencia. <ebwt_base> El nombre base dado a los ficheros indexados [opCons]* Para ajustar parámetros a cada análisis
-‐C/-‐-‐color Indexado en color space
http://bowtie-bio.sourceforge.net/manual.html
Sintaxis para el indexado del genoma
1) Indexado del genoma de referencia Sintax: bowCe-‐build [opCons]* <reference_in> <ebwt_base> Ejemplo: > bowCe-‐build NC_002127.fna e_coli_O157_H7 Output index files: e_coli_O157_H7.1.ebwt e_coli_O157_H7.2.ebwt e_coli_O157_H7.3.ebwt e_coli_O157_H7.4.ebwt e_coli_O157_H7.rev.1.ebwt e_coli_O157_H7.rev.2.ebwt
http://bowtie-bio.sourceforge.net/manual.html
Sintaxis para el mapeado con TopHat
1) Sopware se necesita: TopHat2, Botwie2 y samtools Sintax > tophat [opCons]* <index_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2] <index_base> Genoma indexado, obtenido con BowEe <reads1_1[,...,readsN_1]> Ficheros lecturas par 1 [reads1_2,...readsN_2] Ficheros lecturas par 2 [opCons]* Para ajustar parámetros a cada análisis -‐I or -‐i Maximum and minimum intron length -‐-‐library_type By default unstranded
http://bowtie-bio.sourceforge.net/manual.html
OpEons for –library-‐type
Ejemplo sintaxis mapping > tophat -‐-‐library_type fr-‐firtstrand e_coli_O157_H7 raw_data_1,raw_data_2,raw_data_3
Output tophat files: accepted_hits.bam Resultado del mapeo align_summary.txt Info sobre lecturas meadas tdeleEons.bed Posiciones y tamaño de delecciones inserEons.bed Posiciones y tamaño de insercciones juncEons.bed Posiciones de las uniones de exones Logs Info sobre el proceso de mapeo prep_reads.info unmapped.bam Lecturas no mapeadas
Visualización de los datos
Bash Linux commands
> ls –l lista los ficheros del directorio
Visualización de los datos
Bash Linux commands (para ficheros de texto, no bam)
> cat muestra todo el contenido del fichero > more muestra el principio del fichero > less muestra el final del fichero > head muestra las primeras líneas del fichero
Visualización de los datos Samtools: programa para manejar ficheros de secuenciacion
accepted_hits.bam List of read alignments (binary file)
Openning binary file using samtools view
accepted_hits.sam List of read alignments (text file)
Transform .bam in .sam
Bam/Sam format Más info en hqp://samtools.sourceforge.net/SAMv1.pdf
1 2 3 4 5 6 7 8 9 10
BED format > head deleCons.bed
chr start end counts
> Head insercCons.bed
chr start end nt couts
> head juncCons.bed
chr start end junct. Name counts strand
Exercise 2: Mapping
Sequence preprocessing
Mapping
QuanEficaEon
DifferenEal expression Transcript assembly FuncEonal annotaEon
InterpretaEon
Library preparaEon
RNA-‐seq pipeline
CuanEficación en RNA-‐seq ¿Qué es cuanCficación en RNA-‐seq? • El número de lecturas en genes o tránscritos es una medida de la expresión del gen • Aproximación más simple: contar el número de lecturas
Objeto de la cuanCficación: • Determinar el número de genes expresados en una muestra • Necesario para análisis de expresión diferencial
Problemas: • Diferentes aproximaciones à diferentes resultados • Lecturas de mulEmapeo • Lecturas solapantes • Especificiad de hebra • No uniformidad de distribución de lecturas a lo largo del gen
Mapeo vs. CuanEficación
Mapeo vs. CuanEficación
Programas
hqp://www-‐huber.embl.de/users/anders/HTSeq/doc/count.html
hqp://cufflinks.cbcb.umd.edu/manual.html
hqp://qualimap.bioinfo.cipf.es/
Cufflinks
Sintax: > cufflinks [opCons]* <aligned_reads.(sam/bam)>
[opCons]* -‐ G Se uEliza un g{ proporcionado. No ensambla transcritos -‐ g Ensambla pero usando el gp proporcionado de referencia
-‐ u para tratar las mulEreads -‐-‐library-‐type Igual que para TopHat
* EsEma Fragment per Kilobase of exon Model per Million fragments mapped (FPKM) * Usa un método de máxima verosimilitud to asignar reads a transcritos solapantes. * Intenta considerar distribuciones heterogéneas de lecturas en la long.del transcrito * No Eene por que ser una solucion parsimoniosa.
Cufflinks output
Htseq-‐count
Sintax: > htseq-‐count [opCons]* <sam_file> <gff_file>
<sam_file> Generado con un programa que hace gapped alignment (TopHat) Si se uEliza paired-‐end data, fichero Eene que estar ordenado (sort)
<gq_file> Indica las posiciones de las features del genoma Está disponible para casi todos los genomas
[opCons]* -‐ m modo para lecturas solapantes (see next slide) -‐ s si es strand-‐specific [yes, no, reverse]
-‐ t feature type. Tercera columna del g{. Defecto es exon -‐i Defecto es gene_id
Modos Htseq-‐count
Htseq-‐count output
Fichero de texto con los conteos de cada feature. Al final se idica: No_feature lecturas que no solapan con features del g{ Ambiguous según el modo y el esquema anterior Too_low_aQual baja calidad (según parámetro –a) Not_aligned Lecturas en SAM sin alginment Alignmnent not unique lecturas con mulEmapping
Qualimap
* Implementa una version intersecEon-‐reach del Htseq-‐count * Mucho más rápido * Considera las lecturas con múliples mapeos * Permite QC de conteos
Use this opEon for beqer treatment Of mulEmapping reads
Use the right sequencing protocol
Choose gene or transcript
Choose exon reads
Htseq-‐count/Qualimap output
Exercise 3: Conteos
Sequence preprocessing
Mapping
QuanEficaEon
DifferenEal expression Transcript assembly FuncEonal annotaEon
InterpretaEon
Library preparaEon
RNA-‐seq pipeline