Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite

55
Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística (UB)

description

Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística (UB). Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite. Objetivos. Análisis de Datos de Alto Rendimiento Tipos de datos y Tipos de estudios. Herramientas disponibles. - PowerPoint PPT Presentation

Transcript of Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite

Page 1: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Análisis de datos de alto rendimiento

Con ejemplos de Partek Genomics Suite

Alex Sánchez

Unitat d’Estadística i Bioinformàtica (IRHUVH)

Departament d’Estadística (UB)

Page 2: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Objetivos

Análisis de Datos de Alto Rendimiento Tipos de datos y Tipos de estudios. Herramientas disponibles.

Análisis de datos de microarrays El proceso de análisis Estudios de expresión diferencial con

Partek GS Otros tipos de estudios

Page 3: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

High troughput data

Muchas técnicas modernas permiten generar información simultánea sobre miles de componentes de un sistema: High-troughput o de “alto rendimiento”

Por ejemplo Microarrays (expresión, SNPs, exones,…). Proteómica (Mass-Spectormetry). Next Generation Sequencing …

Page 4: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Análisis de datos de A.R.

Los datos de alto rendimiento, con las herramientas y los métodos

apropiados, permiten llevar a cabo estudios que

habrían sido impensables sin ellos. Por ejemplo

Selección de genes Busqueda de biomarcadores Estudios de asociación genética Detección de variantes víricas, etc.

Page 5: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Análisis de microarrays

Caso más conocido, “prototípico” de datos de A.R.

Tecnología madura (10 años) y diversificada (expresión, exones, tejidos, SNPs,….)

Con algunas limitaciones que las nuevas tecnologías podrán superar

EMPEZAREMOS por ellos.

Page 6: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Tipos de estudios que se realizan usando microarrays de DNA

Page 7: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(1): Class comparison

Page 8: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(2): Class discovery

Page 9: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(3): Class prediction

Page 10: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Y muchos más tipos …

Time Course Perfiles de expresión a lo largo del

tiempo Pathway Analysis-(Systems Biology)

Reconstrucción de redes metabólicas a partir de datos de expressión

Whole Genome, CGH, Alternative Splicing

Estudios con datos de distintos tipos Fusión o Integración de datos

Page 11: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Herramientas para el análisis

Page 12: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Programas de análisis de datos de genómica y

protómica

Multitud de herramientas Gratuítas / Comerciales

[R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity] Descargables / En-linea

[R, BRB, MeV…] / [Gepas,…] Aísladas / Parte de “suites” o de sitios

[BRB, dChip] / [MeV (TM4), OntoTools] A survey of free microarray data analysis

tools: http://chagall.med.cornell.edu/I2MT/MA-tools.pdf

Page 13: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Programas de análisis libres

Programa R/Bioconductor Potente, flexible,

actualizado, Unix/Windows/Mac

Consola, difícil de dominar

BRB tools Basado en Excel,User-friendly

Si falla, fallaDifícil de extender

dChip Expresión & SNP’sUser-friedly

Solo WindowsPocas opciones

GEPAS Web-based, Multiples opciones, Buen material

Web-basedManejo algo rígido

Page 14: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Programas de análisis comerciales

Programa geneSpring Muy extendido

Graficos potentesExtensible (R)

Modelos de ANOVA limitadosCARO

Partek ANOVA muy potenteMult. tipos de datosVisualización 3D

Sólo estadística “clásica”Difícil de extender

Ingenuity BD de anotaciónesAnálisis de significación biológica

Centrada mayormente en datos de cáncer

Page 15: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Experimentos con microarrays

Page 16: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Visión general del proceso (Affy)

@Affymetrix

Page 17: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Otra perspectiva general

Page 18: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

El proceso de análisis

Page 19: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Workflow for a typical microarray experiment

(1) Imágenes(Datos crudos)

(2) C. de calidad(bajo nivel)

(3) Preprocesado

(4) Exploración de la Matriz de Expresión

(5) Análisis

(6) Significación Biológica

Page 20: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(1) Obtención de la imagen

• Entra: Microarrays• Salen:

– Imágenes (1/chip) – Ficheros (.CEL, .CHP)

• Información para cada sonda individual

• Datos para el análisis de bajo nivel– Control de calidad– Preprocesado– Sumarización

1.cel, 1.chp 2.cel, 2.chp

Page 21: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(2) Control de calidad de bajo nivel

• Entra: – Imágenes (.CEL)

• Proceso– Diagnósticos y

Control de calidad– Análisis basado en

modelos (PLM)

• Salen:– Gráficos– Estadísticos de

Affymetrix

1.cel, 1.chp 2.cel, 2.chp

Page 22: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(3) Preprocesado

• Entra:– Fichero de Imagenes

• Proceso– Eliminación de ruido– Normalización– Sumarización– Filtrado

• Sale:– Matriz de expresión

1.cel, 1.chp 2.cel, 2.chp

C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

Page 23: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(4) Exploración

• Entra– Matriz de expresión

• Proceso– PCA, Cluster, MDS– Representaciones

en 2D/3D– Agrupaciones

• Sale– Detectado efectos

batch– Verificación calidad

C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

Page 24: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(5) Análisis estadístico

• Entra:– Matriz expresión– Modelo de análisis

• Proceso– t-tests, ANOVA

• Ajustes de p-valores

• Sale– Listas de genes

• Fold change, p.values

– Gráficos– Perfiles de expresión

C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at Saa3 1450826_a_at 4.911 63.544 6.21E-14 2.80E-10 22.2441457644_s_at Cxcl1 1457644_s_at 4.286 53.015 3.52E-13 7.69E-10 20.7911415904_at Lpl 1415904_at -4.132 -50.455 5.66E-13 7.69E-10 20.3731449450_at Ptges 1449450_at 5.164 49.483 6.82E-13 7.69E-10 20.2071419209_at Cxcl1 1419209_at 5.037 47.175 1.08E-12 9.71E-10 19.7941416576_at Socs3 1416576_at 3.372 42.107 3.19E-12 2.08E-09 18.7841450330_at Il10 1450330_at 4.519 42.056 3.23E-12 2.08E-09 18.7731455899_x_at Socs3 1455899_x_at 3.648 40.821 4.29E-12 2.12E-09 18.5021419681_a_at Prok2 1419681_a_at 3.709 40.645 4.48E-12 2.12E-09 18.4631436555_at Slc7a2 1436555_at 3.724 40.081 5.12E-12 2.12E-09 18.335

Page 25: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(6) Significación biologica

• Entra– Listas de genes

• Proceso– GEA, GSEA, …

• Sale:– Clases GO /

Grupos de GenesPathwaysespecialmente representados

ProbeSet gene ID logFC1450826_a_at Saa3 1450826_a_at 4.9111457644_s_at Cxcl1 1457644_s_at 4.2861415904_at Lpl 1415904_at -4.1321449450_at Ptges 1449450_at 5.1641419209_at Cxcl1 1419209_at 5.0371416576_at Socs3 1416576_at 3.3721450330_at Il10 1450330_at 4.5191455899_x_at Socs3 1455899_x_at 3.6481419681_a_at Prok2 1419681_a_at 3.7091436555_at Slc7a2 1436555_at 3.724

Page 26: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Estudio de casos

Page 27: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Caso 1

Comparación de perfiles de expresión en AML con trisomía 8 o

citogenética normal

Page 28: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Descripción

PNAS, January 30, 2001 vol. 98 (3)

Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos.

No se dispone de información sobre el diseño experimental

Page 29: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Esquema del análisis

1. Datos para el análisis1. 15 archivos .CEL (5 por grupo)

2. Control de calidad [Expression console]3. Preprocesado [Partek]4. Exploración [Partek]5. ANOVA y selección de genes [Partek]6. Significación Biológica [Partek]

Page 30: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

2. Control de calidad (1)

• Descargar Expression Console de la web de Affymetrix

• affymetrix.com• Instalarlo• Iniciar• Seleccionar

archivos .CEL– Create New

Study– Download library

files– Add Intensity

Files

Page 31: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

2. Control de Calidad (2)

• Probe cell intensity view: Examen de las imágenes

• Una por chip

• Box plot– Absolute intensity– Relative intensity

Page 32: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

2. Control de Calidad (3)

• Correlation plots– Pearson/

Spearman– Signal/detection-p

• Box plot– Absolute intensity– Relative intensity

Page 33: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Control de Calidad (y 4):Métricas de CdC

Scale Factor

% Presence

Page 34: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Análisis de los datos con Partek

La suite genómica de Partek permite analizar datos de expresión Leer datos (.CELs o matriz de

expresión) Explorar los datos (PCA/Cluster/MDS) Seleccionar los genes DE (ANOVA) Construccion de predictores

Análisis de otros tipos de datos Exon arrays, SNP arrays, Tiling, CGH …

Page 35: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Instalación de Partek

El IR dispone de una licencia flotante a la que puede conectarse un solo usuario cada vez.

Instalar el archivo setupPGS.6.08.0623-64Release.exe disponible en: \\servir3\recerca$Partek

Ejecutar el archivo Se instala el programa

Al iniciar el programa por 1ª vez pide El tipo de licencia “Floating License” Nombre del servidor “servir1”

Page 36: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Lectura/Importación de los datos

Page 37: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(1) Seleccionar archivos .CEL

Seleccionar .CEL a importar

Pulsar

Page 38: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(2) Definir parámetros importación

Page 39: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(3) Definir grupos y covariables (1)

A cada hoja de datos se le ha de asociar una lista de covariables Grupo al que pertenece cada muestra Informaciones clínicas, biométricas, etc

Puede prepararse a parte e importarlo o crearlo tras leer los datos.

http://www.partek.com/Tutorials/microarray/User_Guides/CreatingSampleInfoFile.pdf

Page 40: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

(3) Definir covariables (y 2)

Tools Create Sample Info File

Seleccionar archivos CEL/CHP Añadir las columnas necesarias Definir el tipo de cada una

Tras llenar todas las columnas Save file (.txt)

Combinar datos y covariables Merge Spreadsheets

Grabar archivo resultante Save (format file, .fmt)

Page 41: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Análisis de datos

Para facilitar el proceso de análisis Workflows Itinerario sugerido desde los datos

hasta los resultados finales Permite guardar y continuar en otro

momento Existe un workflow para cada tipo de

datos

Page 42: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Workflow (WF) de análisis de

datos de expresión

Page 43: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

WF (2.1): QA/QC. PCA

PCA• Visualizacion de

los datos en 2D/3D

• Permite detectar efectos “fuera del diseño o del modelo”

• Cada eje explica un mayor % que el siguiente Atención a la variabilidad total!!!

Page 44: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

WF (2.2): QA/QC. Histogram

Page 45: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

WF (3) Detect differentially expressed genes (DEG)

1. Seleccionar la(s) variable(s) para las que se desea realizar la comparación[Los factores del ANOVA]

2. Definir las comparaciones entre grupos [Los contrastes a efectuar]

3. Ejecutar el análisis

Page 46: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

WF (3.1) Selección de factores

• Los factores representan las distintas fuentes de variación en los datos.

• Deben definirse como variables categoricas o “factor” al crear el archivo de covariables

Page 47: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

WF (3.2) Contrastes

• Opción “Advanced” del dialogo ANOVA

• Los contrastes indican que comparaciones concretas (entre niveles de un factor) se desea llevar a cabo.

• Comparaciones individuales (Grupo 1-Grupo 2) o más complejas(Tr1+Tr2+Tr3)/3-Ctl

Page 48: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

• Para cada gen se obtiene los resultados de– Significación global– Significaciónn de cada contraste deseado

• De cada comparación obtenemos los p-valores y estadísticos de test solicitados (por ejemplo Fold Change, T-test,…)

WF (3.3) Resultados

Page 49: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

• Como en todo ANOVA la variabilidad explicada debe ser mayor que el error.

• Muy útil si hay más de 2 factores y uno es un efecto Batch.

WF (3.3) Sources of variation

Page 50: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

• El programa generará una tabla con el número de genes que se considerarían diferencialmente expresados asociados a un valor dado de FDR.

WF (3.4) Multiple testing

• Para evitar problemas de “multiple testing” podemos fijar un valor de tasa de falsos positivos (FDR).

– Stat Multiple Test False Discovery Rate (FDR)

Page 51: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

WF (3.5) Create Gene Lists

• Para cada comparación realizada puede obtenerse una lista de genes seleccionados.

• A partir de las listas pueden hacerse gráficos diversos– Venn– Heatmaps

Page 52: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

WF (4): Visualización

• Dada una lista de genes un heatmap permite visualizar patrones de expresión que pueden sugerir que ciertos grupos de genes se encuentran co-regulados.

Page 53: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

WF (5) Biological significance

El programa permite realizar diversos tipos de análisis para ayudar a entender los procesos biológicos implicados Análisis de enriquecimiento sobre

categorías de la Gene Ontology. Deteccion de categorias

diferencialmente enriquecidas entre grupos experimentales.

Enviar las listas de genes a Ingenuity.

Page 54: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

WF (5.1) GO Enrichment

Page 55: Análisis de datos de alto rendimiento Con ejemplos de  Partek Genomics Suite

Resumen y Conclusiones

El análisis de microarrays puede visualizarse como un proceso.

Es importante conocer Los parámetros El significado, Las limitaciones

de cada paso. Una herramienta como Partek puede

ayudar a seguir este proceso con relativa confianza.