Una solución integrada con R para el Análisis de...

Una solución integrada con R para

el Análisis de Interacciones entre genes

con datos de Supervivencia

en un estudio GWAS

Jesús Herranz , Antoni Picornell, María L. Calle, Núria Malats

Epidemiología Genética y Molecular – CNIO

III Jornadas de Usuarios de R - 17 Noviembre 2011

� Estudiar variantes genéticas implicadas en la progresión de enfermedades complejas

� Factores pronóstico – Técnicas de análisis de supervivencia

� Polimorfismos – SNPs (Single Nucleotide Polymorphism)

� Cambios en el genoma de 1 sola base

� Genotipos:

- Homocigotos comunes

- Heterocigotos

- Homocigotos variantes

� GWAS (Genome-wide Association Studies)

� Estudios pangenómicos (genoma completo)

� 100.000 - 1 Millón de SNPs

Introducción

� Objetivo: Estrategia para analizar todos los pares de

interacciones de un estudio pangenómico que incluye 1 millón de

SNPs con datos de supervivencia .

� Interacciones gen-gen (pares)

� Alto coste computacional

� Miles de millones de interacciones

� Número de Publicaciones - GWAS

1.000.000

500.000.000.000

0< 10Fac. Pronóstico

< 10> 1000Fac. Riesgo

InteraccionesUnivariantes

Interacciones gen-genGWASPronóstico - Supervivencia

Estudio Español Cáncer Vejiga / EPICURO

Seguimiento(>10 años)

Recurrencia

CasosCáncer de

vejiga(EPICURO)

Superficiales (NMI)n=836

Invasivos (MI)

Progresión

Muerte

� Estudios multicéntrico realizado en 18 hospitales

� 1219 pacientes de cáncer de vejiga (reclutamiento: 1998 – 2001)

� 1271 controles – Estudio casos y controles – Factores riesgo

� 1071 casos de cáncer de vejiga con información clín ico-patológica, información genética y seguimiento

2 submuestras 4 eventos clínicos

� Control de las 2 submuestras

� Control de individuos y variables en cada análisis

� No duplicar información

� R scripts únicos

� Análisis simultáneo de los 4 estudios

� Parámetros de entrada

� Ficheros de salida con los resultados

� Funciones con los análisis estadísticos

� Incorporar nuevas técnicas estadísticas o modificaciones

Una solución integrada con R

� Preparación de los datos. Etapas previas

1. Almacenamiento de los datos. Objetos ff

2. Imputación de missings

3. Criterios de inclusión de SNPs. Control de calidad

4. Reducción del número de variables para analizar

� Estrategia analítica. Análisis Estadístico

� No se pueden analizar 500.000 millones de interacciones con Regresión de Cox

� Etapa de screening con Regresión Logística (BOOST - C)

� Análisis posteriores con Regresión de Cox

� Alternativas: Survival - MDR (Multifactor Dimensionality Reduction)

Etapas del análisis

Descripción de la Estrategia Analítica

Todos los Pares Interacciones GWAS (171.000M)

Varios millones de Interacciones (22M)

Miles de Interacciones (1,5M)

Interacciones Aleatorias

Paso 1: Afinamiento y Evaluación

Interacciones más destacadas

Paso 2: Screening – Regresión Logística (BOOST)

Paso 3: Regresión de Cox

Paso 4: Análisis Adicionales

P < 10-4

P < 10-5

- Variables de ajuste- Modelos de herenciaP < 10-12

Etapa 1: Almacenar los datos del GWAS (ff)

AA\tAT\tGG\tAA ………GG\tAA\tTG\tTT ………………………………….………………………….

Creación de objetos con los datos de los SNPs

0 Hom. común1 Heterocigoto2 Hom. Variante

Se mantienen los NAs

1095 x 998.349

1134 x 998.349

0 0 1 0 NA 0 1 2 0 ………0 1 NA 2 0 0 0 1 2 ………… NA ….. NA …………..

998.349 x 1Cada fila, 1 SNP

� La librería ff permite crear objetos

� Capacidad de almacenamiento, rápido acceso, no usa memoria de R

� Columnas: nombres de los SNPs

� Filas: identificadores de los pacientes

0 0 NA 0 2 1 0 0 0 ………1 0 1 0 2 0 NA 0 0 …………. NA ……….NA ………

CONTROLES

• indGWAS• NameSNP• Alleles

Summary SNPs(df)

• id Identificadorespacientes(vector)

998.349

Etapa 2: Imputación de Missings

� Imputación por Random Forests

� Ventana con los SNPs más próximos (correlacionados, LD)

� Otros métodos de imputación

� Mantener los datos originales sin imputar

� Crear otros ficheros de datos imputados

1095 x 998.349

1134 x 998.349

0 0 1 0 NA 0 1 2 0 ………0 1 NA 2 0 0 0 1 2 ………… NA ….. NA …………..

0 0 NA 0 2 1 0 0 0 ………1 0 1 0 2 0 NA 0 0 …………. NA ……….NA ………

CONTROLES

1095 x 998.349

1134 x 998.349

0 0 1 0 1 0 1 2 0 ………0 1 0 2 0 0 0 1 2 …………………………………..

0 0 0 0 2 1 0 0 0 ………1 0 1 0 2 0 1 0 0 ………….……………….………

CASOSImputados

CONTROLESImputadosR

Etapa 3: Control de Calidad

P-HWE-ct > 0.00001MAF > 0.02Ht+HV > 10

� SNPs eliminados del análisis

� MAF (minor allele frecuency): poca variabilidad en la población

� HWE (Hardy-Weinberg equilibrium): errores de genotipado

� Otros criterios de inclusión

� No se recalcula MAF / HWE

• indGWAS• NameSNP• Alleles• Gen / Chr

• Frec. Genotipos• MAF• Num. NAs• HWE tests

• Included.NMI (880.000)• Included.MI (840.000)

Summary SNPs (df)

998.349

1095 x 998.349

1134 x 998.349

0 0 1 0 NA 0 1 2 0 ………0 1 NA 2 0 0 0 1 2 ………… NA ….. NA …………..

0 0 NA 0 2 1 0 0 0 ………1 0 1 0 2 0 NA 0 0 …………. NA ……….NA ………

CONTROLES

Etapa 4: Linkage disequilibrium (LD)

� LD – SNPs correlacionados

� Se detectan bloques de LD

� Se detectan singletons (SNPs no correlacionados)

� Representantes del bloque : entran en las fases de análisis de screening

� No representantes del bloque: entran en las fases finales (comp. múlt.)

• indGWAS• NameSNP• Alleles• Gen / Chr

• Frec. Genotipos• MAF• Num. NAs• HWE tests

• Included.NMI (880.000)• Included.MI (840.000)

• LD blocks• LD represent (0/1)

Summary SNPs (df)

998.349

1095 x 998.349

1134 x 998.349

0 0 1 0 NA 0 1 2 0 ………0 1 NA 2 0 0 0 1 2 ………… NA ….. NA …………..

0 0 NA 0 2 1 0 0 0 ………1 0 1 0 2 0 NA 0 0 …………. NA ……….NA ………

CONTROLES

LD < 0.9

Análisis simultáneos (4 estudios)

1134 x 998.349

CASOS Imputados

Included.SNPs.NMI (df) 585.000Included.SNPs.MI (df) 552.000

Ids.patients NMI 836Ids.patients MI 235

• Tiempo / Status RECUR• Tiempo / Status PROGR• Covariables RECUR• Covariables PROGR

• Tiempo / Status PROGR• Tiempo / Status DEATH• Covariables PROGR• Covariables DEATH

NMI – EPICURO (df - 836)

MI – EPICURO (df - 235)

� R Scripts únicos y flexibles

� Inclusión de otras submuestras

� Inclusión de otro conjunto de SNPs (criterios de inclusión, LD)

� Inclusión de otros eventos clínicos de interés (tiempo y status)

� Inclusión de otras variables de ajuste

� Parámetro de entrada: estudio

Análisis estadístico (NMI – Progresión)

0 0 1 1 0 1 0 1 2 01 1 2 0 0 0 0 0 1 2

0 0 0 0 0 1 0 2 1 0

BOOST NMI Progr

836 x 585.000

Regresión Logística171.000 M interaccionesP < 10-4

5 procesos (4 días)

Boost - C Salida de BOOST (TXT)

Ind1 Ind2 likelihood df

22 millones

21º group

2º group

3º group

4º group

5º group

Ids. NMI836

• NameSNP• indGWAS• indBOOST• Modelo Herencia

Análisis estadístico (NMI – Progresión)

1134 x 998.349

CASOS ImputadosIds. NMI836

• Tiempo / Status RECUR• Tiempo / Status PROGR• Covariables RECUR• Covariables PROGR

NMI – EPICURO (df - 836)

Salida de BOOST (TXT)

Ind1 Ind2 likelihood df

22 millones

Cox – InteracciónModelo CodominanteModelos sin ajustarP< 10-5

RInd1 Ind2

1,500,000

Cox – ComplementarioTodos Modelos HerenciaAjustados por covariablesLD blocks

• NameSNP• indGWAS• indBOOST• Modelo Herencia

Salida de Cox – Codom. – Unadj.

Ind1 Ind2

Salida de Cox – All MOI – Adj.

Subphenotype Outcome Chr - Gen 1 Chr - Gen 2 MOI 1 MOI 2 P-Value Threshold Threshold

Informative SNPs 0.4 - Factor

8.60E-14 1.06E-13

NMI Recurrence 16 Gen1 19 Gen2 A A 5.53E-14 Sign. Sign.

Recurrence 14 Gen3 20 Gen4 R A 7.31E-14 Sign. Sign.

Recurrence 11 Gen5 14 Gen6 D C 1.91E-13 NS NS

Recurrence 10 Gen7 21 Gen8 D D 1.94E-13 NS NS

NMI Progression 18 Gen9 X Gen10 C C 5.33E-15 Sign. Sign.

Progression 5 Gen11 14 Gen12 R D 7.78E-14 Sign. Sign.

Progression 7 Gen13 10 Gen14 A C 2.46E-13 NS NS

Subphenotype Outcome Chr - Gen 1 Chr - Gen 2 MOI 1 MOI 2 P_Value Threshold Threshold

Informative SNPs 0.4 - Factor

9.46E-14 1.17E-13

MI Progression 2 Gen15 8 Gen16 A D 7.54E-14 Sign. Sign.

Progression 2 Gen17 16 Gen18 D R 1.66E-13 NS NS

MI Death 8 Gen19 12 Gen20 D D 4.11E-14 Sign. Sign.Death 7 Gen21 10 Gen22 C C 7.24E-14 Sign. Sign.Death 7 Gen23 14 Gen24 R D 9.87E-14 Sign. Sign.Death 17 Gen25 22 Gen26 C D 1.17E-13 NS Sign.Death 1 Gen27 3 Gen28 D D 1.56E-13 NS NS

Resultados

� Modelos de Cox ajustados por covariables clínicas

� Distintos modelos de herencia genética (dominante, recesivo, aditivo, codominante)

� Significación basada en comparaciones múltiples

Conclusiones

� Estrategia analítica novedosa y viable

� Exhaustivamente todas los millones de Interacciones gen-gen

� Análisis de supervivencia – Pronóstico – GWAS

� Tiempo de computación aceptable (15-20 días)

� Hemos encontrado varias interacciones gen-gen estadísticamente significativas

Limitaciones

� Interacciones perdidas (con tamaños muestrales bajos)

� Los resultados deberían ser replicados

Agradecimientos

• Nuria Malats• Toni Picornell• Roger Milne• Evangelina López• Gaëlle Marene• Mirari Márquez• André Amaral• Salman Tajuddin• Matt Czachorowski

• Francisco X Real (CNIO)• Stephen Chanock (NCI)• Nathaniel Rothman (NCI)• M. García-Closas (NCI)• Debra Silverman (NCI)• María L. Calle (Unv. Vic)• Manolis Kogevinas (CREAL)

Una solución integrada con R para el Análisis de...

Documents

Transcript of Una solución integrada con R para el Análisis de...

Protocolo de Nagoya - suschem-es.org

Manual de producto CM 1243-2 y DCM 1271 para … · Uso de la interfaz de registros (Página 55) Maestro AS-i CM 1243-2 y módulo de desacoplamiento de datos AS-i DCM 1271 para SIMATIC

MEDICINA INTENSIVA GUIA - alicante portalalicante.san.gva.es/.../0/MEDICINA+INTENSIVA+_GUIA.pdf · Medicina Intensiva (R.D.1271/84 ) Duración: 5 años Licenciatura / Grado previa:

Esperanto e Internetesperanto-es.org/esperanto-es.org/broshuro/esperanto_e_internet.pdf · Cursos de esperanto en diferentes idiomas

Clasificación Mundial - Metodologíafiles.rsf-es.org/200003281-6d5ec6f555/2014_CLASIFICACION_MUNDIAL... · La Clasificación Mundial 2014 de la Libertad de ... entorno inestable

Asterisk, proxies SIP, servidores de aplicaciones… ¿A ...comunidad.asterisk-es.org/images/Asterisk_proxies_sip_servidores... · •OpenIMS - fokus.fraunhofer.de •sip-router.org

Ecooss Edición 1271

LA YIHAD - files.rsf-es.orgfiles.rsf-es.org/200004575-9b5ef9d53f/2016_RSF_INFORME_ES_YIHA… · supervisado por aude rossigneux. en colaboraciÓn con lysiane baudu, alexandre levy,

Mapas temáticos a tiempo real - Comunidad R Hispanor-es.org/3jornadasR/pdfs/Raquel_Sabarich.pdf · 2011. 12. 15. · Mapas temáticos a tiempo real Raquel Sabarich 3) Agrupación

Tecnología Embedded en aplicaciones de Visión Artificialintranet.ceautomatica.es/sites/default/files/upload/1271/files... · permite detectar nuevas necesidades que en muchas ocasiones

INFORME NACIONAL ESPAÑA Proyecto 2015±a.pdf · INFORME(NACIONAL((ESPAÑA(((! (((DNIINTERNACIONALESPAÑA(correoelectrónico:info@dni/es.org!! El! Informe! Nacional! sobre! Participación!

AplicaciónShinyparaelcálculodelaconcentración ...r-es.org/9jornadasR/pdf/9JUR_paper_25.pdfIntroducciónRegresión logística de 4 parámetrosAplicación Shiny: SAIC50Enlaces y referencias

intRegGOF un paquete para Bondad de Ajuste …r-es.org/3jornadasR/pdfs/5_ojeda_cabrera.pdfintRegGOF un paquete para Bondad de Ajuste mediante Regresion integrada Jorge Luis Ojeda Cabrera.

La Clau Revista 1271

Libro no 1271 la maldición del rubí pullman, philip colección e o diciembre 6 de 2014

Edición 1271 Hoy en la Javeriana septiembre 2011

AMERICA CENTRAL LA GACETA · Certificado a Plazo Fijo 1271 Citación de Accionistas 1271 GuardaclorAd-Litem 1271 NulidaddeTtulos 1271 Declaratoriade Herederos 1272 ... espiritual,

TÍTULO: Orden HFP/1271/2017, de 21 de diciembre, por la ... · TÍTULO: Orden HFP/1271/2017, de 21 de diciembre, por la que se modifica la Orden EHA/3316/2010, de 17 de diciembre,

UNIDAD 4 1025-1271.doc

ubileo de la Misericordia - Recursos Catequesis de Galiciarecursos.catequesisdegalicia.com/pluginfile.php/1271/mod_resource... · amor misericordioso de Dios Padre. En Él, en su