ISLAS Cpg y Metilación - bioinfo2.ugr.es · Propiedades de las Islas CpG 1. Son ricas en G+C...
Transcript of ISLAS Cpg y Metilación - bioinfo2.ugr.es · Propiedades de las Islas CpG 1. Son ricas en G+C...
ISLAS CpG Y METILACIÓN
Cristina Gómez Martín Genómica Computacional y Bioinformática Departamento de Genética, Facultad de Ciencias, Universidad de Granada Laboratorio de Bioinformática, Instituto de Biotecnología, Centro de Investigación Biomédica
Metilación del ADN
La metilación es la adición de un grupo metilo (-CH3) a una molécula y se observa tanto en el ADN como en ARN y proteínas.
Proceso de metilación de la citosina en el ADN
En eucariotas se da principalmente en dinucleótidos CG.
Como norma general: El 70-80 % de las CpGs
están metiladas
Funciones de la metilación
• Es clave en el desarrollo embrionario • Inactivación del cromosoma X • Impronta génica: Mantenimiento en la expresión específica de un alelo. • Splicing alternativo • Silenciamiento de elementos repetidos: centrómeros • Los grados de metilación de la región promotor de un gen y en el
cuerpo génico influye en los niveles de expresión.
Hay proteínas que se unen específicamente al DNA metilado (Ej: MECP2) y otras que se unen específicamente a islas CpG no-metiladas (la metilación bloquea la unión)
Patrones de metilación
Los patrones de metilación (distribución a lo largo de la secuencia) no son iguales en distintos eucariotas •En hongos solo el DNA repetido se metila. •Los mayores niveles de metilación en plantas (hasta el 50% de todas las citosinas) – metilación de contextos non-CpG en elementos transponibles •En general encontramos un mosaico de metilación (regiones metiladas y intercaladas regiones no-metiladas).
DNA methylation landscapes: provocative insights from epigenomics. Mihe M. et al Nature Reviews Genetics 9, 456-476 (June 2008)
En los genomas de mamífero predominantemente se metilan los
dinucleótidos CpG, con excepción de regiones cortas llamadas islas CpG.
Islas CpG
70-80 % CG TG
Desaminación espontanea de metil-citosinas
Frecuencia de CpG 5 veces más baja de la esperada
Las CpG permanecen solamente en los sitios en que no se metilan: Islas CpG
Propiedades de las Islas CpG
1. Son ricas en G+C (ratio O/E alto) y tienen longitudes alrededor de 1kb 2. Entre el 50 y el 70% de los genes tienen una isla CpG asociada a sus promotores. 3. Casi todos los genes “housekeeping” (se expresan en todos los tejidos) tienen una isla asociada a
su promotor pero solo la mitad de los genes específicos la presentan. 4. En los promotores de los genes: Cuando se metilan dan lugar a una inhibición de la transcripción. 5. En el cuerpo génico: Cuando se metilan dan lugar a estabilización de la transcripción 6. En algunas condiciones fisiológicas o patológicas se pueden ver cambios en el estado de la
metilación: cáncer
Existen tanto métodos experimentales como computacionales para detectar islas CpG
Clasificación de las Islas CpG
Constitutivamente no-metiladas (asociadas a “Housekeeping genes”) ~100% de los genes domésticos tienen alguna isla asociada
Diferencialmente metiladas (genes tejido-específicos) ~50% “Tejido específicos” isla asociada
Parcialmente metiladas (genes improntados)
Barturen G. 2014. Regiones genómicas implicadas en la metilación diferencial del ADN. Tesis Doctoral, Universidad de Granada
DMIs: Islas CpG (CGIs)diferencialmente metiladas MIs: CGIs constitutivamente metiladas UIs: CGIs constitutivamente no metiladas NAs: No cumplen requisitos otras clases
Métodos de predicción de islas: Ventanas deslizantes
From Takai and Jones (2002)
Gran número de parámetros arbitrarios • Proporción CpGs observados/esperados • %GC • Longitud • Longitud de ventana • Salto • Distancia para fusionar proto-islas
Ejemplo: CpGplot
Métodos de predicción de islas: clusterización
Secuencia de DNA
Por ejemplo, para dm=5: 10,5,5,3,1,8,23,34,21,12,2,5,8,6,9,...N-1
Establecemos una distancia umbral dm Si di ≤ dm Establecemos un cluster
Lista de cluster de CpG con coordenadas, longitud y nº de
CpGs
Cluster estadísticamente significativo ≡ CpG island
Calcular propiedades estadisticas de la secuencia : G+C content, O/E ratio, CpG density, intra-clustering of CpGs, overlap with Alus, PhastCons etc.
Secuencia binaria:
00010000101000000101000110000100010101000011
CpG -> 1; Otros-> 0
Se determina la distancia (d) de cada CpG al siguiente aguas abajo en la secuencia de DNA:
10,5,5,3,1,8,23,34,21,12,2,5,8,6,9,...N-1
Asignar un pvalor a cada cluster
¿Qué distancia uso? Si se distribuyeran al azar seguiría una distribución geométrica
𝑃 𝑑 = (1 − 𝑝)𝑑−1𝑝 P(d), probabilidad de encontrar una distancia d entre CpGs adyacentes y
p la probabilidad de encontrar un CpG en la secuencia.
Las distancias cortas observadas se encuentran sobre-representadas en el genoma, por encima de lo esperado (Existen “Clusters de CpGs”).
El cruce entre observada y esperada se utiliza como distancia para agrupar CpGs.
WordCluster - Michael Hackenberg, Pedro Carpena, Pedro Bernaola-Galván, Guillermo Barturen, Ángel M. Alganza and José L. Oliver. 2011. Algorithms for Molecular Biology 6:2
WordCluster - Michael Hackenberg, Pedro Carpena, Pedro Bernaola-Galván, Guillermo Barturen, Ángel M. Alganza and José L. Oliver. 2011. Algorithms for Molecular Biology 6:2
Cromosoma 16 Mediana: 31pb Intersección genómica: 33pb
Cromosoma 5 Mediana: 49pb Intersección genómica: 33pb
¿Cómo asigno la significación?
¿Cual es la probabilidad de encontrar un cluster con N CpGs y longitud X en una distribución al azar? Binomial Negativa
WordCluster - Michael Hackenberg, Pedro Carpena, Pedro Bernaola-Galván, Guillermo Barturen, Ángel M. Alganza and José L. Oliver. 2011. Algorithms for Molecular Biology 6:2
Detectar la metilación
Problemas para detectar la metilación: 1) Hibridación es insensible frente a la metilación: no se pueden usar chips de DNA 2) La PCR elimina la información acerca del estado de metilación
TRATAMIENTO CON BISULFITO SÓDICO
CITOSINA METILADA BISULFITO
CM C
CITOSINA NO METILADA BISULFITO
C T
C C CITOSINA METILADA
T C CITOSINA NO METILADA
Ventajas: • Se obtiene información de metilación para cada citosina y no solo valores medios para una región como ocurre con muchos otros métodos • Se puede detectar la metilación en todos los contextos y no solo CpG Reto: • Re-secuenciar un genoma entero • Alinear miles de millones de secuencias cortas (reads) Problemas: Distinguir entre la acción del bisulfito y : 1. Errores de secuenciación 2. SNV (Single Nucleotide Variation) : Un polimorfismo C/T sería detectado como una citosina no metilada
Los valores de metilación oscilan entre 0 y 1, dependiendo de la proporción entre los reads que indiquen la existencia de una citosina metilada y los que indiquen una
ausencia de metilación.
NGSmethDB
Stefanie Geisen, Guillermo Barturen, Ángel M. Alganza, Michael Hackenberg and José L. Oliver. 2014. Nucleic Acids Research, Vol. 42, Database issue D53–D59
http://bioinfo2.ugr.es/NGSmethDB/
Interfaz de herramientas de NGSmethDB
Stefanie Geisen, Guillermo Barturen, Ángel M. Alganza, Michael Hackenberg and José L. Oliver. 2014. Nucleic Acids Research, Vol. 42, Database issue D53–D59
http://bioinfo2.ugr.es/NGSmethDB/