Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion...

36
Composici´on a gran escala del genoma humano Segmentaci´on La nueva referencia de homogeneidad Superestructuras vs. Isocoras Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentaci´ on Departamento de F´ ısica Aplicada II. Universidad de M´ alaga P. Bernaola Galv´ an, P. Carpena, A.V. Coronado Departamento de Gen´ etica. Universidad de Granada G. Barturen, M. Hackenberg, J.L. Oliver Department of Physics. Boston University Plamen Ch. Ivanov 14 de marzo de 2013 P. Bernaola Galv´ an — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentaci´on 1 / 36

Transcript of Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion...

Page 1: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Estudio de la estructura composicional a granescala del genoma mediante algortimos de

segmentacion

Departamento de Fısica Aplicada II. Universidad de MalagaP. Bernaola Galvan, P. Carpena, A.V. Coronado

Departamento de Genetica. Universidad de GranadaG. Barturen, M. Hackenberg, J.L. Oliver

Department of Physics. Boston UniversityPlamen Ch. Ivanov

14 de marzo de 2013

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 1 / 36

Page 2: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

1 Composicion a gran escala del genoma humanoIsocorasMas alla de las isocoras

2 SegmentacionLa medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

3 La nueva referencia de homogeneidadRuido Gaussiano fraccionarioNivel de significacionEjemplo con ADN

4 Superestructuras vs. Isocoras

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 2 / 36

Page 3: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

ADN esta formado basicamente por 4 diferentes nucleotidos Adenina(A), Citosina (C), Guanina (G) y Timina (T)

Se organizan en forma de dos polımeros lineales enrollados en doblehelice de forma que una Adenina siempre tiene enfrente una Timinay una Citosina siempre una Guanina.

Se puede considerar como una serie simbolica cuyos elementospertenecen a un alfabeto de 4 sımbolos {A,C,G,T}¿Por que estamos interesados en la composicion? Obviamente, ladistribucion de estos sımbolos a lo largo de la secuenciaesta ıntimamente relacionada con propiedades funcionales (p.e.zonas con abundancia de nucleotidos G y C suelen contener unmayor numero de genes).

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 3 / 36

Page 4: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

El ADN humano tiene una estructura composicional muy compleja atodas las escalas debido a la presencia de elementos genomicos dediversos tamanos (islas CpG, genes, repeticiones, duplicaciones, etc.)

Se propuso que tenıa estructura fractal (Li & Kaneko, Peng et al. yVoss, 1992) aunque hoy sabemos que presenta escalas caracterısticas(Carpena et al. Phys.Rev.E 75 ,032903, 2007).

A gran escala destacan estructuras definidas por la composicion enG+C i.e. porcentaje de bases que son Guanina o Citosina.

De estos elementos, las ISOCORAS eran la organizacioncomposicional de mayor tamano bien documentada (Bernardi 1995)

Tamano tıpico alrededor de 105 bpRelativamente homogeneas en G+C (por encima de las 3 kb) y concomposicion diferente entre isocoras adyacentes.Controvertidas

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 4 / 36

Page 5: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

Diferentes metodos para obtener las isocoras(que no siempre coinciden)

Haiminen N, Mannila H. Discovering isochores by least-squares optimalsegmentation. Gene. 394:53–60, 2007.

Oliver JL, Carpena P, Hackenberg M, Bernaola-Galvan P. IsoFinder:computational prediction of isochores in genome sequences. Nucleic AcidsRes. 32:W287–292. 2004.

Ramensky VE, Makeev VJ, Roytberg MA, Tumanyan VG. Segmentationof long genomic sequences into domains with homogeneous compositionwith BASIO software. Bioinformatics. 17:1065–1066, 2001.

Zhang CT, Gao F, Zhang R. Segmentation algorithm for DNA sequences.Phys Rev E Stat Nonlin Soft Matter Phys. 72:041917, 2005.

Isocoras Consenso

T. Schmidt & D. Frishman. Assignment of isochores for all completelysequenced vertebrate genomes using a consensus. Genome Biol. 9, R1042008. Buscan un acuerdo entre estos metodos.

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 5 / 36

Page 6: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 6 / 36

Page 7: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

Hemos observado que las isocoras parecen organizarse a gran escala.Llamamos a estas agrupaciones de isocoras

SUPERESTRUCTURAS GENOMICAS (GSS)

Correlaciones en la composicion de las isocoras

La composicion en G+C de las isocoras no es independiente (se agrupanen clusteres de similar composicion)

DNA walks

Los DNA walks muestran regiones, mucho mas grandes que las isocorasen las que se aprecia una composicion en G+C relativamente constante.

Wavelets

Los grafcos de wavelets multiescala tambien muestran la presencia degrandes escalas dominantes con G+C definido.

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 7 / 36

Page 8: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

Correlaciones en la composicion de las isocoras

Utilizaremos las “isocoras consenso” (T. Schmidt & D. Frishman,Genome Biol. 9, R104 2008)

Consideremos una serie numerica {xi} con i = 1, 2, ..., n donde xi esel contenido en G+C ( %) de la i-esima isocora de la secuencia quecontiene n isocoras y calculamos la funcion de autocorrelacion de laserie {xi} como :

C (d) =1

σ2

[∑n−di=1 xixi+d

n − d−∑n−d

i=1 xi

n − d

∑n−di=1 xi+d

n − d

](1)

Si las isocoras fuesen el mayor nivel de organizacion composicional ⇒{xi} deberıa ser una serie sin correlaciones.

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 8 / 36

Page 9: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

Funcion de autocorrelacion C(d) frente a la distancia d (en isocoras) obtenida para la series de composicion G+C de las isocoras de loscromosomas humanos 1 (ejes abajo-izquierda) y 21 (ejes arriba-derecha).

Las isocoras parecen estar agrupadas en clusteres de composicionG+C similar

El tamano de los clusteres depende del cromosoma pero enpromedio suele ser de unas 130 isocoras (alrededor de 15 Mb)

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 9 / 36

Page 10: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

DNA walks

Obtencion del DNA walk

Dada una secuencia de ADN S(i), con i = 1, 2, . . . `, siendo ` lalongitud de la secuencia, primero se convierte en una secuencianumerica N(i) usando la regla SW: si S(i) = A o T, entoncesN(i) = −1, y si S(i) = C o G entonces N(i) = 1.

El DNA walk en la posicion j se define como:

W(j) =

j∑

i=1

(N(i)− 〈N〉) con 〈N〉 =

∑`i=1 N(i)

`(2)

Significado:

Cambios en la pendiente de W (i) ⇒ cambios en la composicion deG+CPendientes positivas (negativas) de W (i) ⇒ composicion G+C porencima (debajo) de la composicion media

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 10 / 36

Page 11: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

DNA walks obtenidos para el brazo p del cromosoma humano 1 (ejes abajo-izquierda) y el brazo q del cromosoma 21 (ejes arriba-derecha).

Los walks estan compuestos por unas cuantas regiones de pendienteaproximadamente constante

Los tamanos de dichas regiones concuerdan con el tamano de losclusteres de isocoras predichos por el analisis de autocorrelaciones

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 11 / 36

Page 12: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

IsocorasMas alla de las isocoras

Wavelets

Brazo-q del cromosoma 21 humano

Transformada wavelet para escalas desde 103 a 106 bp de la serienumerica obtenida por la regla SW a partir de la secuencia del brazo-qdel cromosoma 21 humano. Se ha usado la gaussiana como wavelet.

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 12 / 36

Page 13: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

Una vez vistas las evidencias de que estas superestructuras existen,queremos localizarlas de forma sistematica.

El problema

Se plantea como la localizacion de regiones dentro de una serie temporalbinaria donde el porcentaje de 1’s o -1’s (contenido en G+C) es uniformey diferente del contenido de las regiones adyacentes

Este problema aparece con frecuencia en Teorıa de la Senal y seconoce genericamente segmentacion de series temporales.

En Estadıstica tambien es frecuente y los matematicos lo suelendenominar busqueda de puntos de cambio (change-points)

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 13 / 36

Page 14: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

Segmentacion

Queremos localizar los puntos donde una serie temporal deja de serestacionaria (change-points) ⇔ localizar regiones que sı sonestacionarias (segmentos).

Eliminar las tendencias locales (ej. diferencias estacionales,diferencias dıa-noche, etc.)

El estudio de los momentos en los que una serie pasa de un regimenestacionario a otro puede ser muy interesante para conocer ladinamica que la genera.

Ejemplos

Buscar cambios de tendencia en la bolsa

Reconocer perıodos de sequıa

Eliminar efectos estacionales en las series de radiacion solar

Identificar de perıodos de diferente actividad cardıaca

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 14 / 36

Page 15: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

Habitualmente se buscan cambios en la media de la serie pero se puedenbuscar cambios en la varianza, momentos de orden superior, o inclusocambios en la distribucion de los valores de la serie.

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 15 / 36

Page 16: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

Independientemente de la propiedad estadıstica que nos interese, elplanteamiento siempre es similar:

Medida de diferencia entre segmentos

Necesitamos una funcion que evaluada sobre dos partes de la serie(segmentos) nos diga como de diferente es la propiedad estadıstica enuno y otro

Estrategia de busqueda de segmentos

Un algoritmo que busque los candidatos a ser puntos de cambio(change-points)

Como decidir cuando dejamos de segmentar

Un criterio que decida cuando la diferencia entre dos segmentos essignificativa

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 16 / 36

Page 17: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

Puesto que buscamos regiones con diferente composicion G+C, nosinteresa buscar cambios en la media (Bernaola et al., Phys.Rev.Lett.87, 168105, 2001)Dada una serie numerica f (i) buscamos segmentos en los cuales:

La media es homogenea dentro de cada segmento.Segmentos adyacentes tienen medias significativamente diferentes.

Para cuantificar las diferencias entre las medias µ1, µ2 de dossegmentos adyacentes de longitudes `1, `2 utilizamos el estadısticot de Student.

t =

∣∣∣∣µ1 − µ2√

σP

∣∣∣∣ (3)

donde

σP =(`1 + `2) [V1 + V2]

(`1 + `2 − 2)`1`2(4)

y V1,V2 son la suma de las desviaciones cuadraticas dentro de cadasegmento:

V =∑

i=1

(xi − µ)2 (5)

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 17 / 36

Page 18: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

La estrategia de busqueda de segmentos

Utilizaremos el algoritmo heurıstico propuestopor nuestro grupo (Bernaola et al., Phys.Rev.E 53, 5181, 1996)

denominado por algunos como ”divide y venceras”

0 250 500 750 1000 1250 1500 1750 2000-2-10123

f(i)

i

0 250 500 750 1000 1250 1500 1750 2000

0

5

10

15

20

tmax

t (i)

i P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 18 / 36

Page 19: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

0 250 500 750 1000-2-10123

f(i)

i

0 250 500 750 1000

0

5

10

15

20

tmax

t (i)

i

0 250 500-2-10123

f(i)

i500 750 1000

-2-10123

f(i)

i

1250 1500 1750 2000-2-10123

f(i)

i

1250 1500 1750 2000

0

5

10

15

20

tmax

t (i)

i

tmax demasiadopequena

⇒ no dividimos

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 19 / 36

Page 20: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

Resultado

Finalmente la serie queda dividida en3 segmentos de media diferente

0 250 500 750 1000 1250 1500 1750 2000-2

-1

0

1

2

3

f(i)

i

Con este algoritmo no esta garantizado que obtengamos todos lossegmentos posibles aunque funciona bien en la mayorıa de los casos.

Es muy rapido, O(` log k), siendo ` la longitud total de la serie y kel numero de puntos de cambio.

Se puede implementar una segmentacion optima, haciendo uso deprogramacion dinamica, pero es lenta ( O(`2k))

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 20 / 36

Page 21: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

Pregunta clave: ¿Como decidir cuando tmax es demasiado pequena?

Significacion estadıstica

Dado un valor de tmax consideramos la probabilidad que habrıa deobtener un valor igual o mayor al intentar segmentar una secuenciaaleatoria ⇒ p-valueesto es, la probabilidad de que tmax se deba a las fluctuacionesestadısticas

p(tmax) = Prob {max[t(j)] ≥ tmax | serie aleatoria i.i.d.} (6)

Rechazamos un nuevo corte si p(tmax) es mayor que un ciertoumbral p0, con frecuencia fijado en 0.05 (5 %)

Llamamos Nivel de significacion de la segmentacion al valor delumbral, p0

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 21 / 36

Page 22: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

Esta estrategia tambien se puede aplicar a secuencias simbolicas,pero necesitamos una funcion que evalue la diferencia entre dossegmentos.

Consideremos una secuencia S con elementos pertenecientes a ciertoalfabeto A = {A1,A2, ...,Am}. Se define la entropıa de Shannon dela secuencia como:

H(S) =m∑

i=1

fi log fi (7)

donde fi es la frecuencia relativa de aparicion del sımbolo Ai en lasecuencia S.

Para comparar dos subsecuencias S1 y S2 definimos la Divergenciade Jensen-Shannon:

DJS (S1,S2) = H(S)−[`1

`H(S1) +

`2

`H(S2)

](8)

donde `1 y `2 son el numero las longitudes de las subsecuencias y` = `1 + `2 la de la secuencia total S

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 22 / 36

Page 23: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

DJS (S1,S2) = H(S)−[`1

`H(S1) +

`2

`H(S2)

]

Tiene algunas propiedades interesantes

DJS = 0 ⇔ S1 y S2 tienen la misma composicion.

No se ve afectada por el distinto tamano de las subsecuencias

Se puede interpretar como la “entropıa de mezcla” entre S1 y S2

Tambien tiene una interpretacion probabilıstica: DJS es ellog-likelihood ratio entre la probabilidad de que las dos secuenciashayan sido generadas con la misma distribucion de probabilidad ocon dos diferentes¡justo lo que queremos saber, si hay o no hay change-point!

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 23 / 36

Page 24: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

La medida de diferencia entre segmentosLa estrategia de busqueda de segmentosComo decidir cuando dejamos de segmentarSecuencias simbolicasEjemplo con ADN

Veamos como funciona con ADN

Segmentamos el brazo-q del cromosoma 21 humano (33.6 Mb)

Nivel de Numero de Longitud mediasignificacion (p0) segmentos de segmento (bp)

0.10 28836 11680.05 20378 16530.01 11123 3028

Esto

noso

n

super

estr

uctura

s

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 24 / 36

Page 25: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Ruido Gaussiano fraccionarioNivel de significacionEjemplo con ADN

¿A que se debe esta excesiva sobre-segmentacion?

Nuestro algoritmo considera que una secuencia es homogeneacuando las variaciones en la media son similares a las fluctuacionesestadısticas observadas en una secuencia aleatoria i.i.d.

Pero el ADN es mucho mas heterogeneo:

presenta heterogeneidades a un amplio rango de escalastiene correlaciones de largo alcance que van desde unas cuantasbases hasta varias Mb (¿superestructuras?)

Una secuencia aleatoria i.i.d. no es un buen modelo para describir elADN homogeneo

¿Que tal si ...?

consideramos que una superestructura se puede modelar medianteun ruido Gaussiano fraccionario (fGn)

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 25 / 36

Page 26: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Ruido Gaussiano fraccionarioNivel de significacionEjemplo con ADN

Ruido Gaussiano fraccionario

fGns: series aleatorias, gaussianas pero no son independientes ⇒ lafuncion de autocorrelacion decrece lentamente (en algunos casos esuna ley de potencia)Se pueden caracterizar por su espectro de potencia.

Serie aleatoria gaussiana i.i.d. ⇒ espectro de potencia plano.fGns ⇒ espectro de potencia en forma 1/f β (con β > 0)

β = 0 ⇒ serie gaussiana i.i.d. (ruido blanco)

¿Como se obtienen? Si η(i) es un ruido blanco y η(f ) es sutransformada de Fourier, entonces el fGn de exponente β sera:

ηβ(i) ≡ F−1

[η(f )

f β/2

](9)

Los fGns se pueden considerar como “integraciones fraccionarias”delruido blanco

El conocido Movimiento Browniano serıa la integral del ruido blanco(β = 2)

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 26 / 36

Page 27: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Ruido Gaussiano fraccionarioNivel de significacionEjemplo con ADN

Una propiedad interesante de los fGn esque cuanto mayor es el exponente βaparecen mas persistencias en la serie ⇒Serie mas heterogenea

Puesto que en el ADN se han observadocorrelaciones en ley de potencia yespectros de tipo 1/f β :

Proponemos:

Una secuencia de ADN sera homogeneacuando sus heterogeneidades sean similaresa las fluctuaciones estadısticas presentes enun ruido Gaussiano fraccionario con elexponente β medido en la secuencia deADN.

0 200 400 600 800 1000

0

5

10

β = 1.5 (α =1.25)

x(i)

i

-5

0

5

10

β = 1 (α =1)

x(i)

-5

0

5

10

β = 0.5 (α =0.75)

x(i)

-5

0

5

10

β = 0 (α =0.5)

x(i)

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 27 / 36

Page 28: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Ruido Gaussiano fraccionarioNivel de significacionEjemplo con ADN

Ahora el p-value lo calculamos como:

p(tmax, β) = Prob

{max[t(j)] ≥ tmax

∣∣∣∣en un fGn con elmismo exponente β

}

En lugar de usar:

p(tmax) = Prob {max[t(j)] ≥ tmax | serie aleatoria i.i.d.}

Segun β aumenta, lasdistribuciones de valores detmax estan mas y masdesplazadas a la derecha.

(¡OJO! que la escala eslogarıtmica)

Notese quep(tmax, 0) = p(tmax)

Page 6 of 12 Eur. Phys. J. B (2012) 85: 211

1.5

1.0

0.5

0.00 1 2 3 4

D(ln

tmax

)β,N

ln tmax

β =0.0β =0.5β =1.0

0.75

0.50

0.25

0.000 10 20 30

β =1.5

(a)

D(�

)β,N

β =0.0β =0.5β =1.0β =1.5

Fig. 3. (Color online) (a) Density histograms of τ obtainedby means of numerical simulations for N = 1024 and β =0 (�), β = 0.5 (©), β = 1 (�) and β = 1.5 (�). The solid linescorrespond to log-normal distributions with the same meanand standard deviation as the normalized histograms of τ . (b)Histograms of ln τ for the same simulations. Now the solid linescorrespond to Gaussian distributions with the same mean andstandard deviation as the normalized histograms of ln τ .

of numerical simulations. For a given size N and a givenvalue of the correlation exponent β, we generate an en-

5

Fourier filtering method (Fig. 1). For each series, we movea pointer along it and obtain t (see Sect. 3.1). Finally,

5

P (τ).

Figure 3a shows the density histograms D (τ) forN = 1024 and β = 0, 0.5, 1 and 1.5. Note that the his-tograms are shifted to greater values of τ as β increasesin agreement with the fact that correlations increase theheterogeneity of the series. Figure 3b shows the densityhistograms of ln τ for the same experiments.

We observe that the histograms of ln τ can be wellfitted by normal distributions (Fig. 3b). This means thatthe original density histogram of τ can be well fitted by a

1β,N

semble of 10 series of fractional noise using the inverse

max

for each ensemble of 10 series we obtain the histogram

β,N

β,N

D (τ) �τ√

2πσln τ

2

exp −[

ln τ(ln τ − μ )

2σ2ln τ

0.02

0.01

0.00

-0.01

-0.020.0 0.2 0.4 0.6 0.8 1.0

](10)

(b)

P(t

),N

max

P (t ),N max

= 0.0= 0.5= 1.0

1.0

0.8

0.6

0.4

0.2

0.01 10 100

= 1.5

(a)

P(t

),N

max

tmax

= 0.0= 0.5= 1.0= 1.5

Fig. 4. (Color online) (a) Cumulative histograms of τ in log-linear scale for size N = 1024 and β = 0 (�), β = 0.5 (©), β =1 (�) and β = 1.5 (�), obtained from numerical simulations.The solid lines are the corresponding log-normal distributionswith the same mean and standard deviation of the experimen-tal data. (b) Difference between the log-normal fit and the realhistogram obtained from the simulations. Note that, in theworst cases, the error is around 1%.

where μ and σ are the mean and standard deviationof ln τ respectively which, in general, will depend on N andβ. For these examples, the differences between P (ln τ)and the corresponding normal distributions with the samemean and standard deviation are around 0.01 (1%) in theworst cases (Fig. 4b). This agreement between P (ln τ)and the normal distribution has been systematically ob-served for series lengths ranging form N = 256 to 524 288

8 19

β = 0 to 1.6 (Fig. 5). Tables with values of μ and σfor several values of N and β obtained by simulating series

4

According to these results, we could characterize ap-proximately P (τ) by log-normal distributions and es-timate the p-values with an error which, even in the worstcase, is well below 2% (Fig. 5). To do this, given thevalue of t obtained when trying to segment a seriesof length N with a correlation exponent β, first we inter-

4

σ (β, N) and then, evaluate the p-value by integrating

ln τ ln τ

β,N

β,N

(2 and 2 respectively) and correlation exponents fromln τ ln τ

of fractional noise are available in .

β,N

max

polate in the tables to obtain the values of μ (β, N) andln τ

ln τ

4

bioinfo2.ugr.es/segmentLRC/.http://jander.ctima.uma.es/fractalseg, or http://

log-normal distribution (Fig. 4a):

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 28 / 36

Page 29: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Ruido Gaussiano fraccionarioNivel de significacionEjemplo con ADN

¿Como afecta esto a la segmentacion?

0 200 400 600 800 1000

0

5

10

β = 1.5 (α =1.25)

x(i)

i

-5

0

5

10

β = 1 (α =1)

x(i)

-5

0

5

10

β = 0.5 (α =0.75)

x(i)

-5

0

5

10

β = 0 (α =0.5)

x(i)

Page 4 of 12 Eur. Phys. J. B (2012) 85: 211

τ when trying to segment a series S0 of size N generatedwith a fractional noise model with exponent β. In the nextsections we will discuss on how to obtain Pβ,N(τ).

Larger values of Pβ,N(tmax) imply that it is less likelyto obtain high tmax values just due to chance alone. InMathematics,

p(tmax) ≡ 1 − P(tmax) (7)

is called a p-value. It can be interpreted as the probabil-ity that the null hypothesis (H0) is true. In our case, H0

is that the observed tmax value can be obtained in a se-ries S0 of fractional noise. We reject H0 if the p-value issmaller than a given threshold p0 (usually 0.05) accept-ing thus the alternative hypothesis H1 that the observedtmax is higher than it could be expected to occur withina random series of fractional noise. The acceptance of thealternative hypothesis H1 entails the acceptance of jmax

as a change point, i.e. the series is cut at position jmax

into two segments. If H0 is not rejected the series remainsuncut. If the series is cut, the procedure continues recur-sively inside each of the two resulting subseries created byeach cut.

Before a new cut is accepted, we also compute t be-tween the right-hand new segment and its right neighbor(obtained by a previous cut) and the t between the left-hand new segment and its left neighbor (also obtainedby a previous cut) and check if both values of t have p-values smaller than p0. If so, we proceed with the newcut; otherwise we do not cut. This ensures that all result-ing segments have a statistically significant difference intheir means. The process stops when none of the possiblechange-points verify p(tmax) ≤ p0, and we say that the se-ries has been segmented at the “significance level p0” (seeFig. 2 of [14] for an illustrative example of the procedure).

Note that the distribution used in previous versionsof the algorithm [14,28,41–46,51] to compute the p-valuewas P0,N(τ), i.e. the particular case for β = 0 which cor-responds to use a random i.i.d. series as the reference forhomogeneity.

The strategy described above to decide whether a newcut is accepted or not is known as hypothesis testing. Al-though this strategy is the most widely used in segmen-tation problems, it is not unique. An alternative way toaddress this problem is the model selection strategy, wheresegmentation is viewed as the selection between two mod-els describing the target sequence: with and without thecut [64,65]. Although both strategies look different, theyare quite similar and it has been shown that, in some cases,they are strictly equivalent [40,66].

To demonstrate the effect of correlations on the seg-mentation algorithm, in Figure 2 we plot Student’s t-statistics as a function of the position of the pointer j(t(j)) for the same series of fractional noise shown in Fig-ure 1. The qualitative behavior of the profiles is similar forall of them because all series have been generated start-ing from the same series of Gaussian white noise. In fact,all profiles reach their maxima at the same values of j,around j = 400. In all cases this maximum appears asa consequence of the statistical fluctuations (note how it

0 200 400 600 800 1000

0

5

10

15

p(tmax

) = 0.82

p(tmax

) = 2x10-3

p(tmax

) = 10-6

p(tmax

) = 10-7

t(j)

Position of the pointer (j)

β = 0.0

β = 0.5

β = 1.0

β = 1.5

Fig. 2. (Color online) Student’s t-statistics vs. the position ofthe pointer (see text) for the series of fractional noise shown inFigure 1. The p-values of each maximum computed using therandom i.i.d. (p(tmax) = 1 − P0,N(tmax)) as the reference forhomogeneity [14], are specified close to each curve. Note that,despite of their stationarity, the original algorithm would cutthe signals with β = 0.5, 1 and 1.5 at practically any signifi-cance level p0. Nevertheless, if we compute the p-value usingthe fractional noise as the reference for homogeneity, i.e. usingthe correct value of β, we obtain p(tmax) = 0.82 for all fourmaxima in this example. This means that none of the serieswill be segmented at the usual significance levels, namely 0.01,0.05 or 0.1.

is present even in the white noise signal β = 0) but thecorrelations, in some sense, amplify this effect.

3.2 The optimal segmentation

The procedure described in the previous section is fast andit performs in time proportional to O(N log k) where Nis the length of the series and k the number of cuts, andalso gives good results as compared to other segmentationmethods [67].

Nevertheless it has certain limitations. For example, aswe already pointed out in [14], in the case where a longhomogeneous segment is interrupted by a short segmentwith a different mean, the heuristic algorithm could failto detect it since when trying to cut at the beginning orthe end of the small segment there is no much differencein the mean at both sides of the pointer, since the meanis mainly controlled by the two large flanking segmentswhich have the same mean. Moreover, when segmenting aseries composed of segments of similar size and alternatingmean values, the algorithm could fail if the number ofalternating segments is high even if the difference betweenthe means of adjacent segments is significant.

In order to overcome these problems, we will adopt adifferent approach: first, we decide the number of changepoints k we are looking for (see later for a discussion onthis issue) and then we check all their possible positionsand look for the set of positions maximizing a certainobjective function. This procedure is usually called theoptimal segmentation. In principle, the computation timeof this algorithm seems to scale as O(Nk) which would

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 29 / 36

Page 30: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Ruido Gaussiano fraccionarioNivel de significacionEjemplo con ADN

Ejemplo

Segmentacion de una serie artificial generada concatenando dos series deruido Gaussiano fraccionario con β = 0,6 y tamanos `1 = 1024 y`2 = 2048 respectivamente, ambas con desviacion estandar unidad perocon medias diferentes, µ1 = 0 y µ2 = 0,75.

0 1000 2000 3000

-4

-2

0

2

4

series position, i

(a) Random as reference for homogeneity

x(i)

0 1000 2000 3000

-4

-2

0

2

4 (b) fGN with β = 0.6 as reference for homogeneity

x(i)

series position, i

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 30 / 36

Page 31: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Ruido Gaussiano fraccionarioNivel de significacionEjemplo con ADN

Segmentacion de la secuencia del brazo-q del cromosoma 21 humano

Calculamos el nivel de significacion usando p(tmax, β) con β = 0,556 quees el valor del exponente del espectro de potencia obtenido para estasecuencia. Se obtienen los mismos segmentos para niveles de significacionp0 desde 0.1 to 0.01.

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 31 / 36

Page 32: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Superestructuras vs. Isocoras

Brazo-q del cromosoma 21humano

Las isocoras parecen ser lasfluctuaciones de la pendiente delwalk alrededor de la pendientemedia dominante (contenido G+Cmedio de la superestructura).

HIGH-LEVEL ORGANIZATION OF ISOCHORES INTO . . . PHYSICAL REVIEW E 83, 031908 (2011)

but also the G + C differences between neighboring SSs arelarger than for neighboring isochores (see Table I). Thisfact is somewhat counterintuitive, since one expects thatcompositional fluctuations increase when observed at smallerscales, and it points to the statistical relevance of SSs. Besides,SS borders are robust when examined at different scales:when the G + C content of a DNA sequence is plotted in agreat range of increasing scales of observation, the SS bordersare detectable in the whole range while other compositionalstructures of smaller size (as the isochores) disappear for largeenough scales, where only SSs are observable. As an example,in Fig. 4(a) we plot the results of the G + C composition ofchromosome 21q obtained with a Gaussian wavelet with a

4 6

Also, SSs are in agreement with the intuitive segmentation‘by eye’ suggested by the patchy structure of DNA walks[Fig. 1(b)]. As an example we show in Fig. 4(b) the walk ofchromosome 21q and the SSs obtained with our algorithm.Note that not only do the SS borders match perfectly the major

characteristic scale varying in the range (10 ,1.25 × 10 ) (bp).

-12

-13

-14

33 34 35 36 37 38 39

10-5

W(i

)

60

56

52

48

44

40

Chromosome position i (Mbp)

isoc

hore

G+

C (

%)

0

-3

-6

-9

-12

-15

15 20 25 30 35 40 45

10-5

W(i

)

51

48

45

42

39

36

Chromosome position i (Mbp)

SS

G+

C (

%)

6

5

4

605550454035lo

g (s

cale

)10

G+C (%)

(a)

(a)

(b)

∑i=1

FIG. 4. (Color online) (a) A Gaussian wavelet plot of the G + C4

6

bottom axis of part (b). (b) Walk of Chr 21q (left+bottom axes), andthe superstructures (right+bottom axes) obtained with our algorithmwith p = 0.01. (c) A zoom of a small region of the walk of part (b)marked with a box (left+bottom axes) and the isochores [6] containedin that region with their G + C contents shown in the right axis.

m

content of Chr 21q. The wavelet scale varies in the range (10 ,1.25 ×10 ) (bp) (left axis). The chromosome coordinates are given by the

0 ∑

changes of the slope in the walk, but also the G + C contentof each SS corresponds to a well-defined slope in the walk,coinciding with the large-scale compositional regions shownwith the wavelet in Fig. 4(a). In this context, isochores are givenby the fluctuations of the walk slope around the dominant meanslope giving the SS G + content [Fig. 4(c)].

SSs define the largest compositional organization of thehuman genome, but another important question is their possi-ble biological relevance, specially as compared to isochores,since the latter are recognized to have functional relevance.To address this question, we perform a semantic analysison the functional terms of gene ontology (GO) [3]. The GOinitiative is aimed at standardizing the representation of geneand gene-product attributes across species and databases. Itprovides a controlled vocabulary of terms for describing gene-product characteristics and gene-product annotation data. Thisvocabulary is organized in three main categories: biologicalprocesses, cellular components, and molecular functions. Eachof these categories has different hierarchical levels (10 levelsfor the category of cellular components and 14 levels foreach of the other two categories), ordered by their functionalspecificity (from more general to more specific). The termsassociated to a given gene product are thus not mutuallyexclusive.

We have studied the semantic similarity (m), which isdefined as the number of GO terms shared by two genes[27–29]. In particular we used RefSeq genes [30] and weobtained the association between RefSeq genes and GO termsfrom the annotation-modules database [31]. If SSs (or iso-chores) were biologically relevant, they would be more likelyrelated to certain functions. So, gene pairs co-located withinthe same SS or isochore should share common functionalities,and therefore larger m values, than gene pairs chosen atrandom. In this way, for the SSs and three different isochoresets [4–6] of the human genome, we have calculated p(m),the probability that two genes co-located within the sameSS or isochore share m GO terms (i.e., have an m semanticsimilarity). We have also calculated p(m) for a randomizedgene-pair data set, which will be useful for comparison. In allcases, we have considered GO terms of all levels (1–14) inthe calculation, although similar results were obtained whenindividual GO levels 3 or 4 were considered. Our results areshown in Fig. 5, where we plot the cumulative probabilityP (m) = p(i) for all cases (SSs, isochores, and randomgene pairs). As expected, we see that P (m) increases veryfast for randomly selected pairs of genes, indicating the lowchance for these genes to share a large number of GO terms.In the other cases (SSs and isochores) we see qualitativelythat P (m) increases more slowly than in the random case,indicating that gene pairs belonging to these structures have ahigher probability of sharing a large number of GO terms, inagreement with the biological relevance of these structures.

To compare quantitatively the biological relevance of thedifferent compositional organizations, we have calculated inall cases the average semantic similarity 〈m〉 defined as

∞〈m〉 = mp(m). (7)

m=1

031908-5

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 32 / 36

Page 33: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Las diferencias de G+C entre superestructuras consecutivas son mayoresque las diferencias entre isocoras consecutivas.¡y eso que las superestructuras son mucho mayores!

estas diferencias son mucho mas significativas

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 33 / 36

Page 34: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Densidad codificadora frente a contenido G+C en superestructuras eisocoras.

Correlacion entre la densidad de zona codificadora (medida como lafraccion de nucleotidos pertenecientes a exones sobre al longitud total delsegmento) con el contenido G+C en superestructuras e isocoras.

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 34 / 36

Page 35: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Distribucion de probabilidad de la similaridad semantica de pares degenes situados en la misma superestructura o la misma isocora.

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 35 / 36

Page 36: Estudio de la estructura composicional a gran escala del ...angulo/fisicainf/Bernaola.pdfComposicion a gran escala del genoma humano Segmentaci on La nueva referencia de homogeneidad

Composicion a gran escala del genoma humanoSegmentacion

La nueva referencia de homogeneidadSuperestructuras vs. Isocoras

Valor medio de la similaridad semantica de parejas de genes situados enla misma superestructura o en la misma isocora.

De nuevo hay que tener en cuenta que las superestructuras son muchomayores que las isocoras por lo que los pares de genes pueden estarmucho mas separados.

P. Bernaola Galvan — Estudio de la estructura composicional a gran escala del genoma mediante algortimos de segmentacion 36 / 36