Download - Predicción de genes Taboada, Fernando Gómez Germán.

Predicción de genes

Taboada, Fernando

Gómez Germán

Definición: predicción de genes Para una secuencia de DNA no

caracterizada identificar la presencia de genes que codifican proteínas.

Se habla de predecir o buscar genes.

Definición: predicción de genes Dada una secuencia de DNA se puede

encontrar: Qué región codifica para una proteína. Qué hebra codifica el gen. Cuál es el marco de lectura. Dónde comienza y termina el gen. Dónde comienza y terminan los intrones/exones. Opcionalmente se encuentran las regiones

regulatorias del gen.

Transcripción y traducción

Estructura de los genes

Eucariotas vs. procariotas

Procariotas Genomas pequeños Alta densidad de genes Sin intrones Identificación de genes

es relativamente simple

Eucariotas Genomas grandes Baja densidad de genes Intrones y exones Identificación de genes es

un problema complejo

Predicción de genes en procariotas y eucariotas

Predecir genes que codifican a proteínas es más fácil en procariotas que en eucariotas. Algunos motivos:

- procariotas carecen de intrones

- patrones de secuencia altamente conservados se encuentran con gran frecuencia en regiones promotoras y alrededor de zonas de comienzo de transcripción y traducción.

Señal - una región en el ADN reconocida por la maquinaria celular

Estrategias de predicción de genes Basados en similitud (extrínsecos)

Usan herramientas de alineamiento local para comparar contra secuencias anotadas (proteínas, cDNAs, Est)

Pros: se basan en información biológica preexistemte Contras:

limitado a información preexistente errores en las bases de datos difícil comparar los limites de un gen en base a similitud hay métodos más rápidos que comparar contra base de

datos

Estrategias de predicción de genes Métodos intrínsecos

Secuencias consenso, matrices de score Modelos ocultos de Markov Redes neuronales Estrategias integradoras

Búsqueda de Open Reading Frames (ORF) ORF es una porción de DNA que contiene un

conjunto contiguo de codones que codifican aminoácidos.

Forma más simple de buscar secuencias que codifican proteínas.

En cada secuencia hay 6 posibles ORFS: 3 comenzando en las posiciones 1, 2 y 3 llendo en la dirección 5’ 3’ de una secuencia y su complementaria.

Búsqueda de Open Reading Frames (ORF) En procariotas el mayor ORF comenzando

desde el primer codón de start hasta el primer codón de stop es una buena (pero no segura) predicción de una región que codifica proteínas.

En eucariotas es algo más complejo debido a la presencia de intrones que suelen generar codones de stop.

Cómo testear una predicción de ORF Nos podemos basar en las siguientes propiedades:

Las secuencias codificantes no son una cadena al azar de posibles codones (nonrandom property).

Cada especie tiene patrones característicos de uso de codones sinónimos (codifican para el mismo aminoácido)

Hay pares de codones que suelen aparecer en exones de secuencias eucariotas.

Por ejemplo en E. Coli hay cierta preferencia de pares de codones en las regiones codificantes y de ciertos codones en la zona siguiente al codon de stop.

Cómo testear una predicción de ORF En base a las propiedades anteriores hay 3 tests:

1. Se basa en que toda tercera base tiene más chance de ser la misma que de cambiar (TestCode)

2. Es un análisis que determina qué codones en el ORF son los mismos que se utilizan en otros genes del mismo organismo (CODONFRECUENCY).

3. El ORF es traducido en una secuencia de amino ácidos y luego comparado contra otras secuencias de amino ácidos de proteínas base de datos existentes.

TestCode

La cantidad de cada base es contada en todas las terceras posiciones comenzando en las posiciones 1,2 y 3.

Para cada base se calcula el máximo de los 3 marcos de lectura dividido el minimo más 1 (asymmetry score).

Se calcula la frecuencia de cada base (frecuency score) Los scores son convertidos en probabilidades Las probabilidades son multiplicadas por factores

determinados de manera tal que discriminen zonas codificantes de no codificantes y luego son sumadas.

Si el valor resultante es mayor a 0.95 la secuencia codifica, si es menor a 0.74 no codifica.

Secuencias consenso

Representan la secuencia del motivo para una cierta mayoría de ejemplos.

Ejemplo: obtenidas por selección de la base más frecuente en cada posición de un alineamiento múltiple.

Desventaja: pueden producir muchos falsos positivos o falsos negativos.

Positional weight matrix

TACGAT

TATAAT

TATAAT

GATACT

TATGAT

TATGTT610505T

003001G

010100C

043060A

654321

Positional weight matrix Se calcula midiendo la frecuencia de cada elemento para cada

posición en el sitio El score para cada sitio putativo es la suma de los valores de

la matriz (convertidos en probabilidades) para esa secuencia

Desventaja: supone independencia entre bases adyacentes

Modelos ocultos de Markov

Alfabeto Conjunto de estados Probabilidades de transición entre estados Probabilidades de emisión dentro de un

estado Probabilidades iniciales de transición 3 problemas: evaluación, decodificación y

aprendizaje

HMM para predicción de genes

Los estados del modelo corresponden a las unidades funcionales de un gen.

Las transiciones entre estados son de manera tal que aseguren que la forma en que el modelo marcha sea biológicamente consistente.

HMM es entrenado o calibrado con genes conocidos para estimar los parámetros

Se busca la secuencia de estados Pi que maximiza P(x,Pi).


Se generan estados para elementos límites (start, stop,…) y para regiones de longitud variable.

Las regiones suelen ser intrones, exones y regiones intergenicas. Una region intergénica es una secuencia de codones que no codifica a ninguna proteína.

A su vez los exones son divididos en iniciales, internos y externos.

HMM para predicción de genes Modelo simple de un HMM sin intrones:En cada estado se generan nucleótidos con cierta

probabilidad

HMM para predicción de genes Modelo simple de un HMM que tiene en cuenta

intrones, exones y alguna señales:B = gene start

S = translation start

D = donor

A = accceptor

T = translation stop

E = gene end


Inicialmente para los elementos límite se usaban secuencias consenso.

Las regiones suelen ser modeladas con modelos de Markov de orden mayor a 6.

Las conexiones entre estados se utilizan tanto para modelar los diferentes marcos de lectura como la longitud de cada componente.

Como los genes pueden ocurrir en ambas direcciones, los HMM suelen ser espejados.

HMM para predicción de genes El modelo leerá una secuencia de ADN y encontrará los genes

más parecidos al conjunto con los cuales se entrenó o calibró el modelo.

Como el uso de codones y secuencias de cambio puede variar de un genoma a otro entonces el entrenamiento deberá hacerse por genoma.

La precisión del modelo depende de

- la precisión de la información respecto al comienzo (start) y fin (stop) del gen con la que se entrena o

calibra el modelo

- el número de genes usado para entrenar.

Uso de HMM para predicción de genes Algoritmo para generar una secuencia de DNA de longitud LSet n=1

Hacer {Si n=1 elegir estado q1 de acuerdo a las probabilidades

inicialesSino elegir estado qn en base a las probabilidades de

transición del estado actualElegir dn de acuerdo a la distribución de longitudes para el

estado qnElegir un string sn de longitud dn de acuerdo al modelo

probabilistico del estado qn

} Hasta que la suma de los dn sea mayor a L

Uso de HMM para predicción de genes Para encontrar el conjunto de estados Pi que maximizan P(x, Pi) se

utiliza el algoritmo de Viterbi:

Input: x = x1……xN

Inicialización:V0(0) = 1 (0 es la posición inicial)Vk(0) = 0, para todo k > 0

Iteración:Vj(i) = ej(xi) maxk akj Vk(i-1)ptrj(i) = argmaxk akj Vk(i-1)

Terminación:P(x, *) = maxk Vk(N)

Rastreo: N* = argmaxk Vk(N) i-1* = ptri (i)

Combinando HMM con redes neuronales Combinar poder de expresividad de las redes

neuronales con el aspecto secuencial de los HMM.

RN re utiliza para reparametrizar y modular el HMM. La idea básica consiste en utilizar RN en el tope de los HNN para el calculo de las funciones de transición y emisión.

Ambos modelos son entrenados con algoritmos unificados

GenMark para procariotas

GenMark.hmm para procariotas

GenMark.hmm para eucariotas

GenScan para eucariotas

HMM de 5to orden

El análisis de codones secuenciales en genes ha mostrado que algunos pares de bases se encuentran con mayor frecuencia que la esperada por sí solas. Considerando ésto tendríamos un HMM lineal.

Una mejor elección es un modelo que use información desde el 5ta base anterior. O sea utilizar un HMM de 5to orden.

En lugar de usar pares de bases para diferenciar secuencias codificantes de no codificantes se usan hexámeros (la base actual más las 5 anteriores).

GenMark.HMM es una versión de GenMark que usa un HMM de 5to orden para buscar genes E. coli.

HMM de 5to orden

Problema: HMM de 5to orden dará predicciones de genes precisas si hay

varios representantes de cada hexámero en los genes, de lo contrario el método estará estadísdicamente limitado.

Solución: IMM (interpolated Markov model) busca los posibles patrones más

largos (de hasta 8 bases) presentes en secuencias de genes conocidos. Si no hay suficientes hexámeros entonces buscará pentámeros y así sucesivamente.

En general cuanto más largo es el patrón más precisa es la predicción.

IMM combina probabilidades de los patrones con distintos tamaños dando énfacis a los patrones de mayor longitud y otorgando mayor peso a las secuencias bien formadas en las secuencias de entrenamiento.

HMM de 5to orden

Problema

Tanto GenMark.HMM como IMM asumen que la predicción de genes hecha por otros métodos son precisos, tal es el caso de los métodos usados para determinar la similitud entre las secuencias de las proteinas traducidas y las conocidas proteinas de la E. coli.

El resultado de ésto podrían ser predicciónes confiables de genes que NO se corresponden con ninguna secuencia de ninguna proteina ya conocida.

HMM de 5to ordenSolución

Existe una mejora de la predicción de la posición del codón de comienzo.

El método consiste en tomar un conjunto de predicciones para un codón de start en un conjunto de secuencias para el cual sí se conoce la posición del codón.

Se otorga un determinado peso a cada conjunto de secuencias input

Los pesos se ajustan de manera tal que las predicciones se hacen más precisas por un método llamado programación entera mixta.

Redes neuronales: Grail II

Usado para encontrar exones en genes de eucariotas.

Provee analisis de regiones codificadoras de proteinas, poly(A) y regiones promotoras y realiza búsqueda en bases de datos.

El método usa una red neuronal para identificar patrones carácterísticos de secuencias codificantes.

El sistema es entrenado con secuencias codificantes conocidas.


Se establecen candidatos de exones. Son evaluados utilizando una red neuronal La red neuronal tiene 3 capas:

una capa de input, que tiene la información del exon candidato.

Una capa hidden para discernir relaciones entre los valores de entrada.

Una capa de output que indica si efectivamente es un exon


Inputs: Indicadores de patrones de secuencia. Modelo de Markov. Resultados de lugares de splice (splice

sites)provenientes de otras dos redes neuronales.

Indicador de preferencia de 6-mer (hexámeros).

Etc.


Output Cada neuron recibe información de la capa inferior, la

suma y la convierte en un valor de aprox. a 0 o 1. Si la salida de la red neuronal el un valor próximo a 1

ent. se predice que la secuencia candidata es exon. La secuencia candidata es evaluada calculando

frecuencias de patrones en la secuenciasy aplicando estos valores a la red neuronal.

Si la salida de la red neuronal el un valor próximo a 1 ent. se predice que la secuencia candidata es exon.

Redes neuronales: GeneParser Predice la combinación de intrones y exones más

probable mediante el uso programación dinámica y redes neuronales.

Para cada posición de la secuencia se determina la probabilidad de estar en un intrón o exon .

Las posiciones de intrones y exones son alineadas con la restricción de que deben alternar en el gen.

Output: secuencia de intrones y exones del gen.

Redes neuronales: GeneParser Provee mecanismos para ajustar los pesos

asignados a cada tipo de patrón que aparece en intrones y exones.

La red neuronal se usa para ajustar los pesos dados a

- indicadores de secuencia de regiones conocidas de intrones y exones.

- uso preferencail de codones- frecuencia de hexámeros- matrices de scoring para señales de

splicing

Redes neuronales: GeneParser1. Se prepara una tabla de frecuencia de hexameros para un conjunto

de exones.

2. Iteramos, para cada secuencia de entrenamientose hace lo siguiente

2.1 Se arman matrices indicadoras. - Una matriz tal que cada posición (i,j) representa una subsecuencia

con principio en la posición i y fin en la j de la secuencias. Cada posición contiene la probabilidad de que un exon comience y termine en tales posiciones. Para ésto se considera la frecuencia de hexámeros.- Basta con usar media matriz.- En la otra mitad se hace lo mismo pero para intrones.- Se arman otras matrices basadas en distribución de longitudes, señales de splice, etc.

Redes neuronales: GeneParser2.2 Cada uno de los valores (i,j) de la matriz es

transformado según un pero asignado. Los pesos iniciales usados son arbitrarios, luego son ajustados hasta proveer la correcta estructura de la secu. de entrenamiento.

2.3 Se suman lo nuevos valores, s, y se transforma el resultado en un número L próximo a 0 ó 1

L = 1/ [ 1 – h ]

donde h es e elevado a -s

Redes neuronales: GeneParser2.4.. Los valores (i,j) transformados son puestos en

nuevas matrices Le y Li para exones e intrones. Ambas matrices son medias matrices.

2.5. El fin de estas transformaciones es usar esta información como input de la red neuronal.

2.3 Se usa programación dinámica para predecir el número y longitudes de intrones hasta cualquier posición de la secuencia de entrenamiento.

Redes neuronales: GeneParser3. Se determina la presición de la predicción.

4. Si no se alcanza el nivel de presición requerido se usa una red neuronal parecida a la de Grail II para ajustar los pesos de la características de cada exon e intrón input.

5. Si el nivel de presición es alcanzado es método está listo para determinar la estructura de secuencias genómicas de DNS desconocidas.

Estrategias integradoras

Hay otros programas que combinan métodos intrínsecos y extrínsecos, por ejemplo, GenomeScan, FGENESH+, Procrustes

Otras posibilidad es combinar predicciones de diferentes programas

Por ejemplo, combinar GenScan y HMMGene que son los mejores candidatos

Evaluación de resultados

TN FPFN TN TNTPFNTP FN

REALITY

PREDICTION

Sn TP

TP FN

Sp TP

TP FP

Sensibilidad

Especificidad

A nivel de la secuencia

Evaluación de resultados

Reality

Prediction

Incorrect Correct Missing

A nivel de los exones

ESn C

ER

ESp C

TP

Sensibilidad

Especificidad

Conclusiones

La mayoría de los tests se entrenan sobre secuencias particulares, por lo cual funcionan mejor en la predicción de genes similares al set de entrenamiento.

Muchos métodos requieren para funcionar predecir un comienzo y fin concretos con lo cual van a cometer errores frente a genes truncados o múltiples genes.

Hay genes que no tienen ninguna estructura canónica, por lo que no pueden ser detectados por ningún método actual.

Bibliografía

David W.Mount. Bioinfoimatics – Sequence and Genome Analysis.

Durbin et al. Biological Sequence Analysis – Probabilistic models of proteins and nucleis acids.

Meidanis y Setubal. Introduction to Computational Molecular Biology

Brunak. Chapter 9, Probabilistic Graphical Models in Bioinformatics.

Larry Ruzzo. Lecture 9, Gene Prediction, II Diapositivas de la cátedra.