Predicción de genes
Taboada, Fernando
Gómez Germán
Definición: predicción de genes Para una secuencia de DNA no
caracterizada identificar la presencia de genes que codifican proteínas.
Se habla de predecir o buscar genes.
Definición: predicción de genes Dada una secuencia de DNA se puede
encontrar: Qué región codifica para una proteína. Qué hebra codifica el gen. Cuál es el marco de lectura. Dónde comienza y termina el gen. Dónde comienza y terminan los intrones/exones. Opcionalmente se encuentran las regiones
regulatorias del gen.
Transcripción y traducción
Estructura de los genes
Eucariotas vs. procariotas
Procariotas Genomas pequeños Alta densidad de genes Sin intrones Identificación de genes
es relativamente simple
Eucariotas Genomas grandes Baja densidad de genes Intrones y exones Identificación de genes es
un problema complejo
Predicción de genes en procariotas y eucariotas
Predecir genes que codifican a proteínas es más fácil en procariotas que en eucariotas. Algunos motivos:
- procariotas carecen de intrones
- patrones de secuencia altamente conservados se encuentran con gran frecuencia en regiones promotoras y alrededor de zonas de comienzo de transcripción y traducción.
Señal - una región en el ADN reconocida por la maquinaria celular
Estrategias de predicción de genes Basados en similitud (extrínsecos)
Usan herramientas de alineamiento local para comparar contra secuencias anotadas (proteínas, cDNAs, Est)
Pros: se basan en información biológica preexistemte Contras:
limitado a información preexistente errores en las bases de datos difícil comparar los limites de un gen en base a similitud hay métodos más rápidos que comparar contra base de
datos
Estrategias de predicción de genes Métodos intrínsecos
Secuencias consenso, matrices de score Modelos ocultos de Markov Redes neuronales Estrategias integradoras
Estrategias de predicción de genes Métodos intrínsecos
Secuencias consenso, matrices de score Modelos ocultos de Markov Redes neuronales Estrategias integradoras
Búsqueda de Open Reading Frames (ORF) ORF es una porción de DNA que contiene un
conjunto contiguo de codones que codifican aminoácidos.
Forma más simple de buscar secuencias que codifican proteínas.
En cada secuencia hay 6 posibles ORFS: 3 comenzando en las posiciones 1, 2 y 3 llendo en la dirección 5’ 3’ de una secuencia y su complementaria.
Búsqueda de Open Reading Frames (ORF) En procariotas el mayor ORF comenzando
desde el primer codón de start hasta el primer codón de stop es una buena (pero no segura) predicción de una región que codifica proteínas.
En eucariotas es algo más complejo debido a la presencia de intrones que suelen generar codones de stop.
Cómo testear una predicción de ORF Nos podemos basar en las siguientes propiedades:
Las secuencias codificantes no son una cadena al azar de posibles codones (nonrandom property).
Cada especie tiene patrones característicos de uso de codones sinónimos (codifican para el mismo aminoácido)
Hay pares de codones que suelen aparecer en exones de secuencias eucariotas.
Por ejemplo en E. Coli hay cierta preferencia de pares de codones en las regiones codificantes y de ciertos codones en la zona siguiente al codon de stop.
Cómo testear una predicción de ORF En base a las propiedades anteriores hay 3 tests:
1. Se basa en que toda tercera base tiene más chance de ser la misma que de cambiar (TestCode)
2. Es un análisis que determina qué codones en el ORF son los mismos que se utilizan en otros genes del mismo organismo (CODONFRECUENCY).
3. El ORF es traducido en una secuencia de amino ácidos y luego comparado contra otras secuencias de amino ácidos de proteínas base de datos existentes.
TestCode
La cantidad de cada base es contada en todas las terceras posiciones comenzando en las posiciones 1,2 y 3.
Para cada base se calcula el máximo de los 3 marcos de lectura dividido el minimo más 1 (asymmetry score).
Se calcula la frecuencia de cada base (frecuency score) Los scores son convertidos en probabilidades Las probabilidades son multiplicadas por factores
determinados de manera tal que discriminen zonas codificantes de no codificantes y luego son sumadas.
Si el valor resultante es mayor a 0.95 la secuencia codifica, si es menor a 0.74 no codifica.
Estrategias de predicción de genes Métodos intrínsecos
Secuencias consenso, matrices de score Modelos ocultos de Markov Redes neuronales Estrategias integradoras
Secuencias consenso
Representan la secuencia del motivo para una cierta mayoría de ejemplos.
Ejemplo: obtenidas por selección de la base más frecuente en cada posición de un alineamiento múltiple.
Desventaja: pueden producir muchos falsos positivos o falsos negativos.
Positional weight matrix
TACGAT
TATAAT
TATAAT
GATACT
TATGAT
TATGTT610505T
003001G
010100C
043060A
654321
Positional weight matrix Se calcula midiendo la frecuencia de cada elemento para cada
posición en el sitio El score para cada sitio putativo es la suma de los valores de
la matriz (convertidos en probabilidades) para esa secuencia
Desventaja: supone independencia entre bases adyacentes
Estrategias de predicción de genes Métodos intrínsecos
Secuencias consenso, matrices de score Modelos ocultos de Markov Redes neuronales Estrategias integradoras
Modelos ocultos de Markov
Alfabeto Conjunto de estados Probabilidades de transición entre estados Probabilidades de emisión dentro de un
estado Probabilidades iniciales de transición 3 problemas: evaluación, decodificación y
aprendizaje
HMM para predicción de genes
Los estados del modelo corresponden a las unidades funcionales de un gen.
Las transiciones entre estados son de manera tal que aseguren que la forma en que el modelo marcha sea biológicamente consistente.
HMM es entrenado o calibrado con genes conocidos para estimar los parámetros
Se busca la secuencia de estados Pi que maximiza P(x,Pi).
HMM para predicción de genes
Se generan estados para elementos límites (start, stop,…) y para regiones de longitud variable.
Las regiones suelen ser intrones, exones y regiones intergenicas. Una region intergénica es una secuencia de codones que no codifica a ninguna proteína.
A su vez los exones son divididos en iniciales, internos y externos.
HMM para predicción de genes Modelo simple de un HMM sin intrones:En cada estado se generan nucleótidos con cierta
probabilidad
HMM para predicción de genes Modelo simple de un HMM que tiene en cuenta
intrones, exones y alguna señales:B = gene start
S = translation start
D = donor
A = accceptor
T = translation stop
E = gene end
HMM para predicción de genes
Inicialmente para los elementos límite se usaban secuencias consenso.
Las regiones suelen ser modeladas con modelos de Markov de orden mayor a 6.
Las conexiones entre estados se utilizan tanto para modelar los diferentes marcos de lectura como la longitud de cada componente.
Como los genes pueden ocurrir en ambas direcciones, los HMM suelen ser espejados.
HMM para predicción de genes El modelo leerá una secuencia de ADN y encontrará los genes
más parecidos al conjunto con los cuales se entrenó o calibró el modelo.
Como el uso de codones y secuencias de cambio puede variar de un genoma a otro entonces el entrenamiento deberá hacerse por genoma.
La precisión del modelo depende de
- la precisión de la información respecto al comienzo (start) y fin (stop) del gen con la que se entrena o
calibra el modelo
- el número de genes usado para entrenar.
Uso de HMM para predicción de genes Algoritmo para generar una secuencia de DNA de longitud LSet n=1
Hacer {Si n=1 elegir estado q1 de acuerdo a las probabilidades
inicialesSino elegir estado qn en base a las probabilidades de
transición del estado actualElegir dn de acuerdo a la distribución de longitudes para el
estado qnElegir un string sn de longitud dn de acuerdo al modelo
probabilistico del estado qn
} Hasta que la suma de los dn sea mayor a L
Uso de HMM para predicción de genes Para encontrar el conjunto de estados Pi que maximizan P(x, Pi) se
utiliza el algoritmo de Viterbi:
Input: x = x1……xN
Inicialización:V0(0) = 1 (0 es la posición inicial)Vk(0) = 0, para todo k > 0
Iteración:Vj(i) = ej(xi) maxk akj Vk(i-1)ptrj(i) = argmaxk akj Vk(i-1)
Terminación:P(x, *) = maxk Vk(N)
Rastreo: N* = argmaxk Vk(N) i-1* = ptri (i)
Combinando HMM con redes neuronales Combinar poder de expresividad de las redes
neuronales con el aspecto secuencial de los HMM.
RN re utiliza para reparametrizar y modular el HMM. La idea básica consiste en utilizar RN en el tope de los HNN para el calculo de las funciones de transición y emisión.
Ambos modelos son entrenados con algoritmos unificados
GenMark para procariotas
GenMark.hmm para procariotas
GenMark.hmm para eucariotas
GenScan para eucariotas
HMM de 5to orden
El análisis de codones secuenciales en genes ha mostrado que algunos pares de bases se encuentran con mayor frecuencia que la esperada por sí solas. Considerando ésto tendríamos un HMM lineal.
Una mejor elección es un modelo que use información desde el 5ta base anterior. O sea utilizar un HMM de 5to orden.
En lugar de usar pares de bases para diferenciar secuencias codificantes de no codificantes se usan hexámeros (la base actual más las 5 anteriores).
GenMark.HMM es una versión de GenMark que usa un HMM de 5to orden para buscar genes E. coli.
HMM de 5to orden
Problema: HMM de 5to orden dará predicciones de genes precisas si hay
varios representantes de cada hexámero en los genes, de lo contrario el método estará estadísdicamente limitado.
Solución: IMM (interpolated Markov model) busca los posibles patrones más
largos (de hasta 8 bases) presentes en secuencias de genes conocidos. Si no hay suficientes hexámeros entonces buscará pentámeros y así sucesivamente.
En general cuanto más largo es el patrón más precisa es la predicción.
IMM combina probabilidades de los patrones con distintos tamaños dando énfacis a los patrones de mayor longitud y otorgando mayor peso a las secuencias bien formadas en las secuencias de entrenamiento.
HMM de 5to orden
Problema
Tanto GenMark.HMM como IMM asumen que la predicción de genes hecha por otros métodos son precisos, tal es el caso de los métodos usados para determinar la similitud entre las secuencias de las proteinas traducidas y las conocidas proteinas de la E. coli.
El resultado de ésto podrían ser predicciónes confiables de genes que NO se corresponden con ninguna secuencia de ninguna proteina ya conocida.
HMM de 5to ordenSolución
Existe una mejora de la predicción de la posición del codón de comienzo.
El método consiste en tomar un conjunto de predicciones para un codón de start en un conjunto de secuencias para el cual sí se conoce la posición del codón.
Se otorga un determinado peso a cada conjunto de secuencias input
Los pesos se ajustan de manera tal que las predicciones se hacen más precisas por un método llamado programación entera mixta.
Estrategias de predicción de genes Métodos intrínsecos
Secuencias consenso, matrices de score Modelos ocultos de Markov Redes neuronales Estrategias integradoras
Redes neuronales: Grail II
Usado para encontrar exones en genes de eucariotas.
Provee analisis de regiones codificadoras de proteinas, poly(A) y regiones promotoras y realiza búsqueda en bases de datos.
El método usa una red neuronal para identificar patrones carácterísticos de secuencias codificantes.
El sistema es entrenado con secuencias codificantes conocidas.
Redes neuronales: Grail II
Se establecen candidatos de exones. Son evaluados utilizando una red neuronal La red neuronal tiene 3 capas:
una capa de input, que tiene la información del exon candidato.
Una capa hidden para discernir relaciones entre los valores de entrada.
Una capa de output que indica si efectivamente es un exon
Redes neuronales: Grail II
Redes neuronales: Grail II
Inputs: Indicadores de patrones de secuencia. Modelo de Markov. Resultados de lugares de splice (splice
sites)provenientes de otras dos redes neuronales.
Indicador de preferencia de 6-mer (hexámeros).
Etc.
Redes neuronales: Grail II
Output Cada neuron recibe información de la capa inferior, la
suma y la convierte en un valor de aprox. a 0 o 1. Si la salida de la red neuronal el un valor próximo a 1
ent. se predice que la secuencia candidata es exon. La secuencia candidata es evaluada calculando
frecuencias de patrones en la secuenciasy aplicando estos valores a la red neuronal.
Si la salida de la red neuronal el un valor próximo a 1 ent. se predice que la secuencia candidata es exon.
Redes neuronales: GeneParser Predice la combinación de intrones y exones más
probable mediante el uso programación dinámica y redes neuronales.
Para cada posición de la secuencia se determina la probabilidad de estar en un intrón o exon .
Las posiciones de intrones y exones son alineadas con la restricción de que deben alternar en el gen.
Output: secuencia de intrones y exones del gen.
Redes neuronales: GeneParser Provee mecanismos para ajustar los pesos
asignados a cada tipo de patrón que aparece en intrones y exones.
La red neuronal se usa para ajustar los pesos dados a
- indicadores de secuencia de regiones conocidas de intrones y exones.
- uso preferencail de codones- frecuencia de hexámeros- matrices de scoring para señales de
splicing
Redes neuronales: GeneParser1. Se prepara una tabla de frecuencia de hexameros para un conjunto
de exones.
2. Iteramos, para cada secuencia de entrenamientose hace lo siguiente
2.1 Se arman matrices indicadoras. - Una matriz tal que cada posición (i,j) representa una subsecuencia
con principio en la posición i y fin en la j de la secuencias. Cada posición contiene la probabilidad de que un exon comience y termine en tales posiciones. Para ésto se considera la frecuencia de hexámeros.- Basta con usar media matriz.- En la otra mitad se hace lo mismo pero para intrones.- Se arman otras matrices basadas en distribución de longitudes, señales de splice, etc.
Redes neuronales: GeneParser2.2 Cada uno de los valores (i,j) de la matriz es
transformado según un pero asignado. Los pesos iniciales usados son arbitrarios, luego son ajustados hasta proveer la correcta estructura de la secu. de entrenamiento.
2.3 Se suman lo nuevos valores, s, y se transforma el resultado en un número L próximo a 0 ó 1
L = 1/ [ 1 – h ]
donde h es e elevado a -s
Redes neuronales: GeneParser2.4.. Los valores (i,j) transformados son puestos en
nuevas matrices Le y Li para exones e intrones. Ambas matrices son medias matrices.
2.5. El fin de estas transformaciones es usar esta información como input de la red neuronal.
2.3 Se usa programación dinámica para predecir el número y longitudes de intrones hasta cualquier posición de la secuencia de entrenamiento.
Redes neuronales: GeneParser3. Se determina la presición de la predicción.
4. Si no se alcanza el nivel de presición requerido se usa una red neuronal parecida a la de Grail II para ajustar los pesos de la características de cada exon e intrón input.
5. Si el nivel de presición es alcanzado es método está listo para determinar la estructura de secuencias genómicas de DNS desconocidas.
Estrategias de predicción de genes Métodos intrínsecos
Secuencias consenso, matrices de score Modelos ocultos de Markov Redes neuronales Estrategias integradoras
Estrategias integradoras
Hay otros programas que combinan métodos intrínsecos y extrínsecos, por ejemplo, GenomeScan, FGENESH+, Procrustes
Otras posibilidad es combinar predicciones de diferentes programas
Por ejemplo, combinar GenScan y HMMGene que son los mejores candidatos
Evaluación de resultados
TN FPFN TN TNTPFNTP FN
REALITY
PREDICTION
Sn TP
TP FN
Sp TP
TP FP
Sensibilidad
Especificidad
A nivel de la secuencia
Evaluación de resultados
Reality
Prediction
Incorrect Correct Missing
A nivel de los exones
ESn C
ER
ESp C
TP
Sensibilidad
Especificidad
Conclusiones
La mayoría de los tests se entrenan sobre secuencias particulares, por lo cual funcionan mejor en la predicción de genes similares al set de entrenamiento.
Muchos métodos requieren para funcionar predecir un comienzo y fin concretos con lo cual van a cometer errores frente a genes truncados o múltiples genes.
Hay genes que no tienen ninguna estructura canónica, por lo que no pueden ser detectados por ningún método actual.
Bibliografía
David W.Mount. Bioinfoimatics – Sequence and Genome Analysis.
Durbin et al. Biological Sequence Analysis – Probabilistic models of proteins and nucleis acids.
Meidanis y Setubal. Introduction to Computational Molecular Biology
Brunak. Chapter 9, Probabilistic Graphical Models in Bioinformatics.
Larry Ruzzo. Lecture 9, Gene Prediction, II Diapositivas de la cátedra.
Top Related