Gene finding: Software de predicción de genes

30
Gene finding: Software de predicción de genes Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB

description

Gene finding: Software de predicción de genes. Miquel Ràmia i Jesús Genòmica i Proteòmica / Màster de genètica, UAB. Gene finding. INTRODUCCIÓN. Secuenciación de cada vez mas Genomas 809 genomas completos en mayo del 2008 53 archeas, 662 bacterias, 94 ecuariotas - PowerPoint PPT Presentation

Transcript of Gene finding: Software de predicción de genes

Page 1: Gene finding: Software de  predicción  de genes

Gene finding:

Software de predicción de genes

Gene finding:

Software de predicción de genes

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

Page 2: Gene finding: Software de  predicción  de genes

• Secuenciación de cada vez mas Genomas809 genomas completos en mayo del 2008

53 archeas, 662 bacterias, 94 ecuariotas

(GOLD: Genomes OnLine Database)

• Secuenciación de cada vez mas Genomas809 genomas completos en mayo del 2008

53 archeas, 662 bacterias, 94 ecuariotas

(GOLD: Genomes OnLine Database)

INTRODUCCIÓN

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Diferenciar entre: secuencia funcional funcionalidad de un gen o

producto génico

• Diferenciar entre: secuencia funcional funcionalidad de un gen o

producto génico

Gene findingGene finding

Page 3: Gene finding: Software de  predicción  de genes

Computacional:• Grandes bases de datos

• Algoritmos de búsqueda

• Automatización

Regiones grandes (Genomas)

Muchos organismos

Muchos (posibles) genes

Computacional:• Grandes bases de datos

• Algoritmos de búsqueda

• Automatización

Regiones grandes (Genomas)

Muchos organismos

Muchos (posibles) genes

INTRODUCCIÓN

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

Experimental:• Cultivos

• Hibridaciones

• Recombinación y Mapas Genéticos

Regiones Concretas

Organismos Concretos

Genes Concretos

Experimental:• Cultivos

• Hibridaciones

• Recombinación y Mapas Genéticos

Regiones Concretas

Organismos Concretos

Genes Concretos

PREomics POSTomics

Gene findingGene finding

Page 4: Gene finding: Software de  predicción  de genes

Computacional:• Grandes bases de datos

• Algoritmos de búsqueda

• Automatización

Regiones grandes (Genomas)

Muchos organismos

Muchos (posibles) genes

Computacional:• Grandes bases de datos

• Algoritmos de búsqueda

• Automatización

Regiones grandes (Genomas)

Muchos organismos

Muchos (posibles) genes

INTRODUCCIÓN

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

Experimental:• Cultivos

• Hibridaciones

• Recombinación y Mapas Genéticos

Regiones Concretas

Organismos Concretos

Genes Concretos

Experimental:• Cultivos

• Hibridaciones

• Recombinación y Mapas Genéticos

Regiones Concretas

Organismos Concretos

Genes Concretos

POSTomics

+

Gene findingGene finding

Page 5: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos de similaridad• Métodos de similaridad

• Métodos Ab Initio• Métodos Ab Initio

• Genómica Comparativa• Genómica Comparativa

Gene findingGene finding

Page 6: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos de similaridad• Métodos de similaridad( Lookup , Evidence based or Extrinsec Methods )

• Comparación de Secuencia y Búsquedas por similaridad(Blast, CLUSTAL)

• Alineamiento con Proteínas

• Alineamiento con mRNA/cDNA

• Alineamiento con ESTs

• Comparación Intra-genómica

• Comparación Inter-genomica (Genómica Comparativa)

Gene findingGene finding

Page 7: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos de similaridad• Métodos de similaridad

Nucleic Acids Res. 30:4103-4117, 2002.

Gene findingGene finding

Page 8: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos de similaridad• Métodos de similaridad

✓✓

✗✗• Capacidad limitada para encontrar nuevos genes, se estima que se pueden Encontrar el 50% de genes.

“Nada será encontrado si la base de datos no contiene suficientes secuéncias similares”

• ESTs solo dan información parcial ya que solo reflejan una parte de un mRNA • Exones pequeños no son detectados (problema también en ab initio)

• Resultados bastante sólidos al estar basados en evidencia• Comparaciones intra-genómicas aportan información de genes parecidos (familias génicas) • ESTs / cDNAs dan mucha información sobre divisiones Exon/Intron, y exonesusados o no en splicing alternativo

Gene findingGene finding

Page 9: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos de similaridad• Métodos de similaridad

• Métodos Ab Initio• Métodos Ab Initio

• Genómica Comparativa• Genómica Comparativa

Gene findingGene finding

Page 10: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos Ab Initio• Métodos Ab Initio( Intrinsec, Signal , Template Search )

Métodos totalmente computacionales basados en

la busca de patrones o secuencias consenso.

El “Gene Prediction” real.

• Estratégias:- Secuencias consenso y ORFs

- Estadísticos (Codon Bias) y Matrices de puntuación

- Arboles de decisión (HMM - Hiden Marcov Models)

- Otros…

• Típos de software:- Predicción de estructura

- Detección de Exones/Intrones

- Detección de lugares de splicing

- Detección de otras senyales

Gene findingGene finding

Page 11: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos Ab Initio• Métodos Ab InitioSecuencias consenso y ORFs

Tipos de Señales:

• Señales Promotoras• Señales Inicio de Transcripción• Lugares de Splicing (Intrones/Exones)• Lugares de poli(A)• Sitios de unión de TFs

www.cbs.dtu.dk

Gene findingGene finding

Page 12: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos Ab Initio• Métodos Ab InitioSecuencias consenso y ORFs

✓✓

✗✗• Métodos muy útiles en procariotas, pero no tanto en eucariotas con estructuras de genes complejas (ejemplo ORFs)

• Incluso en procariotas, podemos encontrar genes solapando con otros genes• Secuencias consenso , por si solas no son 100% fiables en todas las bases

• Aproximación muy rápida, que puede definir posteriores procesos• Paso previo de ORFs necesario

Gene findingGene finding

Page 13: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos Ab Initio• Métodos Ab InitioEstadísticos y Matrices

Estadísticos:

• Codon Bias• K-meros: Hexameros, etc…• Otros…

✗✗

✓ ✓ • Puntuaciones, índices, valores…de fácil tratamiento computacional• Codon Bias puede ser muy indicativo para separar regiones codificantes del resto

Las matrices y estadísticos provienen de datos previos, se deben de optimizar. Se puede hacer a partir de los datos propios pero requiere iteraciones

• Trainig Sets (matrices, codones, secuencias señal…)

Gene findingGene finding

Page 14: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos Ab Initio• Métodos Ab InitioHMM – Hidden Markov Models

• Método estadístico (bayesiano demostrar hipotesis cierta )• No se conoce previamente el estado de un grupo de elementos observado (Hidden state)• Mediante arboles de decisiones, se intenta inferir el estado del elemento a partir de lo observado

✗✗

✓ ✓ • (Muy) Usado en eucariotas, donde las señales consenso no están tan claramente definidas

• Cualquier algoritmo de este tipo necesita de datos previos para poder tener un “criterio” y poder hacer decisiones. Resultan necesarios mecanismos de autoaprendizaje

Gene findingGene finding

Page 15: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos Ab Initio• Métodos Ab InitioOtras Aproximaciones

• Autoaprendizaje (SPV – Suport Vector Machines)• Redes Neurales• Estructuras secundarias del mRNA• …

Gene findingGene finding

Page 16: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos Ab Initio• Métodos Ab Initio

• Autoaprendizaje (SPV – Suport Vector Machines)• Redes Neurales• Estructuras secundarias del mRNA• …

Gene findingGene finding

Page 17: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Métodos de similaridad• Métodos de similaridad

• Métodos Ab Initio• Métodos Ab Initio

• Genómica Comparativa• Genómica Comparativa

Gene findingGene finding

Page 18: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• Genómica Comparativa• Genómica Comparativa• Algún software especializado (Rosetta para Humano y Ratón, SPG1 para Vertebrados y

Angiospermas)

• Aproximación Mixta: (intentar buscar genes representativos del grupo de organismos estudiado)

1- Usar evidencia experimental (por homologia)

· Protein Coding cDNA

· Similaridad con proteinas

2- Predicción ab Initio

3- Filtro de los resultados para descartar redundancia,

pseudogeneso errores

4- Ampliar con otras fuentes de evidencia (ESTs,…)

Gene findingGene finding

Page 19: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

✗✗• Software principalmente centrado en regiones que codifican para proteinaPor el momento otras secuencias que transcriben son poco tratadas.

• Definido a priori que un gen es la región que transcribe entre señal de inicio y final

• Poco consenso entre los desarrolladores, falta de standards definidos (GFF – General Feature Format). Programas confusos para el usuario

• Detalles a mejorar su detección:- Genes solapantes (por extremo 3’ o genes dentro de intrones)- Genes Policistrónicos (varios genes codificados en un mRNA)- Frameshifts (perdida de nucleótidos en la secuenciación o bases de datos)- Intrones en secciones no codificantes / Exones no traducidos- Exones pequeños (estructuras secundarias)- Sitios de splicing no canonicos- Procesados alternativos:

- Otros inicios de transcripción- Splicing alternativo- Sitios de Poly(A) diferentes- Otros inicios de traducción: AUG alternativos / no-AUG

(poca consideración a casos “menores”)

Gene findingGene finding

Page 20: Gene finding: Software de  predicción  de genes

ESTRATEGIAS ACTUALES

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

✓✓• Combinación de métodos ofrece resultados más fiables

• Puede facilitar pasos previos a la experimentación

• Imprescindible para genomas que , quizás, NUNCA serán estudiados experimentalmente

Gene findingGene finding

Page 21: Gene finding: Software de  predicción  de genes

TEST DE SOFTWARE

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

Programas a prueba:Programas a prueba:

• GenMark-hmm

• GENSCAN

• GeneID

• GenMark-hmm

• GENSCAN

• GeneID

•Genscan se usó en el Proyecto Genoma Humano y en elGenoma del Ratón

•Genscan y GenMark-hmm tienen las mejores valoracionesen pruebas de este tipo de software

•Los tres tienen interface web

Gene findingGene finding

Page 22: Gene finding: Software de  predicción  de genes

TEST DE SOFTWARE

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• GenMark-hmm• GenMark-hmm

- Desde 1993

- Instituto tecnológico de Georgia, patrocinadopor IBM

- Varios programas: Procariotas, Eucariotas,Heuristicos, EST y cDNA …

GenMark-hmm : Usa Hidden Markov Modelsy selftraining

Gene findingGene finding

Page 23: Gene finding: Software de  predicción  de genes

TEST DE SOFTWARE

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• GENSCAN• GENSCAN

- Desde 1997

- Dep. Matemáticas de la Universidad De Stanford

- (web) Vertebrados, arabidopsis, maíz.

Usa Hidden Markov Modelsy se basa en información de doble cadena

Gene findingGene finding

Page 24: Gene finding: Software de  predicción  de genes

TEST DE SOFTWARE

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• GENEID• GENEID- Desde 2000 (paper en Drosophila)

- Universitat Pompeu Fabra / CRG

- Datos para varios organismos, van publicando nuevos sets periodicamente

- Permite añadir datos externos (GFF)

- Opcion de output en formato GFF

- Web muy explicativa

Usa 3 passos:

1. Deteccion de señales: Splicing, start-stop codons, matrices de puntuación2. Usa los datos anteriores en un modelo HMM3. Integrar todo en una predicción de la estructura

Gene findingGene finding

Page 25: Gene finding: Software de  predicción  de genes

TEST DE SOFTWARE

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

• BRCA1 (Pan troglodytes)• BRCA1 (Pan troglodytes)

- Cromosoma 17

- Splicing alternativo

- 85 kb

- 24 exons (22 coding)

Exon 11 3427 bp

El resto entre 37-311bp

- Proteina 1863 aa

Evolution of the tumor suppressor BRCA1 locus in primates: implications for cancer predisposition Adam Pavlicek , Vladimir N. Noskov et alt.Human Molecular Genetics 2004

13(22):2737-2751; doi:10.1093/hmg/ddh301

Gene findingGene finding

Page 26: Gene finding: Software de  predicción  de genes

TEST DE SOFTWARE

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

Output GeneMark-hmmOutput GeneMark-hmm

2 genes (4 y 7 exones)

Gen 1: 1246aaGen 2: 350aa

Gene findingGene finding

Page 27: Gene finding: Software de  predicción  de genes

TEST DE SOFTWARE

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

Output GENSCANOutput GENSCAN

2 genes (4 y 7 exones)

1 gen ( 16 exones ) 1707aa

Gene findingGene finding

Page 28: Gene finding: Software de  predicción  de genes

TEST DE SOFTWARE

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

Output GENSCANOutput GENSCAN

2 genes (3 y 6 exones)

Gen 1: 1229 aaGen 2: 323 aa

Gene findingGene finding

Page 30: Gene finding: Software de  predicción  de genes

REFERENCIAS

Miquel Ràmia i JesúsGenòmica i Proteòmica / Màster de genètica, UAB

Evaluation of gene prediction software using genomic dataset: application to Arabidopsis thaliana sequences . Pavy N, Rombauts S et alt. BioinformaticsVol 15 no 11 1999. 887-899

Evaluation of Gene-Finding Programs on Mammalian SequencesSanja Rogic, Alan K. Mackworth and Francis B.F. Ouellette . Genome Res. 2001 11: 817-832

Current methods of gene prediction, their strengths and weaknessesCatherine Mathé, Marie-France Sagot, Thomas Schiex and Pierre Rouzé. Nucleic Acids Res. 30:4103-4117, 2002.

In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists. Yvan Saeys, Pierre Rouze and Yves Van de Peer. Vol. 23 no. 4 2007, pages 414–420 doi:10.1093/bioinformatics/btl639

Gene findingGene finding