Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

29
Inteligencia Artificial en Bioinformática. Algunas Aplicaciones. Carlos Cano Gutiérrez Fernando García Alcalde Fco. Javier López Domingo Marta Cuadros Celorrio Armando Blanco Moron Genome Alhambra Group http://genome.ugr.es Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Granada

Transcript of Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Page 1: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Carlos Cano GutiérrezFernando García Alcalde

Fco. Javier López DomingoMarta Cuadros CelorrioArmando Blanco Moron

Genome Alhambra Group http://genome.ugr.es

Dpto. Ciencias de la Computación e Inteligencia Artificial

Universidad de Granada

Page 2: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 2

Contenidos

1. Extracción de módulos de regulación genética mediante análisis de microarrays con Clustering y Biclustering.

2. Text-mining para extraer relaciones de la literatura biomédica

Page 3: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 3

Microarrays: Background biológico

• Células de un organismo: – Comparten mismo ADN.– Muestran distinto comportamiento.

• Causa: expresión-represión genes

Measure the expression level of gene G

Measure the mRNA abundance of gene G

Measure the amount of protein P

Page 4: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 4

Hibridación de un Microarray

Page 5: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 5

Hibridación de un Microarray (II)

• Excitar microarray con láser

• Medir fluorescencia emitida por cada spot:

gen expresado en cels. Tipo A.

gen expresado en cels. Tipo B.

gen expresado en ambos tipos.

gen no expresado en ningun tipo.

• Intensidad de la fluorescencia = nivel de expresión del gen.

Page 6: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 6

Matriz de expresión génica

• Resultado de la Tecnología de Microarrays• Matriz de expresión A: n genes x m condiciones• A(i,j) nivel de expresión gen i bajo condición j

Page 7: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 7

Clustering sobre matriz de expresión

• Identificar grupos de genes (condiciones) con el mismo comportamiento a lo largo de las condiciones (genes) --> genes coexpresados.

• Genes pertenecientes al mismo grupo probablemente compartirán una misma función biológica.

• Como un gen puede desempeñar varios papeles en distintos procesos biológicos, se requieren algoritmos de clustering no exclusivo.

Page 8: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 8

Objetivo

• Clustering no exclusivo (permite solapamiento entre clusters).

• Identificar clusters coherentes de genes con alta varianza entre muestras.

• Criterio:– Clusers coherentes (genes similares se agrupan

conjuntamente). – Máxima varianza de los valores de los genes para

las distintas condiciones.

Page 9: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 9

Objetivo (II)

Page 10: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 10

Máxima varianza para las muestras

• Objetivo: – Clusters ayudan a identificar distintos tipos de

muestras.– Identificar grupos de genes cuya variación en los

niveles de expresión pudiera estar relacionada con propiedades biológicas de las muestras.

• Medida variabilidad: varianzaSea el valor de expresion para la muestra j del gen promedio del cluster :

La varianza del gen promedio es:

donde

∑∈ kSi

ijj xk)(=x /1

jxSk

∑ −p

j=j

jx )xx(p)(=σ

1

2

2/1

∑ jxp)(=x /1

Page 11: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Diciembre 2007 Máster en Soft Computing y Sistemas Inteligentes 11

Algoritmo ‘Gene Shaving’ (Hastie, 2001)

• Obtener un cluster:– Encontrar una secuencia anidada de clusters:

– Elegir un cluster de la secuencia: función GAP

• Calcular la 1ª CP de los genes restantes

• Eliminar α% genes con menor correlación con la 1ª CP.

Page 12: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 12

Nuestra propuesta

• Selección de genes :≈ Problema Selección Características (FSS)

Algoritmos Evolutivos: Algoritmos Genéticos (GA)

Algoritmos de Estimación de Distribuciones de Probabilidad (EDA)

Page 13: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 13

• Medida fitness: función GAP

– Criterios (ANOVA):MAX Between Variance MIN Within Variance

– Calidad Cluster (percent of variance explained)

– Elegir el cluster de la secuencia que:

– donde es el promedio de

Sk

Calidad del Cluster

Page 14: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 14

Biclustering sobre matriz de expresión

El clustering identifica grupos de genes con el mismo comportamiento para TODAS las condiciones

Un bicluster es una submatriz cuyos valores están relacionados de acuerdo a un criterio establecido.

Criterio: GAP • Valores Coherentes (genes

similares en un mismo bicluster)

• Máxima varianza para las columnas del bicluster

Page 15: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 15

Biclustering utilizando CP: Gene & Sample Shaving

Gene & Sample Shaving: Eliminar genes y muestras• MAX VARIANZA MUESTRAS: Eliminar filas menos correladas

con la 1ª CP de las filas de X.• MIN VARIANZA GENES: Eliminar columnas más correladas

con la 1ª CP de las columnas de X

Page 16: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 16

Clustering. Comparativa resultados.

• Cho et al. 1998. Ciclo celular de la levadura.• 2879 genes x 17 condiciones• Comparación resultados (10ejec.x10clusters/ejec.)

Medias y desv. típicas de GAP y tamaño:

35.53 (10.1)72.64 (4.6)EDA-Clustering (single-step shaving)

15.3 (6.4)81.87 (4.8)EDA-Clustering (multiple-step shaving)

14.56 (4.01)79.92 (3.8)GA-Clustering

13.26 (10.3)61.89 (23.8)Gene-Shaving

Nº. GenesGAPAlgoritmo

Page 17: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 17

Biclustering. Comparativa resultados.

• Alizadeh et al. 2000. Tipos de linfoma humano.• 4026 genes x 96 condiciones (agrupadas en 9 tipos de

linfoma y muestras sanas).• Comparativa resultados (10 ejecs.x50 biclusters/ejec. )

9613.28 (96.6)52.13 (17.3)Gene Shaving

17.92 (4.5)20.24 (6.6)68.56 (8.3)EDA Biclustering

14.89 (14.2)10.98 (7.3)83.99 (7)Gene & Sample Shaving

Avg. No. Cols.

Avg. No. Genes

Avg. GAPAlgoritmo

Page 18: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 18

Interpretación biológica de los resultados.

• Multiple-step EDA-Clustering.

Sulfur metabolism. P-value 7,2e-15. GAP: 83. 4. size: 14 genes.

Asignación de términos más significativos de Gene Ontology:

• Single-step EDA-Clustering.

DNA metabolism. P-value 18e-13. GAP: 83.38. size: 50 genes.

Page 19: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 19

Biclustering. Interpretación biológica.

EDA Biclustering. GAP:90.22. tamaño: 39 genes, 24 condiciones

• Columnas 84 a 94 representan CLL (10/11 muestras de CLL)

• La expresión de los genes de este bicluster discrimina el CLL

respecto a otros tipos de tejidos sanos y cancerígenos.

Page 20: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 20

Trabajo futuro en Análisis de Microarrays.

• Integrar información de otras fuentes de datos biológicas: Gene Ontology, TRANSFAC, literatura

Page 21: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 21

Publicaciones

• "Possibilistic approach for biclustering microarray data"

Computers in Biology and Medicine . 37(10), 2007

• "Intelligent system for the analysis of microarray data using principal components and estimation of distribution algorithms"

Expert Systems with Applications. 36(3), 2009

Page 22: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 22

Contenidos

1. Extracción de módulos de regulación genética mediante análisis de microarrays con Clustering y Biclustering.

2. Text-mining para extraer relaciones de la literatura biomédica

Page 23: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 23

Text Mining de la literatura biomédica

Hunter & Cohen, Mol Cell. 21(5), 589-94, 2006.

– “tp53”: 45.000 artículos // “autism”:11.000 artículos

Page 24: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 24

Objetivo: Extracción de relaciones

The action of SCPA enzymatically inhibits the chemotactic activity of C5a by cleaving its neutrophil binding site. [PMID: 12964111]

– Keyword: inhibits

– Argument 1: SCPA

– Argument 2: C5a

– Type: repression

– Role Arg. 1: agent

– Role Arg. 2: patient

Page 25: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 25

Enfoque: Análisis sintáctico + ML

•Patrones en árbol sintáctico:

...

NP

NP

Page 26: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 26

Corpora disponible

Type Corpus Name Object of the annotation Level of annotation Length + / -FormatBioText PPI / Treat-Disease int. Prots instances and type of relationship 100 titles / 40 abstracts + HTMLWisconsin PPI / Prot-Cell loc / Gene-Disease int. POS, Entities, arguments of the relation 52000 / 7900 / 13412 sent + / - Own Stand-offPICorpus PPI Entities and relations (Tags: Protein / Action)10271 sent + XML/WordFreakFetch Prot Corpus PPI Interacting arguments 190 full texts + / - Stand-off XML

PPI HIV-1 Human PI PPI Prot instances and type of relationship 2224 interacting prots. + OwnBioCreAtIvE I with PPI PPI / NE POS, Genes and relations tags. 255 int / 1000 sent + / - Stand-off XMLSPIES Corpus PPI / NE Protein mentions,yes/no for interaction 963 sent + OwnBioIE PPI / NE Proteins and keywords for relations 250 sent + HTMLYapex PPI / NE Protein mentions,yes/no for interaction 200 abstracts + / - XMLBioContrasts PPI / NE Proteins and constrasts 100 abstracts + XML

PennBioIE NE / Syntactic Structure (constituents) POS tags, Domain Entities and contituent trees642 abs / 2257 sent XML/WordFreakSYNTAX GENIA NE /Syntactic Structure (constituents) Domain Entitie and contituent trees 300 abs / 2000 sent XML / PTB

Brown GENIA Syntactic Structure (constituents) POS tags and constituent trees 21 abs / 215 sent PTBDepGENIA Syntactic Structure (dependencies) Dependency trees automatically annotatedAll GENIA corpus XML

• Escaso tamaño• Heterogeneidad

– Objetos– Niveles de anotación– Formatos

• Ejemplos positivos/negativos• Palabras clave / estructura sintáctica

Page 27: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 27

Esfuerzo propio de Anotación: BioNotate

• Herramienta web colaborativa de código abierto: esfuerzo distribuido.

• Presentar al anotador un snippet con dos entidades biológicas (gen, proteina, enfermedad)

• Proceso anotación :− Indicar Si/No en función de si el snippet constata una

interacción entre las entidades marcadas.

− Marcar la frase mínima (si la hay) que justifique la respuesta anterior.

− Al menos k anotadores deben alcanzar un grado mínimo de acuerdo para que un snippet se considere anotado.

• BioNotate: http://bionotate.sourceforge.net

Page 28: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 28

Esfuerzo propio de Anotación: BioNotate

Page 29: Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.

Abril 2009 I Jornadas de Bioinformática en Granada 29

Gracias…

• Preguntas?

Contacto:

Carlos Cano Gutiérrez, D16 Dept. CCIA. [email protected]

http://genome.ugr.es