Main

208
 DEP ARTAMENTO DE ARQUITECTURA Y TECNOLOGÍA DE SISTEMAS I NFORMÁTICOS Facultad de Informática Universidad Politécnica de Madrid TESIS DOCTORAL Optimización de procesos de adquisición de conocimiento en Biología Computacional Autor Santiago González Tortosa Ingeniero Superior en Informática PhD Directors Victor Robles Forcada - Doctor de Informática Fazel Famili - PhD Mechanical Engineering 2010

Transcript of Main

DEPARTAMENTO DE ARQUITECTURA Y TECNOLOGA DE SISTEMAS INFORMTICOS

Facultad de Informtica Universidad Politcnica de Madrid

TESIS DOCTORAL

Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

Autor Santiago Gonzlez Tortosa Ingeniero Superior en Informtica

PhD Directors Victor Robles Forcada - Doctor de Informtica Fazel Famili - PhD Mechanical Engineering

2010

Tribunal de la Tesis

Presidente: Ernestina Menasalvas Ruiz

Vocal: Luis Pastor Prez

Vocal: Cristobal Belda Iniesta

Vocal: Endika Bengoetxea Castro

Secretario: Jos Mara Pea Sanchez

Suplente: Iaki Inza

Suplente: Alberto Snchez Campos

Sin duda hay que perderse para hallar destinos inalcanzables o de lo contrario todo el mundo sabra donde estn. Jack Sparrow Todo gran camino comienza por un paso. Proverbio chino

A mis padres Emilio y Mariluz y a Carol, la mujer de mi vida. Os quiero

AgradecimientosPor n, despus de muchos aos de esfuerzo y dedicacin, hemos llegado al nal del camino. Y una vez que se ve el nal, se comienza a recapitular y a hacer balance acerca de lo ocurrido. He de admitir que no ha sido fcil, se han vivido momentos buenos y malos, con alegras y tristezas, con situaciones lmite de abandono que se realzaron con momentos de nimo, etc.. Pero, sin duda, no hubiera conseguido llegar al nal si no fuera por toda la gente que me ha apoyado. A todos ellos, por su apoyo, van dirigidas las siguientes lineas.

Primero de todo, quiero dar las gracias de todo corazn a la mujer de mi vida, Carol. Sin t, jams hubiera llegado a conseguir este sueo. Gracias por tu cario, apoyo, comprensin y paciencia en todos estos aos. Siempre has estado apoyndome y querindome, en los buenos y malos momentos. Ya sabes que en muchas ocasiones he perdido la esperanza, pero gracias a t hemos continuado sacando fuerzas para seguir adelante entre los dos. Por tanto, si hemos llegado a esta meta, es tambin por t. Por todo ello y por ms, mil gracias por todo mi amor!

Por otro lado, quiero agradecer a toda mi familia (padres, hermanos, tios, primos, etc.) el apoyo recibido en estos aos, en especial a mis padres Emilio y Mariluz. Sin ellos, nada de esto hubiera sido posible. Por desgracia, ellos no van a poder estar fsicamente con nosotros el da de la lectura, pero estoy muy seguro de que estarn presentes en nuestros corazones, viendo como su hijo hace realidad uno de sus sueos. Pap y mam, gracias por todo, sobre todo por el apoyo incondicional que siempre me habeis dado. Tambin quiero dar, de forma especial, las gracias a mis hermanos, que han estado ah cuando les necesit, preocupndose y animndome en todo momento.

Sin duda, quiero agradecer tambin a mi otra familia, Sanz Lopez, todo el apoyo y cario recibido desde que han entrado en mi vida. Por todos esos buenos consejos, por todo ese apoyo y por todo el cario incondicional recibido, os doy las gracias de todo corazn.

No debo olvidarme de mis compaeros de trabajo, que han estado a mi lado en este largo camino, aguantndome y dndome animos: Vctor, Chema, Oscar, Jorge, equipo del CeSViMa, del Cajal Blue Brain y grupo de Sistemas Operativos del DATSI (becario/as y profesores). Gracias a vosotros, a vuestro apoyo y nimo he conseguido llegar al nal de este arduo camino.

A lo largo del desarrollo de la Tesis, me han estado apoyando y ayudando en la investigacin mis dos directores de tesis, Victor y Fazel, junto a Chema. A ellos les escribo en ingles las siguientes lineas: My friends, thanks so much for this opportunity you gave me! I learned a lot, I am proud to have contributed my breadcrumb in a very interesting eld of bioinformatics as the diagnosis of diseases such as cancer. I had the opportunity to travel to Canada, Denmark, France, etc. , and to collaborate with medicals and biologists

from different countries. And all these is thanks to you. You have bet for me, and I hope that you are proud of the contribution we have made in this eld of research. Tambin quiero dar las gracias a Luis G., Belen C. y Antonio O. por haber realizado sus proyectos n de carrera conmigo.

Por ltimo, quiero agradecer el apoyo que me han dado todos mis amigos, a los que prometo dedicar un poco ms de tiempo a partir de ahora. Tambien quiero animar a Oscar a que termine su tesis lo antes posible, y espero que cuentes conmigo para lo que necesites ;)

Me gustara nalizar con una frase mtica de los Looney Tunes: Esto es todo amigos!!

Santiago Gonzlez Tortosa 13 de septiembre de 2010

ResumenTradicionalmente, los datos clnicos han sido la nica fuente de informacin para el diagnstico de enfermedades. Hoy en da, existen otros tipos de informacin, como Microarrays de ADN, que permiten mejorar el diagnstico y pronstico en muchas enfermedades. Esta tesis propone un nuevo enfoque, denominado CliDaPa, para combinar ecientemente ambas fuentes de informacin (datos clnicos y genticos), de forma que se mejoren las estimaciones. Para ello, en primer lugar, los pacientes se segmentan utilizando una representacin en rbol a travs de sus datos clnicos (rbol clnico). Por tanto, se identican distintas agrupaciones de pacientes segn comportamientos similares. A continuacin, se analiza cada agrupacin independientemente con la informacin gentica asociada, mediante tcnicas de minera de datos. Para demostrar su validez, el mtodo se aplica a distintos conjuntos de datos reales (sobre cncer de mama y de cerebro). La validacin de los resultados se basa en dos mtodos de validacin, interna y externa, utilizando para ello el Centro de Supercomputacin y Visualizacin de Madrid (CeSViMa), en donde se ejecutaron los tres enfoques paralelizados del algoritmo. Los resultados obtenidos se comparan con distintos estudios de la literatura, as como con las tcnicas de anlisis tradicionales, demostrando una mejora signicativa en los resultados existentes. Traditionally, clinical data have been the only source of information for disease diagnosis. Today, there are other types of information such as DNA microarrays, which are taken into account to improve diagnosis and prognosis of many diseases. This thesis proposes a new approach, called CliDaPa, to efciently combine both sources of information (clinical and genetic data), in order to further improve estimations. In this approach, patients are rstly segmented using a tree representation through their clinical data (clinical tree). Therefore, different groups of patients are identied according to similar behavior. Then each individual group is studied with data mining techniques, using the genetic information. To demonstrate its validity, the method is applied to different real data sets (breast and brain cancer). The validation of the results is based on two methods of validation, internal and external, using the Supercomputing and Visualization Centre of Madrid (CeSViMa), where the three approaches of the algorithm were implemented in parallel. The results are compared with other literature studies, as well as traditional analysis techniques, demonstrating a signicant improvement over existing results. Keywords: Cancer, DNA microarray, clinical, data mining, clinical tree, validation .

DeclaracinDeclaro que esta Tesis Doctoral ha sido escrita por m mismo y que el trabajo descrito es original, execptuando all donde se arme explcitamente lo contrario.

(Santiago Gonzlez Tortosa)

ndice general

ndice general ndice de guras ndice de tablas

I

VII

XI

I

INTRODUCCIN

13 3 4 5

Captulo 1. Introduccin 1.1. Motivacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Estructura del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

II

ESTADO DE LA CUESTIN

79 9 12 12 14 15 16 19 20 20 22 23 24 25 27

Captulo 2. Minera de Datos 2.1. Orgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Clasicacin supervisada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Deniciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2. Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. Nave Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4. Algoritmo C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.5. Regresin logstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.6. K-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Clasicacin no supervisada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1. K-Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2. QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3. Clustering con restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Conjuntos de Clasicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1. Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .I

2.4.2. Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Validacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1. Validacin supervisada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1.1. 2.5.1.2. 2.5.1.3. Holdout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cross-Validation, leave-one-out y stratication . . . . . . . . . . . . . . . . Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27 28 28 29 30 31 31 33 35 36 37 37 38 39 42 44 45 45 46 47 47 48 48 49 49 52 54 55 57 57 58 59 60 61 61

2.5.2. Validacin no supervisada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6. Herramientas de minera de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Captulo 3. Computacin evolutiva 3.1. Tcnicas evolutivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Algoritmos evolutivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1. Programacin evolutiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Algoritmos Genticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2.1. 3.2.2.2. 3.2.2.3. Esquemas de Seleccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . Operador de Cruce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Operador de Mutacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2.3. Parmetros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4. Programacin gentica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Algoritmos de Estimacin de Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Aprendizaje con Heursticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1.1. 3.3.1.2. 3.3.1.3. Modelo de independencias . . . . . . . . . . . . . . . . . . . . . . . . . . Modelo de dependencias de dos variables . . . . . . . . . . . . . . . . . . . Modelo de dependencias entre mltiples variables . . . . . . . . . . . . . .

Captulo 4. Bioinformtica 4.1. Computacin biolgica y tecnologa de Microarray de ADN . . . . . . . . . . . . . . . . . . 4.2. Metodologa computacional de anlisis de Microarrays de ADN . . . . . . . . . . . . . . . . 4.3. Tratamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Normalizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2. Preprocesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Seleccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1. Reduccin de dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2. Seleccin de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Aprendizaje Multiestrategia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1. Aprendizaje no supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2. Aprendizaje supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.6. Validacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

III

PLANTEAMIENTO DEL PROBLEMA Y SOLUCIN

6365 66 66 67 68 69 70 71 73 75 75 76 79 79 80 80 81 82 84 84 87 87 89 89 91 92 94 96 96 96 97 98

Captulo 5. CliDaPa: Clinical Data Partitioning 5.1. Anlisis tradicionales de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. CliDaPa: Nuevo enfoque del uso de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1. Fase 1: Preprocesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2. Fase 2: Construccin del rbol clnico . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2.1. 5.2.2.2. 5.2.2.3. 5.2.2.4. 5.2.2.5. 5.2.2.6. Enfoque Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Enfoque wrapper: Algoritmo Voraz . . . . . . . . . . . . . . . . . . . . . . Enfoque wrapper: Algoritmo Gentico . . . . . . . . . . . . . . . . . . . . Representacin del cromosoma . . . . . . . . . . . . . . . . . . . . . . . . Poblacin inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Operadores y criterios de Aceptacin . . . . . . . . . . . . . . . . . . . . .

5.3. Validacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Umbral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1. Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1.1. 5.5.1.2. 5.5.1.3. Dataset de Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dataset de Van de Vijver . . . . . . . . . . . . . . . . . . . . . . . . . . . Dataset de Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.5.2. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2.1. 5.5.2.2. Estudio del Umbral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descripcin de experimentos . . . . . . . . . . . . . . . . . . . . . . . . .

5.5.3. Rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.4. Resultados y Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.4.1. 5.5.4.2. 5.5.4.3. 5.5.4.4. Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.6. Mecanismos de mejora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.1. Seleccin del mejor clasicador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.2. Votacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3. Resultados y Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3.1. Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.6.3.2. 5.6.3.3.

Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.6.4. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Captulo 6. Aprendizaje no supervisado para enriquecimiento de datos clnicos 103

6.1. Enriquecimiento de datos clnicos a travs de tcnicas clustering . . . . . . . . . . . . . . . . 104 6.1.1. Uso del algoritmo QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.1.2. Medidas de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.1.2.1. 6.1.2.2. 6.1.2.3. 6.1.2.4. Distancia Euclidea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Distancia Manhattan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Correlacin de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Correlacin Biweight . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

6.2. Ejecucin y resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.2.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.2.2. Obtencin de conocimiento no supervisado . . . . . . . . . . . . . . . . . . . . . . . 110 6.2.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.2.3.1. 6.2.3.2. 6.2.3.3. Estudio del Umbral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Descripcin de experimentos . . . . . . . . . . . . . . . . . . . . . . . . . 114 Rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

6.2.4. Resultados y Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 6.2.4.1. 6.2.4.2. 6.2.4.3. Dataset de Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Dataset de Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Dataset de Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

6.2.5. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

IV

CONCLUSIONES Y LINEAS FUTURAS

123125

Captulo 7. Conclusiones

7.1. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 7.1.1. Denicin de metodologa computacional de anlisis de Microarrays de ADN . . . . . 126 7.1.2. Denicin del algoritmo CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 7.1.3. Realizacin de nuevos mtodos de aprendizaje en CliDaPa . . . . . . . . . . . . . . . 127 7.1.4. Uso de clasicacin no supervisada para enriquecimiento de clasicacin supervisada 127

7.2. Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 7.2.1. Revistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 7.2.2. Congresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 7.3. Lneas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

7.3.1. Funcionalidades para mejorar el rendimiento de CliDaPa . . . . . . . . . . . . . . . . 129 7.3.2. Nuevas lneas de investigacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 7.3.3. Aplicacin a otros campos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . 133

V

APNDICES

135137

Apndice A. Conjuntos de datos y experimentos

A.1. Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 A.2. Van de Vijver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 A.3. Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 A.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Apndice B. Informacin sobre el uso de QT 155

B.1. Codigo de Correlacin Biweight . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 B.2. Datos obtenidos con QT en BWC en Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . 159 B.3. Estudio comparativo de clusteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 B.3.1. Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 B.3.2. Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 B.3.3. Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 Bibliografa 165

ndice de guras

2.1. Modelo de procesos CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Taxonoma de algoritmos de clasicacin supervisada . . . . . . . . . . . . . . . . . . . . . . 2.3. Taxonoma de algoritmos de clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. Probabilidades de individuos segn el selector de Ruleta . . . . . . . . . . . . . . . . . . . . 3.2. Ruleta vs. Ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Cruce en un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Cruce en dos puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Cruce uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Cruce aritmtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7. Cruce BLX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8. Inversin Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9. Mutacin uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10. Ejemplo de un modelo grco para x = (A, B,C, D) . . . . . . . . . . . . . . . . . . . . . . . 4.1. Proceso biolgico de anlisis de Microarrays de ADN. Imagen de Gibson & Muse 2002 . . . . 4.2. Proceso de Hibridacin. Imagen de http://universe-review.ca/ . . . . . . . . . . . . . . . . . . 4.3. Aplicaciones de Microarrays de ADN [LMV02]. . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Proceso Computacional de anlisis de Microarrays de ADN . . . . . . . . . . . . . . . . . . . 4.5. Representacin esquemtica de la normalizacin respecto a una posible variacin sistemtica . 4.6. Normalizacin global usando media o mediana . . . . . . . . . . . . . . . . . . . . . . . . . 4.7. Normalizacin Lowess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8. Representacin esquemtica de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. Anlisis tradicionales de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Ejemplo de CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Fase I de CliDaPa: Preprocesado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Generacin de rbol clnico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Algoritmo voraz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6. Ejemplo de modelo de rbol con GAs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .VII

10 15 21 41 42 43 43 43 44 44 44 44 47 51 52 53 54 55 56 56 58 66 67 68 69 71 72

5.7. Ejemplo de cromosoma de modelo de rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8. Validacin externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9. Validacin externa de CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.10. Estudio del umbral con el dataset de Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . 5.11. Estudio del umbral con el dataset de Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . 5.12. Estudio del umbral con el dataset de Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . 5.13. Comparacin entre Clinical+Genes y CliDaPa en Vant Veer . . . . . . . . . . . . . . . . . . 5.14. Comparacin entre Clinical+Genes y CliDaPa en Van der Vivjer . . . . . . . . . . . . . . . . 5.15. Comparacin entre Clinical+Genes y CliDaPa en Brain . . . . . . . . . . . . . . . . . . . . . 5.16. Comparacin de resultados de CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.17. Comparacin de tiempos de CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.18. Comparacin de resultados de CliDaPa con mejoras en Vant Veer . . . . . . . . . . . . . . . 5.19. Comparacin de resultados de CliDaPa con mejoras en Van der Vivjer . . . . . . . . . . . . .

74 76 78 85 86 86 90 92 94 95 95 98 99

5.20. Comparacin de resultados de CliDaPa con mejoras en Brain . . . . . . . . . . . . . . . . . . 100 6.1. Algoritmo CliDaPa Multi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.2. Distancia Manhattan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.3. Pearson vs Biweight . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.4. Clculo de umbral y ejecucin de QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.5. Estudio del umbral con el dataset de Vant Veer en CliDaPa Multi . . . . . . . . . . . . . . . 112 6.6. Estudio del umbral con el dataset de Van der Vivjer en CliDaPa Multi . . . . . . . . . . . . . 113 6.7. Estudio del umbral con el dataset de Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . 114 6.8. Comparacin de resultados entre CliDaPa y CliDaPa Multi en Vant Veer . . . . . . . . . . . 116 6.9. Comparacin entre CliDaPa simple, CliDaPa Multi y CliDaPa Multi2 en Vant Veer . . . . . . 117 6.10. Comparacin entre CliDaPa y CliDaPa Multi2 en Vant Veer . . . . . . . . . . . . . . . . . . 118 6.11. Comparacin de resultados entre CliDaPa y CliDaPa Multi en Van der Vivjer . . . . . . . . . 119 6.12. Comparacin de resultados entre CliDaPa y CliDaPa Multi en Brain . . . . . . . . . . . . . . 120 6.13. Comparacin de resultados entre CliDaPa y CliDaPa Multi . . . . . . . . . . . . . . . . . . . 121 7.1. Desarrollo del 0.632 Bootstrap en paralelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 7.2. Ejemplo de clasicacin de QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 7.3. Ejemplo de Reclasicacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 A.1. Modelo de rbol CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 B.1. Porcentaje de individuos no clasicados segn QT . . . . . . . . . . . . . . . . . . . . . . . . 161 B.2. Comparacin de nmero de clusteres en Vant Veer . . . . . . . . . . . . . . . . . . . . . . . 162 B.3. Comparacin de nmero de clusteres en Van der Vivjer . . . . . . . . . . . . . . . . . . . . . 163

B.4. Comparacin de nmero de clusteres en Brain Cancer . . . . . . . . . . . . . . . . . . . . . . 163

ndice de tablas

2.1. Conjunto de datos en el dominio de enfermedades del corazn . . . . . . . . . . . . . . . . . 3.1. Ejemplo de seleccin por Ruleta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Ejemplo de selector por ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. Tiempo medio de ejecucin de experimentos en CeSViMa . . . . . . . . . . . . . . . . . . . 5.2. Tcnicas de anlisis tradicionales con Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Tcnicas de uso de CliDaPa con Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Tcnicas de anlisis tradicionales con Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . 5.5. Tcnicas de uso de CliDaPa con Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . . 5.6. Tcnicas de anlisis tradicionales con Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . 5.7. Tcnicas de uso de CliDaPa con Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8. Ejemplo de mecanismo de votacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9. Mecanismos de mejora aplicados a Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . . .

13 40 41 88 89 90 91 91 93 93 97 99

5.10. Mecanismos de mejora aplicados a Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . . . 100 5.11. Mecanismos de mejora aplicados a Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . 101 6.1. Caractersticas de algoritmos de clasicacin no supervisada . . . . . . . . . . . . . . . . . . 104 6.2. Ejemplo de resultados obtenidos con QT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.3. Comparacin de tiempos de ejecucion en CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . 115 6.4. Tcnicas de uso de CliDaPa Multi con Vant Veer . . . . . . . . . . . . . . . . . . . . . . . . 116 6.5. CliDaPa Multi con Vant Veer, utilizando solo los datos no supervisados . . . . . . . . . . . . 117 6.6. Tcnicas de uso de CliDaPa Multi con Van der Vivjer . . . . . . . . . . . . . . . . . . . . . . 118 6.7. Tcnicas de uso de CliDaPa Multi con Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . 120 6.8. Participacin de variables clnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 A.1. Informacin de un experimento CliDaPa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 B.1. Segmentacin de QT con BWC y Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . 159 B.2. Segmentacin de QT con BWC y Brain Cancer . . . . . . . . . . . . . . . . . . . . . . . . . 160

XI

Listado de algoritmos

1. 2. 3. 4. 5. 6.

Pseudo-cdigo del algoritmo C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Algoritmo Gentico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Algoritmos de Estimacin de Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . Enfoque Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Enfoque Wrapper: Algoritmo Voraz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Enfoque Wrapper: Funcion DivideYValida . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17 39 46 70 72 72

XIII

Parte I

INTRODUCCIN

Captulo 1

Introduccin

1.1

Motivacin

El cncer es la primera causa de mortalidad por enfermedad a nivel mundial [Org09]. Se le atribuyen 10,9 millones de defunciones (o aproximadamente el 13 % de las defunciones mundiales) en el ao 2009. Se conoce como cncer a aquella enfermedad que posee uno o mas tumores malignos. Dichos tumores se caracterizan por una multiplicacin anormal y desordenada de clulas, las cuales tienen la caracterstica de invadir los tejidos adyacentes. A este hecho se le conoce como metstasis. Existen variedad de cnceres, como por ejemplo pulmn, estmago, hgado, colon-recto, esfago, prstata, mama, cerebro, cuello uterino, etc. Toda esta variedad nos hace ver que este tipo de enfermedad se transforma en un problema de una gran repercusin social al que se le debe buscar una solucin lo antes posible. En el estudio de nuevos tratamientos contra este tipo de enfermedades se encuentran los expertos bilogos y mdicos. A menudo dichos expertos necesitan el uso de recursos informticos para poder realizar estudios adecuadamente. Es por ello por lo que se dene una nueva ciencia denominada Bioinformtica. La Bioinformtica se dene [LGG01, Joy08], pues, como la aplicacin del almacenamiento digital, desarrollo de la computacin y las matemticas para permitir el estudio, anlisis y comprensin de datos para resolver preguntas dentro del campo de la biologa. Actualmente en la Bioinformtica colaboran distintos grupos expertos de biologa, medicina y ciencias de la computacin (o, dicho menos tcnicamente, informtica). Entre todos surge una sinergia que permite llegar a la mejor solucin posible. Uno de los tpicos estudios dentro de la Bioinformtica son los estudios de los conjuntos de expresiones genticas o, dicho de otra manera, microarrays de ADN. Estos son representaciones expresadas como secuenSantiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

4

CAPTULO 1. INTRODUCCIN

cias de nmeros reales, obtenidos a partir de anlisis bioqumicos del ADN humano, que representan la cantidad de protenas que se transcriben a partir de una serie de genes. En la actualidad, este tipo de estudios se han usado (y siguen usndose) para poseer ms conocimiento sobre la actuacin y activacin de los distintos genes en las enfermedades como cncer. Por otro lado, se ha obtenido mucha informacin sobre las relaciones y dependencias entre genes (antes desconocida), lo que se suele representar mediante Pathways genticos [Hoh06, Knu02]. Las conclusiones obtenidas en estos estudios permiten, por ejemplo, saber si es necesario generar ciertas protenas para que no se produzca recidiva de cncer de mama y, por tanto, modicar el comportamiento de ciertos genes (mediante el uso de medicacin) que generan estas protenas. La literatura acerca de este tipo de estudios propone el uso Microarrays de ADN para el diagnostico de enfermedades. Incluso, ciertos estudios han presentado la posibilidad de utilizar y mezclar informacin gentica y clnica para enriquecer el conocimiento y mejorar en el diagnostico [FTBS+ 04, GST+ 06, DGDM07]. Si es cierto que el uso combinado de ambas fuentes de informacin no suele ser efectiva y, por ello, no suele usarse en la literatura. Sin embargo, el historial clnico, as como toda la experiencia mdica previa, puede aportar gran conocimiento a los estudios. Es en este punto donde aparece la principal motivacin de este trabajo, la cual plantea dar la importancia merecida a los datos clnicos, y combinarla, de alguna manera, con los datos genticos con el n de estudiar el diagnostico de enfermedades. Basndose en estudios previos en el campo, y sabiendo que las tcnicas de obtencin de conocimiento a travs de informacin gentica obtienen, en la mayora de los casos, mejores resultados que con datos clnicos, se pretende que la combinacin eciente de ambas fuentes de informacin permitan obtener informacin ms completa o complementaria sobre el propio estudio, antes desconocido para el experto mdico o bilogo.

1.2

Objetivos

Este trabajo de Tesis Doctoral se enmarca dentro del campo descrito anteriormente: Bioinformtica. En concreto, se centra en el desarrollo de diversos algoritmos que permitan el uso de dos fuentes de informacin completamente diferentes, como son los datos clnicos y genticos, con el n de optimizar los resultados hasta ahora obtenidos con tcnicas de anlisis tradicionales de los datos. Una vez denido el objetivo principal del trabajo, a continuacin se describen cada uno de los objetivos a conseguir en el desarrollo del mismo: Estudio del Estado de la cuestin. Se requiere un amplio estudio acerca del estado de la cuestin sobre Bioinformtica, especicndose en anlisis de microarrays de ADN. Como ocurre en todos los estudios doctorales, existe una innidad de referencias bibliogrcas sobre el campo genrico de estudio (en este caso Bioinformtica) pero, sin embargo, existen pocas referencias que puedan tratarse sobre el mismo estudio sobre el que se va a desarrollar la tesis doctoral, el cual es el anlisis de datos genticos y clnicos para elOptimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

1.3. ESTRUCTURA DEL DOCUMENTO

5

diagnstico de enfermedades como cncer. Se requiere, pues, el estudio del estado de la cuestin acerca del tema a tratar en la tesis doctoral. Desarrollo de una metodologa estndar. Hoy en da no existe ninguna metodologa que englobe todos los estudios de Bioinformtica en el anlisis de microarrays de ADN. Por tanto, el objetivo es, una vez que se realice el estudio del estado de la cuestin, el desarrollo de una metodologa estndar, que se apoye en otra metodologa de anlisis de datos existente. Dicha metodologa debe ser tan exible que pueda ser aplicado a cualquier investigacin, a pesar de la innidad de investigaciones existentes. Anlisis de ambas fuentes de informacin. Se plantea el desarrollo de una serie de algoritmos, siguiendo la metodologa expuesta anteriormente, que combine el uso de las dos fuentes de informacin: clnica y gentica. Dicha plataforma debe mejorar los resultados que se obtienen al usar tcnicas de anlisis hasta ahora existentes con las mismas fuentes. Estudio de validacin de los resultados. El campo en el que se esta trabajando es sobre diagnstico de enfermedades. Es tan serio e importante, que es necesario realizar una estricta validacin. sta puede tratarse desde dos puntos de vista: validacin biolgica y validacin computacional. La primera requiere el conocimiento y experiencia de un experto bilogo o mdico, el cual debe validar las conclusiones obtenidas. La segunda se encuentra dentro del campo de estudio de este trabajo. Por tanto, se requiere realizar un mecanismo de validacin lo sucientemente robusto y negativista, que permita demostrar que los resultados obtenidos son vlidos y correctos. Uso de mecanismos multiestrategia. Investigaciones actuales utilizan mecanismos de clasicacin no supervisada para agrupar las expresiones genticas. Sin embargo, no se suele utilizarlos para agrupar pacientes por comportamientos clnicos o genticos. Adems, se ha demostrado [Cla08] que dicha informacin (comportamiento de pacientes) est relacionada de alguna manera con el diagnstico de una determinada enfermedad y con sus genes. Se propone, por tanto, un mecanismo multiestrategia, que combine clasicaciones supervisada y no supervisada usando ambos conjuntos de datos.

1.3

Estructura del documento

El contenido del resto de trabajo de esta Tesis se encuentra organizado de la siguiente manera: El primer captulo, donde se encuentra este apartado, corresponde a la Introduccin de este trabajo, donde se presentan las motivaciones y objetivos que cubre el mismo. El segundo captulo recorre y analiza el estado de la cuestin acerca del campo de Minera de Datos: orgenes, tipos de clasicacin, algoritmos ms usados, validaciones, herramientas, etc. El tercer captulo analiza el estado de la cuestin acerca de la computacin evolutiva, algoritmos genticos, EDAs, hbridos, etc.Santiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

6

CAPTULO 1. INTRODUCCIN

El cuarto captulo presenta un estado de la cuestin acerca de la Bioinformtica referida al anlisis de microarrays de ADN, tanto a nivel biolgico (proceso biolgico) como computacional. Adems, se presenta la metodologa computacional de anlisis de expresiones genticas, as como los mtodos y tcnicas que ms comnmente se usan. El captulo cinco presenta un nuevo algoritmo de anlisis de datos clnicos y genticos. En l, se presenta el algoritmo original, ciertas mejoras, su aplicacin a datos reales, presentacin de resultados y discusin de los mismos. El captulo sexto presenta un nuevo algoritmo de combinacin de aprendizaje no supervisado con el algoritmo anteriormente expuesto. En l, se presenta la idea de dicha combinacin, las modicaciones sobre el algoritmo original, su aplicacin a datos reales, presentacin de resultados y discusin de los mismos. El sptimo y ltimo captulo de la Tesis corresponde a las conclusiones y lneas futuras del trabajo de investigacin presentado.

Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

Santiago Gonzlez Tortosa

Parte II

ESTADO DE LA CUESTIN

Captulo 2

Minera de Datos

2.1

Orgenes

Comparando la capacidad de los dispositivos de almacenamiento de hace una dcada con la de los dispositivos de hoy en da, se puede apreciar un aumento realmente considerable. Este crecimiento ha sido constante a lo largo de todo este tiempo y parece no tener n. Sirva como ejemplo la estimacin de Ian Witten y Eibe Frank [WF05], la cual comenta que la cantidad de datos almacenada en el mundo se duplica cada 20 meses. Ante esta magnitud de informacin tan elevada, surge el problema de poder trabajar con dicha informacin y lograr extraer conclusiones de la misma. En este punto es donde cobra sentido el trmino KDD. Del ingls, Knowledge Discovery from Databases, fue acuado a principios de la dcada de los 90 para referenciar al proceso no trivial para descubrir informacin vlida, novedosa, potencialmente til e interesante procedente y oculta en grandes conjuntos de datos [HK00]. Dentro de las distintas fase de KDD, una de las ms importantes se denomina data mining o minera de datos. De hecho, este nombre es utilizado en la actualidad para referirse al proceso completo de KDD. Se trata, pues, de un campo multidisciplinar en el que conuyen reas tan diversas como la inteligencia articial, el reconocimiento de patrones, el aprendizaje automtico, la estadstica, la teora de bases de datos, la visualizacin de datos, etc. Los procesos de KDD han sido aplicados exitosamente en distintos mbitos, y ha tomado especial importancia en el mundo empresarial que las utiliza para mejorar el rendimiento de su negocio como base de las estrategias de Bussiness Intelligence. El resultado que se obtiene son modelos de soporte a la decisin, que permiten la toma de decisiones de acuerdo a los datos recogidos de los usuarios y sus actividades en cualquier mbito. Desde la misma denicin de los trminos KDD y minera de datos, se denieron distintos modelos deSantiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

10

CAPTULO 2. MINERA DE DATOS

Figura 2.1: Modelo de procesos CRISP-DM

proceso [HK00] que especican los pasos y etapas de desarrollo. En el ao 1997, con el propsito de establecer un estndar en el modelo de proceso de desarrollo de proyectos de data mining, se propuso CRISP-DM [HK06, CCK+ 00] (The Cross-Industry Standard Process for Data Mining). Desde entonces se le ha considerado como el estndar de facto, el cual est compuesto por las siguientes fases (gura 2.1): Business Understanding. Se centra en el entendimiento de los objetivos del proyecto desde una perspectiva del negocio para transformar dicho conocimiento al mbito del data mining y establecer los problemas que se desea solucionar, con un plan preliminar. Data Understanding. Supone las actividades pertinentes para comprender la naturaleza de los datos, identicar los criterios de calidad que se van a establecer, realizar los primeros acercamientos a los datos o detectar subconjuntos de datos interesantes sobre los que proponer las primeras hiptesis de trabajo. Data Preparation. Construye la estructura nal del conjunto de datos sobre el que se van a aplicar los algoritmos de data mining. Se trata de una tarea que puede constar de mltiples pasos y ser realizada mltiples veces, no necesariamente en un orden predeterminado. Entre otros, incluye la seleccin de tablas, instancias y atributos, as como su transformacin y limpieza (su conjunto suele ser denominado procesos ETL o Extract, Transform and Load). Modelling techniques. Fase habitualmente conocida como data mining en la que se selecciona y aplica una tcnica y algoritmo concreto despus de un proceso de seleccin entre todas las posibilidades. Evaluation. Es el proceso de evaluacin y revisin del modelo y los resultados obtenidos en el proceso anterior bajo los criterios de xito denidos en los objetivos de negocio.Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

2.1. ORGENES

11

Deployment. Presenta el conocimiento de tal manera que el usuario puede usarlo de manera til y ecaz. Normalmente implica el desarrollo de algn sistema de toma de decisiones para la organizacin en la que se aplica el modelo y el conocimiento obtenido. Una vez vistos los procesos data mining denidos por CRISP-DM, basados en la experiencia prctica de muchos investigadores, podemos apreciar una serie de ventajas [WF05] frente al tratamiento de datos: Proporciona un procedimiento automatizado para identicar informacin clave desde volmenes de datos generados por procesos tradicionales y de e-Business. Permite dar prioridad a decisiones y acciones. Proporciona criterios que facilitan la toma de decisiones a los usuarios del negocio para que entiendan mejor el problema y el entorno. Habitualmente, genera modelos descriptivos, esto quiere decir, comprensibles para cualquier persona. Permite que relaciones ocultas e identicadas a travs del proceso de la minera de datos sean expresadas como reglas de negocio o modelos predictivos. Permite analizar factores de inuencia en determinados procesos, predecir o estimar variables o comportamientos futuros, segmentar o agrupar tems similares, adems de obtener secuencias de eventos que provocan comportamientos especcos. Pero, a pesar de estas ventajas y del auge actual, es necesario tener en cuenta ciertos factores que pueden crear cierta desilusin alrededor del data mining [WF05]: Es necesaria una cierta experiencia para utilizar herramientas de la tecnologa, o bien es fcil hallar patrones espurios, triviales o no interesantes. Es posible que no se pueda hallar patrones con recursos limitados. Es necesaria una adecuada comunicacin en los equipos multidisciplinares para elegir la herramienta adecuada. Es posible que, por razones organizativas, ticas o de otro carcter no se permita el uso de toda la informacin necesaria para la aplicacin de estas herramientas. Una vez claras las ventajas e incovenientes del uso del data mining, es interesante detallar los distintos problemas con los que se afronta el data mining. Dichos problemas, se dividen generalmente en dos grandes categoras [TSK05], las cuales son:Santiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

12

CAPTULO 2. MINERA DE DATOS

Los problemas predictivos cuyo objetivo es predecir el valor de un atributo en particular basado en los valores de otros atributos. El atributo que se predice se denomina comnmente como atributo objetivo (o variable dependiente), mientras que los atributos que se utilizan para la prediccin son conocidos como atributos explicatorios (o variables independientes). Los problemas descriptivos cuyo objetivo es derivar patrones (correlaciones, tendencias, agrupaciones o clusters, trayectorias y anomalas) que resuman las caractersticas inherentes a los datos. Este tipo de tcnicas son de naturaleza exploratoria y requieren un post-procesado de los datos para validar y explicar los resultados. Dentro de estos dos grupos de problemas, la literatura ha denido los distintos mtodos que se pueden aplicar. [FPSSU96] resume aquellos mtodos ms usados por cada uno de los dos tipos de problemas: mtodos de clasicacin, regresin, asociacin, clustering, etc. Sin embargo en [WF05] se comentan una serie de mtodos de deteccin de anomalas en las tareas predictivas. Cabe destacar que los mtodos predictivos tambin reciben el nombre de supervisados debido a que disponen de una fase de entrenamiento para la obtencin del modelo de conocimiento, mientras que los mtodos descriptivos reciben el nombre de no supervisados debido a que no disponen de dicha fase. Los mtodos descriptivos tambin son conocidos por el nombre de no supervisados o clustering puesto que su nalidad es el descubrimiento de grupos, identicando distribuciones interesantes y patrones en los datos [VHG03]. A continuacin, se comentan ambas tipologas de clasicacin, junto con una serie de algoritmos de cada una.

2.2

Clasicacin supervisada

Esta seccin presenta una introduccin general al aprendizaje con clasicacin supervisada. La organizacin de la seccin es la siguiente: En el apartado 2.2.1 se dene formalmente el aprendizaje con clasicacin supervisada. En el apartado 2.2.2 se describen los principales algoritmos de clasicacin supervisada. Por ltimo, en el apartado 2.5.1 se analizan las diferentes tcnicas de validacin (estimacin de la exactitud) de estos algoritmos.

2.2.1

Deniciones

Bsicamente, la tarea de un algoritmo de clasicacin supervisada es generar un buen modelo clasicador que aprenda a partir de un conjunto de ejemplos etiquetados. A partir de ah, una vez obtenido el conocimiento, el clasicador puede ser utilizado para identicar casos no etiquetados, con el objetivo de estimar la etiquetaOptimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

2.2. CLASIFICACIN SUPERVISADA

13

correcta. Un clasicador puede ser evaluado por su exactitud, comprensibilidad u otras propiedades deseables que determinen cmo de bueno es para la tarea a realizar. Una instancia, tambin llamada caso o ejemplo, es una lista ja de valores de atributos. Una instancia describe las entidades bsicas con las que se trabajar, tales como una persona, una transaccin econmica o una secuencia de ADN. Un atributo, a veces llamado variable, describe alguna propiedad de una instancia. Se utilizan dos tipos de atributos: discretos, que a su vez pueden ser nominales u ordinales (por ejemplo, un atributo discreto nominal puede ser color {ro jo, verde, azul} y uno atributo discreto ordinal puede ser titulo {bachiller, grado, postgrado}) y continuos (por ejemplo, peso R+ )). Cada instancia tiene un atributo especial que se denomina clase, que describe el fenmeno que se quiere aprender o sobre el que se desea hacer estimaciones. Se denomina instancia no clasicada a aquella instancia que no posee clase, es decir, solamente la lista de los valores de las caractersticas o atributos. En clasicacin supervisada, un conjunto de datos o dataset es un conjunto de instancias clasicadas o no. La tabla ?? muestra un conjunto de datos con nueve instancias en el dominio de enfermedades del corazn. La ltima columna, Enfermo, es la clase, es decir, la que se intenta estimar a partir del resto de los atributos. Edad (cont.) 53 60 40 46 62 43 76 62 57 Sexo {M,F} M M M F F M F M M Colesterol (cont.) 203 185 199 243 294 177 197 267 274 ECG restante {norm,abn,hyp} hyp hyp norm norm norm hyp abn norm norm Max. num. latidos (cont.) 155 155 178 144 162 120 116 99 88 Enfermo {si,no} si si no no no si no si si

Tabla 2.1: Conjunto de datos en el dominio de enfermedades del corazn Un clasicador es una funcin que obtiene la clase de una instancia sin clasicar. Todos los clasicadores tienen una estructura de datos almacenada, que se denomina modelo, el cual debe ser aplicado a la hora de generar la clase para una instancia sin clasicar. Por ejemplo, los rboles de decisin tienen almacenado como modelo un rbol que proyecta una instancia no clasicada a una determinada categora siguiendo el camino desde la raz hasta las hojas del rbol y devolviendo la categora de la correspondiente hoja. Un algoritmo de clasicacin construye un clasicador a partir de un conjunto de datos dado. Por ejemplo, CART [BFOS84] y C4.5 [Qui93] son algoritmos de aprendizaje que construyen clasicadores basados en rboles de decisin a partir de conjuntos de datos. Existen gran variedad de medidas que indican la calidad de un clasicador [GH07]. Una de las mas conocidas y mas sencillas de interpretar es el hit ratio o Porcentaje de Bien Clasicados (PBC). Dicha medida nos indica la probabilidad de clasicar correctamente una instancia seleccionada al azar utilizando un clasicadorSantiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

14

CAPTULO 2. MINERA DE DATOS

determinado. La tarea de un algoritmo de clasicacin es generar un clasicador con las siguientes caractersticas deseables: Que sea exacto. Este requisito es normalmente la caracterstica ms importante, y ser la principal consideracin a lo largo de la tesis. Que sea comprensible. Dados dos clasicadores con aproximadamente la misma exactitud, se preferir el ms comprensible. Para algunos dominios, como los dominios mdicos, la comprensibilidad es crucial. Para otros dominios, como el reconocimiento de caracteres pticos, este aspecto no es muy importante. Que sea compacto. Aunque est relacionada con la comprensibilidad, una caracterstica no implica la otra. Un perceptrn puede ser un clasicador compacto, pero dada una instancia, entender el proceso de clasicacin es muy complicado. En el otro extremo, un rbol de decisin puede ser muy grande, pero el proceso de la clasicacin de las instancias es trivial. A continuacin se describe formalmente la notacin que ser utilizada a lo largo de toda la tesis. Al conjunto de posibles valores (dominio) de un atributo Xi se le denota por Dom(Xi ). Se supone que la cardinalidad de Dom(Xi ) es ri . Cada instancia no etiquetada es un elemento del espacio de instancias no clasicadas X = Dom(X1 ) Dom(X2 ) . . . Dom(Xn ), donde n es el nmero de atributos. A una instancia no clasicada la denotamos por x. Al valor de un atributo especco Xi se le denotar como xi . Sea C el conjunto de los posibles valores de la clase C, es decir, C = Dom(C). Cada posible valor de la clase se denota por c. Sea X C el espacio de las instancias clasicadas y D un conjunto de datos con N instancias clasicadas donde D = {(x(1) , c(1) ), . . . , (x(N) , c(N) )} Un clasicador genera una clase c C para cada instancia no clasicada x X y un algoritmo de aprendizaje I genera un clasicador dado un conjunto de datos D. La notacin I (D, x) denotar la clase asignada a una instancia no etiquetada x por el clasicador construido por el algoritmo de aprendizaje I sobre el conjunto de datos D.

2.2.2

Algoritmos

Segn [HK06], se pueden clasicar los distintos algoritmos de clasicacin supervisada en cinco grandes bloques (gura 2.2), las cuales son: Modelos grcos de dependencias probabilsticas . Son los algoritmos basados en el teorema de bayes o en redes bayesianas. Ejemplos de estos tipos de algoritmos son Nave Bayes, NBTree, etc. rboles de decisin. Son estructuras en forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasicacin de un conjunto de datos. Mtodos pertenecientes a este tipo pueden ser ID3, C4.5, etc.Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

2.2. CLASIFICACIN SUPERVISADA

15

Modelos de Regresin. Son modelos matemticos que se basan en teoras de regresin, tanto lineal como logstica, teniendo en cuenta sus distintas variaciones. Lazzy learning. Tambin llamado aprendizaje vago, se basa en realizar el aprendizaje justo en el momento en que se se desea estimar clasicaciones de individuos no clasicados. El mtodo ms usado dentro de este conjunto es el KNN (K-nearest neighbour). Redes neuronales articiales. Son modelos predictivos no-lineales que aprenden a travs del entrenamiento y se asemejan a la estructura de una red neuronal biolgica. Ejemplos de este tipo de algoritmos pueden ser el perceptrn simple, perceptrn multicapa, etc. Vectorial. Tambien llamado SVM (Support Vector Machines), se basa en la creacin de hiperplanos de N dimensiones para la separacin de distintos grupos de individuos clasicados.

Figura 2.2: Taxonoma de algoritmos de clasicacin supervisada Sera imposible realizar una descripcin detallada de todos los algoritmos de clasicacin supervisada, debido a la gran cantidad de variedades. Por lo que, con el n de explicar ciertas caractersticas de cada tipo de algoritmo, y puesto que el presente trabajo hace uso de ellos, a continuacin se describen cuatro algoritmos, los cuales son: Nave Bayes, C4.5, regresin logstica y KNN.

2.2.3

Nave Bayes

En los ltimos aos ha habido un inters creciente en la utilizacin de mtodos probabilsticos para clasicacin. Estos han demostrado acomodarse a la naturaleza exible de numerosos conceptos, y, adems, gozan de una salida base en la teora de la probabilidad. El mtodo probabilstico para clasicacin ms ampliamente utilizado es Nave Bayes [Mit97, DFA06, LCS+ 06]. Este mtodo se basa en una aplicacin del teorema de Bayes, pero con unas restricciones y suposiciones de partida. Dada una instancia x representado por n valores, el clasicador Nave Bayes se basa en encontrar la hiptesis ms probable que describa a esa instancia. Si la descripcin de esa instancia viene dada por los valores < x1 , x2 , .., xn >, la hiptesis ms probable ser aquella que cumpla: Vmap = argmaxci C p(ci |x1 , ..., xn ), es decir, la probabilidad de que conocidos los valores que describen a esa instancia, sta pertenezcan a la clase ci (donde ci es el valor de la funcin de clasicacin f(x) en el conjunto nito V). Por el teorema de Bayes:Santiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

16

CAPTULO 2. MINERA DE DATOS

Vmap = argmaxci C p(c1 , ..., cn |ci )p(ci )/p(x1 , ..., xn ) = argmaxci C p(x1 , ..., xn |ci )p(ci ) Se puede estimar p(ci ) contando las veces que aparece la clase ci en el conjunto de datos de aprendizaje y dividindolo por el nmero total de instancias que forman este conjunto. Para estimar el trmino p(x1 , ...xn |ci ), es decir, las veces en que para cada categora aparecen los valores de la instancia x, se debe recorrer todo el conjunto de aprendizaje/entrenamiento. Este clculo resulta impracticable para un nmero sucientemente grande de individuos por lo que se hace necesario simplicar la expresin. Para ello se recurre a la hiptesis de independencia condicional, con el objetivo de poder factorizar la probabilidad. Esta hiptesis dice lo siguiente: Los valores x j que describen un atributo de un ejemplo cualquiera x son independientes entre s conocido el valor de la categora a la que pertenecen. As la probabilidad de observar la conjuncin de atributos x j dada una categora a la que pertenecen es justamente el producto de las probabilidades de cada valor por separado: P(x1 , ..., xn |ci ) = j P(x j |ci ). Dicho de otro modo, utilizando y partiendo del Teorema de Bayes se tiene que: p(C) p(X1 , ..., Xn |C) p(X1 , ..., Xn )

p(C|X1 , ..., Xn ) =

El numerador es equivalente a una probabilidad compuesta, por lo que: 1 p(C, X1 , ..., Xn ) Z

p(C|X1 , ..., Xn ) =

dnde Z es una constante de escala asociada a X1 , ..., Xn . Aplicando repetidas veces probabilidad condicionada y como se asume independencia condicional entre las variables X1 , ..., Xn , la distribucin condicional sobre la variable clasicatoria C puede expresarse de la siguiente manera:n 1 p(C) p(Xi |C) Z i=1

p(C|X1 , ..., Xn )

2.2.4

Algoritmo C4.5

C4.5 [Qui93] es un algoritmo usado para generar rboles de decisin, desarrollado por Ross Quinlan en 1993. Este algoritmo es una extensin del predecesor algoritmo ID3, desarrollado en 1986. Los rboles de decisin generados por este tipo de algoritmos pueden ser usados para clasicacin, y por ese motivo, suelen ser referenciados como clasicadores supervisados. Dichos rboles, (denominados Top Down Induction Trees) se construyen a partir del mtodo de Hunt. El algoritmo C4.5 genera un rbol de decisin a partir de los datos mediante particiones realizadas recursivamente. El rbol se construye mediante la estrategia de profundidad-primero (depth-rst). El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que resulta en la mayor ganancia de informacin. La ganancia de informacin es simplemente la reduccin esperada en la entropa causada al particionar las instancias o individuos de acuerdo a una variable o atributo.Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

2.2. CLASIFICACIN SUPERVISADA

17

G(Cli ,C) = E(Cli ) E(Cli ,C) La entropa de una variable puede ser considerada como la cantidad de informacin contenida en dicha variable. Suponiendo que una variable Cli tiene k valores v1 , ..., vk , la entropa ser:k

E(Cli ) = E(p(v1 ), ...p(vk )) =

s=1

p(vs ) log2 p(vs )

Para cada atributo discreto, se considera una prueba con k resultados, siendo k = Dom(Xi ) el nmero de valores posibles que puede tomar el atributo Xi . Para cada atributo continuo, se realiza una prueba binaria sobre cada uno de los valores que toma el atributo en los datos. En cada nodo, el sistema debe decidir cul prueba escoge para dividir los datos. A continuacin se presenta el pseudo-cdigo del algoritmo C4.5: Algoritmo 1 Pseudo-cdigo del algoritmo C4.5 // R: conjunto de atributos no clasicadores // C: atributo clasicador // S: conjunto de entrenamiento, devuelve un rbol de decisin Funcin C45(R,C, S) if S est vaco then Devolver un nico nodo con valor Falla end if if todos los registros de S tienen el mismo valor para el atributo clasicador then Devolver un nico nodo con dicho valor end if if Si R est vaco then Devolver un nico nodo con el valor ms frecuente del atributo Clasicador en los registros de S else D atributoconmayorProporcindeGanancia(D, S)entrelosatributosdeR Sean d j | j = 1, 2, ...., m los valores del atributo D Sean d j | j = 1, 2, ...., m los subconjuntos de S correspondientes a los valores de d j Devolver rbol con raz nombrada como D y con los arcos nombrados d1 , d2 , ...., dm , que van respectivamente a los rboles Llamar recursivamente a C45(R D,C, Sl),C4,5(R D,C, S2),C4,5(R D,C, Sm ) end if El esqueleto de este mtodo para construir rboles a partir de un conjunto de datos de entrenamiento D es muy simple: Sean las clases C1 ,C2 , ...,Cn , existen tres posibilidades: D contiene uno o ms casos, todos pertenecientes a una nica clase Ci : El rbol de decisin para D es una hoja identicando la clase Ci . D no contiene ningn caso. El rbol de decisin es una hoja, pero la clase asociada debe ser determinada por informacin que no pertenece a D. Por ejemplo, una hoja puede escogerse de acuerdo a conocimientos de base del dominio, como puede ser la clase mayoritaria.Santiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

18

CAPTULO 2. MINERA DE DATOS

D contiene casos pertenecientes a varias clases. En este caso, la idea es renar D en subconjuntos de casos que tiendan a pertenecer a una nica clase. A continuacin se presentan las caractersticas fundamentales del algoritmo C4.5, que lo diferencia del algoritmo ID3: A medida que se aaden niveles de rbol, las hiptesis se renan tanto que describen muy bien los ejemplos utilizados en el aprendizaje, pero el error de clasicacin puede aumentar al evaluar los ejemplos. Es decir, clasica muy bien los datos de entrenamiento pero luego no sabe generalizar al conjunto de validacin. Es debido a que aprende hasta el ruido del conjunto de entrenamiento. Este efecto es, por supuesto, indeseado. Hay varias causas posibles para que esto ocurra, las principales son: Exceso de ruido (lo que se traduce en nodos adicionales) y un conjunto de entrenamiento demasiado pequeo como para ser una muestra representativa de la verdadera funcin objetivo. Hay varias estrategias para evitar el sobre ajuste en los datos, que pueden ser agrupados en dos clases: Estrategias que frenan el crecimiento del rbol antes de que llegue a clasicar perfectamente los ejemplos del conjunto de entrenamiento y estrategias que permiten que el rbol crezca completamente, y despus realizan una poda. La poda consiste en una vez generado el rbol completo, se plantea qu es lo que se debe podar para mejorar el rendimiento y de paso obtener un rbol ms pequeo. C4.5 convierte el rbol a un conjunto de reglas antes de podarlo. Hay tres razones principales para hacer esto: Ayuda a distinguir entre los diferentes contextos en los que se usa un nodo de decisin (debido a que cada camino de la raz a una hoja se traduce en una regla distinta), deja de existir la distincin entre los nodos que estn cerca de la raz y los que estn lejos (as no hay problemas para reorganizar el rbol si se poda un nodo intermedio) y mejora la legibilidad puesto que las reglas suelen ser ms fciles de entender. Inicialmente el algoritmo ID3 se plante para atributos que presentaban un nmero discreto de valores. Se puede fcilmente incorporar atributos con valores continuos, simplemente dividiendo estos valores en intervalos discretos, de forma que el atributo tendr siempre valores comprendidos en uno de estos intervalos. sta es la tcnica que utiliza C4.5 con variables continuas. En ciertos casos existen atributos de los cuales se conoce su valor para algunas instancias, y para otros no. Por ejemplo una base de datos mdica en la que no a todos los pacientes se les ha practicado un anlisis de sangre. En estos casos lo ms comn es la estimacin el valor basndose en otros ejemplos de los que s conocemos el valor (imputacin de valores). Normalmente se ja la atencin en los dems ejemplos de ese mismo nodo. As, al ejemplo de valor desconocido se le da el valor que ms aparezca en los dems ejemplos. Esta tcnica ha sido incluida en el C4.5. El algoritmo C4.5 se basa en el uso del criterio ratio de ganancia normalizado (normalized Information Gain ratio) para la seleccin de que atributo va a ser escogido como divisor del rbol. De esta manera,Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

2.2. CLASIFICACIN SUPERVISADA

19

se consigue evitar que las variables con mayor nmero de posibles valores salgan beneciadas en la seleccin. El algoritmo examina la diferencia en la entropa que resulta de seleccionar un atributo para dividir el conjunto de datos. El atributo con mayor ganancia o entropa es el seleccionado para tomar la decisin de divisin.

2.2.5

Regresin logstica

La regresin logstica (LR) [HL00] es un mtodo estndar que permite describir la relacin entre la variable dependiente (o respuesta) que es discreta bivaluada (0 1) y las distintas variables predictoras (atributos independientes). Cuando el algoritmo es usado con propsito de clasicacin, la variable respuesta es la clase C, estimada a partir de los atributos X1 , ..., Xk . En este contexto, LR es un potente paradigma de clasicacin supervisada que proporciona probabilidades explcitas de clasicacin en cada posible valor de la clase. Este algoritmo se presenta como clasicador discriminante, en el sentido de que se obtiene la probabilidad de pertenencia a una clase a partir de los atributos, en contra de los clasicadores generativos, que obtienen clasicadores a partir de probabilidades conjuntas de la clase y atributos [NJ01]. Opuesto a otros mtodos de anlisis discriminante, no es necesario el supuesto de comportamiento de normalidad (distribucin gausiana) de los atributos. Es ms, dichos atributos pueden darse con escalas cuantitativas o cualitativas sin problema alguno. El clasicador LR es obtenido de un conjunto de datos de entrenamiento DN que contiene N individuos DN = (c j , x j 1, ..., x j k), j = 1, ..., N, y de una distribucin de probabilidad conjunta P(C, X1 , ..., Xk ). Normalmente la aplicacin de este mtodo es para clasicaciones de dos categoras, es decir, C j puede ser 0 1. Suponiendo que x representa P(C = 1|x) = P(C = 1|X1 = x1 , ..., Xk = xk ), entonces el modelo logit se dene como: x = 0 + 1 x1 + . . . + k xk 1 x

log o lo que es lo mismo,

x =

e(0 +1 x1 +...+k xk ) 1 = (0 +1 x1 +...+k xk ) (0 +1 x1 +...+k xk ) 1+e 1+e

donde = 0 + 1 x1 + . . . + k xk representa el vector de coecientes de regresin. Dichos coecientes son estimados a partir del mtodo de mxima verosimilitud (maximum likehood estimation). Dicho mtodo se basa en la siguiente funcin:N c

L ( ) = x jj (1 x j )1c jj=1

dnde x j se comenta ms arriba. Los M-estimadores (Maximum likelihood estimators o MLE) i son obtenidos a partir de maximizar L respecto a , o lo que es lo mismo, maximizar log L respecto a .Santiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

20

CAPTULO 2. MINERA DE DATOS

La funcin log L (L( )) gua la bsqueda de i s, intentando generar un modelo que obtenga los mejores resultados, es decir, que la distancia entre los individuos/variable respuesta y los valores estimados por el modelo sea la menor posible. Esta medida nos informa de lo efectivo que ha sido el modelo en describir la variable respuesta. Describiendo las ventajas e inconvenientes de LR, se debe comentar que se trata de un algoritmo muy potente y rpido, que obtiene resultados muy satisfactorios ante conjuntos de datos continuos con clase discreta. Sin embargo, este tipo de algoritmos no reacciona satisfactoriamente antes conjuntos de datos con gran cantidad de atributos y pequea de individuos (llamado curse of dimensionality), aunque derivados de este (como penalized LR) intentan paliar dicho problema.

2.2.6

K-NN

El algoritmo K-NN, llamado K vecinos ms cercanos (K nearest neighbour) [Mit97, CH67, LCS+ 06] es el mtodo inductivo ms usado en microarrays de ADN. Se trata de un mtodo lazy, es decir, no construyen un modelo, sino que todo el trabajo se pospone hasta el momento de clasicar una nueva instancia de validacin. En el entrenamiento simplemente se guardan todas las instancias. Cuando se realiza la clasicacin, se clasica una nueva instancia en funcin de la clase de las instancias ms cercanas. La distancia entre dos instancias se calcula a partir del valor de sus atributos. Dichas distancias pueden ser denidas con cualquier tipo de medida. Las ms usadas suelen ser distancia eucldea, Manhattan, Chebyshev, etc. El procedimiento para la clasicacin de un nuevo individuo es: 1. Se mide la distancia entre el individuo a clasicar y todos los individuos de entrenamiento almacenados. Las distancias se miden en el espacio de los atributos. Se utilizan tantas dimensiones como nmero de atributos se tenga. La distancia a calcular, depende del tipo de KNN se est usando. Por lo general, se utiliza la distancia eucldea, esto es, la raz de las diferencias de los cuadrados de sus dimensiones. 2. Se eligen las k instancias ms prximas. 3. Se asigna como clase la clase mayoritaria entre las k instancias. El coste computacional del algoritmo es alto, debido a que se realiza todo el clculo por cada una de las instancias que se desee estimar su clase. No obstante, se trata de un algoritmo sencillo, fcil de comprender, y que obtiene unos resultados medianamente aceptables. Sin embargo, al igual que otros algoritmos, es propenso a funcionar incorrectamente ante ruidos o gran cantidad de atributos.

2.3

Clasicacin no supervisada

Como se coment anteriormente, los mtodos de clasicacin no supervisada o clustering tienen como nalidad el descubrimiento de grupos, identicando distribuciones interesantes y patrones en los datos [VHG03].Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

2.3. CLASIFICACIN NO SUPERVISADA

21

No es fcil ofrecer una clasicacin de algoritmos de clustering cannica, debido a que las tcnicas que se utilizan para agrupar elementos en muchos casos se solapan [Ber02]. Sin embargo, la gura 2.3 muestra una posible taxonoma con los tipos de algoritmos de clustering que resume la visin hasta la fecha de los investigadores en este campo. De esta manera, los tipos de algoritmos que destacan son los siguientes:

Figura 2.3: Taxonoma de algoritmos de clustering

Basado en jerarquas. El clustering jerrquico o basado en jerarquas combina las instancias del conjunto de datos formando clusters sucesivos en forma de rbol, de tal manera, que en el nivel inferior se dispone de un nico cluster por instancia, y los niveles superiores son agrupaciones de dichos nodos. Este enfoque permite explorar los datos a distintos niveles de granularidad. El rbol que representa esta jerarqua de clusters se conoce como dendograma [TSK05]. Los algoritmos mas conocidos dentro de este tipo son los llamados algoritmos aglomerativos (Agglomerative) y divisivos (Divisive). Basado en particiones. Los mtodos de clustering basados en particiones dividen el conjunto de datos en distintos subconjuntos disjuntos. Sera imposible comprobar todos los posibles subconjuntos, por lo que los distintos mtodos utilizan heursticas para obtener los conjuntos de manera iterativa. El funcionamiento consiste en asignar los puntos a los distintos clusters, cuyo nmero es denido inicialmente, mejorando los clusters en cada iteracin hasta que la heurstica marque como ptimo el esquema. Los mtodos que destacan son K-Medias y K-Medoids. Basado en densidad. Las propuestas anteriores presuponen la forma esfrica de los clusters y el nmero de clusters (indicado previamente), lo que no se adeca a datos como los espaciales en los que la forma y nmero de los clusters es desconocido. Por este motivo a nales de la dcada de los 90 se propusieron varios algoritmos basados en el concepto de densidad, entre los que se puede incluir EM [CD02], DBSCAN [EKJX96], DENCLUE [HHK98] y OPTICS [ABKS99]. Basado en grid. Los algoritmos basados en grid intentan limitar la carga computacional y utilizan mtodos de particin, divisin o reduccin en el que el espacio de datos se compone de una rejilla. Cada uno de los elementos individuales de los que se compone la rejilla se denomina unidad. El uso de un grid para la divisin espacial aporta una serie de benecios, como es el estudio de los efectos de las agrupacionesSantiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

22

CAPTULO 2. MINERA DE DATOS

de manera local, lo que hace muy benecioso su uso junto con enfoques basados en particiones o en densidad. De hecho, este enfoque es usado como paso intermedio en muchos otros algoritmos (por ejemplo, CLIQUE o DESCRY). Entre los algoritmos ms destacados estn STING [WYM97], WaveCluster [SCZ98] y OptiGrid [HK99]. Basado en otros enfoques. Se incluyen: Basado en combinaciones de las anteriores. Entre otros destacan, CLIQUE [AGGR98] y DESCRY [APR04]. Graph partitioning [Ber02] donde los grafos presentan una tendencia a expresar similitud que puede ser utilizado para particionar un conjunto de datos. Coclustering techniques [Ber02] o tambin llamado clustering simultneo, clustering bi-dimensional (o bliclustering), clustering de bloques, clustering distribucional, etc. La idea principal consiste en realizar un doble clustering: realizar el clustering de individuos gracias a producir grupos de atributos al mismo tiempo. Este enfoque invierte parcialmente la problemtica habitual del clustering: para mejorar el clustering de puntos basados en sus atributos, trata de agrupar los atributos en base a los individuos. Una vez presentada la clasicacin de algoritmos de clasicacin no supervisada, a continuacin se procede a describir dos de los algoritmos ms usados en el campo de la Bioinformtica, y que han sido usados tambin en esta investigacin, los cuales son K-medias y QT.

2.3.1

K-Medias

El algoritmo K-Medias [KMN+ 02, LLF+ 04] es una herramienta diseada para asignar instancias a un nmero jo de grupos (clusters o conglomerados), cuyas caractersticas no se conocen a priori, pero que se basan en un conjunto de variables o atributos especicadas. Se considera que una clasicacin de K-Medias es correcta cuando es: Eciente, es decir, utiliza tan pocos conglomerados como sea posible. Efectiva, es decir, captura los conglomerados que estadstica y comercialmente son importantes. El procedimiento del anlisis cluster de K-medias empieza con la seleccin de los centroides de agrupaciones iniciales. Aunque se puede asignar manualmente estos centroides, lo aconsejable es poseer un procedimiento de seleccin de k observaciones bien situadas para los centros de agrupaciones. Despus de la obtencin de los centroides de las agrupaciones, el procedimiento es el siguiente: 1. Asignar instancias a las agrupaciones basndose en la distancia de los centroides de las agrupaciones.Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

2.3. CLASIFICACIN NO SUPERVISADA

23

2. Actualizar las posiciones de los centroides de las agrupaciones basndose en los valores medios de las instancias en cada agrupacin. Estos pasos se repiten hasta que cualquier re-asignacin de las instancias haga que las agrupaciones sean internamente ms variables o externamente similares. K-Medias se trata de un algoritmo sencillo y rpido aunque sus resultados no son todo lo bueno que se deseara. El primer inconveniente radica en el propio nmero de clusters a crear, que viene predenido como parmetro. Si es verdad que, dicho algoritmo es muy til para tcnicas de discretizacin de atributos y para realizar un primer estudio sobre clasicacin, puesto que nos proporciona posibles divisiones a partir de puntos clave o centroides.

2.3.2

QT

El algoritmo QT [HKY99] es un algoritmo de clustering de tipo jerrquico aglomerativo, que agrupa elementos en clusters de gran calidad comparando dos a dos los elementos disponibles mediante el uso de la funcin de distancia que se desee. Por ello, se crean clusters QT, que se denen porque la distancia que separa a los dos elementos ms diferentes de un mismo cluster es menor a una distancia umbral predenida como parmetro. Las propiedades congurables en el algoritmo QT son las siguientes: Distancia es la funcin utilizada para comparar dos elementos del conjunto de datos. Tamao mnimo de cluster que es el nmero mnimo de elementos que decidimos que debe haber en un cluster para poderlo formar. Dimetro umbral que es la distancia mxima que debe separar a dos elementos para poder meterlos en el mismo cluster. Una vez denidas las propiedades, comienza la ejecucin del algoritmo, cuyos pasos son: 1. Se escoge un elemento ei aleatoriamente de entre e1 . . . en . 2. El algoritmo determina el elemento e j ms parecido a ei . Si la distancia entre ellos no supera el dimetro umbral, ei y e j se incluyen en el mismo cluster. 3. Otros elementos ek que minimicen el dimetro del cluster son aadidos al mismo, hasta que no se permita aadir ninguno. 4. Se escoge otro candidato ey . 5. Se repiten los pasos 2 y 3 con respecto a este nuevo elemento ey . Todos los elementos del conjunto de datos son elementos candidatos a entrar en este segundo cluster asociado al nuevo elemento.Santiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

24

CAPTULO 2. MINERA DE DATOS

6. Se obtiene otro cluster para este elemento ey . 7. Se repite todo el proceso con todos los elementos de la lista, por lo que habr tantos clusters candidatos como elementos haya en la lista. Se eliminan los clusters que tengan un tamao menor al tamao mnimo de cluster permitido. 8. Se selecciona el cluster con mayor nmero de instancias como un cluster denitivo, y sus elementos se eliminan de la lista. Los elementos restantes pasan a la siguiente iteracin. 9. Se repite el proceso entero hasta que el cluster mayor de una ronda tenga un nmero de elementos inferior al requerido. Finalmente se ha obtenido el conjunto de clusters QT, en los que cada elemento pertenece a un solo cluster, y respetando los mnimos de nmero de elementos por cluster y dimetro. Los atributos que no estn en ningn cluster se denen como elementos no clasicados (unclassied cluster). Como medida de distancia entre los distintos elementos ei las referencias bibliogrcas nos aconsejan la distancia euclidea, manhattan, chevychev, correlacin lineal de Pearson, la correlacin Biweight, etc. dependiendo del problema. Una vez comentado el funcionamiento detallado del algoritmo, es conveniente hablar de algunos aspectos del mismo. Algunas de ellas proporcionan ciertas caractersticas que pueden hacer ventajoso su uso frente a otros algoritmos. El algoritmo genera clusters a medida del usuario, dado que solamente se consideran clusters que sobrepasen un umbral que puede denirse como parmetro de entrada. Las propiedades citadas anteriormente provocan que se generen unos resultados de salida que se cian a las caractersticas que interesen. Adems, no hay necesidad de que a priori se dena el nmero de clusters resultante que se quieren obtener, cosa que s sucede en otros algoritmos. Adems, QT puede optar por no insertar ciertos elementos en ningn cluster (por decisiones del propio diseo). Por otro lado, se consideran todos los clusters posibles, actuando el algoritmo de tal manera que se tienen en cuenta todas las combinaciones, lo que repercute en una mejora de los resultados. Sin embargo, como desventaja frente a otros algoritmos, el tiempo de computacin del QT es muy alto, debido a la complejidad del mismo. Cuanto ms se eleve el tamao mnimo de cluster o el tamao del conjunto de datos que se estudie, o se decremente el dimetro umbral, ms se disparar el tiempo de cmputo. Para concluir, el algoritmo QT obtiene resultados bastante aceptables frente a conjuntos de datos con ruido y grandes cantidades de atributos, como es el caso de microarrays de ADN.

2.3.3

Clustering con restricciones

Una vez descritos los algoritmos de clasicacin no supervisada, se procede a presentar el estudio de tcnicas de clustering orientadas a cierto conocimiento obtenido a travs de aprendizaje supervisado, lo que seOptimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

2.4. CONJUNTOS DE CLASIFICADORES

25

denomina clustering con restricciones o semisupervisado. La correcta evaluacin e interpretacin de un mtodo no supervisado depende del conocimiento del dominio y de las expectativas del usuario experto [HGK+ 05]. El clustering semisupervisado o clustering con restricciones trata de paliar los problemas que la interpretacin puede acarrear y permite al mtodo de clustering moverse de la generacin de soluciones no supervisadas a soluciones semisupervisadas [GH06] incluyendo informacin sobre el dominio durante el proceso. sto se consigue mediante el uso de las denominadas restricciones a nivel de individuo (instance-level constraints) denidas por [Wag02] en el ao 2000 y motivada por el hecho de que en la mayora de las aplicaciones existe una cantidad pequea de datos que est etiquetada y que puede ser utilizada para hacer clustering en el resto de los datos no etiquetados (y comparativamente inmensamente ms grande). Aunque fueron utilizadas implcitamente por primera vez en [DBE99], las restricciones a nivel de instancia fueron denidas y usadas con xito por primera vez en [WC00]. Su prctico enfoque, as como sus espectaculares resultados, hicieron que el inters de la comunidad cientca aumentara [Dav09] considerablemente produciendo una gran cantidad de literatura muy relevante [DBE99, WC00, BBM02, BBM04b, Dav09, HGK+ 05, RRS07]. Las restricciones a nivel de instancia se han mostrado como un mecanismo sencillo y ecaz para aumentar la pureza de los clusters [WC00], mejorar el rendimiento [Dav09], evitar soluciones parciales de baja calidad [WCRS01] y aportar el conocimiento del dominio del usuario [HGK+ 05]. Los ms recientes trabajos de investigacin [Dav09] demuestran que el grado de validez del conjunto de restricciones puede variar, y han denido medidas para establecer la coherencia y grado de informacin que aportan. Las distintas propuestas en clustering con restricciones han generado variaciones de algoritmos conocidos, como K-Medias [WCRS01], jerrquicos [Dav09], SVM [KBDM05], genticos [DBE99], pero tambin de enfoques ms tradicionalmente estadsticos [BBM04a] que hacen uso de restricciones a nivel de instancia. Todas estas soluciones pueden dividirse en dos grupos: Aqullas que modican la funcin objetivo para satisfacer las restricciones, denominados constraintbased, entre las que se encuentran [DBE99, WC00, BBM02, Dav09] Aqullas que entrenan la mtrica utilizada con la informacin etiquetada por las restricciones, denominadas distance-based, entre las que destacan [BBM04b, HGK+ 05].

2.4

Conjuntos de Clasicadores

Los conjuntos de clasicadores (ensembles of classiers) [Die97] son sistemas que clasican nuevas instancias combinando las decisiones individuales de los clasicadores de los que estn compuestos. Los conjuntos de clasicadores se construyen en dos fases: En una primera fase, la fase de entrenamiento, se genera una serie de clasicadores (a cada uno de ellos seSantiago Gonzlez Tortosa Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional

26

CAPTULO 2. MINERA DE DATOS

denomina clasicador individual o clasicador base) con un algoritmo concreto (denominado algoritmo base). En una segunda fase se combinan las distintas hiptesis generadas. La precisin del conjunto puede ser mucho mayor que la precisin de cada uno de los miembros en los que est compuesto como han demostrado multitud de estudios [BK99, Bre96, DF00, Qui96]. Esta mejora se podr obtener nicamente si los clasicadores individuales son sucientemente diversos, es decir, combinar siempre los mismos clasicadores no conlleva ninguna mejora. Se obtendr, por tanto, la misma respuesta que si se ejecutara cada clasicador base por separado. Para construir un conjunto de clasicadores (primera fase), es necesario elegir el algoritmo base y disear una metodologa que sea capaz de construir diferentes clasicadores. Las distintas metodologas o tcnicas existentes para la generacin de conjuntos de clasicadores se pueden agrupar en [Die97]: Remuestreo de datos de aprendizaje. Este tipo de mtodos se basan en la creacin de distintos conjuntos de datos de aprendizaje a partir del original (remuestreo) para ser usados en los distintos clasicadores. Dicho remuestreo permite inducir variaciones en los clasicadores. Algoritmos como Boosting [BK99] y Bagging [Qui96, Bre96] son un ejemplo de este tipo de tcnicas. Modicacin de atributos. Esta tcnica descarta selectivamente el uso de ciertos atributos para construir los clasicadores. De esta forma se construyen dichos clasicadores en distintos subespacios. El mtodo Attribute o Feature Bagging [?] es un ejemplo de uso de esta tcnica. Manipulacin de etiquetas de la clase. Cada clasicador individual es construido usando una recodicacin de las etiquetas de clase sobre los datos de aprendizaje. El mtodo ECOC (Error-Correcting Output Codes) [HW04] es un ejemplo de uso de este tipo de tcnicas. Aleatoriedad en el clasicador. Esta familia de tcnicas introduce un cierto grado de aleatoriedad en el algoritmo base de aprendizaje, de forma que dos ejecuciones distintas con los mismos datos resultan en dos clasicadores diferentes. En general, esta tcnica empeora la precisin del algoritmo de clasicacin a cambio de obtener una mayor variabilidad en los clasicadores obtenidos para poder combinarlos. Un ejemplo de este tipo de tcnicas es Forest-RI [Bre01], donde cada nodo selecciona la mejor pregunta dentro de un subconjunto aleatorio reducido de los atributos de entrada. Existe otra familia de algoritmos denominada bosques aleatorios (Random forests) [Bre01], el cual incorpora caractersticas de las diversas tcnicas previamente expuestas. Se trata de tcnicas de conjuntos de clasicadores que utilizan especcamente rboles de decisin como algoritmos base. En lo que se reere a la fase de combinacin de clasicadores, segn su arquitectura se pueden agrupar los algoritmos en [JDM00]:Optimizacin de procesos de adquisicin de conocimiento en Biologa Computacional Santiago Gonzlez Tortosa

2.4. CONJUNTOS DE CLASIFICADORES

27

Paralela. Todos los clasicadores base son invocados y sus decisiones son combinadas. La mayora de los conjuntos de clasicacin pertenecen a esta categora. En cascada. Los clasicadores del conjunto se invocan secuencialmente hasta que el patrn es clasicado [GB00]. Generalmente, los clasicadores base son incompatibles entre s en el sentido de que se entrenan sobre conjuntos de datos con distintos atributos. Jerrquica. Los clasicadores se organizan en una estructura de tipo rbol que determina el clasicador a invocar dependiendo del patrn a clasicar [JJ93]. Slo se invoca, por tanto, un clasicador. Esta es una arquitectura muy exible, puesto que utiliza clasicadores especializados en las distintas regiones del espacio de atributos. De todas las tcnicas presentadas, a continuacin se detallan solo aquellas que han sido usadas en el presente trabajo, las cuales son: Boosting y Bagging.

2.4.1

Boosting

La tcnica de Boosting [BK99] construye clasicadores mediante la asignacin de pesos a las instancias de forma adaptativa. En cada iteracin de boosting, se construye un clasicador que intenta compensar los errores cometidos previamente por otros clasicadores. Para lograr que cada nuevo clasicador mejore los resultados en regiones donde fallan los anteriores, se utiliza un conjunto de datos ponderado cuyos pesos son actualizados tras cada iteracin: se incrementan los pesos de los ejemplos mal clasicados por el ltimo clasicador y se reducen los pesos de los bien clasicados. Boosting puede, o bien utilizar todas las instancias ponderadas para construir cada clasicador (boosting con reweighting), o bien hacer un remuestreo ponderado (boosting con resampling), donde tengan ms probabilidad de aparecer en la muestra las instancias con mayor peso. En cualquier caso, el algoritmo de clasicacin base se encuentra con un conjunto de entrenamiento con instancias con distinta importancia relativa. De hecho, cada nuevo clasicador individual se centra