Agregacion de medidas de similitud para la detecci´ on de ... · distinguen dos tipos de...

17
Agregaci ´ on de medidas de similitud para la detecci ´ on de ort ´ ologos: validaci ´ on con medidas basadas en la teor´ ıa de conjuntos aproximados Reinier Millo S ´ anchez 1 , Deborah Galpert Ca˜ nizares 1 , Gladys Casa Cardoso 1 , Ricardo Grau ´ Abalo 1 , Leticia Arco Garc´ ıa 1 , Mar´ ıa Matilde Garc´ ıa Lorenzo 1 , and Miguel ´ Angel Fern´ andez Marin 2 1 Universidad Central “Marta Abreu”de Las Villas, Santa Clara, Cuba 2 Universidad de las Ciencias Inform´ aticas, La Habana, Cuba [email protected] Resumen. En el presente trabajo se propone un algoritmo para la detecci ´ on de ort´ ologos que utiliza la agregaci ´ on de medidas de similitud para caracterizar la relaci ´ on entre los pares de genes de dos genomas. Las medidas se basan en la puntuaci ´ on del alineamiento, la longitud de las secuencias, la pertenencia a regiones conservadas y el perfil f´ ısico-qu´ ımico de las prote´ ınas. La fase de agrupamiento sobre el grafo bipartido de similitudes se realiza con el algoritmo de agrupamiento de Markov (MCL). Se define una pol´ ıtica de asignaci ´ on de ort´ ologos a partir de los grupos de homolog´ ıa obtenidos del agrupamiento. La clasificaci´ on se valida con los genomas de Saccharomyces Cerevisiae y de Schizosaccharomyces Pombe usando la lista de ort´ ologos del algoritmo INPARANOID 7.0, con la medida de validaci´ on externa ARI. Tambi´ en se aplican medidas de validaci ´ on empleando la teor´ ıa de conjuntos aproximados para medir la calidad con manejo del desbalance de las clases. Palabras clave. Medidas de similitud, genes ort ´ ologos, agrupamiento mcl, asignaci ´ on de ort´ ologos, teor´ ıa de conjuntos aproximados, desbalance de las clases. Aggregation of Similarity Measures for Ortholog Detection: Validation with Measures Based on Rough Set Theory Abstract. This paper presents a novel algorithm for ortholog detection that involves the aggregation of similarity measures characterizing the relationship between gene pairs of two genomes. The measures are based on the alignment score, the length of the sequences, the membership in the conserved regions as well as on the protein physicochemical profile. The clustering step over the similarity bipartite graph is performed by using the Markov clustering algorithm (MCL). A new ortholog assignment policy is applied over the homology groups obtained in the graph clustering. The classification results are validated with the Saccharomyces Cerevisiae and the Schizosaccharomyces Pombe genomes with the ortholog list of the INPARANOID 7.0 algorithm with the Adjusted Rand Index (ARI) external measure. Other validation measures based on the rough set theory are applied to calculate the quality of the classification dealing with class imbalance. Keywords. Similarity measures, ortholog genes, mcl clustering, ortholog assignment, rough set theory, class imbalance. 1. Introducci ´ on La gen´ omica comparativa se dedica al estudio de las semejanzas y diferencias entre genomas de diferentes organismos. Toma informaci´ on tanto de las similitudes como de las diferencias entre las prote´ ınas y regiones reguladoras de diferentes organismos para inferir como la selecci´ on natural ha actuado sobre los genomas. Durante la evoluci ´ on de los genomas se producen cambios gen ´ eticos, que son clasificados en nivel bajo y alto. En el nivel bajo se producen las mutaciones puntuales que afectan a los amino ´ acidos, mientras que en el nivel alto se producen cambios entre

Transcript of Agregacion de medidas de similitud para la detecci´ on de ... · distinguen dos tipos de...

Agregacion de medidas de similitud para la deteccion de ortologos:validacion con medidas basadas en la teorıa de conjuntos

aproximados

Reinier Millo Sanchez1, Deborah Galpert Canizares1, Gladys Casa Cardoso1, Ricardo Grau Abalo1,Leticia Arco Garcıa1, Marıa Matilde Garcıa Lorenzo1, and Miguel Angel Fernandez Marin2

1Universidad Central “Marta Abreu”de Las Villas, Santa Clara,Cuba

2Universidad de las Ciencias Informaticas, La Habana,Cuba

[email protected]

Resumen. En el presente trabajo se propone unalgoritmo para la deteccion de ortologos que utiliza laagregacion de medidas de similitud para caracterizar larelacion entre los pares de genes de dos genomas. Lasmedidas se basan en la puntuacion del alineamiento, lalongitud de las secuencias, la pertenencia a regionesconservadas y el perfil fısico-quımico de las proteınas.La fase de agrupamiento sobre el grafo bipartido desimilitudes se realiza con el algoritmo de agrupamientode Markov (MCL). Se define una polıtica de asignacionde ortologos a partir de los grupos de homologıaobtenidos del agrupamiento. La clasificacion se validacon los genomas de Saccharomyces Cerevisiae yde Schizosaccharomyces Pombe usando la lista deortologos del algoritmo INPARANOID 7.0, con lamedida de validacion externa ARI. Tambien se aplicanmedidas de validacion empleando la teorıa de conjuntosaproximados para medir la calidad con manejo deldesbalance de las clases.

Palabras clave. Medidas de similitud, genes ortologos,agrupamiento mcl, asignacion de ortologos, teorıa deconjuntos aproximados, desbalance de las clases.

Aggregation of Similarity Measures forOrtholog Detection:

Validation with Measures Based onRough Set Theory

Abstract. This paper presents a novel algorithmfor ortholog detection that involves the aggregationof similarity measures characterizing the relationshipbetween gene pairs of two genomes. The measuresare based on the alignment score, the length of

the sequences, the membership in the conservedregions as well as on the protein physicochemicalprofile. The clustering step over the similarity bipartitegraph is performed by using the Markov clusteringalgorithm (MCL). A new ortholog assignment policyis applied over the homology groups obtained inthe graph clustering. The classification results arevalidated with the Saccharomyces Cerevisiae andthe Schizosaccharomyces Pombe genomes with theortholog list of the INPARANOID 7.0 algorithm with theAdjusted Rand Index (ARI) external measure. Othervalidation measures based on the rough set theoryare applied to calculate the quality of the classificationdealing with class imbalance.

Keywords. Similarity measures, ortholog genes, mclclustering, ortholog assignment, rough set theory, classimbalance.

1. Introduccion

La genomica comparativa se dedica al estudiode las semejanzas y diferencias entre genomasde diferentes organismos. Toma informacion tantode las similitudes como de las diferencias entrelas proteınas y regiones reguladoras de diferentesorganismos para inferir como la seleccion naturalha actuado sobre los genomas. Durante laevolucion de los genomas se producen cambiosgeneticos, que son clasificados en nivel bajo yalto. En el nivel bajo se producen las mutacionespuntuales que afectan a los aminoacidos, mientrasque en el nivel alto se producen cambios entre

Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp.19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

segmentos como pueden ser la duplicacion,transferencia horizontal, inversion y transposicion.

Un proceso imprescindible en la comparacionde genomas es el alineamiento de sus secuenciaspara encontrar regiones conservadas queaparentan no haber sido alteradas por cambiosgeneticos de nivel alto. En estas regionesaparecen secuencias poco afectadas por cambiosde nivel bajo, conocidas como homologas.La homologıa de secuencias se refiere a lassecuencias de dos o mas proteınas que sonsimilares entre sı, debido a que presentan unmismo origen evolutivo. La homologıa no es uncriterio medible, las secuencias son homologas ono lo son, aunque usualmente se asume que dossecuencias son homologas si estas dos presentanun alto grado de similitud [49]. Un alto grado desimilitud entre dos secuencias puede estar dadosimplemente al azar, como sucede en ocasionescon secuencias de poco tamano [29].

Dentro de la homologıa de secuencias sedistinguen dos tipos de homologıa: la ortologıay la paralogıa. Los genes ortologos songenes homologos de especies diferentes queevolucionaron a partir de un ancestro comunen un proceso de especiacion, mientras quelos paralogos son resultado de la duplicacion.Los genes ortologos proveen informacion util enestudios de taxonomıa, estudios filogeneticos yestudios de las funciones conservadas de losgenes entre los genomas. Es tarea de la deteccionde ortologos distinguir los genes que son ortologosa partir de los homologos en cuanto a la similitudde las secuencias. Otros genes son ortologosya que sus productos proteicos preservan sufuncion aunque no conservan la similitud de lassecuencias.

En la clasificacion de genes ortologos secomparan los pares de genes de genomasdiferentes y estos pares se clasifican en ortologoso no ortologos o se agrupa un gen con un grupode genes que se consideran sus ortologos sison de otro genoma. En este trabajo se abordala primera variante considerando el problema declasificacion de genes de dos genomas como unproblema de clasificacion binario no supervisado.Los algoritmos de clasificacion que siguen elenfoque de comparacion par a par de genes, o

algoritmos basados en grafos, como COG [46,45], INPARANOID [31], OrthoMCL [25], EGO [24]e INPARANOID 7.0 [32], conforman un grafobipartido completo pesado con la puntuacion delalineamiento entre las secuencias de los geneso preferiblemente de sus productos proteicos.El alineamiento se basa fundamentalmente enBLAST [2] y se mantiene vigente la necesidad deutilizar valores de sus parametros que mejoren eldesempeno de la clasificacion cuando se tomancomo referencia resultados curados [19]. Por otraparte, los algoritmos basados en arboles partende la construccion de los arboles filogeneticosa partir de la generacion de alineamientosmultiples para cada grupo de dominios homologos,proceso que demanda gran cantidad de recursoscomputacionales [40]. Los metodos basadosen grafos, a diferencia de los de arbol, nonecesitan generar alineamientos multiples, por loque son mas ligeros computacionalmente y massencillos de implementar, de ahı que esta sea lametodologıa seleccionada en este trabajo.

En la comparacion par a par de genes,primeramente, la similitud entre pares desecuencias se define a partir de la puntuacionobtenida en cada comparacion o por su porcientode similitud. Por lo general, las puntuacionesobtenidas al comparar los pares (X,Y ) y (Y ,X)son asimetricas, por lo que sus valores depuntuacion son promediados [40]. A continuacion,se desechan los pares de genes menossemejantes utilizando polıticas de poda porumbral [21], se aplican tecnicas de agrupamientosobre el grafo de similitud [25] y finalmente,se realiza la asignacion de ortologos a travesde heurısticas. Entre estas heurısticas seencuentran las de seleccion de las mejorescorrespondencias recıprocas “Reciprocal BestHits” (RBH) [46], de las mejores correspondenciasbidireccionales “Bidirectional Best Hits” (BBH) [33]y de los mejores subconjuntos no ambiguos “BestUnambiguous Subsets” (BUS) [21].

En general los algoritmos consultados muestranuna tendencia a combinar varios rasgos quecaracterizan la relacion entre los pares de genes[47, 17]. Por ejemplo, algoritmos como SOAR [8],MSOAR [16] y Multi-BUS [39] ademas de tener encuenta la similitud entre las secuencias, tienen en

Susana
Cuadro de texto
20 Reinier Millo Sánchez, Deborah Galpert Canizares, Gladys Casa Cardoso…
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp. 19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

cuenta los reordenamientos globales de genes ylos bloques de genes que conservan el orden paraestimar la distancia evolutiva. Otros algoritmos,como el presentado en [47], buscan similitud enlas interacciones entre proteınas en combinacioncon la similitud de las secuencias. En este trabajose emplea el criterio de que el analisis de laperiodicidad de las propiedades fısico-quımicasde los aminoacidos que constituyen la estructuraprimaria de las proteınas, permite detectar susimilitud en la dimension espectral de lassecuencias [7], lo cual permite tener en cuentaque en ocasiones hay secuencias de proteınasque tienen un alto grado de similitud funcional yestructural, a pesar de que, la similitud de sussecuencias de aminoacidos no supera el 20 %.

El enfoque local-global para la combinacionde rasgos normalizados promete ser una opcionpara combinar rasgos [17] en los algoritmos dedeteccion de genes ortologos. El alto numerode pares de genes clasificados como ortologosincorrectamente en [17], sugiere una mejora enel algoritmo de agrupamiento y en los criteriosusados para la seleccion de los pares de genesortologos. Siguiendo la tendencia de combinarrasgos, en este trabajo se agregan rasgos basadosen la puntuacion de alineamiento, la longitud de lasecuencia, la pertenencia a regiones conservadasy la informacion del perfil fısico-quımico de lasproteınas, y se propone una polıtica de asignacionde genes ortologos a partir de los grupos dehomologıa obtenidos luego de aplicar el algoritmode agrupamiento.

Se realizan experimentos para buscarlas mejores variantes de esta agregacion,tomando como clasificacion de referencia laobtenida por INPARANOID 7.0 [32] para losgenomas del Saccharomyces Cerevisiae y delSchizosaccharomyces Pombe. El desbalance delas clases en este conjunto de datos obliga aconsiderar medidas de validacion apropiadas.Ademas se utilizan medidas de validacionempleando la teorıa de conjuntos aproximados“Rough Set Theory” (RST) [3] para validar losresultados obtenidos y determinar el subconjuntode rasgos que produce mejores resultados en laclasificacion.

2. Deteccion de ortologos basada enla agregacion de medidas desimilitud, el agrupamiento deMarkov y una nueva polıtica deasignacion

El algoritmo de deteccion de genes ortologospropuesto en este trabajo utiliza el enfoque basadoen grafos. Se parte de calcular varias medidas desimilitud entre cada par de genes de dos genomas.Estas medidas son combinadas para obtener unamedida de similitud, empleada para construir ungrafo bipartido completo. A continuacion se leaplican tecnicas de poda al grafo bipartido parareducir la conectividad de los nodos, eliminandoaristas de baja similitud. Despues de podado elgrafo, se transforma en una matriz de adyacenciacuadrada para ser procesada por el algoritmo MCL[13]. Una vez realizado el agrupamiento, se aplicauna polıtica de asignacion de genes ortologos a losgrupos obtenidos, para conformar la lista de paresde genes ortologos devuelta por el algoritmo. Lafigura 1muestra el esquema general del algoritmo.

Fig. 1. Esquema general del algoritmo propuesto

2.1. Medidas de similitud

En el algoritmo propuesto se combinan cuatromedidas de similitud que tienen en cuenta

Susana
Cuadro de texto
Agregación de medidas de similitud para la detección de ortólogos:…21
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp.19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

diferentes rasgos relacionados con las secuenciascomparadas: el alineamiento de las secuencias,la longitud de las secuencias, la pertenenciade las secuencias a regiones conservadas yla informacion del perfil fısico-quımico de lasproteınas. Todas estas medidas de similitud sontrabajadas con valores normalizados, dividiendocada valor por el maximo valor de similitudobtenido. El grado de similitud negativo esconsiderado como una similitud no significativa, yse asume como valor nulo el cero.

2.1.1. Medida basada en el alineamiento desecuencias

El alineamiento local de dos secuencias brindala relacion funcional entre las secuencias, mientrasque el global brinda la relacion estructural. Paratener en cuenta ambas relaciones se emplea unamedida de similitud basada en la combinacionlineal de ambos tipos de alineamientos.

Sean los genomas G1 = (X1,X2, . . . ,Xn) yG2 = (Y1,Y2, . . . ,Ym) con n y m secuenciasrespectivamente y swalign la funcion que calculala puntuacion del alineamiento local entre unpar de secuencias, en este caso empleando elalgoritmo de Smith-Waterman [44], entonces lamedida de similitud basada en el valor continuode la puntuacion del alineamiento local entre cadapar de secuencias de ambos genomas se definecomo:

Sloc(Xi,Yj) =

{caloc(Xi,Yj), caloc(Xi,Yj) > 00, caloc(Xi,Yj) ≤ 0

(1)

caloc =swalign(Xi,Yj)

max(swalgin(Xk,Yl))∀k ∈ [1,n]; ∀l ∈ [1,m]

De forma similar se define la similitud basadaen la puntuacion del alineamiento globalentre cada par de secuencias, sustituyendola funcion de alineamiento local swalign porla funcion de alineamiento global nwalign,que en este caso calcula la puntuacion delalineamiento global empleando el algoritmo deNeedleman-Wunsch [30]:

Sglo(Xi,Yj) =

{caglo(Xi,Yj), caglo(Xi,Yj) > 00, caglo(Xi,Yj) ≤ 0

(2)

caglo =nwalign(Xi,Yj)

max(nwalgin(Xk,Yl))∀k ∈ [1,n]; ∀l ∈ [1,m]

La medida de similitud S1 basada en lapuntuacion del alineamiento se expresa comola media aritmetica de la combinacion de lasecuaciones (1) y (2):

S1(Xi,Yj) =Sloc(Xi,Yj) + Sglo(Xi,Yj)

2(3)

2.1.2. Medida basada en la longitud de lassecuencias

La medida de similitud S2 basada en la longitudde las secuencias es calculada a partir de ladistancia de las diferencias renormalizadas [14], yqueda expresada como:

S2(Xi,Yj) = 1−|long(Xi)− long(Yj)|

max(long(Zk))−min(long(Zk))(4)

Z = X1,X2, . . . ,Xn,Y1,Y2, . . . ,Ym∀k ∈ [1,n+m]

2.1.3. Medida basada en la pertenencia a lasregiones conservadas

Los bloques localmente colineales “LocallyCollinear Blocks” (LCB) de los genomascomparados se obtienen con la herramientaMauve [9, 10], la cual identifica regionesconservadas que aparentan no habersido alteradas por los reordenamientos einversiones dentro del genoma. Los bloquesobtenidos representan regiones consideradasverdaderamente homologas [9], y genes quese encuentran en un mismo bloque son maspropensos a ser ortologos que los que estan endiferentes bloques.

En [17] se define que una secuencia pertenecea un bloque LCB si esta tiene al menos un

Susana
Cuadro de texto
22 Reinier Millo Sánchez, Deborah Galpert Canizares, Gladys Casa Cardoso…
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp. 19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

aminoacido dentro del bloque. La similitud basadaen la pertenencia a los bloques LCB, se calcula apartir de la distancia entre los pares de secuenciasteniendo en cuenta la pertenencia a los bloquesLCB, por lo que la medida de similitud S3 se definecomo:

S3(Xi,Yj) = 1− dlcb(Xi,Yj) (5)

Sean los genomas G1 = (X1,X2, . . . ,Xn) y G2 =(Y1,Y2, . . . ,Ym), LCB[k, l] la matriz de la cantidadde aminoacidos de cada secuencia en cada bloqueLCB, donde LCB[k, 1 . . . n] es la cantidad deaminoacidos de las secuencias del genoma G1 enel bloque k y LCB[k,n+ 1 . . . n+m] es la cantidadde aminoacidos de las secuencias del genoma G2;entonces la distancia entre dos secuencias Xi y Yjde los genomas G1 y G2 se define como:

dlcb(Xi,Yj) =1

cantidadLCB∑k=1

dlcb(k,Xi,Yj) (6)

dlcb(k,Xi,Yj) =0, simax(LCB[k, l]) = min(LCB[k, l])|LCB[k, i]− LCB[k,n+ j]|

max(LCB[k, l])−min(LCB[k, l])∀l ∈ [1,n+m]; k = 1 . . . cantidadLCB

donde P es la cantidad de bloques LCB donde unao ambas secuencias del par (Xi,Yj) contiene almenos un aminoacido.

2.1.4. Medida basada en la informacion delperfil fısico-quımico de las proteınas

A diferencia de los metodos tradicionales, elanalisis del perfil fısico-quımico propuesto no sebasa en el alineamiento de la representacionespectral de las secuencias [7], si no, en elcalculo de la representacion espectral de lassecuencias a partir del alineamiento global deambas secuencias, usando codificacion predictivalineal “Linear Predictive Coding” (LPC) [11].Tomando como referencia el alineamiento globalde dos secuencias, se buscan las regionesde correspondencia sin “gaps” y se sustituyecada aminoacido por su energıa de contacto[28, 34], para luego calcular la relacion entrelas dos representaciones espectrales usando

el coeficiente de correlacion de Pearson. Unavez sustituidos cada uno de los aminoacidospor su energıa de contacto para determinar larepresentacion espectral de la region, se calculanlas medias moviles [1] para cada uno de losespectros, con un tamano de ventana W . Apartir de los nuevos espectros obtenidos secalcula el coeficiente de correlacion de Pearson,donde la correlacion es significativa si el valor designificacion obtenido es menor que 0.05, por loque el grado de similitud de una region sin “gaps”se define como:

CP (MX,MY ) =

{corr(MX,MY ), sig ≤ 0.050, sig > 0.05

(7)

Una vez calculada la similitud de cada una delas R regiones sin “gaps”, es necesario combinarestas similitudes para determinar la similitudglobal de las dos secuencias comparadas. Lassimilitudes de cada una de las regiones sonagregadas hallando la relacion del grado desimilitud en funcion de la longitud de la region, parala longitud del alineamiento sin “gaps”, por lo quela medida de similitud S4 basada en la informaciondel perfil fısico-quımico de las proteınas se definecomo:

S4(Xi,Yj) =

∑Rk=0 CP (MXik,MYjk)× longk∑R

k=0 longk(8)

donde longk representa la longitud de la region k.

2.2. Construccion y poda del grafo desimilitud

El grafo de similitud entre dos genomas sedefine como el grafo bipartido completo no dirigidoG = (V ,E) [5] que describe la similitud entre losconjuntos de genes V1 y V2 de dos genomas G1 yG2 de las dos especies comparadas, donde cadagen de cada genoma representa un vertice delgrafo. El conjunto de vertices V se define comola union de los vertices que representan genesdel genoma G1 con los vertices que representan

Susana
Cuadro de texto
Agregación de medidas de similitud para la detección de ortólogos:…23
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp.19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

genes del genoma G2 [12]. La arista entre lospares de vertices se encuentra pesada por elgrado de similitud entre las dos secuencias querepresentan los vertices.

El grafo bipartido de la similitud entre lassecuencias se construye a partir de la agregacionde las diferentes medidas de similitud usandola media aritmetica mostrada en la ecuacion(9). El grafo se representa como una matrizde adyacencia, donde cada fila representa unasecuencia del G1, cada columna una secuenciadel G2 y una celda representa el grado de similitudentre las secuencias representadas por la fila y lacolumna.

S(Xi,Yj) =1

4∑k=1

Sk(Xi,Yj) (9)

i = 1 . . . n; j = 1 . . .m;

Con el objetivo de reducir la complejidadcomputacional sin perder informacion, se aplicanpolıticas de poda para reducir la conectividaddel grafo. En este trabajo se aplica una polıticade poda por homologıa de las secuencias, podapor umbral [21, 17] y poda para eliminar lasambiguedades del grafo teniendo en cuenta losbloques de orden conservado [21, 17].

La poda por homologıa de las secuenciaselimina los pares de secuencias que no sonhomologos entre sı, basandose en el porcientode similitud del alineamiento global de las dossecuencias. El valor tomado como lımite puedevariar en dependencia de la distancia evolutivaque separa las especies comparadas. Comolas especies empleadas para la validacion eneste trabajo son relativamente cercanas en laevolucion, se decidio emplear como lımite un 40 %de similitud.

La poda por umbral busca eliminar todos lospares cuyo grado de similitud es muy pequenorespecto a los mejores grados de similitud delgrafo. Se podan los valores por fila y columna,buscando las mejores correspondencias por cadafila y cada columna, para eliminar todos lospares que no rebasan el umbral de la mejorcorrespondencia por ambas dimensiones. En [21]el umbral se define como el 80 % de las mejores

correspondencias, valor tomado para el desarrollode los experimentos de este trabajo.

El proceso de eliminacion de las ambiguedadesdel grafo bipartido parte del calculo de losbloques de orden conservado [21, 18], usandolas posiciones de las secuencias dentro de cadauno de los genomas. Dos pares de genes seconsideran cercanos si las secuencias que loscomponen estan en el mismo cromosoma decada genoma, en la misma hebra y la distanciaintergenica entre las secuencias de cada genomano supera los 20000 pares de bases. Ademas, unpar pertenece a un bloque de orden conservadosi es cercano al menos a un par de los que seencuentran en el bloque. Los bloques de ordenconservado que tengan menos de tres pares degenes, no son tomados en cuenta, para evitarla confusion por el reordenamiento de genesaislados.

Una vez que se calculan todos los bloques deorden conservado se eliminan las ambiguedadesdel grafo bipartido. Para cada gen de ambosgenomas se buscan los bloques de ordenconservado a los cuales el gen es cercano, y seeliminan las aristas que conectan este gen congenes no cercanos a estos bloques [21].

2.3. Agrupamiento y asignacion de genesortologos

Para realizar el agrupamiento sobre el grafobipartido se usa la implementacion del algoritmoMCL [13] disponible en los repositorios deUbuntu (http://packages.ubuntu.com/precise/mcl).El algoritmo MCL agrupa los nodos de un grafomediante simulacion, calculando la probabilidad deque estos pertenezcan al grupo [13]. Se basa enlas matrices de Markov, que aplican el concepto decaminos aleatorios en el grafo. A partir de la matrizde adyacencia del grafo, se aplican operacionesde inflacion y expansion hasta obtener una matrizidempotente.

En cada grupo obtenido por el agrupamientodel MCL se forman los posibles pares de genes,desechando los pares de genes podados antesdel agrupamiento, y de esta forma se obtienenlos grupos de homologıa. Sobre los grupos dehomologıa compuestos por mas de un par de

Susana
Cuadro de texto
24 Reinier Millo Sánchez, Deborah Galpert Canizares, Gladys Casa Cardoso…
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp. 19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

genes se aplica la polıtica de seleccion de genesortologos para determinar los pares que sonortologos o no. La polıtica de asignacion degenes ortologos que se propone se basa enla poda de los pares de genes dentro de losgrupos de homologıa obtenidos por el algoritmo deagrupamiento. Los pares son podados teniendo encuenta la longitud de las secuencias y el grado desimilitud entre las secuencias que lo componen.Pares de secuencias muy cortas pueden serbeneficiados con un alto grado de similitud ypueden ser clasificados como ortologos cuandono lo son. La polıtica de asignacion elimina lospares de secuencias donde una de sus secuenciasno supere el 10 % de la longitud promedio de lassecuencias y los pares cuyo grado de similitud noalcanza el 20 % del mayor grado de similitud delgrupo de homologıa.

2.4. Validacion de los resultados

Una vez obtenido el resultado del algoritmo deagrupamiento es necesario usar una medida devalidacion para determinar cuan semejante es laclasificacion obtenida por el algoritmo respecto ala clasificacion tomada como referencia, en estecaso la obtenida por el algoritmo de INPARANOID7.0 [32] para los genomas del SaccharomycesCerevisiae y del Schizosaccharomyces Pombe. Enla validacion de los resultados de este trabajo,se debe tener en cuenta el desbalance de lasclases debido a que los pares de genes ortologosrepresentan una minorıa entre los pares de genesque se comparan durante la clasificacion. La razonde desbalance para la clasificacion de referenciaes de (3807/29336359).Para realizar esta validacion se emplean lasmedidas de validacion externas: el porciento depares clasificados correctamente y la medida devalidacion del ındice de Rand ajustado (ARI).Tambien se emplean medidas basadas en la teorıade conjuntos aproximados para valorar la calidad yprecision de la clasificacion.

2.4.1. Medidas de validacion externas

Los ındices o medidas de calidad delagrupamiento pueden ser clasificados enexternos, relativos e internos [6]. Los ındices

externos evaluan el desempeno del agrupamiento,al comparar los resultados obtenidos contraclasificaciones de referencia realizadas sobreel mismo conjunto de datos. Un agrupamientoobtenido por un clasificador es mejor en la medidaque este se parece mas a las clasificaciones dereferencia.

Sea U la clasificacion obtenida al aplicar elalgoritmo de deteccion de genes ortologos y V laclasificacion tomada como referencia para validarlos resultados. Se define n11 como la cantidad depares de genes clasificados como ortologos porU y V (verdaderos positivos), n10 la cantidad depares de genes clasificados como ortologos en Upero no en V (falsos negativos), n01 la cantidad depares de genes clasificados como ortologos en Vpero no en U (falsos positivos) y n00 la cantidad depares de genes no clasificados como ortologos nien U ni en V (verdaderos negativos).

Al tratar de seleccionar los ındices a emplear,entre los ındices externos mas usados seencuentran la precision y el cubrimiento “recall”,explicados en [3], siendo la precision el porcentajede predicciones positivas que son correctas y elcubrimiento, el porcentaje de verdaderos positivosque son correctamente detectados, o razon deverdaderos positivos. El cubrimiento es conocidotambien como exactitud de la clase positiva (eneste caso la clase minoritaria o clase de pares degenes ortologos), como sensibilidad “sensitivity”y lo hemos denominado en este trabajo comoporciento de pares clasificados correctamentePC(U ,V ).

Entre los ındices a considerar se encuentratambien la especificidad “especificity” querepresenta la proporcion de verdaderos negativosque son correctamente identificados o exactitud(en este caso la clase mayoritaria o clase depares de genes no ortologos). En la deteccion deortologos, el reconocimiento satisfactorio de lospares de genes ortologos es preferido por lo quela caracterizacion del clasificador debe incluir sucubrimiento.

El autor en [51] se refiere a que tratar de obtenervalores altos para el cubrimiento y la precision, ala misma vez, resulta frecuentemente un objetivocontradictorio por lo que es aconsejable utilizarmedidas como la medida F [48] que se obtiene

Susana
Cuadro de texto
Agregación de medidas de similitud para la detección de ortólogos:…25
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp.19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

calculando la media armonica de la precision y elcubrimiento.

Para medir el compromiso entre la sensibilidady la especificidad (o entre la razon de falsospositivos y falsos negativos) en tablas de decisionde dos clases, considerando el desbalance de lasclases, es posible utilizar medidas como el areaen porciento bajo la curva “Receiver OperatingCharacteristic” (ROC), conocida como (AUC) [27],donde la mayor area se corresponde con la mejordecision. Otra eleccion puede ser la medida Gque relaciona la razon de verdaderos positivoscon la razon de verdaderos negativos [23]. Nose considera elegible la exactitud global “overallaccuracy” debido a que la clase minoritaria tienemenos efecto sobre la exactitud global que laclase mayoritaria [50]. Los experimentos de [50]indicaron que la razon de muestras en cada clasedepende de la medida de evaluacion utilizada, esdecir, que cuando se utiliza la exactitud global,la mejor razon se acerca a la razon natural, sinembargo, cuando se utiliza ROC la mejor razon seacerca a la razon balanceada que es lo deseable.Weiss y Provost mostraron que el uso de laexactitud global produce un pobre desempeno delclasificador para la clase minoritaria.

Por otra parte, en la comparacion de medidaspresentada en [26] los autores plantean que eluso de una sola medida de las mencionadasanteriormente brindarıa una informacion limitadaya que cada una esta disenada para evaluaruna propiedad particular o punto de decision,por tanto, para analizar y comparar algoritmosconsiderando el desbalance de las clases, esnecesario combinar diferentes medidas.

Otros ındices externos que pudieran serutilizados son: el ındice de Rand [38], el ındicede Jaccard [4] y el ındice de Rand ajustado [20]que se obtienen contando los pares de objetos (eneste caso, pares de genes) clasificados de igualforma por ambas clasificaciones y la informacionmutua normalizada basada en la teorıa de lainformacion [15].

La combinacion de ARI con otras medidasaparece como sugerencia en [41]. Para elproblema de dos clases desbalanceadas, como elque nos ocupa, [41] plantea que ARI puede serusado al igual que AUC. ARI analiza cada par de

elementos (en nuestro caso, un elemento es un parde genes) midiendo no solo la correcta separacionde aquellos que pertenecen a diferentes clasessino tambien la relacion entre elementos de lamisma clase.

Finalmente, la eleccion realizada trata deanalizar el comportamiento de la clase minoritariacalculando el porciento de clasificacion correctacomo:

PC(U ,V ) =n11

n11 + n01(10)

Usando la notacion anterior la medida de calidadARI se define como:

ARI(U ,V ) =

n11 −(n11 + n10)× (n11 + n01)

n11 + n01 + n10 + n00(n11+n10) + (n11+n01)

2−

(n11+n10)× (n11+n01)

n11+n01 + n10 + n00(11)

En este trabajo tambien se utiliza una variantede la medida F de [48] basada en la teorıa delos conjuntos aproximados que se explicara en laseccion siguiente.

2.4.2. Medidas de validacion basadas en lateorıa de conjuntos aproximados

En esta seccion se muestra el uso de la teorıa delos conjuntos aproximados RST [35] para validar elagrupamiento. Se define el sistema de informacion[22] (U ,A,Z) donde U = (xi, yj),∀xi ∈ V1,∀yj ∈V2 es el universo de pares de genes formadosa partir de los conjuntos de genes V1 ⊆ G1 yV2 ⊆ G2 no podados del grafo bipartido; A =S(xi, yj) es el conjunto de atributos o rasgosdefinidos como valores de la medida de similitudempleada para ponderar el grafo bipartido y Z losconceptos que se desean evaluar. Los conceptospueden definirse a partir de los grupos resultantesde un proceso de agrupamiento o clases de unproceso de clasificacion. El problema que abarcaeste trabajo es un problema de clasificacion porlo que Z = Z1,Z0, donde Z1 es el concepto de

Susana
Cuadro de texto
26 Reinier Millo Sánchez, Deborah Galpert Canizares, Gladys Casa Cardoso…
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp. 19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

los objetos clasificados como ortologos y Z0 elconcepto de los clasificados como no ortologos.

Cualquier subconjunto Zi del universo U sepuede expresar en terminos de estos bloquesde forma exacta o aproximada. Como se planteaen [3] utilizando la extension de RST queaparece en [43] se puede definir una relacion desimilitud R

B extendida de RB sin que se requierala transitividad, ni la simetrıa, siendo el unicorequerimiento la reflexividad.

Para poder definir la relacion extendida R′

B sedefine una relacion de similitud entre pares deobjetos que pertenecen al universo U a partir de larelacion de similitud entre los pares de genes (9):

Sp((xa, yb), (xc, yd)) =min(S(xa, yb),S(xc, yd))

max(S(xa, yb),S(xc, yd))(12)

A partir de esta relacion de similitud entreobjetos, se define la relacion extendida R

B de unobjeto del universo U como:

R′

B((xa, yb)) =

(xc, yd) :(xa = xc ∨ yb = yd)∧Sp((xa, yb), (xc, yd)) ≥ ξ

(13)

donde ξ es un valor de umbral para la similitudentre los pares de objetos del universo. Este valorde umbral se define como la media de los valoresmaximos de las similitudes entre cualquier par deobjetos de U (14) [42]. En [42, 3] se proponen otrasformas de calcular el valor inicial para el umbral desimilitud entre objetos.

ξ =1

n∑i=1

maxj=1...n,j 6=i

{Sp(Oi,Oj)} (14)

Oi,Oj ∈ U ,n = |U |

En [36] se introduce la aproximacion deun concepto Zi ⊆ U usando la relacionde inseparabilidad extendida R

B mediante losconjuntos llamados aproximacion R-inferior (R

∗)y R-superior (R

′∗). La aproximacion R-inferiorcontiene todos los objetos del concepto que

se relacionan solamente con objetos del propioconcepto (15), mientras que la aproximacionR-superior contiene todos los objetos que serelacionan con objetos del concepto (16), por loque se cumple la relacion (17) [37].

R′

∗(Zi) = {z ∈ Zi : R

B(z) ⊆ Zi} (15)

R′∗(Zi) =

⋃z∈Zi

R′

B(z) (16)

R′

∗(Zi) ⊆ Zi ⊆ R

′∗(Zi) (17)

Usando las aproximaciones R-inferior yR-superior se definen los coeficientes de calidady precision de cada concepto y del agrupamientoo clasificacion en general. La calidad y precisionde cada concepto ofrecen una valoracion local decada grupo o clase obtenida [36] y estan definidospor las expresiones (18) y (19) respectivamente:

α(Zi) =|R′

∗(Zi)|

|R′∗(Zi)|(18)

γ(Zi) =|R′

∗(Zi)|

|Zi|(19)

Si bien las medidas calidad y precision delagrupamiento [3] logran medir globalmente elnivel de inconsistencia, calidad y precision de losconceptos en un sistema de informacion dado,consideran que cada grupo tiene igual repercusionen la evaluacion. Sin embargo, no todos losgrupos deben tener igual influencia al evaluar elagrupamiento. En el caso del problema que seestudia en este trabajo se desea una ponderacionde los mismos para considerar el desbalance delas clases en el conjunto de datos. Para ponderarcada uno de los conceptos o clases se empleala expresion (20). En [3] se definen otras formasde calcular los pesos de cada concepto, basadasen la pertenencia aproximada de un objeto a unconcepto.

w(Zi) =|U | − |Zi||U |

(20)

Empleando la funcion (20) para asignar unpeso a cada concepto, se definen las medidas

Susana
Cuadro de texto
Agregación de medidas de similitud para la detección de ortólogos:…27
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp.19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

de calidad y precision del agrupamiento por lasexpresiones (21) y (22) respectivamente:

ΓG =

∑1i=0(|R′

∗(Zi)| × w(Zi))

|U |(21)

AG =

∑1i=0(|R′

∗(Zi)| × w(Zi))∑1

i=0(|R′∗(Zi)| × w(Zi))(22)

En [3] se introduce una nueva medida basadaen la medida F , nombrada “Rough F-Measure”(RFM). Esta medida calcula la media armonica dela precision y calidad ponderadas y esta dada porla expresion:

RFM =1

φ× (1/ΓG) + (1− φ)× (1/AG)(23)

donde φ ∈ [0, 1] es un valor empleado paraponderar mas la precision o calidad segun elproblema en el cual se aplique la medida. En elproblema que se analiza en este trabajo se deseaponderar mas la precision de la clasificacion, porlo que se tomo φ = 0.2 para la validacion de losresultados.

3. Experimentos y resultados

Para la validacion del algoritmo propuesto eneste trabajo, usando los datos del SaccharomycesCerevisiae y Schizosaccharomyces Pombe, sedisenaron cuatro modelos de alineamiento. Losmodelos de alineamiento se diferencian en losparametros empleados para el calculo de losalineamientos locales y globales. En la tabla 1 semuestran los valores de matrices de sustitucion ypenalizacion de “gaps” empleados para el calculode los alineamientos.

Tabla 1. Modelos de alineamiento para la ejecucion delalgoritmo

Matriz de Apertura Extensionsustitucion de “gap” de “gap”blosum50 15 8blosum62 8 7blosum63 12 6pam250 10 8

Para el calculo de la medida de similitud basadaen el perfil fısico-quımico de las proteınas, nose dispone de un valor optimo o recomendadopara el tamano de ventana. El tamano de ventanapermite controlar los datos que tendran una mayorinfluencia en la prediccion. Un alto valor deltamano de ventana produce que la medida se veainfluenciada por la informacion de aminoacidosmas lejanos dentro de la secuencia, mientras queusando un valor pequeno la prediccion se veinfluenciada por la informacion de aminoacidosmas cercanos dentro de la secuencia [1]. Por estemotivo se calculo la medida de similitud para lostamanos de ventana 3, 5 y 7. Para determinar cualde estos valores resulta mas significativo en laclasificacion de genes ortologos, se realizaron dosexperimentos de verificacion para cada tamano deventana.

En el primer experimento se aplico el algoritmode agrupamiento MCL sobre la medida de similitudbasada en el perfil fısico-quımico de las proteınas,para los diferentes tamanos de ventana, y cadauno de los modelos. En la figura 2 se muestranlos valores obtenidos de la medida de calidadARI y en la figura 3 los valores obtenidos dela medida RFM, al aplicar el algoritmo sobre lamedida de similitud basada en la informacion delperfil fısico-quımico. Como se puede observar losmejores valores de ARI se obtienen cuando seemplea el tamano de ventana 3 en todos losmodelos de alineamiento, notandose la diferenciade valores respecto a los tamanos de ventana 5 y7. Por otra parte la medida RFM produce mejoresresultados para el tamano de ventana 5, pero convalores relativamente semejantes al tamano deventana 3, excepto en el modelo de alineamientoempleando la matriz de sustitucion pam250.

En el segundo experimento para la selecciondel tamano de ventana del perfil se aplico elalgoritmo de agrupamiento MCL sobre la medidade similitud conformada a partir de la combinacionde la medida de similitud basada en la informaciondel perfil fısico-quımico para cada tamano deventana y la medida de similitud basada en elalineamiento de las secuencias. El grafo bipartidose construyo a partir de la aplicacion de loscriterios de poda definidos en el trabajo.

Susana
Cuadro de texto
28 Reinier Millo Sánchez, Deborah Galpert Canizares, Gladys Casa Cardoso…
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp. 19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

Fig. 2. Validacion del primer experimento para laseleccion del tamano de ventana usando la medida ARI

En la figura 4 se muestran los valores de lamedida de calidad ARI y en la figura 5 los valoresde la medida RFM, obtenidos de los resultados delsegundo experimento para la seleccion del tamanode ventana. Al igual que en el experimento anterior,los mejores resultados del ARI se obtienen para eltamano de ventana 3, manteniendose una notadadiferencia respecto a los tamanos de ventana 5 y7. Lo mismo sucede con la medida RFM, dondelos mejores valores se obtienen para el tamano deventana 5, con valores relativamente cercanos alos obtenidos para tamanos de ventana 3 y 7.

Basados en los resultados obtenidos de los dosexperimentos analizados, se decidio emplear eltamano de ventana 3 para el calculo de la medidade similitud basada en el perfil fısico-quımicode las proteınas, porque al ser validados conlos resultados de la clasificacion tomada comoreferencia se producen resultados con diferenciassignificativas respecto a los obtenidos paratamanos de ventana 5 y 7, lo cual se reflejaen la medida ARI, y las diferencias respecto alos resultados obtenidos por la medida RFM nosupera el 0.01 en el peor de los casos, lo cualconsideramos poco significativo.

Para validar el algoritmo propuesto se realizarondiferentes experimentos, variando la combinacionde las medidas de similitud empleadas para la

Fig. 3. Validacion del primer experimento para laseleccion del tamano de ventana usando la medida RFM

Fig. 4. Validacion del segundo experimento para laseleccion del tamano de ventana usando la medida ARI

construccion del grafo bipartido. Se realizaronocho experimentos para cada uno de los modelosde alineamiento definidos. En la tabla 2 se muestrala relacion de las medidas de similitud empleadasen cada uno de los experimentos.

En la figura 6 se muestra el porciento declasificacion correcta de pares de genes ortologos,en la figura 7 la medida de validacion externa ARIy en la figura 8 la medida RFM, valores obtenidos

Susana
Cuadro de texto
Agregación de medidas de similitud para la detección de ortólogos:…29
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp.19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

Fig. 5. Validacion del segundo experimento para laseleccion del tamano de ventana usando la medida RFM

Tabla 2. Diseno de experimentos para la validacion delalgoritmo

Experimento S1 S2 S3 S4

Exp1 XExp2 X XExp3 X XExp4 X XExp5 X X XExp6 X X XExp7 X X X XExp8 X X X

a partir del analisis de la clasificacion obtenidaen cada uno de los experimentos para los cuatromodelos de alineamiento definidos.

Como se puede observar en la figura 6 losmejores resultados de clasificacion se obtienen enlos experimentos 1 y 2, siendo estos los unicosexperimentos que superan el 94 % de clasificacioncorrecta. En el experimento 1 solo se emplea lamedida de similitud basada en alineamiento desecuencias, mientras que en el experimento 2se combina esta medida con la medida basadaen la informacion del perfil fısico-quımico de lasproteınas.

Al analizar el comportamiento de la medidade validacion externa ARI en la figura 7, elexperimento 1 obtiene mejores resultados

Fig. 6. Validacion de los experimentos usando elporciento de clasificacion correcta

Fig. 7. Validacion de los experimentos usando la medidaARI

respecto al experimento 2. Esta diferenciasignificativa del ARI esta dada por la diferencia depares de genes clasificados como ortologos deforma incorrecta en el experimento 2, alcanzandolos 1264 pares de genes en el peor de los casos,lo cual resulta poco significativo respecto a ladimension del problema.

Analizando los resultados de la medida RFMfigura 8 se puede ver que los mejores resultadosse obtienen en los experimentos 2, 5, 6, 7,siendo estos los experimentos donde se emplea lamedida de similitud basada en la informacion delperfil fısico-quımico. Esto nos permite afirmar quela medida de similitud basada en la informacion

Susana
Cuadro de texto
30 Reinier Millo Sánchez, Deborah Galpert Canizares, Gladys Casa Cardoso…
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp. 19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

Fig. 8. Validacion de los experimentos usando la medidaRFM

del perfil fısico-quımico de las proteınas brindainformacion relevante para la clasificacion degenes ortologos, aunque se hace necesariocontinuar el estudio para la seleccion optima deltamano de ventana.

4. Conclusiones

Los experimentos realizados con la medida desimilitud basada en el perfil fısico-quımico de lasproteınas para diferentes tamanos de ventanaevidencian como influye este parametro en losresultados, siendo el tamano de ventana 3 el queproduce mejores resultados de clasificacion.

Los resultados obtenidos de la clasificacionfueron validados con la clasificacionobtenida por INPARANOID 7.0 para losgenomas del Saccharomyces Cerevisiae ySchizosaccharomyces Pombe. Los mejoresresultados se obtienen cuando se empleala medida de similitud del alineamiento desecuencias y cuando se combina esta con lamedida del perfil fısico-quımico para tamanode ventana 3. Se logra obtener un 95.35 % declasificacion correcta de pares de ortologosusando la medida del alineamiento de secuenciasy un 94.56 % combinando el alineamiento desecuencias con la medida del perfil fısico-quımicopara tamano de ventana 3.

El empleo de medidas de validacion basadas enla teorıa de conjuntos aproximados nos permiteafirmar que la medida de similitud del perfilfısico-quımico de las proteınas combinada conla informacion del alineamiento de secuenciasconforma una medida de similitud que tienegran influencia en el proceso de clasificacionde genes ortologos. El calculo de esta medidaempleando pesos diferentes para cada clasepermite tener en cuenta el desbalance que existeentre las clases de la clasificacion tomada comoreferencia, teniendo una mayor importancia laclase minoritaria o clase de pares de genesortologos.

Para trabajos futuros se utilizaran tecnicas paramejorar el desempeno de la clasificacion y serealizara un tratamiento estadıstico mas rigurosode la comparacion entre clasificadores, midiendola correlacion entre los resultados que se obtengancon diferentes medidas de validacion.

Referencias

1. Achelis, S. B. (1995). Technical Analysis from A toZ. McGraw-Hill.

2. Altschul, S. F., Gish, W., Miller, W., Myers, W., &Lipman, D. J. (1990). Basic local alignment searchtool. Journal Molecular Biology, 215, 403–410.

3. Arco, L. (2008). Agrupamiento basado enla intermediacion diferencial y su valorizacionutilizando la teorıa de los conjuntos aproximados.Tesis de doctorado, Universidad Central ”MartaAbreu”de Las Villas, Santa Clara.

4. Ben-Hur, A., Elisseeff, A., & Guyon, I. (2002).A stability based method for discovering structurein clustered data. In Pacific Symposium onBiocomputing. 6–17.

5. Bondy, J. A. & Murty, U. S. R. (1976). GraphTheory with Applications. North-Holland.

6. Brun, M., Sima, C., Hua, J., Lowey, J., Carroll, B.,Suh, E., & Dougherty, E. R. (2007). Model-basedevaluation of clustering validation measures. PatternRecognition, 40, 807–824.

7. Carpio-Munoz, C. A. D. & Carbajal, J. C. (2002).Folding pattern recognition in proteins using spectralanalysis methods. Genome Informatics, 13,163–172.

Susana
Cuadro de texto
Agregación de medidas de similitud para la detección de ortólogos:…31
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp.19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

8. Chen, X., Zheng, J., Fu, Z., Nan, P., Zhong,Y., Lonardi, S., & Jiang, T. (2005). Assignmentof orthologous genes via genome rearrangement.IEEE-ACM transactions on computational biologyand bioinformatics, 2(4), 302–315.

9. Darling, A. C., Mau, B., & Blattner, F. R. (2004).Mauve: Multiple alignment of conserved genomicsequence with rearrangements. Genome Research,14(7), 1394–1403.

10. Darling, A. E., Mau, B., & Perna, N. T. (2010).progressivemauve: Multiple genome alignment withgene gain, loss and rearrangement. PLOS One,5(6).

11. Deza, E. & Deza, M. (2006). Dictionary ofDistances. Elsevier.

12. Diestel, R. (2000). Graph Teory. Springer.

13. Dongen, S. M. v. (2000). Graph Clustering by FlowSimulation. Phd thesis, Faculty Letteren, UniversityUtrecht, Amsterdam.

14. Duch, W. (2000). Similarity-based methods: ageneral framework for classification, approximationand association. Control and Cybernetics, 29(4),1–30.

15. Fred, A. L. & Jain, A. K. (2003). Robust dataclustering. In IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition,volume 3. 128–136.

16. Fu, Z., Chen, X., Vacic, V., Nan, P., Zhong, Y.,& Jiang, T. (2007). Msoar: A high-throughputortholog assignment system based on genomerearrangement. Journal of Computational Biology,14, 16.

17. Galpert, D. (2012). A local-global gene comparisonfor ortholog detection in two closely relatedeukaryotes species. Investigacion de Operaciones,33(2), 130–140.

18. Goodstadt, L. & Ponting, C. P. (2006).Phylogenetic reconstruction of orthology, paralogy,and conserved synteny for dog and human. PLOSComputational Biology, 2(9).

19. Hagelsieb, G. M. & Latimer, K. (2008). Blastoptions for better detection of orthologs asreciprocal best hits. Bioinformatics, 24, 319–324.

20. Hubert, L. & Arabie, P. (1985). Comparingpartitions. Journal of Classification, 193–218.

21. Kamvysselis, M. (2003). Computationalcomparative genomics genes, regulation, evolution.Phd thesis, Massachusetts Institute of Technology.

22. Komorowski, J., Pawlak, Z., & Polkowski, L.(1999). Rough sets: a tutorial, in rough-fuzzyhybridization: A new trend in decision making.Springer-Verlang, Singapore.

23. Kubat, M. & Matwin, S. (1997). Addressingthe curse of imbalanced data sets: One-sidedsampling. In 14th International Conference onMachine Learning. 179–186.

24. Lee, Y., Sultana, R., Pertea, G., & Cho, J.(2002). Cross-referencing eukaryotic genomes:Tigr orthologous gene alignments (toga). GenomeResearch, 12(3), 493–502.

25. Li, L., Stoeckert, C. J., & Roos, D. S. (2003).Orthomcl: Identification of ortholog groups foreukaryotic genomes. Genome Research, 13,2178–2189.

26. Liu, Y. & Shriberg, E. (2007). Comparing evaluationmetrics for sentence boundary detection. In IEEEInternational Conference on Acoustics, Speech andSignal Processing. 185–188.

27. Metz, C. (1978). Basic principles of roc analysis.Seminars in Nuclear Medicine, 8(4), 283–298.

28. Miyazawa, S. & Jernigan, R. L. (1985). Estimationof effedtive inter-residue contact energiesfrom protein crystal structures quasi-chemicalapproximation. Macromolecules, 18, 534–552.

29. Mount, D. W. (2004). Bioinformatics Sequence andGenome Analysis. Cold Spring Harbor LaboratoryPress.

30. Needleman, S. B. & Wunsch, C. D. (1970).A general method applicable to the search forsimilarities in the amino acid sequence of twoproteins. Journal Molecular Biology, 48(3).

31. O’Brien, K. P., Remm, M., & Sonnhammer., E. L.(2005). Inparanoid: a comprehensive database ofeukaryotic orthologs. Nucleic Acids Research, 33,D476–D480.

32. Ostlund, G., Schmitt, T., Forslund, K., & Kostler,T. (2010). Inparanoid 7: new algorithm and toolsfor eukaryotic orthology analysis. Nucleic AcidsResearch, 38(Database issue), D196–D203.

33. Overbeek, R., Fonstein, M., D’Souza, M., Pusch,G. D., & Maltsev, N. (1999). The use of geneclusters to infer functional coupling. In Proceedingsof the National Academy of Sciences of the UnitedStates of America, volume 96. 2896–2901.

34. Pal, A. D., Dovier, A., & Fogolari, F. (2003).Protein folding in clp(fd) with empirical contactenergies. In Joint Annual Workshop of the ERCIM

Susana
Cuadro de texto
32 Reinier Millo Sánchez, Deborah Galpert Canizares, Gladys Casa Cardoso…
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp. 19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

Working Group on Constraints and the CoLogNETarea on Constraints and Logic Programming, InRecent Advances in Constraints. Springer Verlang,Budapest, Hungary, 250–265.

35. Pawlak, Z. (1982). Rough sets. InternationalJournal of Computer and Information Sciences,11(5), 341–356.

36. Pawlak, Z. (1991). Rough sets: Theoretical aspectsof reasoning about data.

37. Pawlak, Z. (1995). Vagueness and uncertainty: arough set perspective. Computational Intelligence:an International Journal, 11, 227–232.

38. Rand, W. (1971). Objective criteria for the evaluationof clustering methods. American StatisticalAssociation, 66(336), 846–850.

39. Rasmussen, M. & Kellis, M. (2005). Multi-bus:An algorithm for resolving multi-species genecorrespondence and gene family relationships.CSAIL Research.

40. Remm, M., Storm, C. E. V., & Sonnhammer, E.L. L. (2001). Automatic clustering of orthologsand in-paralogs from pairwise species comparisons.Journal Molecular Biology, 314, 1041–1052.

41. Santos, J. M. & Embrechts, M. (2009). On the useof the adjusted rand index as a metric for evaluatingsupervised classification. In ICANN’09 Proceedingsof the 19th International Conference on ArtificialNeural Networks: Part II.

42. Shulcloper, J. R., Guzman-Arenas, A., &Martınez-Trinidad, J. F. (1995). Enfoque logicocombinatorio al reconocimiento de patrones:Seleccion de variables y clasificacion supervisada.Instituto Politecnico Nacional.

43. Slowinski, R. & Vanderpooten, D. (1997).Similarity relation as a basis for roughapproximations. In Wang, P., editor, Advancesin Machine Intelligence & Soft-Computing. 17–33.

44. Smith, T. F. & Waterman, M. S. (1981).Identification of common molecular sequences.Journal Molecular Biology, 147, 195–197.

45. Tatusov, R. L. (2003). The cog database:an updated version includes eukaryotes. BMCBioinformatics, 4(41).

46. Tatusov, R. L., Koonin, E. V., & Lipman, D. J.(1997). A genomic perspective on protein families.Science, 278(5338).

47. Towfic, F., Greenlee, M. H. W., & Honavar,V. (2009). Detection of gene orthology based

on protein-protein interaction networks. In IEEEInternational Conference on Bioinformatics andBiomedicine. Washington DC, USA, 48–53.

48. van Rijsbergen, C. J. (1979). Information retrieval.Butterworths, 2nd edition edition.

49. Webber, C. A. P. & Chris, P. (2004). Genes andhomology. Current Biology, 14(R332).

50. Weiss, G. M. & Provost, F. (2003). Learning whentrining data are costly: The effect of class distributionon tree induction. Journal Artificial IntelligenceResearch, 19, 315–354.

51. Yoon, K. & Kwek, S. (2005). An unsupervisedlearning approach to resolving the data imbalancedissue in suppervised learning problems in functionalgenomics. In Proceedings of the Fifth InternationalConference on Hybrid Intelligent Systems. 303–308.

Reinier Millo Sanchezrecibio la Licenciatura enCiencia de la Computacionen la Universidad Central“Marta Abreu”de Las Villas(UCLV), Santa Clara,Cuba, en el 2012. Esprofesor de la Facultad de

Matematica-Fısica-Computacion en la UCLV.Actualmente trabaja en el centro de produccion dela XETID-UCLV del Centro de Estudio Informaticosde la UCLV. Sus intereses de investigacionincluyen desarrollo de microkernel, sistemasoperativos, emuladores de hardware, testeoautomatico, bioinformatica, reconocimiento depatrones.

Susana
Cuadro de texto
Agregación de medidas de similitud para la detección de ortólogos:…33
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp.19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

Deborah Galpert Canizaresrecibio la Licenciatura enCibernetica Matematicaen la Universidad Central“Marta Abreu”de Las Villas(UCLV), Santa Clara, Cuba,en 1992. Obtuvo su tıtulode master en Computacion

Aplicada en la UCLV en 1997 con estudiosde simulacion aplicados a la planificacion detransporte. Es profesora auxiliar del Departamentode Computacion de la UCLV. Actualmenteesta optando por el tıtulo de Doctora enCiencias Tecnicas en la UCLV. Sus intereses deinvestigacion incluyen aprendizaje automatizado,bioinformatica y clasificacion de genes ortologos.

Gladys Casa Cardosorecibio la Licenciatura enCibernetica Matematica en laUniversidad Central “MartaAbreu”de Las Villas (UCLV),Santa Clara, Cuba, en 1994.Obtuvo su tıtulo de master enMatematica en la UCLV en 1998

y el tıtulo de Doctora en Ciencias Tecnicas en el2004. Es profesora titular del Departamento deComputacion de la UCLV. Es jefa del Laboratoriode Bioinformatica. Tiene numerosas publicacionesy participaciones en congresos internacionales,ası como diversos registros de software. Susintereses de investigacion incluyen bioinformaticay estadıstica computacional.

Ricardo Grau Abalo recibio laLicenciatura en Matematica enla Universidad Central “MartaAbreu”de Las Villas (UCLV),Santa Clara, Cuba, en 1971y su doctorado en CienciasMatematicas en la UCLV en1987. Es profesor titular del

Departamento de Computacion de la UCLV yprofesor de merito de la UCLV. Tiene numerosaspublicaciones y participaciones en congresosinternacionales, ası como diversos registrosde software. Sus intereses de investigacionincluyen la modelacion matematica de epidemias,modelacion algebraica del codigo genetico yaplicaciones con estadıstica e inteligencia artificialen bioinformatica.

Leticia Arco Garcıa recibio laLicenciatura en Ciencia de laComputacion en la UniversidadCentral “Marta Abreu”deLas Villas (UCLV), SantaClara, Cuba, en el 2001 y sudoctorado en Ciencias Tecnicasen la UCLV en el 2009. Es

profesora a tiempo completo en el Laboratoriode Inteligencia Artificial del Centro de Estudiosde Informatica, UCLV. Actualmente atiende lainvestigacion y la formacion de postgrado en laFacultad de Matematica-Fısica-Computacion. Harecibido numerosos premios de prestigio de laAcademia de Ciencias de Cuba. Sus interesesde investigacion incluyen agrupamiento, teorıa deconjuntos aproximados, minerıa de texto y minerıade opiniones.

Susana
Cuadro de texto
34 Reinier Millo Sánchez, Deborah Galpert Canizares, Gladys Casa Cardoso…
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp. 19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016

Maria Matilde Garcıa Lorenzorecibio la Licenciatura enMatematica Cibernetica en laUniversidad Central “MartaAbreu”de Las Villas (UCLV),Santa Clara, Cuba, en 1985y su doctorado en CienciasTecnicas en la UCLV en 1997.

Es profesora a tiempo completo en el Laboratoriode Inteligencia Artificial del Centro de Estudiosde Informatica, UCLV, donde tambien es laCoordinadora General del Programa de Maestrıaen Ciencia de la Computacion. Es autora de 6libros, y ha publicado mas de 150 artıculos enmemorias de congresos y revistas cientıficas;ha supervisado varias tesis de grado, maestrıay doctorado. Ha recibido numerosos premios deprestigio de la Academia de Ciencias de Cubay otras sociedades cientıficas de reconocidoprestigio. Sus intereses de investigacion incluyenredes neuronales, soft computing, aprendizajeautomatico y reconocimiento de patrones.

Miguel Angel FernandezMarin recibio el tıtulode Ingeniero en CienciasInformaticas en la Universidadde las Ciencias Informaticas(UCI), Cuba, en el 2008.Obtuvo su tıtulo de masteren Bioinformatica y Biologıa

Computacional en la Universidad Central “MartaAbreu”de Las Villas (UCLV) en el ano 2012.Es profesor asistente de la UCI. Actualmenteesta optando por el tıtulo de Doctor en CienciasTecnicas. Sus intereses de investigacion incluyenaprendizaje automatizado, bioinformatica yclasificacion de genes ortologos.

Artıculo recibido 24/04/2013, aceptado 22/06/2013.

Susana
Cuadro de texto
Agregación de medidas de similitud para la detección de ortólogos:…35
Susana
Cuadro de texto
Computación y Sistemas Vol. 18 No. 1, 2014 pp.19-35 ISSN 1405-5546 http://dx.doi.org/10.13053/CyS-18-1-2014-016