Redalyc.Algunas aplicaciones de la estructura booleana del ...

11
Revista Cubana de Ciencias Informáticas ISSN: 1994-1536 [email protected] Universidad de las Ciencias Informáticas Cuba Grau, R.; Galpert, Deborah; Chavez, Maria del C.; Sanchez, R.; Casas, Gladys; Morgado, E. Algunas aplicaciones de la estructura booleana del código genético Revista Cubana de Ciencias Informáticas, vol. 1, núm. 1, 2006, pp. 94-103 Universidad de las Ciencias Informáticas Ciudad de la Habana, Cuba Disponible en: http://www.redalyc.org/articulo.oa?id=378343631008 Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org Sistema de Información Científica Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

Transcript of Redalyc.Algunas aplicaciones de la estructura booleana del ...

Page 1: Redalyc.Algunas aplicaciones de la estructura booleana del ...

Revista Cubana de Ciencias Informáticas

ISSN: 1994-1536

[email protected]

Universidad de las Ciencias Informáticas

Cuba

Grau, R.; Galpert, Deborah; Chavez, Maria del C.; Sanchez, R.; Casas, Gladys; Morgado,

E.

Algunas aplicaciones de la estructura booleana del código genético

Revista Cubana de Ciencias Informáticas, vol. 1, núm. 1, 2006, pp. 94-103

Universidad de las Ciencias Informáticas

Ciudad de la Habana, Cuba

Disponible en: http://www.redalyc.org/articulo.oa?id=378343631008

Cómo citar el artículo

Número completo

Más información del artículo

Página de la revista en redalyc.org

Sistema de Información Científica

Red de Revistas Científicas de América Latina, el Caribe, España y Portugal

Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

Page 2: Redalyc.Algunas aplicaciones de la estructura booleana del ...

" ~

Alguas aplicaciones de la estructura booleana del c6digogenetlcoSome applications of the Boolean structure of the Genetic Code

R. Grau, Deborah Galpert, Maria del C. Chavez, /R. Sanchez,Gladys Casas, E. MorgadoUniversidad Central "Marta Abreu" de Las Villas (UCLV).

/ Instituto Nacional de Investigaciones en Viandas Tropicales (INlVlT).{rgrau, deborah, mchavez, robersy, gladita, morgado}@uclv.edu.cu

Page 3: Redalyc.Algunas aplicaciones de la estructura booleana del ...

Las estructuras booleanas del c6digo genico constituyenmode|Os matematicos mfnimos y muy simplificados que nosayudan a comprender mejor la Iogica subyacente del c6digogenetico. Mas especfficamente, estas estructuras reflejanuna fuerte conexi6n entre los 6rdenes del c6digo genetico ylas propiedades ffsico-quimicas de los aminoacidos. En esteartfculo presentamos dos aplicaciones de esta estructuraalgebra|ca en problemas tfpicos de Bioinformica. Elprimer problema trata de la clasificaci6n de las mutacionesde una protefna dada. El siguiente es un caso particular delproblema de prediccion de estructura secundaria. Usamosademas tecnicas estadfsticas y de inteligencia artificial en lasoluci6n de ellos.

Palabras clave: C6digo genico, algebra de Boole,propiedades de aminoacidos, redes bayesianas, informaci6n

. Absact

!

simplified minimal mathematical models that help us tocomprehend better the logic underlying the genetic code.

Specifically, these structures reflect a strong connectionbetween genetic code orders and the physical-chemicalproperties of amino acids. In this paper we present twoapplications of this algebraic structure in bioinformaticsproblems. The first problem deals with the classificationof mutations in a protein. The other one is a particularprediction problem of secondary structures of proteins.Statistical and artificial Intelligence techniques are also usedto solve the problems.

Keywords: Genetic code, Boolean algebra, aminoacid properties, bayesian networks, mutual information,

...:mutationclassification, secoary structure

los genes encontrados en todas las especies vivas. Somostestigos, por ejemplo de la gran variabilidad geneticamostrada por los virus y microorganismos pat6genos. Lasestrategias evolutivas de estos los hacen capaces deevadir la acci6n de los frmacos utilizados por el hombre,por lo cual, constituye hoy dfa un reto para las cienciasbiologicas. Muchos han sido los intentos para obteneruna descripci6n matemica formal que expliquesatisfactoriamente este proceso, pero a0n no ha sido

Page 4: Redalyc.Algunas aplicaciones de la estructura booleana del ...

biol6gica. Para muchos investigadores, la clave para analizar este proceso parte de laestructura y organizaci6n del c6digo genetico. El Grupo de Bioinformatica de la UCLV hapropuesto y publicado varias de estas posibles formalizaciones en terminos de estructurasalgebraicas de dicho c6digo, entre el/as Una estructura de Algebra de Boole que pretendeser mas cercana a las propiedades ffsico-qufmicas y biol6gicas de los aminoacidos queconforman las protefnas. En el presente trabajo se muestran dos aplicaciones de dichaestructura.

El c6digo genetico es el sistema bioqufmico que permite establecer las reg/as a traves delas cuales la secuencia de nucle6tidos de un gen es transcripta en la secuencia de codonesdel ARN mensajero y luego traducida en la secuencia de aminoacidos de la protefnacorrespondiente. El conjunto de codones es Una extensi6n del alfabeto de cuatro letrasde la molecula de ADN. Estas letras son las moleculas basicas del ADN: Adenina, Guanina,Citosina y Tiamina, usualmente denotadas por A, G, C y T (en el ARNm, T se cambia por U,Uracilo). Elias se parean en la doble helice del ADN de acuerdo con los puentes de hidr6geno:G con C (tres puentes) y A con T (dos puentes). La organizaci6n no-aleatoria del c6digogenetico ha sido subrayada ya por trabajos anteriores y se han propuesto hip6tesis paraexplicar el orden observado (Crick I 968; Alf-Steinberger 1 969; Swanson 1984; Freeland yHurst 1998), pero el origen de este orden permanece siendo un enigma.

Han existido varios intentos para introducir una caracterizaci6n formal (incluso algebraicadel c6digo genet|Co (Bertman y Jungck 1979; Siemion et a/ 1995; Jimenez-Montano 1996;Bashford, Tsohantjis y Jarvis 1998; Jimenez-Montano 1999; Bashford y Jarvis 2000; Karasevand Stefanov 2001, Balakrishhnan 2002). Las caracterizaciones mas relevantes y cercanasa nuestro modelo involucran la representaci6n binaria de las cuatro bases nucle6tidas.Han sido propuestos varios de estos mode/Os con una representaci6n binaria diferente,Incluso, en la misma revista en que fueron publicados por primera vez los resultados dela UCLV (Sanchez, Morgado y Grau 2004a), se publican tambien otros resultados basadosen una representaci6n binaria de las cuatro bases, siguiendo un orden diferente (Bouton,De Oliveira, Campello de Souza, Santos Magalhaes et a/ 2004). Sin embargo, el orden delc6digo o del retfculo correspondiente, no tuvo hasta ahora una interpretaci6n ffsico-qufmicaconsecuente, o la codificaci6n se limit6 a los aspectos formales y no se aprovecharon lasoperaciones booleanas para producir resultados con una interpretaci6n ffsico-qufmica obiol6gica Clara. El objetivo del presente trabajo es describir dos aplicaciones de la nuevaestructura booleana propuesta, una aI estilo clsico como sistema de codificaci6n y otradonde se hace uso de las consecuencias algebraicas de dicha estructura y para asf profundizaren la correspondencia entre las consideraciones algebraicas y los datos experimentales.

Sanchez et al (2004a, 2004b y 20056) describieron en detalle el mo-delo te6rico de Algebra de Boole propuesto por la UCLV para el c6digo genetico y Susimplicaciones. Primeramente se dot6 aI conjunto de las 4 bases {U,C,G,A} de un ordeny Una estructura booleana y luego se extendi6 al conjunto de trip/etas (codones) delc6digo. Se parte de que en cualquier aIgebra booleana (B(X), v , ^) , construida a partirde un conjunto X, dados 2 elementos a, b e X se tiene asb, si y solo si -avb=1 (1 es elelemento max|mo del aIgebra). Ademas, si asb o a->b se dice que los elementos a y b son

Page 5: Redalyc.Algunas aplicaciones de la estructura booleana del ...

comparables. Dos elementos a, b e X, se dicen complementarios si y solo si a b=1 y a b=o(0 es el elemento mfnimo del aIgebra). Es conocido adem que, en cualquier retfculobooleano con 4 elementos todos los elementos son comparables, excepto 2 de ellos, queson complementarios. Nuestro retfculo booleano de las 4 bases nucle6tidas X={U, C, G,A} se construye asumiendo que las bases complementarias en el retfculo son tambiencomplementarias (apareadas) en la molecula del ADN. Este retfculo de 4 bases debe tenerun maximo, un mfnimo y 2 elementos no comparables, Se asume que el elemento maximoen el c6digo genetico de 64 codones debe ser la trip|eta del elemento maximo del reticulode 4 bases y por tanto UUU, CCC, GGG o AAA. Para obtener un retfculo booleano consignificaci6n biol6gica se tuvieron en cuenta las propiedades ffsico-qufmicas de estoscodones y Sus aminoacidos respectivos, en particular:

1 Ambos codones, GGG y CCC tienen el mismo numero maximo de puentes dehidr6geno~ Esta propiedad debfa estar reflejada en el retfculo de manera que GGGsea complementario a CCC. Ademas, ambos codifican para cadenas aminoacidospequenas con poca diferencia en la polaridad: Glicina y Prolina. Esta propiedad desimillaridad determin6 que estos elementos debfan ser comparables.

2. Los codones UUU y AAA tienen el mismo numero mfnimo de puentes de hidr6genosentre ellos, y por tanto, el elemento complementario de UUU en el retfculo debfa serAAA. Pero estas trip|etas codifican respectivamente para cadenas aminoacidos conpolaridades opuestas extremas (Leucina y Lisina). Consecuentemente esta propiedadopuesta determin6 que estos elementos no fueran comparables.

Asf, existen solamente dos posibilidades para el retfculo de cuatro letras. De inciso I resultaque el mfnimo elemento tiene que ser C y el maximo G (o a la inversa) y de 2) resultaque U y A no deben ser comparables, y en particular no pueden ser mfnimo o maximo siqueremos tal significado biol6gico. Por tanto, en la tercera potencia se obtienen 2 retfculos(aIgebras) posibles, Ilamados convencionalmente primal y dual: (B(X),v , /\ ) (primal)y (B'(X), ̂ , v) (dual) . Los diagramas de Hasse de los retfculos de cuatro bases y de los de64 codones son mostrados en los artfculos (Sanchez, Morgado y Grau, 2004a, 2004b y2005a).

En estos mismos artfculos se hacen evidentes los isomorfismos de los retfculos de las 4bases con los reticulos booleanos ((22 )2 , v,^) y ((Z2)2,^,V), donde Z2={O,1}, Entonces es po-sible representar el retfculo primal por la correspondencia: G00; A01, U I 0; C11 ypara el retfculo dual usar: C00; U01; A I 0; G11 Ya que las algebras de Boole delc6digo genico son obtenidas como la tercera potencia directa de las aIgebras de Boolede las cuatro bases, explicitamente: C(X)=B(X)xB(X)xB(X), estas aIgebras son isomorfas a((Z2)6 ,V, A) y ((Z2)6,A ,V), jsomorfismo inducido por el isomorfismo basico Y; B(X)(Z2)2 EIIoperfnite realizar operaciones l6gicas entre nucle6tidos y codones, termino a termino, y queestarl implementadas en packages originales del software Mathematica, para el estudiode deducciones, que como ha sido probado, y comentaremos despues, estan fntimamenteasociadas a las mutaciones (Sanchez et a/ 2004a).

En el diagrama de Hasse de ambas algebras del c6digo genico se reflejan lasconexiones entre las propiedades algebraicas y las propiedades ffsico-quimicas de losaminoidos (Sanchez et a/ 2004a). Por ejemplo, la imagen (por la negaci6n booleana)de un cod6n que codifica para un aminoacido hidrof6bico es siempre la de un cod6n

Page 6: Redalyc.Algunas aplicaciones de la estructura booleana del ...

que codifica para un aminoacido hidrofflico. En el diagrama de Hasse se puede vertambien que los codones que codifican para aminoacidos con diferencias hidrofobicasextremas se encuentran en cadenas de longitud maxima diferentes. Como resultado,no es posible deducir un cod6n 5'X1AX33 que codifica para un aminoacido hidrofflicode un codon 5'XIUX'3 3 que codifica para un aminoido hidrofobico y viceversa.

Sanchez et a/ (20048 y 2004b) consideran la funci6n de distancia de Hamming entrecodones vistos como sextetos binarios, como el numero de dfgitos diferentes entre ellos~Por ejemplo: d(CGU, AUC) = d(110010, 011011) = 3. Ademas, calculan la distancia deHamming entre aminoacidos como la distancia media entre los codones que codificanpara ellos. Muestran c6mo la distancia de Hamming entre 2 codones en el diagrama deHasse refleja las diferencias entre las propiedades ffsico-qufmicas de los aminoidos. Lasmayores distancias se corresponden con transversiones en la segunda base de codonesque frecuentemente alteran las propiedades hidrofobicas y las funciones biologicas delas protefnas. Se presentan altos Va/ores de la distancia de Hamming entre codones quecodifican para aminoacidos hidrofflicos e hidrofobicos. Los autores demuestran la tendenciaal incremento de esta distancia entre aminoacidos, conjuntamente con las diferenciasffsico-qufmicas vistas en funci6n de la polarizabilidad, polaridad y volumen normalizadoVan der Waals.

Desde el punto de vista de las deducciones, ambas algebras booleanas reflejan el resultadoexperimental bien conocido de que sustituciones en una base simple son fuertementeconservativas en lo que se refiere a cambios en la polaridad de aminoacidos (Friedmany Weinstein 1964; Parker 1989). Particularmente, a partir de aminoacidos polares cuyoscodones tienen A en la segunda posici6n es imposible, por medio de deducciones, obteneraminoacidos provenientes de codones que tengan U en la segunda base. Sanchez et al(20048 y 20058) demostraron tambien, con datos experimentales de varias protefnas, quelas mutaciones mas frecuentemente observadas y que minim|Zan el efecto posterior enellas corresponden a deducciones desde Sus respectivos tipos salvajes (wild types).

Otra implicaci6n de la estructura booleana que se utilizara en las aplicaciones es el conceptode va/or de la informaci6n mutua. Esta fue definida por Sanchez et al (2005b), partiendode las deducciones conjuntas nij (en las algebras primal y dual) de todos los codones delc6digo genetico hacia los codones que codifican para los aminoacidos i y j. El valor de lainformacion mutua entre dos aminoacidos: i, j

esta dado por V(i. j)-log4[~-~ N] donde ni es el nomero de deducciones posibles al ami-

noacido l~ (lo mismo para J) y N es el numero total de deducciones posibles entre aminoidos.El valor de la lnformaci6n Mutua entre dos secuencias de aminoacidos de la misma longitudn se define entonces como la suma de Va/ores de la informaci6n mutua de los aminoacidosen cada posici6n, esto es:

V((XI,...,Xn ),(Yl,...,Yn))k- V(Xk,Yk)

El valor de la informaci6n mutua entre dos secuencias, asf definido, pretende ser Unamedida de "cuanto dos secuencias tienen informacion importante comun" y es por tantouna "medida de similar|dad entre mutaciones (ya interpretadas como deducciones)"

Page 7: Redalyc.Algunas aplicaciones de la estructura booleana del ...
Page 8: Redalyc.Algunas aplicaciones de la estructura booleana del ...

..

,J`a

E-

c:~^a.~vc:~._

100

1:25.29%2:61.11%3:13.61%n=6834

Iv546

1:65.01%2:0.00%3:34.99%n=2658

Iv323

1:25.29%2:61.11%3:13.61%n=6834

Iv544

1:O.00%2:100.00%3:0.00%n=4176

-3-

1:O.00%2:100.00%3:0.00%n=4176

-1-

1:65.01%2:0.00%3:34.99%n=2658

v324

1:100.00%2:0.00%3:0.00%n=1728

1:0.00%2:0.00%3:100.00%n=930

-2-

1:100.00%2:0.00%3:0.00%n=1728

-2-

1:0.00%2:0.00%3:100.00%n=930

-3-

Fig. 1. Dos de los 7 bo/es filogeneticos construidos. A la izquierda, el que rompe por la posici6n 546 y queinteractua con la posici6n 323. A la derecha el que rompe por la posici6n 544 interactuando con la 324. Lospor cientos en cada nodo al lado de 1:2: y 3: definen la cantidad de mutaciones dentro de las familias 1 2 y3 respectivamente con los valores de n mencionados en cada nodo. Por ejemplo, en el arbol de la izquierda: el100% de los que tienen v546=0 y v323=0 (1 728 mutaciones) estan dentro de la familia 1 El 100% de los quetienen v546=0 y v323=1 (930 mutaciones) estan en la familia 3, y el 100% de los que tienen v546=1 (4176

mutaciones) estan en la familia 2. Conclusiones similares pueden establecerse a partir del arbol de la derecha y delos otros 5 arboles que pueden obtenerse por esta via.

Con vistas a construir un grafico general que represente la estructura de la Red Bayesianaadecuada, aI utilizar la tnica de CHAID en la confecci6n de los graficos parciales, se sigueel criterio de que Una vez que una variable pertenezca aI modelo en cualquiera de losarboles ya construidos, la misma no Se vuelve a utilizar. Esto permite reducir la complejidaddel modelo y evitar que aparezcan ciclos no compatibles con la definici6n de red bayesiana,en particular garantiza que la estructura de la red sea un grafico acfclico.

C on la union de todos los arboles creados Se forma el modelo estructural de la Red Bayesiana,(ver Figura 2). Por el mOdo de construcci6n, dicho modelo es un grafo acfclico dirigido,que expresa las dependencias esenciales, y por tanto las probabilidades condicionales, quetienen que ser calculadas. El grafo asf obtenido, representa el modelo estructural de la red einforma del nu mero mfnimo de probabilidades condicionales que tienen que ser previamente

Page 9: Redalyc.Algunas aplicaciones de la estructura booleana del ...

estimadas para hacer cualquier inferencia en ella. El complemento probabilist|co de laestructura anterior es el caIculo de estas probabilidades condicionales (imprescindibles) y Selogra siguiendo el mOdo propuesto par Chez, Grau y Garcia (1999) que utiliza el SPSS(Statistical Package for the Socia\ Sciences (SPSS 1994b)) coma herramienta estadistica.Esencialmente, las probabilidades necesarias se estiman par frecuencias condicionales apartir de la base de datos de aprendizaje con tablas de contingencia.

\I\

\v --

Se utiliz6 Una primera versi6n del software BySheII (Chvez y Rodriguez, 2002) parapropagar evidencias en Redes Bayesianas, Este software tiene implementado el algoritmode propagaci6n en redes muItiplemente conexas, especificamente el de arboles deconglomerados el cual se reporta coma uno de los menos complejos de las algoritmos depropagaci6n exacta. Actualmente se trabaja en propuestas en forma distribuida para estosalgoritmos y el uso de algoritmos aproximados utilizando tecnicas de simulacion (Castillo,Gutierrez y Hadi, 1996; Stuart y Norvig 1996; Williams, Wilson y Hancock 1998; Hunter2003).

Page 10: Redalyc.Algunas aplicaciones de la estructura booleana del ...

Con la propagaci6n sobre la red Se puede dar un pron6stico de la familia a la que debenpertenecer nuevas mutaciones. Dando evidencias de Va|ores de varias (no necesariamentetodas) de las posiciones claves, la red predice la familia a la cual debe pertenecer y laprobabilidad de la misma. Por ejemplo, de la figura 1 Se evidencia que si Se informan losdatos de las posiciones 546 y 323, se clasifica la secuencia con seguridad. Recfprocamentese puede deducir el comportamiento de las posiciones en la secuencia de ADN de unanueva mutaci6n en una familia dada. Por ejemplo, Si Se tiene identificada la familia comola 2, y se quiere investigar la posici6n 296 de la secuencia, que corresponde a la segundaposicion binaria de la primera base del codon 50 Dues 296=49,6+2/6, la red bayesianapronosticara con probabilidad del 97%, que dicha base es una A (01) o una C (11), Duessu segunda posici6n tiene esa probabilidad de ser un I . Analizando la primera posici6n deese nude6tido entre los datos es posible identificar que ella es siempre un 0 y por tanto labase es A (Adenina). Asf, se tiene la posibilidad de trabajar con el nivel de informaci6n maselemental posible (n0meros binarios que en pareja identifican bases, y despues integrar ensextetos: codones, y finalmente codificando en aminoacidos en la protefna). Integrandoesta informacion elemental Se puede formular un conjunto de reg|as para posicionesclaves dentro de la secuencia, las cuales pueden ser interpretadas por los especialistasen bioqufmica o biologfa. En la Tabla 1 Se muestran, por ejemplo, las conclusiones queresultan del anisis de los codones vinculados a las posiciones esenciales detectadas enla red bayesiana y evidentes de la Figura 1 (variables 323 y 546). ElIo supuso analizar lasposiciones 319-324 correspondientes aI cod6n 54 (31 9=53* 6+ 1) y las posiciones 541-546 (541=90* 6+ 1) del cod6n 91 . Resulta por ejemplo, que la familia 2 tiene como cod6n91: AGC codificando para la Serina, mientras que las families 1 y 3, tienen ambas ACU,codificando para la Threonina. Estas 0Itimas familias entre sf se diferencian por el codon54, que en la familia 1 es AUG (codificador de la Metionina) y en la familia 3 es AUC (quecodifica para llenina),

Tabla 1 Integracion de conclusiones desde informacion elemental. La segunda familia de mutaciones se identificaporque tiene en las posiciones 541-"546 el cod6n AGC (codificante para la Serina). Las otras families (1 y 3) tienenen estas posiciones el codon ACU (que codifica para la Threonina); el|as entre sf, Se diferencian por el cod6n 54(posiciones 319-324): en la familia 1 siempre aparece AUG (que codifica para Metionina) mientras que en la fa-

milia 3 aparece siempre AUC (codificante para Ilenina).

Cod6n 54 (posiciones 319-324)

Posiciones Familia I Familia 2 Familia 3

319 - 320 01 01 01

321 -322 10 IO 10

323 - 324 00 II 11

AUG (Met) AUC(Ile ) AUC (Ile)

Cod6n 91 (posiciones 541-546)

Posiciones Familia I Familia 2 Familia 3

541 - 542 01 01 01

543 - 544 11 00 11

545 - 546 10 II 10

ACU (Thr) AGC (Ser) ACU (Thr)

Page 11: Redalyc.Algunas aplicaciones de la estructura booleana del ...

Se consideran resultados de esta aplicaci6n los brboles fifogen6ticos obtenidos a partir dedatos de secuencias de ADN con arboles de decision que permiten establecer relacionesentre las familias previamente definidas, sobre la base de la interacci6n de posicionesclaves en las secuencias, y la construcci6n de una red bayesiana que permite pronosticarlas familias o clases a partir de evidencias de presencia de nucleotidos en determinadasposiciones, o recfprocamente, caracterizar cada una de las clases identificando los nudeotidosque aparecen en algunas posiciones con mayor probabilidad. Se obtienen de inmediato,resultados satisfactorios, considerando apenas la estructura booleana como un sistema decodificaci6n, Dues este permite extraer conclusiones como las anteriores, sobre la base delnivel de informaci6n mas elemental posible (numeros binarios, por debajo incluso de basesnucle6tidas) e integrarlas posteriormente. Es presumible que puedan obtenerse mejoresresultados si Se utiliza mas informaci6n algebraica del c6digo genetico, por ejemplo parala formacion preliminar de familias o la construccion de arboles filogen6ticos basadas endisimilaridades o energies como Se muestra en la siguiente aplicaci6n.

En la clasificacion de la estructura secundaria de las protefnas se definen las clases:Principalmente-H Alpha helix, principalmente-E Beta Sheet, combinada-H-E e irregular(Maccallum 1997.). Los programas como Structural Alignment Algorithm (SSAP) realizanla puntuaci6n de similaridad entre las interacciones de residuos par a par (ambientesestructurales) alrededor de los aminoacidos. Segun los reportes consultados, varios deestos programas fa|Ian en la clasificacibn de proteinas que tienen un plegamiento similar,pero diferentes funciones.

El algoritmo propuesto puede aprender de la informacion de estructuras secundarias, tantode secuencias de protefnas como de codones. En el prototipo construido, el aprendizajeSe realiza a partir de la base de datos de estructuras secundarias de codones /ntegratedSequence-Structure Database (ISSD) (Adzhubei y Adzhubei I 999). El algoritmo que Sepropone utiliza los resultados de la estructura booleana del c6digo genetico conjuntamentecon la tecnica Metropolis para efectuar la clasificaci6n. La pertenencia a una clase deestructura es controlada por una prueba estadfstica clasica de Mann-Whitney (ver porejemplo, Grau 1994). Los resultados de las corridas con secuencias de estructuras conocidasextrafdas de la base de datos (test) de estructuras secundarias DSSP (Kabsch y Sander 1983)han mostrado un alto por ciento de precision tanto para estructuras E como H.

El algoritmo de Metropolis permite en general, la generaci6n aleatoria de vectoresde variables posiblemente correlacionadas. Se utiliza aquf para generar secuencias deaminoacidos como cadenas de Markov con funcion de distribucion estacionaria P. Desdeel punto de vista de la teorfa de la informaci6n es equivalente a decir que las secuenciasde aminoacidos generadas son consideradas mensajes emitidos por una fuente de Markovcon funci6n de distribucion estacionaria P (Kabsch y Sander, 1983). La tnica Metropolisgenera de manera aleatoria perturbaciones del estado actual y las acepta o rechaza endependencia de c6mo la probabilidad del estado es afectada. Usualmente P es expresada