UNIVERSIDAD SIMÓN BOLÍVAR Gabi Escuela

UNIVERSIDAD SIMÓN BOLÍVARDecanato de Estudios de Postgrado

Maestría en Ciencias de la Computación

ALGORITMOS EVOLUTIVOS CON REPRESENTACIÓNBASADA EN SISTEMAS-L PARA EL PROBLEMA DEL

REPLEGADO DE LAS PROTEÍNAS

Trabajo de Grado presentadoa la Universidad Simón Bolívar por

Gabi Escuela

Como requisito parcial para optar al título deMagíster en Ciencias de la Computación

Realizado con la tutoría de la ProfesoraGabriela Ochoa

Enero, 2006

DEDICATORIA

A Carlos Gabriel y Kevin Eduardo.

AGRADECIMIENTO

La �nalización de este trabajo de grado, y en general, de mis estudios de maestría, nohubiera sido posible sin el apoyo brindado por personas especiales para mí, a quienes quieroagradecer sinceramente.

A Gabriela Ochoa, tutora y amiga, quien me brindó pacientemente su asesoría para larealización del trabajo y me transmitió la pasión por la investigación.

A Natalio Krasnogor, quien proporcionó las ideas iniciales que dieron origen a estainvestigación.

A Blai Bonet, por sus comentarios, sugerencias y la implementación del algoritmo derami�cación y poda utilizado en el trabajo.

A mis profesores y compañeros de la USB, en especial, a Carolina Chang, Carlos Castil-lo, Ivette Martínez y Miguel Castro, por compartir conocimientos y gratos momentos du-rante la carrera.

A mi esposo Carlos, mis hijos Carlos y Kevin, mis padres Jutta y Manuel, mis hermanosTanja, Ilse y José, mi suegro Mirtiliano, mis cuñados Dixon, Dimir, Dinorah, Manuel yAlexandra, mis sobrinos Willi, Cindy, Dilia, Dixon y José Daniel. Mi familia fue mi apoyoen todo momento, gracias por su cariño y comprensión.

Gabi

RESUMEN

En este trabajo se presenta una propuesta para la representación genética de proteínasreplegadas, simpli�cadas según el modelo HP [12] en un reticulado cuadrado 2D, utilizandoSistemas de Lindenmayer [53]. Los experimentos realizados con esta representación, uti-lizando un algoritmo evolutivo como mecanismo de inferencia, mostraron que el modelo decodi�cación generativa propuesto, puede utilizarse con éxito para instancias de longitud≤ 36. Adicionalmente, para estudiar el problema de predicción de la estructura terciaria,se aplicó un algoritmo de optimización global y dos algoritmos evolutivos con diferentecodi�cación genética al problema de obtener la con�guración óptima, que supone el es-tado nativo, de proteínas simpli�cadas según el modelo HP y encajadas en un reticuladocuadrado 2D. El algoritmo de optimización global permitió obtener resultados óptimos encorto tiempo para instancias de longitud≤ 25, mientras que el algoritmo evolutivo con cod-i�cación directa demostró un mejor desempeño, incluso para instancias de mayor longitud.Los resultados obtenidos al comparar las dos versiones de algoritmos evolutivos aplicadosa instancias de prueba y reales de hasta 85 aminoácidos, mostraron que, aunque la codi�-cación directa demostró ser superior a la generativa, las diferencias no fueron signi�cativas,considerando los bene�cios potenciales del modelo propuesto.

Palabras claves: Algoritmos Evolutivos, Sistemas de Lindenmayer, Replegado de Pro-teínas, Modelo HP.

ÍNDICE GENERAL

DEDICATORIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iiAGRADECIMIENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iiiRESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ivÍNDICE GENERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vINDICE DE TABLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viiiÍNDICE DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1. Planteamiento y antecedentes del problema . . . . . . . . . . . . . . . . . . 11.2. Justi�cación e importancia de la investigación . . . . . . . . . . . . . . . . 41.3. Objetivos de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.2. Objetivos Especí�cos . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4. Organización del trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5. Trabajo publicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. EL PROBLEMA DEL REPLEGADO DE PROTEÍNAS . . . . . . . . . . . . 92.1. Proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1. Jerarquía de estructuras . . . . . . . . . . . . . . . . . . . . . . . . 112.2. Bases de datos de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3. El proceso de replegado de las proteínas . . . . . . . . . . . . . . . . . . . 162.4. Problema de la predicción de la estructura terciaria de la proteína . . . . . 18

2.4.1. Métodos experimentales . . . . . . . . . . . . . . . . . . . . . . . . 192.4.2. Métodos computacionales . . . . . . . . . . . . . . . . . . . . . . . 20

2.5. Modelos de proteínas para la predicción de la estructura . . . . . . . . . . 212.5.1. Modelo HP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.5.2. Complejidad computacional del problema . . . . . . . . . . . . . . . 26

ÍNDICE GENERAL v

3. SISTEMAS-L Y ALGORITMOS EVOLUTIVOS . . . . . . . . . . . . . . . . 283.1. Sistemas de Lindenmayer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.1.1. Clasi�cación de Sistemas-L . . . . . . . . . . . . . . . . . . . . . . . 313.1.2. El problema inverso de los Sistemas-L . . . . . . . . . . . . . . . . . 323.1.3. Proteínas, Sistemas-L y Fractales . . . . . . . . . . . . . . . . . . . 33

3.2. Algoritmos Evolutivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.3. Algoritmos Evolutivos y Sistemas-L . . . . . . . . . . . . . . . . . . . . . . 363.4. Métodos utilizados para solucionar el Problema de Predicción de la Estruc-

tura Terciaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.4.1. Algoritmos Evolutivos para el Problema de Predicción de la Estruc-

tura Terciaria usando el Modelo HP . . . . . . . . . . . . . . . . . . 414. PROBLEMA INVERSO DE SISTEMAS-L PARA PROTEÍNAS . . . . . . . . 44

4.1. Modelo con codi�cación basada en un Sistema-D0L . . . . . . . . . . . . . 444.1.1. Representación de los individuos . . . . . . . . . . . . . . . . . . . . 454.1.2. Inicialización de la población . . . . . . . . . . . . . . . . . . . . . . 464.1.3. Operadores Genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . 474.1.4. Experimentos y Resultados . . . . . . . . . . . . . . . . . . . . . . 51

4.2. Agregando conocimiento al Modelo propuesto . . . . . . . . . . . . . . . . 644.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5. PREDICCIÓN DEL REPLEGADO DE LAS PROTEÍNAS . . . . . . . . . . 695.1. Desempeño de un algoritmo de optimización global

y un algoritmo evolutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695.1.1. Algoritmo de Rami�cación y Poda . . . . . . . . . . . . . . . . . . 695.1.2. Algoritmo evolutivo con codi�cación estándar . . . . . . . . . . . . 715.1.3. Comparación del desempeño . . . . . . . . . . . . . . . . . . . . . . 72

5.2. Algoritmo evolutivo con codi�cación basada enSistemas-D0L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.3. El problema usando proteínas reales . . . . . . . . . . . . . . . . . . . . . . 835.4. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

ÍNDICE GENERAL vi

6. CONCLUSIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866.1. Resumen de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . 866.2. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896.3. Alcances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 906.4. Sugerencias para próximos trabajos . . . . . . . . . . . . . . . . . . . . . . 91

REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

INDICE DE TABLAS

2.1. Los 20 aminoácidos naturales que conforman proteínas y su clasi�caciónsegún su a�nidad al agua . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2. Matriz de interacción del modelo HP . . . . . . . . . . . . . . . . . . . . . 25

3.1. Interpretación de los movimientos para un alfabeto básico de Sistema-L. . . 31

4.1. Instancias de proteínas de prueba para el Modelo 2D HP . . . . . . . . . . 524.2. Valores de los parámetros usados para los experimentos del modelo basado

en Sistema-D0L. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.3. Resultados obtenidos de 50 corridas para las 8 instancias. . . . . . . . . . . 564.4. Resultados para el replegado de Ins20a . . . . . . . . . . . . . . . . . . . . 564.5. Resultados para el replegado de Ins20b . . . . . . . . . . . . . . . . . . . . 574.6. Resultados para el replegado de Ins20c . . . . . . . . . . . . . . . . . . . . 574.7. Resultados para el replegado de Ins24 . . . . . . . . . . . . . . . . . . . . . 574.8. Resultados para el replegado de Ins25 . . . . . . . . . . . . . . . . . . . . . 584.9. Resultados para el replegado de Ins36a . . . . . . . . . . . . . . . . . . . . 584.10. Resultados para el replegado de Ins36b . . . . . . . . . . . . . . . . . . . . 584.11. Resultados para el replegado de Ins36c . . . . . . . . . . . . . . . . . . . . 584.12. Comparación del número de corridas exitosas usando el modelo de reglas

libres y el modelo con conocimiento agregado en forma de 2 reglas �jas . . 66

5.1. Valores de los parámetros usados para el algoritmo evolutivo con codi�caciónestándar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.2. Desempeño de un algoritmo de rami�cación y poda y un algoritmo evolutivopara el problema de predicción de la estructura terciaria . . . . . . . . . . 73

INDICE DE TABLAS viii

5.3. Instancias de prueba según el modelo HP usadas en los experimentos paracomparar los algoritmos evolutivos con diferente codi�cación del genotipo. 75

5.4. Características de las instancias de prueba usadas en los experimentos paracomparar los algoritmos evolutivos con diferente codi�cación del genotipo. 75

5.5. Genotipo y fenotipo de soluciones óptimas obtenidas para Ins36a . . . . . . 765.6. Valores de los parámetros usados para el algoritmo evolutivo con codi�cación

basada en Sistemas-L. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775.7. Parámetros de los Sistemas-L para las instancias de prueba . . . . . . . . . 775.8. Resultados obtenidos de 50 corridas, al aplicar los dos algoritmos evolutivos

a las 8 instancias de prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . 795.9. Características de 7 proteínas reales utilizadas para probar los algoritmos

evolutivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 835.10. Secuencia primaria y representación HP de las proteínas reales. . . . . . . . 845.11. Resultados obtenidos de 50 corridas, al aplicar los dos algoritmos evolutivos

a las 7 instancias de proteínas reales. . . . . . . . . . . . . . . . . . . . . . 84

ÍNDICE DE FIGURAS

2.1. Representación tridimensional de cuatro proteínas de diferentes clases. . . . 152.2. Resumen de motivos o estructuras secundarias de la proteína 1pga . . . . . 162.3. Proceso de replegado de las proteínas . . . . . . . . . . . . . . . . . . . . . 162.4. Clasi�cación de los reticulados según su forma geométrica . . . . . . . . . . 232.5. Representación en un reticulado cuadrado 2D de una instancia aplicando el

modelo HP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.1. Formación de la Curva de Koch . . . . . . . . . . . . . . . . . . . . . . . . 293.2. Proceso de derivación de un Sistema-D0L . . . . . . . . . . . . . . . . . . . 323.3. Pseudocódigo del esquema general de un algoritmo evolutivo . . . . . . . . 36

4.1. Representación genética de un individuo para el modelo basado en Sistemas-L 464.2. Ejemplo de una operación de recombinación para la representación basada

en Sistemas-L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.3. Ejemplo de los cuatro tipos de mutación implementadas para la repre-

sentación basada en Sistemas-L . . . . . . . . . . . . . . . . . . . . . . . . 504.4. Proceso de derivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.5. Detalle de las instancias Ins20a, Ins20b, Ins20c e Ins24 . . . . . . . . . . . 534.6. Detalle de las instancias Ins25, Ins36a, Ins36b e Ins36c . . . . . . . . . . . 544.7. Evolución del mejor individuo a través de las generaciones para las instancias

Ins20a, Ins20b, Ins20c e Ins24, usando 5 tasas diferentes de recombinación 604.8. Evolución del mejor individuo a través de las generaciones para las instancias

Ins25, Ins36a, Ins36b e Ins36c, usando 5 tasas diferentes de recombinación 61

ÍNDICE DE FIGURAS x

4.9. Evolución del mejor individuo a través de las generaciones para las instanciasIns20a, Ins20b, Ins20c e Ins24, usando 3 diferentes estrategias de Selecciónde pareja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.10. Evolución del mejor individuo a través de las generaciones para las instanciasIns25, Ins36a, Ins36b e Ins36c, usando 3 diferentes estrategias de Selecciónde pareja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.11. Estructuras secundarias adaptadas al reticulado cuadrado 2D para el modelocon codi�cación de Sistema-D0L mejorado . . . . . . . . . . . . . . . . . . 65

4.12. Evolución del mejor individuo a través de las generaciones para las instanciasIns36a e Ins36c aplicando los modelos sin y con conocimiento . . . . . . . . 67

5.1. Determinación de la tasa de mutación óptima para las Instancias Ins36a,Ins36b, Ins60 e Ins85 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.2. Evolución del mejor individuo a través de las generaciones para las instanciasIns36a, Ins36b, Ins36c e Ins48, aplicando los dos algoritmos evolutivos . . . 81

5.3. Evolución del mejor individuo a través de las generaciones para las instanciasIns50, Ins60, Ins64 e Ins85, aplicando los dos algoritmos evolutivos . . . . . 82

1. INTRODUCCIÓN

Hay grandeza en esta concepción de la vida,... que mientras este planeta ha

ido girando según la constante ley de la gravitación, se han desarrollado y se

están desarrollando, a partir de un comienzo tan sencillo, in�nidad de formas

cada vez más bellas y maravillosas. Charles Darwin

El problema del físico es el problema de los orígenes y leyes naturales últimas.

El problema del biólogo es el problema de la complejidad. Richard Dawkins

Si al franquear una montaña en la dirección de una estrella, el viajero se deja

absorber demasiado por los problemas de la escalada, se arriesga a olvidar

cual es la estrella que lo guía. Antoine de Saint-Exupery

1.1. Planteamiento y antecedentes del problema

La Bioinformática o Biología Computacional es un área que se ubica en la frontera entrela biología y las ciencias de la computación, y cuyo principal objetivo es el desarrollo y usode técnicas matemáticas y computacionales para ayudar en la resolución de problemas de labiología molecular. En lo que se re�ere al impacto dentro de las ciencias computacionales,la bioinformática incluye problemas de gran complejidad, que generalmente resultan serNP-Completos, lo que conlleva a soluciones basadas en técnicas heurísticas.

La �nalización del Proyecto Genoma Humano en el año 2001, permitió la identi�cacióny secuenciación de unos 40.000 genes que forman parte del Homo sapiens. Este logro fueprecedido por el estudio de los genomas de otras especies como el virus Epstein-Barry la bacteria Escherichia coli, el hongo Saccharomyces cerevisiae, el gusano nemátodoCaenorhabditis elegans y la mosca de la fruta Drosophila melanogaster. La informaciónobtenida de estos proyectos constituye el primer paso en el camino hacia el conocimien-

1. INTRODUCCIÓN 2

to de los procesos biomoleculares. Sin embargo, considerando que las proteínas son lasverdaderas expresiones funcionales de los genes, los cientí�cos han volcado su atención ha-cia los problemas relacionados a las estructuras y funciones de las proteínas, encontrandomayor complejidad que en los problemas asociados a los genes.

Es así como comienza la llamada era postgenómica y se introduce el término de operómi-ca, para denominar el conjunto de estrategias de estudio a realizar durante todo el trayectoque va desde el ADN, pasando por el ARN, hasta las proteínas y el análisis molecular ycelular de sus funciones. El próximo paso está centrado, entonces, en aprender el algoritmonatural que siguen las proteínas al replegarse, siguiendo un camino que �nalmente conducea una conformación especí�ca que les permite cumplir su función en los organismos. Par-ticularmente, el Proyecto Proteoma Humano tiene entre sus objetivos más importantes: (i)crear un catálogo general de proteínas humanas, en el que se incluyan todas las variantesposibles para cada proteína, (ii) conocer las interacciones entre proteínas (iii) descubrir losmecanismos que gobiernan los niveles relativos de expresión de las proteínas y las formasde esa expresión en cada tejido u órgano en situaciones de salud, enfermedad o terapia. Larelevancia del proyecto es evidente y su incidencia en algunas áreas como la medicina es degran magnitud, considerando que casi todos los medicamentos están basados en proteínaso ejercen sus acciones a través de proteínas.

Una proteína es una secuencia lineal de unidades denominadas aminoácidos, que bajociertas condiciones físicas, se repliega conformando una estructura funcionalmente únicallamada su estructura terciaria o estado nativo. Este estado constituye a su vez la clave paracomprender el funcionamiento de las proteínas dentro de un organismo vivo. Las proteínasasumen funciones muy variadas gracias a su gran heterogeneidad estructural. Describirlas funciones enzimáticas, hormonales, de reconocimiento y transducción de señales, detransporte, estructurales, de defensa, de movimiento, de reserva y reguladoras, propias delas proteínas, equivale a describir en términos moleculares todos los fenómenos biológicos.

El problema del replegado de proteínas constituye uno de los problemas abiertos másenigmáticos de biología molecular que integra una serie de aspectos relacionados con la

1. INTRODUCCIÓN 3

predicción, codi�cación y diseño de la estructura tridimensional de las proteínas. Durantemás de 30 años, investigadores de las áreas de Biología, Química, Física, Matemática yComputación han abordado el problema de manera independiente o en equipos multidis-ciplinarios, obteniendo hasta ahora resultados limitados. En particular, el problema depredicción de la estructura terciaria de la proteína puede resumirse con la siguiente pre-gunta: dada la secuencia lineal de aminoácidos que conforman una proteína, ¾cuál es laestructura tridimensional correspondiente?

Como parte del interés mundial para solucionar este problema, pueden mencionarse doshechos recientes de gran trascendencia. Por un lado, la creación de un grupo de evaluadorescríticos de predicción de la estructura terciaria CASP (Critical assessment of structure pre-diction) que se reunen bianualmente desde el año 1994. Por el otro, la incursión de IBMen el estudio del replegado de las proteínas dentro de un proyecto de supercomputación,cuyo principal actor, el Blue Gene/L, sucesor del famoso jugador de ajedrez Big Blue, estácompletamente instalado desde el 2005 con una velocidad de 360 tera�ops y con un sis-tema formado por unos 130.000 procesadores. El nivel de desempeño que proporciona BlueGene/L es su�ciente para simular el replegado de una proteína pequeña en aproximada-mente un año de tiempo de ejecución, de acuerdo al estado actual de conocimiento acercade estrategias de resolución del problema. Esta a�rmación puede dar una idea acerca delmaravilloso y a la vez complejo proceso natural de replegado de las proteínas, que ocurrerealmente en términos de microsegundos.

En este trabajo, se combinan dos estrategias bioinspiradas: los algoritmos evolutivos ylos sistemas de Lindenmayer (Sistemas-L), aplicados al problema de predicción de la estruc-tura terciaria en proteínas simpli�cadas según el modelo HP. El modelo HP [12] reduce con-siderablemente la complejidad del problema, aprovechando características físico-químicasde los aminoácidos, para representar proteínas de manera más sencilla, permitiendo almismo tiempo que se conserven sus propiedades. Además, este modelo se aplica general-mente sobre reticulados que restringen el espacio conformacional a un grupo reducido demovimientos discretos.

1. INTRODUCCIÓN 4

Los algoritmos evolutivos permiten obtener soluciones aproximadas a problemas de op-timización basándose en una abstracción del proceso de la evolución natural, en términosde selección natural y sobrevivencia del más apto. De manera general, en un algoritmoevolutivo, un conjunto de soluciones potenciales codi�cadas como genes (población de in-dividuos), son formadas originalmente de manera aleatoria. Luego, iterando a través degeneraciones, los individuos son evaluados en cuanto a su aptitud, aplicando una funciónobjetivo que guía el algoritmo. Para evolucionar la población, se aplican operadores genéti-cos de selección, mutación y recombinación, produciendo soluciones cada vez mejores, entérminos de la función objetivo. Aunque algunos de estos algoritmos evolutivos han sidoutilizados en estudios anteriores para obtener soluciones al problema de predicción de laestructura terciaria de la proteína, los resultados están limitados a instancias simpli�cadasde 100 o menos aminoácidos. Debido a que uno de los aspectos que in�uyen en el desem-peño de un algoritmo evolutivo es la codi�cación utilizada para representar los individuos,en este trabajo se considera la posibilidad de utilizar una representación diferente a laestándar, basada en Sistemas-L.

Los Sistemas-L, son gramáticas conformadas por un axioma, que representa un objetoinicial y una o más reglas de producción, que indican de qué manera el objeto se desarrolla.La aplicación de estas reglas en un proceso de derivación paralela, produce objetos cadavez más complejos. En particular, la idea que se propone en este estudio, consiste en unesquema de codi�cación genética basada en Sistemas-L, tomando en consideración que laestructura de una proteína exhibe frecuentemente un alto nivel de regularidad y simetría,incluso comparable a los fractales. Esto es consistente con la naturaleza recursiva de losSistemas-L, donde las reglas de producción generan estructuras modulares y auto-similares.

1.2. Justi�cación e importancia de la investigación

La investigación que se propone se encuentra enmarcada dentro del área de la BiologíaComputacional, que constituye una ciencia joven y prometedora. En particular, el hecho

1. INTRODUCCIÓN 5

de poder predecir la estructura terciaria a partir de la secuencia de aminoácidos podríaapoyar el desarrollo de nuevos medicamentos y en general, servir de base para una nuevaera en la Biotecnología.

Actualmente existen aproximadamente unas 33.500 estructuras proteicas identi�cadas[5], cada una conformada en promedio por 50 a 1500 aminoácidos. A pesar de que lasecuencia de los aminoácidos de una proteína se obtiene fácilmente, usando técnicas yreacciones casi completamente automatizadas, el proceso por el que las proteínas asumensu estructura nativa aún no se conoce bien. Sin embargo, es principalmente el conocimientode la estructura terciaria, y no la secuencia primaria, lo que les permite a los bioquímicospredecir el comportamiento de una proteína, por lo que existe una gran necesidad deobtener la estructura terciaria a partir de la información de la secuencia primaria.

Los estudios relacionados a este problema han tratado de simpli�car algunos aspectoscomo la función de energía y el espacio de posibles conformaciones, aplicando técnicas deoptimización heurísticas como algoritmos de Ascenso de Colina (Hill Climbing), RecocidoSimulado (Simulated Annealing), Monte Carlo y Algoritmos Evolutivos. A pesar de esteesfuerzo, el problema sigue representando un reto para proteínas cuya longitud excede laspocas decenas (proteínas reales). Particularmente, el uso de una codi�cación directa enalgoritmos heurísticos parece ser uno de los puntos débiles en la posibilidad de escalar eluso de estas técnicas en el replegado de proteínas reales. La propuesta novedosa de utilizaruna codi�cación generativa, basada en sistemas de Lindenmayer, ataca directamente estadebilidad y representa un potencial no explorado en la resolución de este vital problemaen Biología Computacional.

1. INTRODUCCIÓN 6

1.3. Objetivos de la investigación

1.3.1. Objetivo General

Proponer representaciones genéticas basadas en Sistemas de Lindenmayer y estudiar suefectividad para el problema del Replegado de Proteínas.

1.3.2. Objetivos Especí�cos

1. Analizar las estrategias y resultados de estudios relacionados con el problema del re-plegado de proteínas y con aplicaciones de algoritmos evolutivos con representacionesde sistemas de Lindenmayer.

2. Diseñar los elementos propios de sistemas de Lindenmayer adaptados al problemadel replegado de proteínas.

3. Implementar algoritmos evolutivos correspondientes a las representación genéticabasada en Sistemas-L y sus operadores.

4. Desarrollar experimentos computacionales para comparar el desempeño de la repre-sentación propuesta, con respecto a otros resultados obtenidos.

1.4. Organización del trabajo

Este trabajo está organizado de la siguiente manera:

El capítulo 2 contiene los aspectos biológicos involucrados en el estudio. En primer lugar,se describe la estructura jerárquica de las proteínas y el proceso de replegado de las mismas.En segundo lugar, se presenta el problema de predicción de la estructura terciaria, así comotambién los métodos experimentales y computacionales que se han utilizado para resolverlo.Finalmente, se expone el modelo HP que permite simpli�car el problema para los métodos

1. INTRODUCCIÓN 7

computacionales, indicando la complejidad computacional del problema considerando estemodelo.

El capítulo 3 describe los aspectos computacionales que se utilizaron en el estudio:Sistemas-L y algoritmos evolutivos. Se presenta además una revisión de los trabajos quecombinan los algoritmos evolutivos con los Sistemas-L, así como también de estrategiasutilizadas para tratar de solucionar el problema de predicción de la estructura terciaria delas proteínas.

El capítulo 4 describe la codi�cación genética basada en Sistemas-L que se proponepara la representación de soluciones potenciales al problema de predicción de la estructuraterciaria. Se detallan los experimentos preliminares para validar el modelo a través de unalgoritmo evolutivo, y se discuten los resultados.

En el capítulo 5 se describe un algoritmo de rami�cación y poda, y dos algoritmosevolutivos: uno con codi�cación estándar y otro con la representación basada en Sistemas-L, diseñados para resolver el problema de predicción de la estructura terciaria usando elmodelo HP 2D. Posteriormente, se muestran los experimentos y resultados obtenidos deaplicar estos algoritmos sobre instancias simpli�cadas de proteínas de prueba y reales.

El capítulo 6, contiene las conclusiones del trabajo. En primer lugar, se presenta unresumen de la metodología utilizada para lograr cada uno de los objetivos planteados. Porotra parte, se especi�can las contribuciones aportadas por este trabajo, según los resultadosobtenidos. Finalmente, se discuten los alcances y limitaciones de la investigación, y sesugieren ideas para trabajos posteriores.

1.5. Trabajo publicado

Parte del trabajo descrito en este documento, ha sido publicado en congresos interna-cionales arbitrados en el área de algoritmos evolutivos. Especí�camente en:

1. INTRODUCCIÓN 8

G. Escuela, G. Ochoa, N. Krasnogor. (2005) Evolving L-Systems to Capture ProteinStructure Native Conformations. 8th European Conference on Genetic Programming(EuroGP 2005), Lecture Notes in Computer Science 3447, pp 73-83, Springer-Verlag,Berlin. [Nominado al reconocimiento de mejor artículo]

G. Ochoa, G. Escuela, N. Krasnogor. (2005) Incorporating Knowledge of SecondaryStructures in a L-system-based Encoding for Protein Folding. International Confer-ence on Arti�cial Evolution (EA-05). Lille, France. [Aparecerá próximamente en unvolumen de Lecture Notes in Computer Science, Springer-Verlag, Berlin.]

2. EL PROBLEMA DEL REPLEGADO DE PROTEÍNAS

La geometría, dijo Platón, existe en todas partes ... en el diamante, en la

estrella de mar, en la tela de araña... Es admirable la simetría pentagonal con

que están dispuestos los elementos de la �or de maracuyá. Malba Tahan, El

hombre que calculaba

La naturaleza nunca hace nada sin motivo. Aristóteles

Nuestras células piensan. Thomas Alva Edison

En este capítulo se presentan los aspectos biológicos relacionados con el trabajo, entrelos que se destaca la descripción de la estructura jerárquica de las proteínas, cuyos nivelespueden ser vistos como fotografías sucesivas tomadas durante el proceso en que las proteínasse repliegan. Precisamente, una de estas fotografías, la que representa el estado en que laproteína alcanza su funcionalidad, es la que nos interesa de manera particular. Por otraparte, se hace referencia acerca del estado del arte de las metodologías experimentales ycomputacionales para resolver el problema de predicción de la estructura terciaria. Porúltimo, se detalla el modelo simpli�cado de representación de proteínas que se consideraen este estudio, denominado modelo Hidrofóbico-Polar (HP).

2.1. Proteínas

El término proteína deriva del griego proteios, que signi�ca primario, y hace alusión aldios mitológico Proteo, quien poseía el don de adoptar distintas formas por su propia volun-tad. Precisamente, las proteínas son las macromoléculas más abundantes y funcionalmentemás versátiles, que forman parte de las células, constituyendo en de�nitiva el producto�nal de los genes.

2. EL PROBLEMA DEL REPLEGADO DE PROTEÍNAS 10

Las proteínas están conformadas por una variedad de 20 aminoácidos que se encadenanentre sí mediante enlaces peptídicos, combinándose en distinto orden y número (de 50 a1500, aproximadamente). Cada una de estas secuencias o cadenas, adopta espacialmenteuna estructura tridimensional que determina la funcionalidad biológica de la proteína. Estaestructura contiene regiones que permiten el acoplamiento de otras proteínas para formarestructuras más complejas, o para bloquear el funcionamiento de otras.

Un aminoácido es una molécula que contiene grupos funcionales amino y ácido carboxi-lo. Los enlaces peptídicos se forman por la interacción química entre dos moléculas cuandoel grupo carboxilo de una molécula reacciona con el grupo amino de la otra, liberando unamolécula de agua. Una de las características físico-químicas más importantes que diferen-cian los aminoácidos entre sí, es su a�nidad o repulsión al agua, lo que permite clasi�car aestos monómeros en polares e hidrofóbicos, respectivamente (ver tabla 2.1).

Considerando la terminología usada en las ciencias biológicas, está establecido que launión de aminoácidos da lugar a un péptido; si el número de aminoácidos que formala molécula no es mayor de 10, se denomina oligopéptido, si es superior a 10 se llamapolipéptido y si el número es superior a 50 aminoácidos se habla propiamente de proteína.Por otra parte, se denomina residuo al aminoácido incorporado a un péptido o a unaproteína.

De acuerdo a su morfología y solubilidad, las proteínas se clasi�can en �brosas yglobulares. Las proteínas �brosas son insolubles en agua y presentan formas molecularesalargadas. En cuanto a su función, las proteínas �brosas son generalmente estructurales ode soporte, como la elastina y el colágeno. Por otra parte, las proteínas globulares tiendena ser más solubles en agua y presentan una forma compacta y casi esférica. La mayoríade las proteínas conocidas son globulares, como las enzimas, las proteínas del plasma y laspresentes en las membranas celulares.


Aminoácido Código Letra Clasi�caciónÁcido aspártico Asp D PolarÁcido glutámico Glu E Polar

Alanina Ala A Hidrofóbico*Arginina Arg R Polar

Asparragina Asn N PolarCisteina Cys C Hidrofóbico*

Fenilalanina Phe F HidrofóbicoGlicina Gly G Polar*

Glutamina Gln Q PolarHistidina His H Polar*Isoleucina Ile I HidrofóbicoLeucina Leu L HidrofóbicoLisina Lys K Polar*

Metionina Met M HidrofóbicoProlina Pro P Hidrofóbico*Serina Ser S PolarTirosina Tyr Y Hidrofóbico*Triptófano Trp W HidrofóbicoTreonina Thr T PolarValina Val V Hidrofóbico

Tabla 2.1: Los 20 aminoácidos naturales que conforman proteínas y su clasi�cación segúnsu a�nidad al agua. El * indica que no todos los cientí�cos coinciden con la clasi�caciónque se muestra.

2.1.1. Jerarquía de estructuras

El nivel más básico de la estructura proteica, llamado estructura primaria, es la secuen-cia lineal de aminoácidos que está determinada a su vez, por el orden de los nucleótidos enel ADN o en el ARN. Considerando el número posible de aminoácidos, la conformación osecuencia primaria de una proteína puede ser abstraída como una cadena de caracteres so-bre un alfabeto Σ = {A,C,D,E, F,G, H, I, K, L, M,N, P, Q, R, S, T, V,W, Y }, de tamaño20, donde cada símbolo representa la letra que corresponde al aminoácido, según la tabla2.1.

Fuerzas como los enlaces de hidrógeno, los puentes disulfuro, la atracción entre cargas


positivas y negativas, y los enlaces hidrófobicos (repelentes al agua) e hidrofílicos (a�nes alagua) hacen que la molécula se repliegue y adopte una estructura secundaria. Las estruc-turas secundarias más comunes se denominan α-hélices, hojas-β y giros. Algunos aminoá-cidos tienen la tendencia a formar con mayor frecuencia un α- hélice (Q, M, A, L) o unahoja-β (V, I, Y).

α-hélice Un α-hélice es una hélice simple conformada en promedio por 10 aminoácidos,que generan 3 vueltas. Algunas hélices pueden tener hasta unos 40 aminoácidos.

hoja-β En esta disposición los aminoácidos no forman una hélice sino una cadena enforma de zigzag, denominada conformación en láminas plegadas. Una hoja-β, a suvez, consiste en el enlace entre varias hebras-β, cada una de las cuales está compuestapor lo general de unos 5 a 10 aminoácidos dispuestos linealmente. Cuando las hebras-β tienen el mismo sentido, la hoja-β resultante se denomina paralela, mientras quesi las hebras-β tienen sentidos opuestos, la hoja resultante se denomina antiparalela.

Giro Un giro es una sección de la secuencia que conecta los otros dos tipos de estructurassecundarias. No tiene una estructura regular en cuanto a su forma o largo. Por logeneral, los giros están presentes en el lado externo de una proteína plegada, mientrasque las otras estructuras forman el centro de la proteína.

Los patrones recurrentes de estructuras secundarias se denominan estructuras superse-cundarias, como hélice-giro-hélice, cremallera de leucinas, horquilla α-hélice. Cuando lasfuerzas provocan que la molécula se vuelva todavía más compacta, como ocurre en lasproteínas globulares, se constituye una estructura terciaria donde la secuencia de aminoá-cidos adquiere una conformación tridimensional, denominada estado nativo. Se dice que lamolécula tiene estructura cuaternaria cuando está formada por más de una cadena polipep-tídica, como ocurre en la hemoglobina y en algunas enzimas.

Los dominios son las unidades funcionales y tridimensionales de un polipéptido. Lascadenas polipeptídicas que son mayores a 200 aminoácidos en longitud consisten general-


mente de dos o más dominios. El núcleo de un dominio está construido por combinacionesde estructuras supersecundarias, denominadas también motivos. El plegamiento de un do-minio en una proteína generalmente es independiente de los otros dominios. De ahí quecada dominio posea características que lo hacen plegarse independientemente del resto delpolipéptido.

Algunas proteínas tienen la propiedad de desempeñar funciones múltiples, adicionaleso secundarias a su función principal, mediante la utilización de un mismo dominio o dedominios distintos. Por otra parte, existen proteínas denominadas mosaicos, que consistenen varias copias repetidas de uno o más dominios, todos dentro de una cadena polipeptídica.Muchas proteínas extracelulares presentan esta característica. Los dominios en cuestión sonllamados módulos y en ocasiones son relativamente cortos.

La estructura terciaria describe la asociación de unidades dentro de los dominios, perola estructura terciaria incluye también la manera en que los dominios se mantienen juntos.Esto no debe ser confundido con la estructura cuaternaria, que se re�ere a cómo se asocianentre sí cadenas polipeptídicas separadas. De la misma manera en que las hélices y lasláminas son las unidades de la estructura secundaria, los dominios pueden ser consideradoslas unidades de la estructura terciaria.

Un dominio puede ser descrito como todo-α, principalmente-α (o simplemente α), todo-β (o simplemente beta), α/β, (en la que se combinan hélices y hojas en motivos superse-cundarios clásicos β−α−β), o α +β, (que consiste en hélices y hojas que no forman talesunidades). Estas cuatro clases no describen satisfactoriamente todos los replegados, comoes el caso de algunos dominios pequeños que contienen pocas hélices u hojas.

Está claro que la formación y posterior asociación de estructuras secundarias hace quelas estructuras supersecundarias puedan ser consideradas lógicamente como un subconjuntode la estructura terciaria, y esto se toma en consideración en los problemas relacionados a laestructura nativa. Por otra parte, el proceso antes descrito revela por qué es más adecuadoutilizar la palabra replegado y no plegado de la proteína, debido a que, aun cuando ocurre


naturalmente en cuestión de microsegundos, puede ser dividido en varias fases claramentediferenciables.

Lesk [39] compara el análisis de las estructuras de las proteínas a diferentes niveles conel análisis de un texto, de la siguiente manera: los aminoácidos corresponden a las letras,las estructuras secundarias a las palabras, las estructuras supersecundarias a frases, loselementos de la estructura terciaria a las oraciones (este es el nivel en el que aparece laverdadera individualidad), dominios a párrafos, la estructura de una cadena polipeptídicacompleta a un capítulo, y la estructura cuaternaria al ensamblaje de capítulos en un libro.

2.2. Bases de datos de proteínas

Existe una variedad de bases de datos de proteínas disponibles en Internet. El bancode datos de proteínas PDB [5] es considerado el repositorio más importante de estructurasde proteínas. Consiste en archivos con las coordenadas de las proteínas cuya estructuraterciaria se ha resuelto por métodos experimentales. Cada estructura se identi�ca por uncódigo de cuatro caracteres: el primero es un número y los otros suelen ser letras. Aldescargar el archivo de coordenadas se puede visualizar la estructura en alguna de lasherramientas grá�cas disponibles (SwissPDBviewer, Rasmol, etc.). En noviembre de 2005,el PDB contenía más de 33.500 estructuras proteicas y cada año se depositan unas 4.500nuevas estructuras de las que sólo una pequeña parte corresponde a nuevos dominios deplegamiento. En el servidor PDBSum [14] se encuentran conexiones a varios sitios coninformación procedente del análisis estructural de cada archivo. Otros sitios interesantesson SCOP [17] y CATH [49] que proporcionan clasi�caciones de las proteínas del PDBatendiendo a criterios estructurales.

La �gura 2.1 muestra ejemplos de representaciones de dominios tomadas del PDB.


1beaClase: todo- Aminoácidos: 127

: 4 (33.86%) : 2 (3.15%)α

α β

1bfgClase: todo- Aminoácidos: 146

: 0 (0.0%) : 11 (36.3%)β

α β

1gh2Clase: / Aminoácidos: 107

: 5 (38.32%) : 6 (25.23%)α

α ββ

1pgaClase: + Aminoácidos: 56

: 1 (25.0%) : 4 (42.86%)α

α ββ

Figura 2.1: Representación tridimensional de cuatro proteínas de diferentes clases. Se indicael número de aminoácidos que las componen, así como también el número y proporción deestructuras secundarias


Figura 2.2: Resumen de motivos o estructuras secundarias de la proteína 1pga

2.3. El proceso de replegado de las proteínas

La �gura 2.3 resume el proceso por el cual una proteína se repliega para alcanzar suestado nativo, en el que se hace presente su funcionalidad biológica. En este esquema,puede observarse la conformación de aminoácidos a partir del genoma (ADN), que a suvez, conforman la secuencia que representa la estructura primaria de la proteína, pasandopor las estructuras secundarias, hasta la estructura terciaria.

Aminoácidos

Proteína sinreplegar

ADN

Estructuraintermedia

Proteína enestadonativo

Figura 2.3: Proceso de replegado de las proteínas


Para el estudio del proceso de replegado de las proteínas, se han desarrollado varias téc-nicas y reacciones para hacer la derivación de la estructura primaria (secuencia de aminoá-cidos) casi completamente automatizada. Sin embargo, es principalmente el conocimientode la estructura terciaria, y no la secuencia primaria, lo que les permite a los bioquími-cos predecir el comportamiento de una proteína, por lo que existe una gran necesidad deobtener la estructura terciaria a partir de la información de la secuencia primaria.

An�nsen [1] mostró que una determinada proteína podría ser desnaturalizada, es decir,podían ser alteradas las condiciones experimentalmente de modo de desestabilizar la es-tructura conformacional del estado nativo (sin alterar la estructura química) y en seguida,recrear las condiciones en las cuales el estado nativo es estable, sin que hubiese pérdida deactividad enzimática. De estos resultados pueden obtenerse las siguientes conjeturas:

El proceso de replegado, manteniendo �jas las condiciones del medio, depende sola-mente de la información contenida en la secuencia de aminoácidos.

El estado nativo es un estado termodinámico de equilibrio, es decir, corresponde aun mínimo global de energía libre y no a un mínimo local.

Determinados factores mecánicos (ej. agitación), físicos (ej. aumento de temperatura)o químicos (presencia en el medio de alcohol, acetona, urea, detergentes o valores extremosde pH) provocan la desnaturalización de la proteína, es decir, la pérdida de su estructuratridimensional; las proteínas se despliegan y pierden su actividad biológica.

Hoy en día se sabe que resolver el enigma del mecanismo de replegado de las proteínases esencial para el desarrollo de terapias médicas causadas por proteínas que han perdi-do su forma, y por ende, su función. Algunas enfermedades que se han relacionado coneste fenómeno son: Alzheimer, amiloidosis, osteogénesis, varios tipos de cánceres [55], laencefalopatía espongiforme bovina (enfermedad de las �vacas locas�), entre otras. Se hasugerido que esta encefalopatía es ocasionada no por un organismo sino por un tipo deproteína llamado prión. Los priones ocurren tanto en forma normal, constituyendo una


proteína inocua hallada en las células del cuerpo, como en forma infecciosa, ocasionando laenfermedad. Las formas inocuas e infecciosas de la proteína prión son casi idénticas, perola forma infecciosa adquiere una con�guración plegada diferente a la de la proteína normal.

Poco después del trabajo de An�nsen, Levinthal abordó una paradoja que puede servista como el inicio de los estudios sobre el problema del replegado de las proteínas [40]. Sise asume que una proteína realiza una búsqueda aleatoria a través del espacio de con�gu-raciones con el objeto de encontrar la con�guracíon de energía libre mínima, la búsquedatardaría demasiado tiempo. Por ejemplo, en el caso de que una proteína de 100 aminoáci-dos, considerando sólo tres conformaciones posibles por cada residuo (en un modelo sim-pli�cado), el espacio de búsqueda es de 3100 con�guraciones. Tomando una tasa de 1013

con�guraciones por segundo, la proteína necesitaría 1027 años para evaluar cuál es la másestable. Esto contradice los resultados experimentales que muestran que las proteínas sepliegan en microsegundos o segundos (entre 10−6 hasta 102 segundos).

2.4. Problema de la predicción de la estructura terciariade la proteína

Los problemas relacionados con la estructura de la proteína pueden agruparse en lassiguientes líneas de investigación: predicción de la estructura secundaria, reconocimientode motivos estructurales, problema de replegado de la proteína, predicción de la estruc-tura terciaria, problema inverso o diseño de proteínas y el problema relacionado al diseñoracional de medicamentos.

En ocasiones, los términos problema de replegado de proteína (en inglés, Protein Fold-ing Problem, PFP) y problema de predicción de la estructura terciaria (en inglés , ProteinStructure Prediction, PSP) se utilizan indistintamente, sin embargo existe una diferenciasigni�cativa entre ellos. El primero tiene que ver con una simulación dinámica del procesopor el cual una secuencia se repliega hasta alcanzar su estado nativo o estructura tridimen-


sional. El segundo problema trata solamente con las estructuras �nales sin involucrarse conlas intermedias.

El problema de predicción de la estructura terciaria puede resumirse con la siguientepregunta: dada la secuencia lineal de aminoácidos que conforma una proteína, cuál es laestructura tridimensional correspondiente?

2.4.1. Métodos experimentales

Los métodos experimentales utilizados actualmente para determinar la estructura ter-ciaria de una proteína, son la Cristalografía de Rayos X y la Resonancia Magnética Nuclear.El primero de ellos, permite obtener abundante información estructural pero la deter-minación de las condiciones de cristalización es muy complicada. Además el proceso decristalización puede producir deformaciones en la estructura, por lo cual, la informacióndebe ser cuidadosamente analizada. La resonancia magnética permite analizar las proteínasen solución pero provee información solamente sobre algunos tipos de átomos. Por último,se pierde detalle estructural y se deben asumir elementos como la geometría del esqueletode la proteína.

Como consecuencia de estas limitaciones, hoy en día existe una importante diferenciaentre la cantidad de información disponible de secuencias de proteínas y de sus respectivasconformaciones espaciales. Aun cuando los métodos mencionados anteriormente generaninformación de alta resolución acerca de la estructura terciaria de un subconjunto de lasproteínas, la aplicación de métodos computacionales de predicción de estructuras puedeaportar información de mucho valor para la gran fracción de secuencias cuyas estructurasno pueden ser determinadas experimentalmente.


2.4.2. Métodos computacionales

Los enfoques que se han considerado para abordar el problema de replegado de lasproteínas se clasi�can en tres grupos: i) modelado por homología, ii) reconocimiento deplegado, e iii) predicción ab initio. Los dos primeros pertenecen a la clase de métodoscomparativos, en los que dada una secuencia de aminoácidos, se utilizan secuencias similarescon estructuras conocidas para determinar la estructura asociada. Este enfoque es posibleya que un pequeño cambio en la secuencia resulta, usualmente, en un cambio reducido enla estructura tridimensional.

Modelado por homología La idea de este método es encontrar una secuencia en unabase de datos como PDB [5] con una homología en la secuencia mayor que 25-30% ycon estructura conocida, basado en el hecho de que proteínas muy relacionadas tienenun plegado bastante similar. Las proteínas homólogas tienen estructuras semejanteso desempeñan funciones idénticas o similares aunque provengan de especies distintas,por derivar, quizás, de un ancestro común. La desventaja de esta estrategia es quepara cada secuencia desconocida debe existir un homólogo conocido en la base dedatos.

Reconocimiento de plegado Cuando la homología es baja (menos que el 30%), peropuede conseguirse algún homólogo conocido distante, se utiliza éste como estructurainicial semilla, para luego hacer re�namientos. Este método se usa bajo la premisaque existe un número limitado de plegados nativos (se estiman en unos 4.000).

Predicción ab initio Cuando no existe una homología conocida, se utiliza este métodobasado en principios físicos y energéticos para realizar una búsqueda a través delespacio conformacional. Los modelos usados para aplicar este método son muchomás sencillos que las proteínas reales: generalmente están basados en modelos queutilizan reticulados o modelos reducidos sin reticulados, que simpli�can el potencialde energía.


Actualmente la mayoría de los métodos exitosos para la predicción de la estructuraterciaria combinan el modelado comparativo basado en homología y el reconocimiento delplegado. Por otra parte, métodos recientes denominados reconocimientos novel de plegadosusan la predicción ab initio junto con la homología de secuencias. La idea de estos métodoses aplicar la predicción de la estructura secundaria usando los potenciales derivados delacceso a bases de datos de proteínas, el aprovechamiento de fragmentos de otras estructurasexistentes, así como el alineamiento múltiple con varias estructuras objetivo.

2.5. Modelos de proteínas para la predicción de la es-tructura

Las proteínas representan sistemas muy complejos para permitir una modelización exac-ta, por lo tanto los métodos computacionales que permiten indagar tanto en las propiedadescuantitativas como cualitativas de las proteínas debe ser realizado sobre modelos reducidos.

De acuerdo a Lyngso y Pedersen [42] un modelo para el estudio de proteínas en estadonativo es relevante si re�eja alguna de las propiedades del proceso de formación de laestructura terciaria en el sistema real. Una de las propiedades requeridas es la equivalenciavisual entre la estructura predecida por el modelo y la estructura real; otra, se re�ere ala equivalencia de comportamiento entre el modelo y el sistema real. De acuerdo con lahipótesis termodinámica, el estado nativo de una proteína se corresponde con el estadode mínima energía libre y por esta razón, los modelos basados en energía especi�can unafunción de costo que asigna un valor de energía libre a cada estructura válida. Se asumeque la estructura terciaria de la proteína se corresponderá entonces a aquella conformaciónque minimice la función de energía.

Dentro de este tipo de modelos simpli�cados para representar las proteínas, existenvarios elementos básicos que deben ser tomados en cuenta para obtener las equivalenciasantes planteadas:


1. El número y tipo de aminoácidos a considerar

2. La forma de representación de las proteínas replegadas

3. La función de energía que mide una estructura en particular

El primer aspecto se re�ere a que no todos los modelos utilizan un alfabeto de tamaño20 para representar las estructuras terciarias, como ocurre en la naturaleza. En cuantoa la forma de representar las proteínas, existen modelos on-lattice que utilizan distintosreticulados o rejillas (ver �g. 2.4) para restringir la conformación espacial de las estructuras,mientras que otros menos limitados son los denominados o�-lattice. Para especi�car lasconformaciones en estos modelos, se utilizan coordenadas cartesianas, coordenadas internaso una matriz de distancias.

Coordenadas cartesianas Cada aminoácido se representa con 2 ó 3 coordenadas, de-pendiendo si la estructura pertenece al plano o al espacio tridimensional.

Coordenadas internas La posición de cada aminoácido se de�ne en términos de susvecinos, especi�cando distancias, direcciones y/o ángulos. Las coordenadas internaspueden ser absolutas (con respecto al aminoácido inmediato anterior, por ejemplo:Arriba, Abajo, Derecha, Izquierda) o relativas (con respecto a los dos aminoácidosanteriores, por ejemplo, Adelante, Izquierda, Derecha).

Matriz de distancias Describe la estructura en términos de una matriz que contiene lasdistancias para cada par de aminoácidos.

Por último, la función de energía permite medir la calidad de las estructuras, con-siderando generalmente las distancias y/o interacciones entre aminoácidos. Tanto la formade representar una proteína en estado nativo, como la función de energía a considerar,están relacionados a un factor importante dentro del modelo: la formación de estructurasválidas, es decir, el hecho de restringir la concatenación de aminoácidos de acuerdo a ciertoscriterios.


Reticulado

2D

3D

CuadradoTriangular

DiamanteCúbico simple

Cúbico de caras centradas

Figura 2.4: Clasi�cación de los reticulados según su forma geométrica

2.5.1. Modelo HP

El modelo más simple para el problema de predicción de la estructura, es el llamadomodelo HP (Hidrofóbico-Polar) propuesto por Dill [12], que asume el efecto hidrófobo delos aminoácidos como la fuerza principal que determina el replegado. Así, los 20 aminoá-cidos existentes en la naturaleza para formar las proteínas son clasi�cados en dos tipos:hidrofóbicos (H), que tienden a ocupar el centro de la proteína, manteniéndose cerca unode otro para evitar estar expuestos al agua, y polares o hidrofílicos (P), los cuales sonatraídos por el agua y se encuentran frecuentemente en la super�cie del replegado.

Este modelo se aplica generalmente sobre reticulados, y por ende, utiliza coordenadasinternas para modelar las estructuras terciarias de las proteínas. Esto es, �jada la posi-ción del aminoácido i, existen δ valores para representar la posición del i + 1 aminoácido,dependiendo del reticulado utilizado (cuadrado, triangular, cúbico, diamante, etc.) y deltipo de coordenadas internas. Por ejemplo, en el caso de coordenadas absolutas, supong-amos que en un reticulado cuadrado 2D ya se ha ubicado el primer aminoácido. Entonces,para el segundo aminoácido, existen δ = 3 posiciones posibles, las cuales provienen delconjunto de direcciones Arriba, Abajo, Izquierda, Derecha o, utilizando las iniciales en in-glés, {U,D, L, R} que indican la posición respecto al predecesor en la cadena. Bajo estemodelo una estructura queda entonces representada por una cadena C ∈ {U,D, L,R}+.Potencialmente, existen δn posibles estructuras asociadas a una secuencia de longitud n yel problema de predicción implica encontrar la mejor de acuerdo a la función de energía.


En el caso del reticulado cuadrado 2D, utilizando coordenadas relativas, la estructurade la cadena modelada de la proteína se representa por una cadena C ∈ {L,R, F}n−2 quecontiene una codi�cación formada por L, R y F para denotar un giro a la izquierda (Left),giro a la derecha (Right) y hacia delante (Forward), respectivamente. Dada una cadenaS ∈ {H,P}n , el aminoácido i + 1, (i = 2, ..., n) se coloca usando alguno de éstos términosrelativos a la dirección del enlace de los aminoácidos i−1 e i. Los dos primeros aminoácidos(i = 1, 2) se mantienen �jos para de�nir el sistema de coordenadas relativas. Los ángulos detorsión de los enlaces peptídicos entre los aminoácidos o residuos están entonces restringidosa un conjunto �nito determinado por la �gura del reticulado. Asumiendo un reticuladocuadrado, el ángulo sería de 90 grados.

La correspondencia entre aminoácidos y las posiciones que ocupan dentro del reticuladose denomina encajado o empotramiento (en inglés, embedding) de la proteína, y cuando estacorrespondencia es inyectiva se denomina camino simple, sin intersecciones (en inglés, self-avoiding), lo que signi�ca que no existen dos aminoácidos que ocupen la misma posición (laestructura no tiene cruces). De aquí se establece que el espacio de conformaciones válidasestá restringido a caminos que no se entrecruzan en un reticulado especí�co, con cadaaminoácido alojado en un vértice.

La función de energía utilizada, solo tiene en cuenta las interacciones entre aminoácidosadyacentes en el reticulado, pero no consecutivos en la secuencia (vecinos topológicos) Cadainteracción se denomina contacto. Las unidades hidrofóbicas que están adyacentes en elreticulado pero no adyacentes en la secuencia primaria incrementan un factor negativoconstante (-1) y todas las otras interacciones son ignoradas. El estado nativo entoncespuede ser considerado como el de energía global mínima.

Formalmente, dada una secuencia con n aminoácidos, S = (s1, s2, . . . , sn), con si ∈{H,P}, un replegado para S, Replegado(S) = X = (x1, x2, . . . , xn) dispuesto en un retic-


ulado, y una matriz de interacción ε(si, sj), la función de energía está dada por:

(2.1) E(S,X) =∑

i

∑j>i+1

εi,j ×∆(xi, xj)

donde ∆(xi, xj) = 1 si xi y xj son adyacentes en el reticulado y no consecutivos en lacadena y 0 en caso contrario. El término εi,j = ε(si, sj) es el valor de la �la i, columna j

en la matriz de interacción ε, que se muestra en la tabla 2.2.

H PH -1 0P 0 0

Tabla 2.2: Matriz de interacción del modelo HP

Con estos elementos se establece que resolver el problema de predicción de la estructuraterciaria utilizando el modelo HP es equivalente a minimizar la función de energía E. Deforma equivalente, se puede plantear como objetivo maximizar el número de contactos H-Hno locales.

La �gura 2.5 muestra un ejemplo de una instancia del modelo HP en un reticulado 2Dcuadrado.

Entre las ventajas que ofrece el modelo HP puede destacarse la capacidad del mis-mo para capturar uno de los elementos fundamentales del proceso de replegado: las in-teracciones hidrofóbicas. En la �gura 2.5 puede observarse que las unidades hidrofóbicasconforman el centro de la proteína, mientras que las polares se mantienen en la super�cie.Estudios realizados a partir del análisis de bases de datos de estructuras de proteínas realesdemostraron que la distribución de residuos hidrofóbicos en estas estructuras reales son muysimilares a las que predice el modelo HP 2D [27, 56]. Por otra parte, el reducido número deaminoácidos que se consideran permite calcular resultados exactos para secuencias cortasutilizando la enumeración de conformaciones.

Las limitaciones del modelo HP están asociadas a su simplicidad y han generado algunas


Figura 2.5: Representación en un reticulado cuadrado 2D de una instancia aplicando elmodelo HP. Los ¤ representan aminoácidos polares (P) y los ¥ representan aminoácidoshidrofóbicos (H). La secuencia es: S = HPHPPHHPHPPHPHHPPHPH y las estruc-tura se puede codi�car como C = RDDLULDLDLUURULURRD (utilizando coorde-nadas absolutas o C = RFRRLLRLRRFRLLRRFR (utilizando coordenadas relativas).La estructura tiene 9 contactos (energía -9), los cuales se indican con líneas de puntos.

extensiones. Por una parte, existen algunos aminoácidos (por ej. P, C y A) que por suscaracterísticas son difíciles de clasi�car como hidrofóbicos o polares. Esta limitación ha dadoorigen a otras variantes como el modelo HPNX [6], en el cual el número de aminoácidos seextiende a 4 tipos. Por otra parte, la función de energía ha sido modi�cada en otros estudios,como el modelo funcional propuesto en [21], considerando otras matrices de interacción,por ejemplo, un valor positivo para interacciones entre aminoácidos polares.

2.5.2. Complejidad computacional del problema

Varios autores han estudiado la complejidad del problema de predicción de la estructuraterciaria y han probado que encontrar la conformación que proporciona la energía mínimaen una proteína es NP-hard aún para modelos de reticulados muy sencillos [16, 63, 8, 4, 2].Los modelos considerados varían en cuanto a la dimensión, el reticulado para representarlas conformaciones, el alfabeto de aminoácidos y la fórmula de la energía.

En 1993, Fraenkel [16] mostró que un modelo con un alfabeto de tres tipos de aminoá-cidos en un reticulado cúbico es NP-hard desde el problema de matching 3D. En el mismoaño, Unger y Moult [63] utilizan un modelo similar al de Dill en tres dimensiones y prueban


su NP-completitud. Posteriormente, en 1998, en [8] se demostró que el problema de predic-ción de estructuras terciarias en el modelo HP en dos dimensiones es NP-completo y en [4]lo mostraron para el reticulado cúbico. Por último, en 1999, Atkins y Hart [2] muestranque una versión del problema en reticulados 3D, cuyas instancias contienen hasta 12 tiposde aminoácidos, es NP-hard.

3. SISTEMAS-L Y ALGORITMOS EVOLUTIVOS

Las matemáticas son el alfabeto con el cual Dios ha escrito el

Universo. Galileo Galilei

La mayoría de las ideas fundamentales de la ciencia son esencial-

mente sencillas y, por regla general pueden ser expresadas en un

lenguaje comprensible para todos. Albert Einstein

Nada tiene sentido en Biología si no es a la luz de la Evolución.

Theodosius Dobzhansky

Este capítulo contiene los aspectos computacionales que fueron aplicados en este estu-dio: sistemas de Lindenmayer y algoritmos evolutivos. Se presenta una revisión de trabajosrealizados por diversos autores que combinan los algoritmos genéticos con los sistemasde Lindenmayer, así como también de estrategias utilizadas para tratar de solucionar elproblema de predicción de la estructura terciaria de las proteínas.

3.1. Sistemas de Lindenmayer

El concepto de Sistema de Lindenmayer (Sistema-L) fue concebido en 1968 por Aris-tid Lindenmayer (1925-1989), un biólogo que trabajó en la construcción de un modelomatemático de crecimiento biológico, estudiando levaduras y hongos. En un principio elmodelo fue desarrollado para estudiar organismos simples multicelulares, en concreto, paradescribir el crecimiento de un Cyanobacterium �lamentoso (alga verde), pero posterior-mente se usó también para investigar las plantas y sus órganos.

Los Sistemas-L se basan en la reescritura de código que se genera a partir de una es-tructura sencilla, sustituyendo partes de la misma con la aplicación de determinadas reglas,

3. SISTEMAS-L Y ALGORITMOS EVOLUTIVOS 29

de tal manera que a cada nivel de recursión o iteración, la estructura aumenta su comple-jidad. Las reglas de producción de las nuevas partes pueden ser las mismas que se usaronpara crear las partes anteriores. De esta forma se pueden crear formas en las cuales cadaparte de la misma se parece al total, lo que se conoce como autosimilitud. En general,una estructura es autosimilar o autosemejante si puede ser construida como una reuniónde estructuras, cada una de las cuales es una copia de la original a tamaño reducido (unaimagen de la estructura original mediante una semejanza contractiva). Al respecto, Man-delbrot [43] de�ne la autosimilitud haciendo referencia a un proceso generativo, tal como lacurva de Koch (Fig. 3.1) como sigue: Cuando cada pieza de una �gura es geométricamentesimilar al todo, tanto la �gura como la cascada que la genera son llamadas autosimilares.

Figura 3.1: Formación de la Curva de Koch

Un Sistema-L está formalmente constituido por: a) un alfabeto, b) un axioma, c) unasreglas de producción y, eventualmente, d) un conjunto de parámetros. El axioma es lacadena que describe el sistema en su estado inicial; las reglas de producción son las trans-formaciones que serán aplicadas al axioma y, sucesivamente, a las cadenas resultantes.

Formalmente [53]: Denotemos V a un alfabeto, V ∗ al conjunto de todas las palabrassobre V , y V + el conjunto de todas las palabras no vacías sobre V . Un sistema−L es unatripleta ordenada G = 〈V, ω, P 〉, donde V es el alfabeto, ω ∈ V + es una palabra no vacíallamada el axioma y P ⊂ V × V ∗ es un conjunto �nito de producciones. Si un par (a, χ)


es una producción, se escribe a → χ. La letra a y la palabra χ son llamados predecesor ysucesor de esta producción, respectivamente. Se asume que para cada letra a ∈ V , existeal menos una palabra χ ∈ V ∗ tal que a → χ. Si no se especi�ca de manera explícita unaproducción para un predecesor dado a ∈ V , se asume la produccion identidad a → a

corresponde al conjunto de producciones P . Un sistema-0L es determinístico (Sistema-DOL) si y solo si para cada a ∈ V existe exactamente una χ ∈ V ∗ tal que a → χ.

El proceso de derivación de un Sistema-L puede ser establecido como sigue: Dado µ =

a1 . . . am una palabra arbitraria sobre V . Diremos que la palabra ν = χ1 . . . χn ∈ V ∗

es derivada directamente de (o generada por) µ, y escribe µ ⇒ ν, si y solo si ai → χi

para todo i = 1, . . . , m. Una palabra ν es generada por G en una derivación de largo n

si existe una secuencia de desarrollo de palabras µ0, µ1, . . . , µn tal que µ0 = ω, µn = ν

and µ0 ⇒ µ1 ⇒ . . . µn. Esto signi�ca que, en cada iteración, la aplicación de las reglasde producción se realiza de manera simultánea a cada letra de la cadena de entrada aque corresponda. Esta propiedad re�eja el origen biológico de los sistemas L, y es lo quediferencia esta gramática de la de Chomsky. En las gramáticas propuestas por Chomsky [7]las reglas de producción son aplicadas secuencialmente, mientras que en los Sistemas-L, sonaplicadas en paralelo, reemplazando simultáneamente todas las letras en una palabra dada.Las producciones intentan capturar la división de la célula en organismos multicelulares,en la que pueden ocurrir varias divisiones al mismo tiempo.

Los símbolos básicos que representan las letras del alfabeto se interpretan grá�camentecomo movimientos similares a la tortuga del lenguaje LOGO, a través de la ejecución detrazados simples. La tabla 3.1 muestra la interpretación de estos trazados en coordenadas2D. Las operaciones de apilar y desapilar son opcionales y conforman un Sistema-L quepermite modelar rami�caciones. En algunos casos, se agregan otros símbolos, de acuerdo ala especi�cidad del problema.


Símbolo Signi�cadoF Mover hacia adelante y dibujar un segmento de líneaf Mover hacia adelante sin dibujar un segmento- Rotar hacia la izquierda un ángulo de α grados+ Rotar hacia la derecha un ángulo de α grados[ Apilar la posición actual] Desapilar y retornar al último estado

Tabla 3.1: Interpretación de los movimientos para un alfabeto básico de Sistema-L.

3.1.1. Clasi�cación de Sistemas-L

Los Sistemas-L pueden clasi�carse en libres de contexto y sensitivos al contexto, deacuerdo a si las reglas de producción se re�eren solo a un símbolo individual, o a unsímbolo en particular sólo si tiene una cierta vecindad. Los sistemas-L también puedenclasi�carse en determinísticos o no-determinísticos, de acuerdo a si existe sólo una regla deproducción para cada símbolo, o existen varias, y cada una es seleccionada con una ciertaprobabilidad durante cada iteración. Finalmente, los Sistemas-L pueden ser paramétricossi existen parámetros numéricos asociados con los símbolos o reglas de producción.

Los Sistemas-D0L (determinísticos y libres de contexto) son la clase más sencilla deSistemas-L. Para comprender la idea básica de este tipo de Sistemas-L, consideremos elejemplo dado por Prusinkiewicz and Lindenmayer [53](ver Figura 3.2). Se tiene un alfabetode dos letras a y b con las que se construirán cadenas. Cada letra puede aparecer variasveces en la cadena, y cada una representa una regla de reescritura especí�ca. La reglaa → ab signi�ca que la letra a se reemplazará por la cadena ab, y la regla b → a signi�caque la letra b se reemplazará por a. El proceso de reescritura comienza a partir de unacadena denominada axioma. Asumamos que ésta consiste en una letra simple b. En elprimer paso de derivación, el axioma b es reemplazado usando la producción b → a. Enel segundo paso, a es reemplazado por ab usando la producción a → ab. La palabra ab

consiste en dos letras, cada una de ellas es reemplazada simultáneamente en el próximopaso de derivación. Luego, a es sustituída por ab, b es reemplazada por a, y se obtiene la


cadena aba. De manera similar, la cadena aba se convierte en abaab, que luego cambia aabaababa, luego abaababaabaab, y así sucesivamente.

Sistema-L: determinístico, libre de contextoAlfabeto: {a,b}Axioma:

Reglas de producción: a® ; bNúmero de iteraciones: 6

®

b

ab a

b

a

ab

aba

ab aba

ab ababa a

ab abab ab aba a a

Figura 3.2: Proceso de derivación de un Sistema-D0L

3.1.2. El problema inverso de los Sistemas-L

De acuerdo a su motivación biológica, el proceso de obtener un Sistema-L adecuado aun objeto cualquiera, sigue, en general, los siguientes pasos [52]:

Observación del desarrollo de los organismos.

Identi�cación de los tipos de células o componentes cuyo comportamiento respectoal desarrollo es diferente.

Identi�cación de las normas de desarrollo de cada parte (cómo en el estado siguientecada tipo de célula se transforma).

Identi�cación de otras características: ¾se necesita información del contexto?, ¾elcomportamiento cambia en función del entorno?

La respuesta a estas preguntas permite el diseño de un Sistema-L de un tipo concreto, quese desarrolla de forma similar al organismo de partida. Por lo tanto, estos criterios pueden


utilizarse para crear un modelo de un objeto natural o arti�cial, basado en gramáticas dereescritura paralela.

Sin embargo, en la práctica, seguir los pasos mencionados y generar un modelo quedescriba una instancia natural o arti�cial no siempre es fácil, especialmente lo que se re�erea establecer las reglas de producción. Esto se debe, en parte, a la �exibilidad intrínseca yla característica recursiva de los Sistemas-L, notando que un pequeño cambio en una delas gramáticas genera un cambio mayor en el proceso de derivación. Esto ha dado origen alproblema de inferencia o problema inverso con relación a los Sistemas-L [53], cuyo objetivoes encontrar la descripción basada en reglas que mejor represente a una instancia.

3.1.3. Proteínas, Sistemas-L y Fractales

En 1975, Mandelbrot denominó fractales al conjunto de formas que, generadas normal-mente por un proceso repetitivo, se caracterizan por poseer detalle a toda escala, por tenerlongitud in�nita, por no ser diferenciables y por exhibir dimensión fraccional. Adicional-mente, construyó con ellas un conjunto de nuevas reglas para explorar la geometría de lanaturaleza y las reconoció como herramientas potencialmente útiles para analizar un grannúmero de fenómenos físicos [51].

Muchos fractales (o al menos sus aproximaciones �nitas) pueden ser consideradas comosecuencias de elementos primitivos, por ejemplo, segmentos de líneas. En este contexto,existe una relación bastante estrecha entre Sistemas-L y fractales. Para producir fractales,las cadenas generadas por los Sistemas-L deben contener la información necesaria acercade la geometría de la �gura. La interpretación de las cadenas, basada en los movimientosde la tortuga, antes mencionados, pueden ser usados para producir imágenes de fractales.

En [55] se sugiere que los patrones recurrentes y la característica heterogeneidad quepresenta la estructura terciaria de las proteínas pueden ser descritos por fractales. La aso-ciación puede hacerse considerando las características de auto-similitud que presentan los


fractales a diferentes niveles de escala, en concordancia a la representación de las diversasetapas del replegado. La naturaleza fractal está también asociada con el ADN y la fre-cuencia de los genes del mismo determina la estructura de la proteína. De igual manera,se presentan patrones repetitivos en señales emanadas de sistemas biológicos, tales comolos electrocardiogramas y encefalogramas, o incluso en las estructuras básicas de algunosórganos humanos, como los riñones, o en la forma como se dividen y sub-dividen las arterias[67].

Uno de los procedimientos para caracterizar e incluso para clasi�car los objetos frac-tales consiste en atribuir a cada uno de ellos una cantidad numérica, la dimensión fractal.En sistemas físicos, la dimensión fractal re�eja algunas propiedades del sistema. Las car-acterísticas físicas de algunos cuerpos están relacionadas con la dimensión fractal de sussuper�cies. Por ejemplo, el patrón de crecimiento de una bacteria tiene una dimensiónfractal de 1,7 y la dimensión fractal de las nubes es de 1,30 a 1,33, en copos de nieve es de1,7, y en plantas y árboles, de 1,28 a 1,90 [60]. En cuanto a algunas proteínas, la dimensiónfractal de la lisozima de clara de huevo is 1,614, en la hemoglobina es de 1,583, y para lamioglobina 1,728 [26].

Zou y colaboradores [69] realizaron un estudio sobre la dimensionalidad fractal de lasproteínas, en el que concluyen acerca de la di�cultad de de�nir un modelo general parauna proteína larga por su estructura no homogénea y la ausencia de una auto-similitudcompleta. Está claro que la dimensionalidad fractal de una subestructura α-hélice y unahoja-β son diferentes, lo que determina que caracterizar una molécula genérica de proteínaque contenga tanto estructuras α-hélices como hojas-β por su dimensión fractal y clasi�carfractales en términos de su dimensionalidad fractal no es fácil. Una proteína en estadonativo no presenta un estado de desorden completo, ni un estado de orden completo, dadoque contiene tanto estructuras regulares (las estructuras secundarias) como irregulares.Luego, el fractal puede estar bien de�nido para proteínas pequeñas o para secuencias cortasen proteínas largas con estructura homogénea.

De acuerdo a Galloway[18], la forma helicoidal es una de las favoritas de la naturaleza:


se adopta en el mundo vivo en cada nivel anatómico y �siológico y existe como formaestructural casi universal. Considerando que la aplicación más importante en la que sehan involucrado los Sistemas-L han sido formas vegetales, podemos observar que la formade espiral de las α-hélices proteicas recuerda los zarcillos de la vid, que no son más querami�caciones enroscadas de plantas trepadoras que permiten a la planta la posibilidad desujetarse a las super�cies.

3.2. Algoritmos Evolutivos

Un algoritmo evolutivo (AE) es un término genérico usado para denominar cualquieralgoritmo de optimización metaheurístico basado en una población, que usa mecanismosinspirados en la evolución biológica, tales como los operadores genéticos de selección, mu-tación y recombinación. Los métodos de optimización metaheurísticos o métodos de búsque-da adaptativos, pueden considerarse como un conjunto de reglas para decidir qué soluciónpotencial del espacio de búsqueda debe ser subsecuentemente generada y probada en elproceso de búsqueda.

Existen distintas variaciones de los algoritmos evolutivos, entre los que se destacan losalgoritmos genéticos [22], la programación genética [32] y la programación evolutiva [37]. Laidea general de un algoritmo evolutivo es mantener una población o conjunto de individuosque representan soluciones candidatas al problema planteado. La aptitud de cada individuoen la población para resolver el problema, se mide de acuerdo a una función objetivo.Para evolucionar los individuos, la población es sujeta a variación genética por medio deoperadores de mutación, recombinación y selección, a través de un proceso iterativo quegenera soluciones mejores. La Fig. 3.3 muestra los pasos generales que cumple un algoritmoevolutivo.

Cuando se aplica un algoritmo evolutivo para la resolución de un problema dado, debende�nirse los siguientes aspectos: (i) la codi�cación de las soluciones potenciales, que rep-


begin

repeat until do

od

end

INICIALIZAR la población con soluciones candidatas aleatorias;EVALUAR cada candidato;

(CONDICIÓN DE TERMINACIÓN se satisfaga)1 SELECCIONAR padres;2 RECOMBINAR pares de padres;3 MUTAR los descendientes resultantes;4 EVALUAR los nuevos candidatos;5 SELECCIONAR los individuos para la próxima generación;

Figura 3.3: Pseudocódigo del esquema general de un algoritmo evolutivo

resentarán los individuos, (ii) la función objetivo, (iii) los operadores genéticos, y (iv)asignación de los parámetros del algoritmo, en cuanto a tamaño de la población, tasas demutación y cruce, entre otros). El desempeño del algoritmo evolutivo está determinado porestos elementos.

Una de las ventajas que ofrecen los algoritmos evolutivos sobre otros métodos tradi-cionales de solución de problemas es que son robustos [19], de manera que pueden seraplicados a diferentes problemas como una �caja negra� manipulando simplemente códigosque representan las variables de decisión, en vez de estar restringidos por la informaciónespecí�ca del problema. Aun cuando esta generalidad es aplicable a problemas de di�cul-tad media, la tendencia es cada vez mayor a introducir conocimiento del problema paramejorar el desempeño del algoritmo. Por último, el hecho de que los algoritmos evolutivosrealicen la búsqueda en una población de soluciones en la cual se mantiene una ampliadiversidad, hace que los mismos sean particularmente útiles en problemas cuyo espacio desolución es extremadamente grande para que una búsqueda exhaustiva sea práctica o entodo caso, posible. El grado de aleatoriedad dentro del proceso ayuda a mantener la tomade decisiones libre de sesgo en situaciones donde nada indica qué selección podría ser mejor.

3.3. Algoritmos Evolutivos y Sistemas-L

Varios investigadores han estudiado los bene�cios de aplicar algoritmos evolutivos alproceso de generación de Sistemas-L en diferentes áreas de la biología, medicina, arqui-


tectura, ingeniería y computación grá�ca. En este contexto, la producción de estructurasvegetales evolucionando Sistemas-L [44, 28, 48, 46, 30, 9, 13, 10] ha sido el caso más anal-izado y experimentado, y los resultados han demostrado la utilidad de combinar estas dosherramientas de origen biológico, tanto para obtener modelos similares a los encontradosen la naturaleza, como en la generación de diseños arti�ciales con características nuevas.

En particular, en [48] se aplicaron algoritmos genéticos y Sistemas-D0L rami�cadospara simular la evolución de plantas arti�ciales en 2D. En este trabajo se consideraronvarias hipótesis relacionadas con cinco factores que afectan de mayor manera la evoluciónde las especies vegetales, a �n de crear una función de aptitud adaptada a la estructuranatural de las mismas. De manera similar, en [46] se presenta un algoritmo evolutivo conrepresentaciones basadas en Sistemas-L libres de contexto para generar plantas arti�cialespara mundos virtuales, permitiendo la intervención humana (�jardinero virtual�) y la simu-lación de la adaptación de plantas para aumentar al máximo la función de aptitud, que estádada por una ecuación que relaciona el ancho y el alto de la planta, con motivación estética.En ambos estudios, el genotipo o cromosoma considerado para el algoritmo genético es larepresentación compacta del Sistema-L, que consiste en una sola regla de producción.

Por otra parte, en [29] se presentan los resultados obtenidos al aplicar Sistemas-Lparamétricos y libres de contexto, con algoritmos evolutivos para inferir la circulación desangre en la retina humana, lo cual puede ser aplicado a pacientes diabéticos que deben sermonitoreados por largos períodos de tiempo. La idea que se propone es crear una descrip-ción individual de la circulación sanguínea en la retina para cada paciente, representada através de una imagen, utilizando un equipo oftalmológico con tecnología láser. Posterior-mente, a través del L-system paramétrico se obtiene el patrón más cercano al árbol vasculardel paciente, lo que puede ser almacenado y usado luego para hacer comparaciones, y re-quiere menos memoria que guardar la imagen. Esto es un ejemplo de problema inverso deSistema-L, en el que se tiene una imagen y se desea encontrar la conformación gramáticaque la describe. Para agilizar la convergencia del algoritmo, se utilizaron secuencias espe-ciales, que los autores proponen de acuerdo a especi�cidades del árbol vascular sanguíneo,


en donde se pueden observar tres formaciones: doblamiento, rami�cación y bifurcación, quefueron expresadas, cada una, en una regla de producción �ja, que incluye un símbolo querepresenta una única regla modi�cable en el proceso evolutivo.

Hornby y colaboradores [23, 25, 24], aplicaron en distintos problemas la noción de diseñogenerativo, que se de�ne como la utilización de Sistemas-L con algoritmos evolutivos paraautomatizar la tarea de diseño reusando módulos. Se ha mostrado que un esquema decodi�cación generativa o gramatical, es decir, una codi�cación que especi�ca cómo construirel fenotipo, en vez de una codi�cación directa del mismo, puede lograr mayor escalabilidada través de estructuras auto-similares y jerárquicas [3, 24]. Adicionalmente, al reutilizarpartes del genotipo cuando se genera el fenotipo, una codi�cación generativa resulta enuna representación más compacta de una solución. Es así, como en [23] se utilizó estemecanismo para demostrar por primera vez un sistema generativo para robots locomotores2D modulares y sus controladores. Al alfabeto básico utilizado para los Sistemas-L, seadicionaron otros símbolos para designar uniones (juntas), ciclos y repeticiones de bloquesde símbolos.

En [24] se explora la idea de combinar Sistemas-L con algoritmos evolutivos para crearespeci�caciones generativas, en este caso, aplicado al problema de generar diseños de mue-bles. El sistema utilizado consta de tres fases. Primero actúa el diseñador y evaluador,que construye un modelo a partir de una secuencia de comandos tomados del lenguaje dediseño. Luego, el diseño es evaluado antes de ser codi�cado por un Sistema-L paramétricoy libre de contexto, con un número predeterminado de reglas de producción y un número�jo de argumentos y longitud de producción. Los operadores de mutación implementadosfueron: (i) reemplazar un comando con otro, (ii) perturbar el parámetro de un comandoadicionando/sustrayendo un valor pequeño, (iii) cambiar la ecuación de un parámetro auna producción, (iv) insertar/eliminar una secuencia de comandos en un sucesor, (v) cam-biar la ecuación de la condición, o (vi) encapsular un bloque de comandos convirtiendoloen una regla de producción no usada previamente). Los operadores de recombinación im-plementados fueron: (i) reemplazar un sucesor del hijo con el sucesor de uno de los padres,


(ii) insertar una subsecuencia de comandos de un sucesor de uno de los padres en el hijo, o(iii) reemplazar una subsecuencia de comandos en un sucesor del hijo con una subsecuenciade comandos de un sucesor de uno de los padres. Por último, la calidad de los mueblesgenerados se miden por la función de aptitud que se expresa según las características de laestructura: altura, super�cie, estabilidad y exceso.

En el campo de la computación grá�ca, Noser y otros [47] exponen una aplicación deSistemas-L dependiente del tiempo, paramétrica, condicional y estocástica en donde inter-viene un algoritmo genético para modelar y animar escenas virtuales en 3D. Los símbolosque conforman el alfabeto tienen una edad y sólo pueden ser reemplazados por una reglacuando llegan a su edad máxima. Adicionalmente, estos símbolos pueden tener asociadasunas funciones de crecimiento (atributos) que determinan su comportamiento durante eltiempo de vida. Cada regla tiene asociadas condiciones que dependen de los parámetrosde símbolos heredados y algunas funciones sensibles al ambiente. Todas estas característi-cas proporcionan las condiciones ideales para implementar el factor creativo dentro de laanimación.

Rudolph y Alber [54] presentaron un trabajo en el que se discuten gramáticas similares alos Sistemas-L, demostrando su utilidad en el diseño de torres de transmisión. Para facilitarla representación de las posibles soluciones los autores proponen una gramática basada engrafos no dirigidos en vez de cadenas, en la que cada nodo (símbolo) es un componentematerial y la aplicación de una regla de producción se expresa mediante el reemplazo de unsubgrafo por un nodo. Las características que se consideraron para generar los fenotiposrelacionados a las gramáticas fueron: el número máximo de iteraciones posibles, el axioma,las reglas con la parte iniciadora, la generadora y las restricciones y el orden de aplicaciónde las reglas. Se implementaron varios operadores genéticos, como la mutación de reglas,la permutación (cambios en el orden de las reglas), la eliminación de una regla, la adiciónde una nueva regla generada aleatoriamente, la alteración en el número de iteraciones y elcruce para intercambiar reglas.


3.4. Métodos utilizados para solucionar el Problema dePredicción de la Estructura Terciaria

Algunos métodos para la predicción ab initio (ver capítulo 2, sección 2.4.2) de la es-tructura terciaria, incluyen diferentes estrategias de optimización global y metaheurísticas.En primer lugar, pueden encontrarse simulaciones de la dinámica molecular que proporcio-nan un esquema detallado de la naturaleza de las interacciones inter-atómicas con respectoa la estructura y función de las proteínas [58]. De igual manera, varios estudios utilizansimulaciones de Monte Carlo que comparan energías por medio de las probabilidades deBoltzmann [62, 41, 68]. Por otra parte, también se han utilizado algoritmos evolutivos quese basan en la relación que existe entre los genes que componen las proteínas y los genesque representan los individuos en un algoritmo evolutivo (Proteínas ← Genes → Algorit-mo Evolutivo ) [59] para mantener una población diversa de posibles soluciones. En otrosestudios, se han utilizado otras metaheurísticas, como la Búsqueda Tabú [38]. Por último,se han realizado estudios exhaustivos o semi-exhaustivos basados en reticulados que usanuna representación aproximada y exploran todo o gran cantidad del espacio conformacionaldado por la representación de modelos de proteínas [11, 66, 20].

El primer trabajo en el que se trata de resolver el PSP mediante un algoritmo genéticoes el que presentó Schulze-Kremer en 1992 [58], en el que aplicó un modelo sin reticula-dos y evolucionó individuos que consistían en números reales para representar 10 ángulosde torsión entre enlaces peptídicos que conectan a los aminoácidos de una proteína real.Los resultados reportaron que, aun cuando se obtuvieron �buenas� soluciones, medidas entérminos de energía, los fenotipos de las mismas distaban considerablemente de la estruc-tura tridimensional de la proteína objetivo, debido en parte a que la función de aptitudutilizada no guiaba de manera adecuada la evolución a través de las generaciones [45]. Latendencia, a consecuencia de estos resultados, es la utilización de un modelo más sencillopara representar la proteína replegada, de manera de estudiar primero las característicasdel problema y su adaptación a los algoritmos genéticos, antes que tratar de resolverlo.


3.4.1. Algoritmos Evolutivos para el Problema de Predicción dela Estructura Terciaria usando el Modelo HP

El uso de algoritmos evolutivos en combinación con una simpli�cación del problemade predicción de la estructura terciaria, el modelo HP, consiste en los siguientes elementos[33]:

Instancia Una proteína representada como una cadena sobre el alfabeto {H, P} (S ∈{H, P}∗).

Solución Una conformación que representa un camino que no se entrecruza sobre unreticulado 2D o 3D, en términos de coordenadas absolutas o relativas. Correspondea los individuos o cromosomas del algoritmo genético.

Medida El número de contactos entre H's que son vecinos topológicos (vecinos en elreticulado pero no consecutivos en S).

Además de estos elementos, en los trabajos que se citan a continuación, se utilizaron dis-tintos operadores genéticos, diferentes criterios de �nalización del algoritmo, combinacióncon otras estrategias, conocimiento adicional sobre el problema, y otras técnicas que permi-tieron estudiar el problema y obtener resultados prometedores para proteínas compuestaspor no más de 100 aminoácidos. Es importante destacar que todos los algoritmos presenta-dos hasta ahora tienen en común la utilización de una codi�cación directa (no generativa)para representar el cromosoma.

Unger y Moult [64] propusieron en 1993 un algoritmo genético para el problema depredicción de la estructura terciaria usando el modelo HP, reticulados cuadrados y cúbicos,con una codi�cación de coordenadas internas absolutas. Los operadores genéticos fueronprogramados de manera que sólo se consideraran conformaciones válidas. Sus experimen-tos, usando varias instancias de prueba, permitieron determinar que el algoritmo genético


propuesto producía mejores resultados que un algoritmo basado en el método de MonteCarlo.

En 1995, Patton y colaboradores [50] presentaron un algoritmo genético estándar quesupera de manera signi�cativa el trabajo de Unger y Moult. Los autores utilizaron unacodi�cación interna relativa, que garantiza que todas las soluciones no se entrecruzan enun paso (debido a que no está de�nido un movimiento de regreso). La función de aptituddiseñada adiciona una penalización si dos o más aminoácidos ocupan la misma posiciónen el reticulado. Se utiliza una alta probabilidad de cruce y una baja probabilidad demutación. Por último, para mantener la diversidad de la población, los autores aplicanprocedimientos de reducción de incesto, de manera de evitar el cruce entre dos individuoscon genotipo similar.

Krasnogor et. al. [34] compararon las codi�caciones de coordenadas relativas y absolu-tas, de�niendo un conjunto de isomor�smos entre operadores de movimiento aplicando losdos códigos. Los resultados de sus experimentos indican una superioridad de la codi�caciónrelativa.

Podría decirse que el subproblema de diseñar operadores genéticos adecuados paratratar el problema de predicción de la estructura terciaria en el modelo HP es uno de lospuntos más tratados en trabajos recientes, debido a la di�cultad de encontrar una manerade que la mezcla e intercambio de partes entre los cromosomas capturen las subpartes quepueden descomponerse independientemente, lo cual no es posible en el caso de las proteínas,ya que éstas se repliegan de una manera cooperativa [59]. Krasnogor et. al. [36] evaluaronempíricamente la utilidad de los operadores evolutivos para el problema del replegadode proteínas con el modelo HP, obteniendo como resultado que la mejor combinaciónde parámetros debería tener una baja probabilidad de cruce y una alta probabilidad demutación y macromutación. Sus resultados sugieren que el cruce de un punto no es capazde transferir los bloque de construcción de padres a descendientes.


König y Dandekar [31] proponen una estrategia de búsqueda local para mejorar eldesempeño del algoritmo genético simple en el modelo 2D-HP. Esta estrategia, que de-nominan cruce sistemático, aparea los mejores individuos, probando cada punto de cruceposible, seleccionando los dos mejores resultados en términos del valor de la función deaptitud, para introducirlos en la próxima generación. Los resultados mostraron que estosmétodos permitieron al algoritmo genético tener mejor desempeño que el estándar, paravarias instancias de longitudes diferentes.

Recientemente, Scapin y Lopes [57] propusieron un algoritmo genético para el 2D HP,aplicándolo a instancias de 20 a 85 aminoácidos. Las características novedosas incluyen unafunción de aptitud que aplica el concepto de radios de giro para medir el grado de com-pactación de un conjunto de aminoácidos. En cuanto a la inicialización de la población,sólo una fracción es generada de manera aleatoria. Se aplican el cruce de dos puntos;un mecanismo para deshacer los cambios producidos por una mutación, si el �tness delindividuo no mejora después de aplicarla; y un operador de optimización parcial, que selec-ciona dos aminoácidos no consecutivos y �ja sus posiciones en el reticulado, encontrandoel mejor camino que los conecta. Por último, para evitar que el algoritmo quede atrapadoen un mínimo local, cada 10 generaciones se activa un proceso denominado decimaciónque �destruye� toda la población con excepción del mejor individuo, en caso de que éste semantenga con el mismo valor.

Por último, algunos estudios realizados en simulaciones del proceso de replegado conalgoritmos evolutivos, han usado conocimiento acerca de estructura secundaria con el ob-jetivo de mejorar el comportamiento del algoritmo en instancias largas [35, 41, 33].

4. PROBLEMA INVERSO DE SISTEMAS-L PARA PROTEÍNAS

Tan capaz es nuestro entendimiento para entender las cosas altísimas y

clarísimas de la naturaleza, como los ojos de la lechuza para ver el sol.

Aristóteles

Dios no juega a los dados. Albert Einstein

No sólo Dios juega de�nitivamente a los dados, sino que además a veces los

lanza a donde no podemos verlos. Stephen Hawking.

En este capítulo se propone un modelo para generar mediante un algoritmo evolutivo,gramáticas de Sistemas-L determinísticos y libres de contexto, que representan proteínasreplegadas según el Modelo HP en un reticulado cuadrado 2D. Este modelo se basa en elconcepto de problema inverso o de inferencia de Sistemas-L, y se utilizó para estudiar laaplicabilidad de estas gramáticas en el problema de predicción de la estructura terciariade las proteínas. La idea consiste en la aplicación de un algoritmo evolutivo que, dada laestructura terciaria objetivo de una proteína representada en coordenadas relativas (en-trada), evolucione un conjunto de Sistemas-L (salida), de manera que se conforme unacadena que coincida exactamente con la estructura original. Adicionalmente, se muestranlos resultados de los experimentos realizados con el modelo y la discusión de los mismos.

4.1. Modelo con codi�cación basada en un Sistema-D0L

El modelo está basado en un algoritmo evolutivo generacional con selección por rangolineal y elitismo, que se utiliza para evolucionar una población de individuos formados porSistemas-L (un axioma y un conjunto de reglas de producción), para capturar una estruc-tura terciaria objetivo. El reemplazo generacional produce una población nueva en cadaiteración, conformada por la descendencia de los individuos seleccionados en la generación

4. PROBLEMA INVERSO DE SISTEMAS-L PARA PROTEÍNAS 45

anterior. Adicionalmente, el mejor individuo (élite), es copiado a la siguiente generación,sustituyendo algún individuo aleatoriamente.

Para evolucionar los individuos, se implementaron cuatro operadores de variación: unoperador de recombinación y tres operadores de mutación. Como criterios de parada delalgoritmo se consideraron dos casos: (i) si un individuo logra el máximo valor de la funciónobjetivo, es decir, se cumple que el sistema-L representa exactamente a la proteína reple-gada objetivo; y/o (ii) se alcanza un número máximo de generaciones prede�nido. Duranteel proceso evolutivo, el algoritmo permite con�guraciones de proteínas replegadas no váli-das, es decir, con�guraciones que representan caminos que se entrecruzan, entre las cuales,podrían mencionarse aquellas que contienen subcadenas LLL y RRR. A continuación sedetalla la codi�cación del genotipo, la inicialización de la población, los operadores genéti-cos y la evaluación de la función objetivo.

4.1.1. Representación de los individuos

El alfabeto del Sistema-L para representar los individuos depende del sistema de co-ordenadas y del reticulado. Para coordenadas relativas en un reticulado cuadrado 2D, seconsideran como caracteres terminales los símbolos {F,L, R}. Los genotipos son codi�cadosusando Sistemas-D0L con las siguientes características:

Alfabeto: Σ = ΣT ∪ΣNT donde ΣT = {F,L, R}, el conjunto de los caracteres terminalesy ΣNT = 0, 1, 2, ..., m− 1 el conjunto de los caracteres no terminales que representanm reglas de producción.

Axioma: α = S, S ∈ Σ+

Reglas de producción: W0,1,2,...,m−1 : w, donde w ∈ Σ+

El genotipo de un individuo se representa por tres elementos: (i) el axioma, (ii) el númerode reglas de producción, y (iii) un conjunto de reglas de producción. Las longitudes del


axioma y de las reglas de producción, así como el número de reglas son parámetros quedependen de la longitud del replegado objetivo. Para reducir el espacio de búsqueda, tantoel número de reglas como la longitud del axioma se mantienen �jos durante la ejecucióndel algoritmo, es decir, todos los individuos de la población tienen igual valor para estosdos parámetros. En cuanto a la longitud de las reglas de producción, los valores especí�cosde cada individuo dentro de la población puede diferir, manteniéndose dentro de límitespreestablecidos.

El fenotipo de un individuo, bajo este modelo, es una cadena de longitud l ≤ N , dondeN es la longitud del replegado objetivo, ρ = S, S ∈ ΣT , que representa la conformación deuna proteína encajada en un reticulado cuadrado y cuya medida de aptitud se calcula deacuerdo a un replegado óptimo o subóptimo objetivo. A modo de ejemplo, la Figura 4.1muestra el genotipo, fenotipo y valor de la función objetivo de un individuo.

Genotipo

Fenotipo

Replegado objetivo

:axiomanúmero de reglasreglas= {0:R03F; 1:R01L; 2:F310; 3:LRL3}

= L L

Proteína

= R2= 4

Valor función objetivo= 16

= HPHPPHHPHPPHPHHPPHPH=

Longitud= 18

RF RLLRLRRFRLLRRF

RFRRLLRLRRFRLLRRFR

Figura 4.1: Representación genética de un individuo para el modelo basado en Sistemas-L

4.1.2. Inicialización de la población

Sean NumR, LongA, y MaxLR el número de reglas de producción, la longitud delaxioma y la longitud máxima de las cadenas que representan los sucesores de las reglas,respectivamente. Un individuo de la población inicial es generado de la siguiente manera:el axioma es una cadena de símbolos generada aleatoriamente de longitud LongA, en laque cada símbolo es seleccionado del alfabeto con igual probabilidad, considerando que loscaracteres no terminales permitidos pertenecen al subconjunto de 0 a NumR − 1. Luego,


se genera cada regla de manera similar al axioma, con una longitud que se seleccionaaleatoriamente en el rango de 2 a MaxLR caracteres.

4.1.3. Operadores Genéticos

Selección

El esquema de selección implementada en el algoritmo evolutivo, denominada rangolineal, consiste en que a cada individuo de la población se le asigna un rango numéricobasado en su aptitud, y la selección se basa en este rango, en lugar de las diferenciasabsolutas en aptitud, evitando que individuos muy aptos ganen dominancia al principioa expensas de los menos aptos, lo que reduciría la diversidad genética de la población ypodría obstaculizar la búsqueda de una solución aceptable.

Selección de Pareja

En el algoritmo se utilizó una estrategia de selección denominada apareamiento variadonegativo, que permite la ocurrencia de cruces entre individuos de fenotipos similares enmenor cantidad de lo esperado por azar, lo cual constituye un mecanismo para incrementarla diversidad genética de la población. La implementación de esta selección de pareja serealizó de la siguiente manera: cuando se van a cruzar dos individuos, el primer padre seselecciona de la manera usual. Para seleccionar el segundo padre, se toma un conjunto deb (tamaño del conjunto de parejas potenciales) individuos usando el método de selecciónbasado en los valores de aptitud. Luego, se calcula la similaridad de los fenotipos entre cadauno de los b individuos y el primer padre, seleccionando aquel que tenga menor similitud.Como medida de similaridad, se utilizó la distancia de Hamming, con b = 5.


Recombinación

La operación de cruce o recombinación sexual genera variación en la población al pro-ducir nueva descendencia que se compone de partes tomadas de cada progenitor. Ademáspermite que estrategias exitosas que hayan evolucionado separadamente en individuos dis-tintos, puedan combinarse en un sólo individuo.

En el modelo propuesto, la recombinación cruza dos individuos, p1 y p2 como padresy crea un descendiente, d, copiando el axioma de p1 y seleccionando reglas de p1 y p2 conuna probabilidad de 0.5. Este operador de recombinación se asemeja al cruce uniforme, enel que los genes intercambiados son reglas completas.

La Figura 4.2 muestra un ejemplo de cómo funciona este operador. En este caso, eldescendiente d hereda del padre p1 el axioma R2 y las reglas 0 : R03F y 1 : R01L,mientras que hereda del padre p2 las reglas 2 : F310 y 3 : LRL3. Como puede observarse,este cruce resulta bene�cioso, dado que d tiene mayor valor para la función objetivo quesus dos padres.

axioma=reglas= { ; ; 2:F310; 3:LRL3}fenotipo= L Lvalor función objetivo: 16

R20:R03F 1:R01LRF RLLRLRRFRLLRRF

axioma= 02reglas= {0:LR3; 1:01L3; ; }fenotipo= LR LF LL LLvalor función objetivo: 10

2:F310 3:R3L1RRLL RR LLR R

p1

p2

+

=

axioma=reglas= { ; ; ; }fenotipo=valor función objetivo: 18

R20:R03F 1:R01L 2:F310 3:R3L1RFRRLLRLRRFRLLRRFRd

Figura 4.2: Ejemplo de una operación de recombinación para la representación basadaen Sistemas-L. Los cuadros £ representan sobreposiciones de aminoácidos en replegadosinválidos.


Mutación

La operación de mutación introduce cambios aleatorios en las estructuras de la poblacióny actúa sobre un solo cromosoma progenitor.

En el modelo se implementaron tres operadores de mutación que producen alguna de lassiguientes operaciones sobre la cadena (axioma o regla de producción) de un individuo: (i)inserción, (ii) supresión, o (iii) modi�cación de un símbolo. La inserción y la supresión desímbolos se aplican a las cadenas de longitud variable, en este caso, las reglas de producción.

Estos dos tipos de mutación están sujetos a la restricción impuesta por los valoresmínimos y máximos establecidos para limitar la longitud de las reglas de producción. Estoes, no puede aplicarse una inserción si la longitud de la regla es MaxLR. De igual manera,la supresión no se efectúa si la longitud de la regla es de 2 caracteres. Para los experimentos,a menos que se indique lo contrario, se utilizaron las siguientes probabilidades de aplicaciónde mutación en las reglas de producción: 30% inserción, 10% supresión y 60% modi�cación.

Para el axioma, siendo su longitud �ja, sólo se utilizó la mutación que genera la modi-�cación de un símbolo de la cadena por otro símbolo del alfabeto. La Figura 4.3 muestralos efectos que produce la aplicación de cada tipo de mutación: la modi�cación de un sím-bolo en el axioma; y la inserción, modi�cación y supresión de un símbolo en una regla deproducción.


axioma= R1reglas= {0:R03F; 1:R01L; 2:F310; 3:LRL3}fenotipo= R RFLRLFL Lvalor función objetivo: 9

R RR RLLR FRda

dáxioma= Rreglas= {0:R03F; 1:R01L; 2:F310; 3:LRL3}fenotipo= L Lvalor función objetivo: 16

2

RF RLLRLRRFRLLRRF

a) modificación en axioma

axioma= R2reglas= {0:R3F; 1:R01L; 2:F310; 3:LRL3}fenotipo= L LRLvalor función objetivo: 14

RF RLLRLRRFRLLRdb

dáxioma= R2reglas= {0:R 3F; 1:R01L; 2:F310; 3:LRL3}fenotipo= L Lvalor función objetivo: 16

0RF RLLRLRRFRLLRRF

b) inserción en regla

axioma= R2reglas= {0:R3F; 1:R0 1L; 2:F310; 3:LRL3}fenotipo= L FRFL RFvalor función objetivo: 11

FRF RLLRLRRF R

dc

dáxioma= R2reglas= {0:R03F; 1:R01L; 2:F310; 3:LRL3}fenotipo= L Lvalor función objetivo: 16

RF RLLRLRRFRLLRRF

c) supresión en regla

axioma= R2reglas= {0:R3F; 1:R01L; 2:F31R; 3:LRL3}fenotipo= L L L RRFLRLvalor función objetivo: 9

RF RLLRL R Rdd

dáxioma= R2reglas= {0:R03F; 1:R01L; 2:F31 ; 3:LRL3}fenotipo= L Lvalor función objetivo: 16

0RF RLLRLRRFRLLRRF

d) modificación en regla

Figura 4.3: Ejemplo de los cuatro tipos de mutación para la representación basada enSistemas-L. da, db, dc y dd son los individuos antes de aplicar la mutación, d′ es el resultadode cada uno de los tipos de mutación.


Proceso de derivación, Post-procesamiento y Cálculo de la función objetivo

Para calcular el valor de la función objetivo de un individuo, primero se deriva suSistema-L. Esto es, partiendo del axioma, se forma una cadena intermedia a la que se leaplican las reglas de producción de manera paralela e iterada, sustituyendo los caracteresno terminales (predecesores) por las cadenas sucesoras correspondientes. Al �nalizar cadaiteración, se determina si este proceso de reemplazo debe detenerse, veri�cando si algunade las siguientes condiciones ha ocurrido: (i) el número de caracteres terminales es igualo mayor a la longitud de la cadena del replegado original; o (ii) la cadena intermedia nocontiene caracteres no terminales.

Una vez terminada la etapa de �crecimiento�, ocurre una fase de post procesamiento paraobtener el fenotipo del individuo, en el que se suprimen todos los caracteres no terminalesa la cadena intermedia y su longitud se restringe a los primeros N caracteres, siendo N lalongitud de la cadena objetivo. Esta poda se realiza en virtud de que el fenotipo asociadoal problema de evolucionar proteínas se caracteriza por tener una longitud especí�ca.

Por último, dado el fenotipo del individuo, se mide su aptitud. El valor de la funciónobjetivo es el número de correspondencias entre el fenotipo obtenido y el replegado original,de manera que el valor mínimo es 0 y el máximo es N , la longitud del replegado original. LaFigura 4.4 ilustra los tres pasos que conforman el proceso de derivación para un individuoy el resultado �nal después del post-procesamiento. En este caso, el fenotipo coincideexactamente con el objetivo RFRRLLRLRRFRLLRRFR.

4.1.4. Experimentos y Resultados

Se tomaron las siete instancias de proteínas que se muestran en la Tabla 4.1, de longi-tudes entre 20 y 36 aminoácidos, usadas en trabajos anteriores relacionados con el problemade predicción de la estructura terciaria [64, 50, 41].

Debe considerarse, en este contexto, que las representaciones en coordenadas inter-


31

RFR1

Genotipo:axiomanúmero de reglasreglas= { ; ; ; }

== 4

31

0:3LL2 1:R0RL 2:RRF 3:RFR1 R0RL

RFRR0RL R RL3LL2

RFRR RL3LL2 R LL RLRFR1 RRF

RFRRLLRLRRFRLLRRFR

axioma

1era derivación

2da derivación

3era derivación

post-procesamiento

fenotipo

Replegado objetivo: RFRRLLRLRRFRLLRRFRLongitud: 18 Valor de la función objetivo=18

Figura 4.4: Proceso de derivación

Nombre Proteína LongitudIns20a HPHPPHHPHPPHPHHPPHPH 20Ins20b HHHPPHPHPHPPHPHPHPPH 20Ins20c HHHHHPHHHHHHPHHHHPHH 20Ins24 HHPPHPPHPPHPPHPPHPPHPPHH 24Ins25 PPHPPHHPPPPHHPPPPHHPPPPHH 25Ins36a PPPHHPPHHPPPPPHHHHHHHPPHHPPPPHHPPHPP 36Ins36b HPHHHHPHHPPHPHHHHPHPPHHPPHHPPHHHHHHH 36Ins36c HHHHHHHPHPHHPHPPHHPPHHPPHPHHPHPPHHPH 36

Tabla 4.1: Instancias de proteínas de prueba para el Modelo 2D HP

nas relativas de las estructuras terciarias que producen la energía mínima de una in-stancia no son únicas, por ejemplo, en el caso de la Instancia Ins20a, las con�guracionesC1=RFRRLLRLRRFRLLRRFR y C2=LFLLRRLFLLRLRRLLFL, tienen un óptimo glob-al de -9.

Para cada una de las instancias se obtuvo una representación replegada de energíamínima conocida, según el modelo HP, reticulado cuadrado 2D. Para las instancias delongitud ≤ 25, estas representaciones se obtuvieron aplicando un algoritmo de búsquedaexhaustiva, por lo que el replegado considerado es el óptimo para las mismas. Para lasinstancias de 36 aminoácidos, se tomó la solución de [41]. Las �guras 4.5 y 4.6 muestranlas representaciones grá�cas de los replegados utilizados para cada una de las instancias.


Instancia: Ins20a Instancia: Ins20bProteína: HPHPPHHPHPPHPHHPPHPH Proteína: HHHPPHPHPHPPHPHPHPPH

Aminoácidos: 20 = 10 H's y 10 P's Aminoácidos: 20 = 10 H's y 10 P'sReplegado: RFRRLLRLRRFRLLRRFR Replegado: LFLLRLFLRLLRLRLFLL

Longitud Replegado: 18 Longitud Replegado: 18Energía: -9 Energía: -10

Instancia: Ins20c Instancia: Ins24Proteína: HHHHHPHHHHHHPHHHHPHH Proteína: HHPPHPPHPPHPPHPPHPPHPPHH

Aminoácidos: 20 = 17 H's y 3 P's Aminoácidos: 24 = 10 H's y 14 P'sReplegado: LLFFLLRLFRFRRLLRRF Replegado: FFLLFFRLLRLLRFLRLLRLLF


Figura 4.5: Detalle de las instancias Ins20a, Ins20b, Ins20c e Ins24


Instancia: Ins25 Instancia: Ins36aProteína: PPHPPHHPPPPHHPPPPHHPPPPHH Proteína: PPPHHPPHHPPPPPHHHHHHHPPHHPPPPHHPPHPP

Aminoácidos: 25 = 9 H's y 16 P's Aminoácidos: 36 = 16 H's y 20 P'sReplegado: FLRRLFFRRFLFFRRFLFFRRFF Replegado: RFRRLLRFLRLLFLRRLLRFRRLLRRFRLLRRLL


Instancia: Ins36b Instancia: Ins36cProteína: HPHHHHPHHPPHPHHHHPHPPHHPPHHPPHHHHHHH Proteína: HHHHHHHPHPHHPHPPHHPPHHPPHPHHPHPPHHPH

Aminoácidos: 36 = 24 H's y 12 P's Aminoácidos: 36 = 22 H's y 14 P'sReplegado: RRFRLLRRLLFLFRRFLFLLRRLLRRLLFLFRRF Replegado: LLFRLRRFRLLRFRRLLRRLLRRFRLLRFRRLLR


Figura 4.6: Detalle de las instancias Ins25, Ins36a, Ins36b e Ins36c


Cada uno de los replegados obtenidos constituyeron las cadenas objetivo para el algo-ritmo evolutivo, usando los parámetros listados en la Tabla 4.2.

Parámetro ValorNúmero máximo de generaciones 1000

Tamaño de la Población 100Tasa de Mutación (por símbolo) axioma 0.02Tasa de Mutación (por símbolo) reglas 0.02

Tasa de Recombinación 0.5Selección Rango lineal

Selección de pareja Variada negativa (5)Número de Reglas (NumR) 3-8

Longitud del Axioma (LongA) 3-6Longitud Máxima de las Reglas (MaxLR) 4-8

Tabla 4.2: Valores de los parámetros usados para los experimentos del modelo basado enSistema-D0L.

La tabla 4.3 muestra el número de éxitos obtenidos para cada instancia, así como losparámetros asociados a la codi�cación del sistema-D0L utilizado. Puede observarse que,para las instancias de mayor longitud, el algoritmo evolutivo presenta un menor desempeño,debido a la complejidad creciente del problema. Sin embargo, es de hacer notar que incluso,entre instancias de igual longitud (Ins20a, Ins20b, Ins20c), el comportamiento del algoritmodi�ere signi�cativamente, debido probablemente a que algunas instancias muestran unmenor grado de modularidad, por lo que son más di�cil de captar a través de un sistema-L.

Las tablas desde 4.4, hasta 4.11 contienen la descripción de algunos Sistemas-L re-sultantes de las corridas con cada una de las instancias, que representan exactamente elreplegado objetivo. Obsérvese que en algunos casos, no se aplican todas las reglas del con-junto obtenido, por ejemplo, la regla 0:R11 de la solución 3 que se muestra en la tabla4.5. Aquellos resultados cuyas reglas son más cortas (o que aplican efectivamente menornúmero de reglas) pueden ser considerados como los mejores, en virtud de que debe re-alizarse un número mayor de derivaciones para obtener el fenotipo del individuo, lo queindica un sistema-L más compacto y modular.


Instancia Long. replegado Éxitos LongA NumR MaxLRIns20a 18 19/50 3 4 5Ins20b 18 24/50 3 4 5Ins20c 18 6/50 3 4 5Ins24 22 5/50 3 5 5Ins25 23 4/50 3 5 5Ins36a 34 2/50 6 8 8Ins36b 34 4/50 6 8 8Ins36c 34 3/50 6 8 8

Tabla 4.3: Resultados obtenidos de 50 corridas para las 8 instancias.Éxitos indica el númerode veces que el algoritmo encontró exactamente el replegado objetivo

Solución Axioma Reglas1 212 0:FR1L; 1:RLLR; 2:R03; 3:22F2 R11 0:1F1RL; 1:FR3R; 2:L22R0; 3:R2LR3 02R 0:RF; 1:1LR; 2:R3; 3:RL1034 100 0:3LLR; 1:32LR1; 2:RL3; 3:RF0R5 2RF 0:32002; 1:LR; 2:R012; 3:FR2LL6 RF3 0:R1RF; 1:LR; 2:302R; 3:2RLL7 022 0:2RLL1; 1:RL2R; 2:RF0R; 3:1L18 R2R 0:10R; 1:R0LL3; 2:F1RR2; 3:0RL9 R20 0:LR3; 1:R1L1; 2:F1R3; 3:RF110 1L3 0:RLLR; 1:3LR2L; 2:3FR; 3:R20

Tabla 4.4: Resultados para el replegado de Ins20a


Solución Axioma Reglas1 012 0:2LF; 1:3L33; 2:LFLLR; 3:32L1R2 LF1 0:R3; 1:30LL; 2:LRL; 3:L2F223 3R3 0:R11; 1:LF2L; 2:LLR13; 3:1RL4 0LL 0:01L; 1:32F3; 2:010L; 3:LR35 L2L 0:R23; 1:F2LRL; 2:120L; 3:12F36 13L 0:313; 1:LF2L; 2:L31R; 3:LR07 LF2 0:3LRL; 1:1020F; 2:01L2R; 3:32L8 231 0:L33F; 1:LLR0L; 2:LF1; 3:RL09 021 0:LFL2; 1:003; 2:L3R2; 3:FLRLL10 101 0:F2L22; 1:L02L; 2:LR; 3:2F

Tabla 4.5: Resultados para el replegado de Ins20b

Solución Axioma Reglas1 L21 0:L2010; 1:L1R; 2:0F31F; 3:RFRR2 2F0 0:F22L1; 1:L13R; 2:310R; 3:L3F3 L0F 0:L2F13; 1:RFRR; 2:F23L; 3:L3R4 022 0:L0F10; 1:LLR; 2:R3LR; 3:FRRL5 LL2 0:00LR; 1:F10L2; 2:1F31R; 3:RRL0R6 LL2 0:0RLFR; 1:RR21; 2:312LL; 3:FF20F

Tabla 4.6: Resultados para el replegado de Ins20c

Solución Axioma Reglas1 121 0:R3340; 1:FF3R; 2:LL02; 3:212; 4:F033L2 F43 0:L2L; 1:304R; 2:LR0F; 3:30R; 4:FLLFF3 FF4 0:L21; 1:LLR; 2:FF3R; 3:1F41L; 4:L030R4 1F3 0:4LL4; 1:0323; 2:R1FL; 3:R03L; 4:FF5 F11 0:FL1R; 1:2R0LL; 2:F3411; 3:LL; 4:2FF

Tabla 4.7: Resultados para el replegado de Ins24


Solución Axioma Reglas1 F23 0:RLF1L; 1:FRR3; 2:LR03L; 3:F12 F2F 0:FRR; 1:LF0F3; 2:LRR1; 3:1F3 FL3 0:12RL0; 1:4F2L; 2:LFF3; 3:RR4; 4:222F4 FL4 0:FL4RF; 1:FRLF; 2:3R; 3:R40L; 4:3FFR25 10F 0:21LF; 1:F422; 2:0FRRF; 3:F11; 4:LRR6 21R 0:3RLF; 1:4R1FL; 2:0F4; 3:31FLR; 4:R1FF

Tabla 4.8: Resultados para el replegado de Ins25

Solución Axioma Reglas1 RF5RF6 0:RF1LR; 1:5LRL6; 2:R1F5R; 3:L02RF6L; 4:LRFLF66L; 5:RRL36L5; 6:5R2LL5F; 7:1FR2R2L

2 RFR131 0:6FR26RLL; 1:317FLR3; 2:4073; 3:0R4LLR; 4:6R4F73R; 5:R4LRLR; 6:1R35R5; 7:L371L4

Tabla 4.9: Resultados para el replegado de Ins36a

Solución Axioma Reglas1 23351F 0:LL27FL4F; 1:04RL4L; 2:3F; 3:1RR0345; 4:FL3FL437; 5:35L24R32; 6:R462RF; 7:271RR04

2 RRF3L7 0:F6R57FLF; 1:6F25; 2:24RR7; 3:3R7LL61; 4:FL0; 5:LR030; 6:4126F5L; 7:R66532

3 6252R5 0:7RF43105; 1:RR40626; 2:L12LF17; 3:23F7R67; 4:0LRR050; 5:74L; 6:1FRL; 7:FL

4 RRF40F 0:F32R4F3; 1:RFFR605; 2:24L2FLL; 3:1LFRRF; 4:RLLRRLL; 5:7R37; 6:0105FR; 7:F30F233

Tabla 4.10: Resultados para el replegado de Ins36b

Solución Axioma Reglas1 LL7336 0:LR2R; 1:FFF642L; 2:LR6R276; 3:06RF4RL; 4:RRLLR; 5:12F51R31; 6:FR0L55L; 7:FR

2 LLF720 0:FR737; 1:632LF3R; 2:R03512F; 3:LR27; 4:FR0RF2L; 5:3FR73; 6:R00L7; 7:R3L

3 LLFR01 0:LRR3R3; 1:FRL7LR; 2:RR2L16LR; 3:1FRRLL2; 4:RF632L; 5:F3R63LRR; 6:RLR273R5; 7:RRFR54FL

Tabla 4.11: Resultados para el replegado de Ins36c


Estudio de la Tasa de Recombinación

Con el �n de visualizar el efecto que produce la tasa de recombinación en la evolución dela población para las ocho instancias, se gra�caron las curvas que representan los valoresde las funciones objetivo para cada una de las instancias, usando 5 tasas diferentes derecombinación (Figs. 4.7 y 4.8). Para este experimento, se consideró una tasa de mutaciónpor símbolo para el axioma de 0,02 (100% modi�cación) y para las reglas 0,02 (60%modi�cación, 30% inserción y 10% supresión).

Como puede observarse en la Fig. 4.7, el desempeño del algoritmo evolutivo sobre lasinstancias Ins20a, Ins20c e Ins24 son superiores para una tasa de recombinación igual a0,5. En el caso de la Ins20b una tasa de recombinación de 0,75 demostró ser más favorable.

En la Fig. 4.8, el algoritmo muestra un mejor desempeño para la instancia Ins25 cuandola tasa de recombinación es 0,75. Para las 3 instancias cuyos replegados tienen longitud34, los resultados di�eren con respecto a las demás instancias, ya que una tasa de recom-binación 0,25 produce mejores individuos en promedio. Por último, puede notarse que engeneral, una tasa de recombinación máxima (tasa=1,0) o mínima (tasa=0,0) no se consid-eran bene�ciosas para la evolución de las instancias en estas condiciones.


0 100 200 300 400 500 600 700 800 900 100011

12

13

14

15

16

17

18

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins20a

Sin RecombRecomb=0,25Recomb=0,5Recomb=0,75Recomb=1,0

0 100 200 300 400 500 600 700 800 900 100011

12

13

14

15

16

17

18

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins20b


0 100 200 300 400 500 600 700 800 900 100010

11

12

13

14

15

16

17

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins20c


0 100 200 300 400 500 600 700 800 900 100012

13

14

15

16

17

18

19

20

21

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins24


Figura 4.7: Evolución del mejor individuo a través de las generaciones para las instanciasIns20a, Ins20b, Ins20c e Ins24, usando 5 tasas diferentes de recombinación


0 100 200 300 400 500 600 700 800 900 100013

14

15

16

17

18

19

20

21

22

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins25


0 100 200 300 400 500 600 700 800 900 100018

20

22

24

26

28

30

32

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins36a


0 100 200 300 400 500 600 700 800 900 100018

20

22

24

26

28

30

32

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins36b


0 100 200 300 400 500 600 700 800 900 100018

20

22

24

26

28

30

32

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins36c


Figura 4.8: Evolución del mejor individuo a través de las generaciones para las instanciasIns25, Ins36a, Ins36b e Ins36c, usando 5 tasas diferentes de recombinación


Estudio de los Tipos de Selección de Pareja

El esquema de selección de pareja se estudió para observar el efecto de cruzar individ-uos de fenotipos similares, disimilares o escogidos aleatoriamente, para la representaciónpropuesta. Se ha argumentado que la estrategia de selección denominada variada negati-va, que favorece el cruce entre individuos de fenotipos disimilares, permite incrementar lavariabilidad dentro de la población [15].

En las �guras 4.9 y 4.10 se muestran las grá�cas de la evolución del mejor individuopromedio para cada instancia. Para las primeras cuatro instancias (Ins20a, Ins20b, Ins20ce Ins24) la selección variada negativa, usando una tasa de recombinación de 0,5 se obtuvoun mejor desempeño del algoritmo evolutivo. Por otra parte, para las cuatro instancias demayor longitud (Ins25, Ins36a, Ins36b e Ins36c), la selección aleatoria con tasa de recombi-nación igual a 0,5 resultó más bene�ciosa. En general, la selección variada positiva demostrótener un efecto poco favorable para la producción de las instancias, independientementede las tasas de recombinación consideradas.


0 100 200 300 400 500 600 700 800 900 100011

12

13

14

15

16

17

18

Generación

Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins20a

Sin RecombAleatoria/Recomb=0,5Positiva/Recomb=0,5Negativa/Recomb=0,5Aleatoria/Recomb=1Positiva/Recomb=1Negativa/Recomb=1

0 100 200 300 400 500 600 700 800 900 100011

12

13

14

15

16

17

18

Generación

Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins20b


0 100 200 300 400 500 600 700 800 900 100010

11

12

13

14

15

16

17

Generación

Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins20c


0 100 200 300 400 500 600 700 800 900 100012

13

14

15

16

17

18

19

20

21

Generación

Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins24


Figura 4.9: Evolución del mejor individuo a través de las generaciones para las instanciasIns20a, Ins20b, Ins20c e Ins24, usando 3 diferentes estrategias de Selección de pareja


0 100 200 300 400 500 600 700 800 900 100013

14

15

16

17

18

19

20

21

22

Generación

Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins25


0 100 200 300 400 500 600 700 800 900 100018

20

22

24

26

28

30

32

Generación

Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins36a


0 100 200 300 400 500 600 700 800 900 100018

20

22

24

26

28

30

32

Generación

Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins36b


0 100 200 300 400 500 600 700 800 900 100018

20

22

24

26

28

30

32

Generación

Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins36c


Figura 4.10: Evolución del mejor individuo a través de las generaciones para las instanciasIns25, Ins36a, Ins36b e Ins36c, usando 3 diferentes estrategias de Selección de pareja

4.2. Agregando conocimiento al Modelo propuesto

Con el �n de adaptar con mayor precisión el modelo propuesto a las conformacionestridimensionales de proteínas reales, y por ende, mejorar el desempeño del algoritmo evo-lutivo, se consideró agregar al modelo conocimiento acerca de las estructuras secundariasdenominadas α-hélices.


La idea consistió en introducir 2 reglas pre�jadas que no sufren mutaciones durante elproceso evolutivo. Las reglas pre�jadas son 0 : RRLL y 1 : LLRR, que modelan un girosencillo de un α-hélice orientado a la derecha (α0) y a la izquierda (α1), respectivamente(Figura 4.11). Desde el punto de vista de los movimientos de tortuga adaptados al reticuladocuadrado 2D, y utilizando coordenadas internas, la regla que representa un (α0) puedeverse como un movimiento compuesto RRLL que puede extenderse varias veces de manerarepetitiva. De la misma manera ocurre para la regla que representa un (α1), pero en sentidocontrario.

La estructura secundaria conocida como hebra-β en el reticulado cuadrado 2D puederepresentarse como subcadenas de F s, así que esta conformación se captura pre�jando unaregla como 3 : F3, sin embargo, no se tomó en cuenta para este experimento debido a queninguna de las 8 instancias contenía una estructura secundaria de este tipo.

Figura 4.11: Estructuras secundarias adaptadas al reticulado cuadrado 2D para el modelocon codi�cación de Sistema-D0L mejorado: (a) α-hélice orientado a la derecha, α0 : RRLL;(b) α-hélice orientado a la izquierda α1 : LLRR, (c) hebra -β, 3 : F3 (no considerada)

La tabla 4.12 muestra una comparación del número de corridas exitosas obtenidas,manteniendo los mismos valores para los parámetros citados en 4.2, con excepción al númerode reglas (NumR) al que se le sumaron las dos reglas �jas. Esta tabla también resume lasestructuras secundarias presentes en cada instancia. Nótese que las 8 instancias en estudio, 3no presentan ninguna estructura secundaria y las otras 5 presentan al menos una ocurrenciade estructura α-hélice. Se indican aquellas módulos que están compuestos por movimientoscompuestos repetitivos.

De la tabla 4.12 se puede observar que las instancias en las que están presentes lasestructuras secundarias (Ins20a, Ins20c, Ins36a, Ins36b e Ins36c) la nueva codi�cación


produce para la mayoría de los casos una número superior de éxitos. Para las Ins36a eIns36c, los resultados son similares, sin embargo, al gra�car el comportamiento promediodel mejor individuo a través de las generaciones, para ambas instancias (ver Figura 4.12)se puede notar un mejor desempeño en promedio del modelo con conocimiento agregado.

Instancia Estructura Secundaria Modelo sin conocimiento Modelo con conocimientoIns20a α0, α1 19/50 27/50Ins20b No tiene 24/50 8/50Ins20c α0 rep. 6/50 7/50Ins24 No tiene 5/50 0/50Ins25 No tiene 4/50 1/50Ins36a 2× α0, α0 rep., α1 rep. 2/50 2/50Ins36b 2× α1 rep. 4/50 7/50Ins36c α0 rep., α0 3/50 2/50

Tabla 4.12: Comparación del número de corridas exitosas usando el modelo de reglas libresy el modelo con conocimiento agregado en forma de 2 reglas �jas. Se indican las estructurassecundarias α0 y α1 presentes, �rep.� indica que el módulo se repite más de 1 vez.

De aquí, puede obtenerse evidencia que sugiere que incorporar conocimiento acerca deldominio en la forma de reglas prediseñadas que capturen las subestructuras secundarias,podría mejorar el desempeño, debido a que las mismas pueden verse como los bloquesde construcción de las proteínas, por su grado signi�cativo de arquitectura modular y sucapacidad de replegarse de manera autónoma.


0 100 200 300 400 500 600 700 800 900 100018

20

22

24

26

28

30

32

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins36a

Modelo Sin conocim.Modelo Con conocim.

0 100 200 300 400 500 600 700 800 900 100018

20

22

24

26

28

30

32

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins36c

Modelo Sin conocim.Modelo Con conocim.

Figura 4.12: Evolución del mejor individuo a través de las generaciones para las instanciasIns36a e Ins36c aplicando los modelos sin y con conocimiento


4.3. Discusión

Los experimentos realizados en este capítulo, aplicando el modelo propuesto basado enlos Sistemas-L, permitieron comprobar que esta codi�cación puede utilizarse para repre-sentar genéticamente proteínas replegadas según el modelo HP en un algoritmo evolutivopara instancias de longitud ≤ 36. Es de hacer notar que el algoritmo utilizado permite laconstrucción de soluciones no válidas, incluso soluciones de menor longitud que la del reple-gado objetivo. Por otra parte, la función de aptitud, siendo considerablemente restrictiva(el replegado candidato debe coincidir exactamente con el original), permite la obtencióndel óptimo en algunas corridas. Para el modelo con conocimiento agregado, se demostróque la introducción de reglas pre�jadas que representaran las estructuras secundarias pre-sentes en las proteínas, permite mejorar el desempeño del algoritmo. De acuerdo a lascaracterísticas propias de la instancia HP, como la presencia de estructuras secundarias,simetría, etc., los reultados del algoritmo pueden verse afectados.

5. PREDICCIÓN DEL REPLEGADO DE LAS PROTEÍNAS

La naturaleza no hace nada super�uo, nada inútil, y sabe sacar múltiples

efectos de una sola causa. Copérnico

En lo pequeño está lo grande. El niño contiene al hombre, el cerebro es estrecho

y alberga el pensamiento, el ojo es un punto y abarca leguas. Alejandro Dumas

El hombre encuentra a Dios detrás de cada puerta que la ciencia logra abrir.

Albert Einstein

Este capítulo presenta los resultados de aplicar un algoritmo de búsqueda exhaustivay dos algoritmos evolutivos con diferente codi�cación genética al problema de obtenerla con�guración óptima, que supone el estado nativo, de proteínas simpli�cadas según elmodelo HP y encajadas en un reticulado cuadrado 2D. Uno de los algoritmos evolutivos fuepropuesto en el capítulo 4, sección 4.2, y está basado en una codi�cación de Sistema-D0L,con reglas �jas que re�ejan conocimiento acerca de las estructuras secundarias presentesen las proteínas.

5.1. Desempeño de un algoritmo de optimización globaly un algoritmo evolutivo

5.1.1. Algoritmo de Rami�cación y Poda

Como primera aproximación para resolver el problema de predicción de la estructuraterciaria de las proteínas se utilizó un algoritmo de rami�cación y poda aplicado sobreinstancias HP de longitud L ≤ 36.

El algoritmo de rami�cación y poda (en inglés, Branch and Bound), es un método

5. PREDICCIÓN DEL REPLEGADO DE LAS PROTEÍNAS 70

computacional general para la búsqueda de soluciones óptimas a diversos problemas deoptimización, especialmente de optimización discreta y combinatoria. La idea general delalgoritmo está basada en la estrategia de �divide y conquista�, ya que se debe particionar elespacio de soluciones en subproblemas más pequeños, de acuerdo a ciertas restricciones yluego para cada partición se obtiene una cota inferior (superior) del valor de la función quese va a minimizar (maximizar). El algoritmo se aplica recursivamente a los subproblemas,generando un árbol. Si se consigue una solución óptima a un subproblema, la misma esuna solución factible para todo el problema, pero no necesariamente un óptimo global.Siendo factible, puede ser usada para podar el resto de la rama del árbol: si la cota mínima(máxima) de un nodo es mayor (menor) a la mejor solución factible conocida, no puedeexistir una solución óptima global en el subespacio de la región factible representada porel nodo, por lo tanto, éste puede ser removido. La búsqueda se desarrolla hasta que todoslos nodos han sido solucionados o podados, o hasta alcanzar un umbral especí�co entre lamejor solución encontrada y las cotas en todos los subproblemas no resueltos.

Dill y otros [11] usaron algoritmos de búsqueda exhaustiva en sus análisis sobre laspropiedades biológicas y químicas del modelo HP. La ine�ciencia de este método, producidapor un tiempo de ejecución exponencial de acuerdo a la longitud de la proteína, apenaspermitió su aplicación con secuencias cortas, de largo ≤ 30. En [66] se presenta un algoritmobasado en la técnica de rami�cación y poda, que los autores denominaron CHCC, pararesolver el problema de predicción usando el modelo HP.

Hart e Istrail [20] propusieron una cota superior al número de enlaces H-H no localesque contiene el replegado de una proteína considerando el modelo HP en el reticuladocuadrado 2D. Esta cota está dada por:

(5.1) opt(S) ≤ 2×mı́n{|hpares(S)|, |himpares(S)|}+ 2

donde opt(S) es el número máximo de enlaces H-H no locales de un replegado de la secuenciaS; hpares(S) y himpares(S) denotan el conjunto de aminoácidos hidrofóbicos en posiciones


pares e impares, respectivamente. La derivación de esta fórmula se obtiene observando queun aminoácido hidrofóbico puede formar a lo más dos enlaces H-H en este reticulado,excepto si se encuentra en un extremo de la secuencia, en cuyo caso puede formar a lo mástres enlaces. Por otra parte, estos enlaces H-H sólo pueden formarse entre dos aminoácidoshidrofóbicos S[i] e S[j], si y solo si i es par y j impar o viceversa. Obsérvese además que S[i]y S[j] sólo pueden formar un enlace si |i− j| ≥ 3.

Dado que la e�ciencia de un algoritmo de rami�cación y poda es el resultado de lacalidad del criterio usado para podar el espacio conformacional, la cota del número máx-imo de enlaces utilizada en la implementación del algoritmo para resolver el problemade predicción de la estructura terciaria, consistió en una mejora de la ecuación 5.1. Lasuma del término 2 en la ecuación, depende si efectivamente los extremos consisten deH's, además, el término a sumar puede ser 0, 1 ó 2, dependiendo si los extremos H's de lacadena pertenecen al conjunto de menos elementos. A manera de ejemplo, consideremosla instancia Ins25, S = PPHPPHHPPPPHHPPPPHHPPPPHH, |hpares(S)| = 5 y|himpares(S)| = 4 el límite superior de enlaces aplicando la ecuación 5.1, daría opt(S) = 10,y con la versión mejorada sería opt(S) = 8, ya que el 1er caracter de la cadena es una P yel último es una H que pertenece a hpares(S).

5.1.2. Algoritmo evolutivo con codi�cación estándar

La codi�cación genética utilizada en el algoritmo evolutivo para representar las po-tenciales soluciones al problema del replegado óptimo, consistió en cadenas formadas porcaracteres del alfabeto {F,L, R}, que representan los movimientos en coordenadas internasrelativas sobre un reticulado cuadrado 2D. Los operadores genéticos implementados fueronlos tradicionales: la mutación por símbolo y la recombinación de 2 puntos.

La función objetivo del algoritmo evolutivo está diseñada para promover, a través dela maximización del número de contactos H-H no locales, la formación de una proteínareplegada cuyos aminoácidos centrales sean hidrofóbicos. Además, la función penaliza la


sobreposición de aminoácidos que originan conformaciones no válidas. El valor de la funciónobjetivo f de una estructura proteica dada s, se determina de acuerdo a la siguienteecuación:

(5.2) f(s) = nH(s)− ρ× nL(s),

donde ρ es el término de penalización que corresponde al límite superior de contactosH-H no locales, dado por la Ec. 5.1 y nL es el número de intersecciones que presenta laestructura.

Los parámetros utilizados para las corridas del algoritmo evolutivo, se muestran en latabla 5.1.

Parámetro ValorReemplazo de la población Generacional

Esquema de selección Torneo (tamaño 2)Tamaño de la población 100

Tasa de Mutación 0.8/L (L=longitud replegado)Tasa de Recombinación Sin recombinaciónCriterio de Terminación 500 generaciones sin mejora

Tabla 5.1: Valores de los parámetros usados para el algoritmo evolutivo con codi�caciónestándar.

5.1.3. Comparación del desempeño

Con el �n de observar el desempeño de un algoritmo de rami�cación y poda, y un algo-ritmo evolutivo, aplicados al problema de predicción de la estructura terciaria en instanciascortas, se seleccionaron las primeras 6 instancias HP de la tabla 4.1, capítulo 4. Estas in-stancias, de longitudes entre 25 y 36 aminoácidos, fueron utilizadas como datos de entradaen ambos algoritmos para obtener la con�guración óptima en un reticulado cuadrado 2D,es decir, la que produzca una energía mínima, o lo que es equivalente, el número máximode enlaces H-H no locales.


La tabla 5.2 muestra los resultados obtenidos para cada instancia, ejecutando ambosprogramas en un computador Pentium IV, de 2.8Ghz. Debido a que el algoritmo de rami-�cación y poda consiste en una estrategia de optimización global y el algoritmo evolutivo,es un método heurístico, y por ende, no garantiza la búsqueda de un óptimo global, serealizaron 20 corridas del algoritmo evolutivo. El tiempo de CPU, medido en segundos,indica el tiempo de utilización del procesador para una implementación del algoritmo derami�cación y poda, y el tiempo promedio de las corridas exitosas del algoritmo evolutivo.

Para las instancias de longitud≤ 25 el algoritmo de rami�cación y poda encontró elóptimo en un tiempo considerablamente mayor que las corridas exitosas del algoritmoevolutivo. En el caso de la instancia de longitud 36, el algoritmo de búsqueda exhaustivase detuvo después de 12 horas de ejecución, sin haber logrado el óptimo global. Por otraparte, debido a que el algoritmo evolutivo no obtuvo el óptimo en las 20 corridas usandolos valores de los parámetros listados en la tabla 5.1, se requirió utilizar una población de300 individuos y una tasa de recombinación de 0,6/L.

Ramif. y Poda Algoritmo EvolutivoInstancia Longitud Óptimo Tiempo (seg) Total (seg) Éxitos Exitosas (seg)Ins20a 20 9 7,968 12,391 9/20 0,733Ins20b 20 10 4,547 13,029 13/20 0,745Ins20c 20 12 8,750 11,625 5/20 0,806Ins24 24 9 393,032 13,295 5/20 0,681Ins25 25 8 121,546 13,406 1/20 1,140Ins36a 36 14 > 43200,0 60,565 1/20 4,782

Tabla 5.2: Desempeño de un algoritmo de rami�cación y poda y un algoritmo evolutivopara el problema de predicción de la estructura terciaria. Para el algoritmo evolutivo, semuestra el número de corridas exitosas de un total de 20, así como el tiempo de uso deCPU total de las 20 corridas y el tiempo de uso de CPU promedio de las corridas exitosas.


5.2. Algoritmo evolutivo con codi�cación basada enSistemas-D0L

El modelo propuesto en el capítulo 4, establece la utilización de gramáticas determinís-ticas, libres de contexto, que permiten conformar representaciones de proteínas replegadas,a través de un proceso de derivación en paralelo de caracteres no terminales, que consti-tuyen reglas de producción. Algunas de estas reglas son libres y otras son �jas y contienenconocimiento acerca de las estructuras secundarias.

La utilización de un algoritmo evolutivo basado en una codi�cación de Sistemas-Lcomo mecanismo de inferencia, permitió comprobar que es posible obtener con�guracionesóptimas para instancias cortas. Este mecanismo de inferencia fue implementado a travésde una función de aptitud que permitiera obtener un replegado objetivo conocido comoóptimo para esa instancia. Para aplicar el mismo modelo al problema de predicción de laestructura terciaria de las proteínas, se modi�có la función de aptitud para adaptarla a laecuación 5.2.

Con el �n de observar el comportamiento del algoritmo evolutivo con codi�cación basadaen Sistemas-L, y posteriormente, comparar su desempeño con el algoritmo evolutivo concodi�cación estándar, se seleccionaron algunas de las 8 instancias de proteínas, de longitudentre 36 y 85 aminoácidos, más estudiadas para resolver el problema de predicción de laestructura terciaria de las proteínas en el modelo HP 2D (ver Tablas 5.3 y 5.4).


Nombre Instancia HPIns36a PPPHHPPHHPPPPPH7PPHHPPPPHHPPHPPIns36b HPH4PHHPPHPH4PHPPHHPPHHPPH7

Ins36c H6PHPHHPHPPHHPPHHPPHPHHPHPPHHPHIns48 PPHPPHHPPHHP 5H10P 6HHPPHHPPHPPH5

Ins50 H{HP}4H4PHPPPHPPPHP 4HPPPHPPPHPH4{PH}4HIns60 PPHHHPH8PPPH10PHPPPH12PPPPH6PHHPHPIns64 H12PHPHPP{HHPP}2HPP{HHPP}2HPP{HHPP}2HPHPH12

Ins85 H4P 4H12P 6H12PPPH12PPPH12PPPHPPHHPPHHPPHPH

Tabla 5.3: Instancias de prueba según el modelo HP usadas en los experimentos paracomparar los algoritmos evolutivos con diferente codi�cación del genotipo. Para simpli�carla cadena HP, los elementos agrupados con llaves indican un grupo y, tanto para gruposcomo para elementos individuales, xr, indica que x se repite r veces.

Nombre Largo Mejor energía conocida ReferenciasIns36a 36 -14 [64, 41, 68]Ins36b 36 -21 [65]Ins36c 36 -20 [65]Ins48 48 -23 [64, 61, 41, 68]Ins50 50 -21 [64, 61, 41, 68]Ins60 60 -36 [64, 61, 62, 41, 68]Ins64 64 -42 [64, 61, 41, 68, 38]Ins85 85 -53 [31, 41, 68, 38]

Tabla 5.4: Características de las instancias de prueba usadas en los experimentos paracomparar los algoritmos evolutivos con diferente codi�cación del genotipo.


A modo de ejemplo, la tabla 5.5 contiene algunos de los resultados exitosos de aplicarel algoritmo evolutivo con codi�cación basada en Sistema-L a Ins36. Esta instancia se con-sidera especialmente difícil, y tuvieron que realizarse varias corridas con valores diferentespara los parámetros propios del algoritmo evolutivo y de los Sistemas-L. Obsérvese queninguna de las 5 soluciones que aparecen en la tabla coincide exactamente con el replegadoobjetivo utilizado en el capítulo 4, RFRRLLRFLRLLFLRRLLRFRRLLRRFRLLRRLL,sin embargo, algunas soluciones como la 1, muestra un grado de semejanza considerablecon este replegado, siendo igual en ambos, el fragmento con los últimos 21 caracteres. Porotra parte, la regla 3 de la solución 2 no se utiliza en el proceso de derivación, lo que produceuna gramática compacta, y que contiene una mayor proporción de estructuras secundarias.Por último, las soluciones 3, 4 y 5 producen soluciones muy similares, expresando cada unacon un axioma y un conjunto de reglas de producción libres diferentes.

Solución Genotipo (axioma y reglas) y fenotipo5245LR

1 0:RRLL; 1:LLRR; 2:0RF0R2L; 3:14L3RR1RFL; 4:0R013RRLL20R; 5:500F5L

FLRRLLRRLLFFLLRRLLRFRRLLRRFRLLRRLL1L5RFF

2 0:RRLL; 1:LLRR; 2:RF; 3:F1L4L3RF0L; 4:0R2R1LFL2; 5:L0FFLL024FF

LLRRLLRRLLFFLLRRLLRFRRLLRRFRLLRRLF2052LL

3 0:RRLL; 1:LLRR; 2:00R2F; 3:63R94FLR; 4:7RRR9R8; 5:RRLF16L; 6:L11L39F; 7:R78RF9R; 8:R74L12; 9:F6R68FR

RRLLRRLLRRFFRRLLRRLFLLRRLLFLRRLLRR414R8F

4 0:RRLL; 1:LLRR; 2:8F6FLFR8; 3:3LLF5FF; 4:8045R17; 5:RF93F8R; 6:6243FLF; 7:226LF8; 8:4L8LFL; 9:LFR25736

LLFLRRLLRRFFRRLLRRLFLLRRLLFLRRLLRR00R5L1

5 0:RRLL; 1:LLRR; 2:L0F0F5114RF4; 3:R0L41RF05LF; 4:3RFF2R4R; 5:41LF1L500

RRLLRRLLRRFFRRLLRRLFLLRRLLFLRRLLRR

Tabla 5.5: Genotipo y fenotipo de soluciones óptimas obtenidas para Ins36a

Los valores de los parámetros para el algoritmo evolutivo con codi�cación basada enSistemas-L, se normalizaron según se muestra en la tabla 5.6. Debido a que los parámetrospropios del Sistema-L dependen de la longitud de la instancia, estos valores para cada


instancia, se muestran en la tabla 5.7. Aunque para todas se utilizó igual número de reglas(2 �jas y 8 libres), la longitud �ja del axioma y la longitud máxima para las reglas, se�jaron en aproximadamente el 20% de la longitud de la instancia.

Parámetro ValorCriterio de Terminación 500 generaciones sin mejoraTamaño de la Población 100Tasa de Mutación axioma 1.0/L (L=longitud del replegado)Tasa de Mutación reglas 1.0/LTasa de Recombinación 0.5Estrategia de selección Ranqueo linealSelección de pareja Variada negativa (5)

Número de Reglas (NumR) 10Longitud del Axioma (LongA) 6-18

Longitud Máxima de las Reglas (MaxLR) 8-22

Tabla 5.6: Valores de los parámetros usados para el algoritmo evolutivo con codi�caciónbasada en Sistemas-L.

Instancia Longitud LongA NumR MaxLRIns36a 36 6 10 8Ins36b 36 6 10 8Ins36c 36 6 10 8Ins48 48 10 10 10Ins50 50 10 10 10Ins60 60 12 10 14Ins64 64 12 10 14Ins85 85 18 10 22

Tabla 5.7: Parámetros de los Sistemas-L para las instancias de prueba

Para establecer una tasa de mutación apropiada, en función de la longitud del replegado(L), se seleccionaron del conjunto de la tabla 5.3, las dos instancias más cortas (L = 36)y las dos instancias más largas (L = 60 y L = 85). Para cada una de estas instancias,se realizaron 1500 corridas, variando la tasa de mutación desde 0,2/L hasta 2,0/L conintervalos de 0,2/L (10 tasas diferentes), y 3 tasas de recombinación diferentes: 0, 0,5 y


1,0. El criterio de terminación en estas corridas fue la llegada a 1000 generaciones. La �gura5.1 muestra las grá�cas resultantes.

0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 28.2

8.4

8.6

8.8

9

9.2

9.4

9.6

9.8

10

10.2

Tasa de mutación por longitud del replegado

Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins36a

Sin RecombRecomb=0,5Recomb=1

0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 213.5

14

14.5

15

15.5

16

16.5


Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins36b


0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 222

23

24

25

26

27

28


Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins60


0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 227

28

29

30

31

32

33

34

35

36


Val

or d

e la

func

ión

obje

tivo

para

el m

ejor

Indi

vidu

o

Instancia: Ins85


Figura 5.1: Determinación de la tasa de mutación óptima para las Instancias Ins36a, Ins36b,Ins60 e Ins85

Estas grá�cas presentan un ruido considerable, debido probablemente a que el algoritmorealiza operaciones de mutación tanto sobre la cadena que representa el axioma (que es delongitud �ja), así como también sobre las cadenas que representan las reglas de producción(que son de longitud variable). Se pudo observar además, que una tasa de recombinaciónde 0.5 permite obtener mejores soluciones para las instancias más largas, mientras que enlas instancias cortas, las corridas sin recombinación resultaron superiores. Finalmente, la


tasa de mutación se estableció en 1,0/L para todas las instancias, tal como lo indica latabla 5.6.

Las 8 instancias de prueba fueron utilizadas para aplicar los algoritmos evolutivos condiferente codi�cación del genotipo. Para el algoritmo evolutivo con codi�cación estándar seutilizaron los valores de los parámetros de la tabla 5.1, con excepción de la tasa de mutación,que se estableció en 0,2/L y una tasa de recombinación de 0.8, además de implementar laestrategia de selección variada negativa con un tamaño del conjunto de posibles parejas de3. Estos valores se tomaron debido a que producen mejores soluciones.

Los resultados obtenidos de 50 corridas, aplicando ambos algoritmos se muestran en latabla 5.8. Como puede observarse, en general, la codi�cación estándar permite una evolu-ción más exitosa que la codi�cación basada en Sistemas-L, bajo los parámetros establecidos.Algunas instancias, sin embargo, como la Ins36b, Ins60, Ins64 muestran resultados simi-lares para ambos algoritmos, lo que indica que el desempeõ del algoritmo con codi�caciónde Sistema-L puede estar afectado, por las caracter±ticas particulares de la instancia (porejemplo, su nivel de simetría, fractalidad, irregularidad), más que por su longitud.

Instancia Mejor conocido AE AE + Sistema-LIns36a 14 13(2),12(10) 12(5), 11(7)Ins36b 21 21(3), 20(6) 21(1), 19(3)Ins36c 20 19(1), 18(3) 17(1), 16(3)Ins48 23 21(1), 20(1) 18(2), 17(5)Ins50 21 20(2), 19(5) 17(1), 16(2)Ins60 36 32(2), 31(3) 33(2), 32(1)Ins64 42 33(1), 31(5) 33(1), 30(1)Ins85 53 45(1), 43(3) 43(1), 42(1)

Tabla 5.8: Resultados obtenidos al aplicar los dos algoritmos evolutivos a las 8 instancias deprueba. Para cada algoritmo, se indican los dos mejores valores alcanzados en 50 corridasy la frecuencia respectiva entre paréntesis.

En las �guras 5.2 y 5.3 se muestran las grá�cas que corresponden a la evolución del mejorindividuo promedio de 50 corridas, en ambos algoritmos. El criterio de terminación utilizado


para realizar estas grá�cas, fue la llegada a 1000 generaciones. De manera consistente a losresultados obtenidos en la tabla 5.8, el algoritmo con codi�cación estándar genera mejoresresultados. En todos los casos, el algoritmo evolutivo con codi�cación con Sistemas-L esigual a superior al de codi�cación estándar en las primeras 100 generaciones. Sin embargo,puede observarse que el algoritmo AE+Sistema-L muestra un estado de convergencia a unsub-óptimo que impide continuar con la búsqueda de mejores soluciones, lo que podría serimpedido con estrategias adicionales a la selección variada negativa, que permita manteneruna alta variabilidad en la población. Por último, considerando la complejidad que seintroduce en el problema al utilizar una codi�cación basada en Sistemas-L, el desempeñode este algoritmo sigue siendo prometedor, si se le compara con una codi�cación estándar,directa.


100 200 300 400 500 600 700 800 900 10000

2

4

6

8

10

12

14

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins36a

AEAE + Sistema−L

100 200 300 400 500 600 700 800 900 10000

2

4

6

8

10

12

14

16

18

20

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins36b

AEAE + Sistema−L

100 200 300 400 500 600 700 800 900 10000

2

4

6

8

10

12

14

16

18

20

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins36c

AEAE + Sistema−L

100 200 300 400 500 600 700 800 900 10000

5

10

15

20

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins48

AEAE + Sistema−L

Figura 5.2: Evolución del mejor individuo a través de las generaciones para las instanciasIns36a, Ins36b, Ins36c e Ins48, aplicando los dos algoritmos evolutivos


100 200 300 400 500 600 700 800 900 10000

2

4

6

8

10

12

14

16

18

20

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins50

AEAE + Sistema−L

100 200 300 400 500 600 700 800 900 10000

5

10

15

20

25

30

35

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins60

AEAE + Sistema−L

100 200 300 400 500 600 700 800 900 10000

5

10

15

20

25

30

35

40

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins64

AEAE + Sistema−L

100 200 300 400 500 600 700 800 900 10000

5

10

15

20

25

30

35

40

45

50

Generación

Val

or d

e la

func

ión

obje

tivo

del m

ejor

Indi

vidu

o

Instancia: Ins85

AEAE + Sistema−L

Figura 5.3: Evolución del mejor individuo a través de las generaciones para las instanciasIns50, Ins60, Ins64 e Ins85, aplicando los dos algoritmos evolutivos


5.3. El problema usando proteínas reales

Las instancias de prueba que se usaron en los experimentos anteriores, fueron obtenidosde estudios previos (ver referencias de la tabla 5.4). Sin embargo, se considera importanteprobar los algoritmos evolutivos sobre instancias reales, de manera que pueda compararselos resultados con las estructuras terciarias obtenidas mediante métodos experimentales ycontenidas en los bancos de datos de proteínas. Aunque la energía mínima es la medidautilizada para comprobar un algoritmo diseñado para solucionar el problema de predicciónde la estructura terciaria, la comparación visual de las soluciones óptimas o semi-óptimasobtenidas, puede proporcionar una idea diferente acerca del desempeño de un algoritmo.En el caso que se estudia, debe considerarse, por supuesto, las limitaciones del Modelo HPy de la representación de un reticulado de dos dimensiones.

Para aplicar los algoritmos evolutivos a instancias de proteínas reales, se procedió de lasiguiente manera: se seleccionaron 7 proteínas cortas del banco de datos de proteínas [5],de diferentes longitudes, en un rango≥ 36 y ≤ 83, y diversos tipos de dominios; y para cadauna de ellas, se obtuvo su secuencia primaria de [14]. Luego, se preprocesaron las proteínaspara ajustarlas al modelo HP, convirtiendo cada aminoácido en H o P, de acuerdo a laclasi�cación de la tabla 2.1, capítulo 2. Las caracter±ticas de estas proteínas se muestranen las tablas 5.9 y 5.10.

Código PDB Longitud Dominio1ppt 36 α2ech 50 irregular1pga 56 α + β2igd 61 α + β1iml 76 β1iyv 79 β1aab 83 α

Tabla 5.9: Características de 7 proteínas reales utilizadas para probar los algoritmos evo-lutivos.


Código Secuencia primaria y representación HP1ppt GPSQPTYPGDDAPVEDLIRFYDNLQQYLNVVTRHRY

PHPPHPHHPPPHHHPPHHPHHPPHPPHHPHHPPPPH

2ech ECESGPCCRNCKFLKEGTICKRARGDDMDDYCNGKTCDCPRNPHKGPATX

PHPPPHHHPPHPHHPPPPHHPPHPPPPHPPHHPPPPHPHHPPHPPPHHPP

1pga MTYKLILNGKTLKGETTTEAVDAATAEKVFKQYANDNGVDGEWTYDDATKTFTVTE

HPHPHHHPPPPHPPPPPPPHHPHHPHPPHHPPHHPPPPHPPPHPHPPHPPPHPHPP

2igd MTPAVTTYKLVINGKTLKGETTTKAVDAETAEKAFKQYANDNGVDGVWTYDDATKTFTVTE

HPHHHPPHPHHHPPPPHPPPPPPPHHPHPPHPPHHPPHHPPPPHPPHHPHPPHPPPHPHPP

1iml PKCPKCDKEVYFAERVTSLGKDWHRPCLKCEKCGKTLTSGGHAEHEGKPYCNHPCYSAMFGPKGFGRGGAESHTFK

HPHHPHPPPHHHHPPHPPHPPPHPPHHHPHPPHPPPHPPPPPHPPPPPHHHPPHHHPHHHPHPPHPPPPHPPPPHP

1iyv SEIIRVPDIGGDGEVIELLVKTGDLIEVEQGLVVLESAKASMEVPSPKAGVVKSVSVKLGDKLKEGDAIIELEPAAGAR

PPHHPHHPHPPPPPHHPHHHPPPPHHPHPPPHHHHPPHPHPHPHHPHPHPHHPPHPHPHPPPHPPPPHHHPHPHHHPHP

1aab GKGDPKKPRGKMSSYAFFVQTSREEHKKKHPDASVNFSEFSKKCSERWKTMSAKEKGKFEDMAKADKARYEREMKTYIPPKGE

PPPPHPPHPPPHPPHHHHHPPPPPPPPPPPHPHPHPHPPHPPPHPPPHPPHPHPPPPPHPPHHPHPPHPHPPPHPPHHHHPPP

Tabla 5.10: Secuencia primaria y representación HP de las proteínas reales.

Al aplicar ambos algoritmos evolutivos sobre las instancias de proteínas reales, se uti-lizaron los mismos valores para los parámetros que aquellos que fueron usados para lasinstancias de prueba. Los resultados se muestran en la tabla 5.11. De manera similar alo ocurrido con las instancias de prueba, el algoritmo con codi�cación estándar es superi-or al algoritmo AE + Sistema-L, esto es más notable en las instancias 2ech (de dominioirregular) y 1aab (la instancia más larga).

Instancia Cota Superior AE AE + Sistema-L1ppt 16 13(13), 12(24) 12(2), 11(9)2ech 20 14(8), 13(15) 11(7), 10(17)1pga 22 16(3), 15(16) 14(1), 13(1)2igd 24 17(11), 16(13) 14(5), 13(7)1iml 32 23(7), 22(5) 20(3), 19(3)1iyv 38 25(4), 24(7) 21(1), 19(4)1aab 28 20(1), 18(5) 14(7), 13(11)

Tabla 5.11: Resultados obtenidos al aplicar los dos algoritmos evolutivos a las 7 instanciasde proteínas reales. Para cada algoritmo, se indican los dos mejores valores alcanzados en50 corridas y la frecuencia respectiva entre paréntesis.


A pesar de la inferioridad en términos de desempeño que muestra el algoritmo AE +Sistema-L, en algunas soluciones pueden observarse la formación de reglas interesantes.Por ejemplo, para la instancia 1iyv, una de las soluciones sub-óptimas obtenidas, represen-tada por los siguientes elementos: axioma=RF20FLRL2FR40F, reglas={0:RRLL, 1:LLRR,2:923F7L0RRL8, 3:F7FF0RRFF22F53F6, 4:4F0RF3LF55278844F, 5:R71RLL09LLRFF2RLRF,6:R0RL8L2FF90FRR6RL 7:7F89483FRFFLF4L7, 8:7F92R536411F, 9:L52R04RL58L248},fenotipo= RFLRRLLFLRRLFFFRRFFFFFFFRFFLFLLRRLLRRLFRFRRLLFLRLLR-RLLFLRRLFFFRRFFFFFFFRFFLFL, muestra la presencia de estructuras β propias dela proteína real. Esto sugiere que es posible capturar algunos bloques de construcción pre-sentes en las proteínas reales, que permitan mejorar el desempeño del algoritmo.

5.4. Discusión

Los experimentos realizados en este capítulo, permitieron estudiar tres algoritmos pararesolver el problema de predicción de estructuras terciarias para instancias HP-2D en unreticulado cuadrado. El algoritmo de Rami�cación y Poda, demostró obtener un óptimoglobal en corto tiempo para instancias de longitud ≤ 25. Aunque el algoritmo evolutivoresultó más e�ciente en términos de tiempo, no garantiza una solución óptima al problema.Para instancias de longitud> 25, se recomienda el uso de un algoritmo metaheurístico,debido a la di�cultad que presenta un algoritmo de búsqueda exhaustiva para terminar suejecución en un tiempo corto.

En cuanto al desempeño del algoritmo evolutivo con codi�cación basada en Sistemas-L,aunque mostró un comportamiento inferior al algoritmo evolutivo estándar, permitió enalgunos casos conseguir soluciones iguales o ligeramente mejores en instancias de hasta 85aminoácidos. Por último, tanto en instancias de prueba como en instancias reales, se pudoobservar que la escalabilidad del algoritmo AE+Sistema-L es comparable con el algoritmoAE.

6. CONCLUSIONES

El gran libro, siempre abierto y que conviene esforzarse en leer,

es el de la Naturaleza. Antonio Gaudí

Aun no se han levantado barreras que digan al entendimiento

humano de aquí no pasaréis. Beethoven

La ausencia de prueba no es prueba de ausencia. Carl Sagan

Lo importante es no dejar de hacerse preguntas. Albert Einstein

Este capítulo presenta las ideas �nales acerca de los aspectos contemplados en la in-vestigación y los resultados obtenidos, así como también, las sugerencias para trabajosposteriores relacionados con la aplicación de Algoritmos Evolutivos y Sistemas-L para elproblema del replegado de las proteínas.

6.1. Resumen de la investigación

El objetivo general de esta investigación fue proponer representaciones genéticas basadasen Sistemas de Lindenmayer y estudiar su efectividad para el problema del replegado deproteínas. A continuación se detalla la metodología utilizada y un resumen de los resultadosobtenidos, para alcanzar cada uno de los objetivos especí�cos planteados.

1. Analizar las estrategias y resultados de estudios relacionados con el problema del re-plegado de proteínas y con aplicaciones de algoritmos evolutivos con representacionesde sistemas de Lindenmayer.

En la sección 3.3 del capítulo 3, se presenta una discusión acerca de las aplicacionesque evolucionan Sistemas-L, obtenidos de una revisión documental de los artículos

6. CONCLUSIONES 87

[44, 28, 48, 46, 30, 9, 13, 10, 29, 23, 25, 24, 3, 47, 54]. De esta revisión, se pudo eviden-ciar los bene�cios que ofrece una codi�cación basada en gramáticas para representarobjetos naturales y arti�ciales.

Por otra parte, en la sección 3.4.1 del capítulo 3, se discuten las diferentes estrategiascomputacionales que se han utilizado para resolver el problema de predicción delas proteínas, haciendo especial énfasis en los enfoques evolutivos sobre instanciassimpli�cadas según el modelo HP. Aunque los resultados han sido limitados debidoa la complejidad del problema, se puede observar un avance considerable desde queUnger y Moult [64] propusieron en 1993 la primera versión de un algoritmo evolutivopara solucionar el problema.

2. Diseñar los elementos propios de sistemas de Lindenmayer adaptados al problemadel replegado de proteínas.

Con la �nalidad de obtener un modelo para representar proteínas replegadas usandoel Modelo HP, en un reticulado cuadrado de dos dimensiones, y coordenadas inter-nas relativas, se establecieron los elementos propios de un Sistema-D0L adaptado alproblema. Estos elementos consisten en: el alfabeto, la conformación del axioma y delas reglas de producción, el proceso de derivación del Sistema-L, y posteriormente,las reglas �jas que corresponden a estructuras secundarias presentes en las proteínas,los cuales se describen en el capítulo 4.

3. Implementar algoritmos evolutivos correspondientes a la representación genética basa-da en Sistemas-L y sus operadores.

Para evolucionar potenciales soluciones al problema de predicción de la estructuraterciaria de las proteínas, representadas genéticamente con Sistemas-L de acuerdo almodelo propuesto, se desarrolló un algoritmo evolutivo generacional, con un operadorde recombinación, tres operadores de mutación y una selección de ranqueo lineal, conapareamiento variado negativo.

Se realizaron experimentos preliminares con instancias cortas para comprobar la util-

6. CONCLUSIONES 88

idad de la representación, aplicando el algoritmo evolutivo como mecanismo de in-ferencia, lo que también se denomina problema indirecto de los Sistemas-L. Esto selogró implementando una función objetivo que permitiera evaluar a la población deSistemas-L de manera de guiar al algoritmo a través de las generaciones, para pro-ducir una cadena especí�ca. De esta manera, se seleccionaron replegados óptimosconocidos de siete instancias HP como datos de entrada, y se obtuvieron diferentesSistemas-L que representaran estas con�guraciones.

4. Desarrollar experimentos computacionales para comparar el desempe«o de la repre-sentación propuesta, con respecto a otros resultados obtenidos.

Para tener una primera idea del desempeño de un algoritmo evolutivo con codi�-cación estándar (método heurístico), y un algoritmo de rami�cación y poda (métodode optimización global) para el problema de predicción de la estructura terciaria,se realizaron experimentos con instancias HP cortas, que permitieron comprobar lasuperioridad del algoritmo evolutivo, en términos de e�ciencia, demostrando mejorescalamiento según la longitud de la proteína considerada. Si bien el algoritmo derami�cación y poda produce soluciones óptimas en un corto tiempo de ejecuciónpara instancias de longitud L ≤ 25 (entre 4,5 y 393,0 segundos de uso de CPU), porencima de esta longitud, los tiempos son superiores a las 12 horas de uso de CPU.

Posteriormente, se compararon los algoritmos evolutivos con diferentes codi�cacionesdel genotipo, tanto para instancias HP de prueba, como para proteínas reales. Deacuerdo a los resultados obtenidos, la codi�cación basada en Sistemas-L permitióalcanzar soluciones iguales o inferiores que la codi�cación estándar. Se pudo observarque el algoritmo evolutivo con la representación propuesta presenta un estado deconvergencia a un sub-óptimo, que afecta negativamente su desempeño.

6. CONCLUSIONES 89

6.2. Contribuciones

A continuación se presentan los aportes proporcionados por esta investigación:

La codi�cación novedosa basada en Sistemas-L con conocimiento agregado acerca delas estructuras secundarias, para representar genéticamente las proteínas replegadasbajo el modelo HP 2D, reticulado cuadrado, en un algoritmo evolutivo.

La demostración empírica, utilizando un algoritmo evolutivo como mecanismo deinferencia, que la codi�cación basada en un Sistema-L puede utilizarse con éxitopara proteínas replegadas de longitudes cortas.

La comparación del desempeño de un algoritmo de búsqueda exhaustiva (rami�cacióny poda) y un algoritmo evolutivo, utilizando instancias cortas (longitud L ≤ 36).

El algoritmo evolutivo con codi�cación basada en Sistemas-L tiene mejor desempeñousando una tasa de recombinación de 0.5 en instancias de longitud> 36, mientras que,para instancias cortas, las corridas sin recombinación generaron mejores soluciones.En cuanto a la tasa de mutación, se encontró que una tasa de 1/L, donde L corre-sponde a la longitud del replegado, es en general, una tasa adecuada considerandoque la longitud del axioma y la longitud máxima de las reglas de producción de losSistemas-L, corresponden a un 20 % aproximadamente de la longitud L.

Una primera comparación entre algoritmos evolutivos para resolver el problema depredicción de la estructura terciaria, uno con codi�cación estándar y otro con unacodi�cación basada en Sistemas-L, que arrojó como resultado que el primero de éstospermite obtener mejores soluciones, en la mayoría de las instancias estudiadas.

La utilización de instancias de proteínas reales a través de los bancos de datos deproteínas disponibles. Estas instancias, a las que se aplicó el modelo HP, pueden serutilizadas para realizar comparaciones visuales de soluciones obtenidas por métodoscomputacionales, como los algoritmos evolutivos, y métodos experimentales.

6. CONCLUSIONES 90

6.3. Alcances

En el diseño del algoritmo evolutivo basado en una codi�cación de Sistemas-L prop-uesto para representar proteínas replegadas en instancias HP, se consideró únicamente elreticulado cuadrado de dos dimensiones y coordenadas de representación internas relativas.Las modi�caciones que sería necesario hacer para estudiar estas con�guraciones en otrosreticulados y en tres dimensiones, afectaría los siguientes elementos: el alfabeto, la funciónobjetivo y las reglas de producción �jas para representar las estructuras secundarias.

El genotipo en el modelo propuesto consta de Sistemas-L determinísticos y libres decontexto (Sistemas-D0L), así como también de dos reglas de producción �jas que correspon-den a los movimientos compuestos que caracteriza una hélice en una estructura α-hélices.Otros tipos de Sistemas-L, como los paramétricos, no-determinísticos y sensitivos al con-texto no fueron estudiados, debido a que este modelo constituye una primera aproximacióna la utilización de estas gramáticas para representar proteínas replegadas.

Por otra parte, en la experimentación de las instancias reales que aparece en la sección5.3 del capítulo 5, deben tomarse en cuenta las limitaciones propias del Modelo HP encuanto a la clasi�cación de los aminoácidos y las relacionadas al reticulado utilizado.

Por último, es importante observar que el problema de predicción de la estructura tercia-ria, cuyo objetivo en el contexto considerado en este trabajo, es conseguir la con�guraciónóptima que maximice el número de enlaces H-H no locales de una instancia HP, es apenasuno de los diversos problemas que pertenecen al conjunto de estudios acerca del replegadode las proteínas. De manera tal, que el modelo propuesto también puede ser utilizado paraestudiar otros problemas, como la simulación del proceso dinámico de replegado y el diseñode proteínas, entre otros.

6. CONCLUSIONES 91

6.4. Sugerencias para próximos trabajos

En la sección anterior se detallaron los alcances del trabajo realizado, de los cuales sepueden extraer algunas recomendaciones para próximos trabajos. Debido a que esta inves-tigación consistió en un primer estudio que propone y aplica una representación novedosapara las proteínas replegadas según el modelo HP mediante Sistemas-L, la posibilidad deextenderla en diversas direcciones es signi�cativa.

En primer lugar, en cuanto a la codi�cación, la adaptación del modelo a otros reticula-dos, a coordenadas absolutas y a tres dimensiones, de manera de tener un acercamiento alas con�guración tridimensional de proteínas reales. Además, el modelo puede ser mejoradointroduciendo más información acerca de estructuras secundarias y supersecundarias. Porotro lado, podría estudiarse la efectividad de utilizar los otros tipos de Sistemas-L.

Con relación al algoritmo evolutivo, se sugiere el diseño de operadores genéticos máscomplejos y estrategias que permitan mantener la diversidad en la población y así evitarla convergencia prematura.

REFERENCIAS

[1] C.B. An�nsen, E. Haber, M. Sela, and F.H. White. The kinetics of formation of nativeribonuclease during oxidation of the reduced polypeptide chain. In Proceedings of theNational Academy of Science USA, volume 47, pages 1309�1314, 1961.

[2] John Atkins and William E. Hart. On the intractability of protein folding with a �nitealphabet of amino acids. Algorithmica, 25((2-3)):279�294, 1999.

[3] Peter J. Bentley. Exploring component-based representations - the secret of creativityby evolution? In I. C. Parmee, editor, Fourth International Conference on AdaptiveComputing in Design and Manufacture (ACDM 2000), pages 161�172, 2000.

[4] Bonnie Berger and Frank Thomson Leighton. Protein folding in the hydrophobic-hydrophilic(hp) model is np-complete. Journal of Computational Biology, 5(1):27�40,1998.

[5] H. Berman, J. Westbrook, Z. Feng, G. Gilliland, T. Bhat, H. Weissig, I. Shindyalov,and P. Bourne. The protein data bank. Nucleic Acids Research, 28:235�242, 2000.

[6] Erich Bornberg-Bauer. Chain growth algorithms for hp-type lattice proteins. In RE-COMB '97: Proceedings of the �rst annual international conference on Computationalmolecular biology, pages 47�55, New York, NY, USA, 1997. ACM Press.

[7] N. Chomsky. Three models for the description of language. IRE Trans. on InformationTheory, 2(3):113�124, 1956.

[8] Pierluigi Crescenzi, Deborah Goldman, Christos H. Papadimitriou, Antonio Piccol-boni, and Mihalis Yannakakis. On the complexity of protein folding. Journal ofComputational Biology, 5(3):423�466, 1998.

REFERENCIAS 93

[9] R. Curry. On the evolution of parametric l-systems. Technical Report 1999-644-07,University of Calgary, Canadá, 1999.

[10] Luis DaCosta and Jacques-Andre Landry. Generating grammatical plant models withgenetic algorithms. In Proceedings of the 7th International Conference on Adaptiveand Natural ComputiNG Algorithms (ICANNGA, LNCS. Springer Verlag, 2005.

[11] K. A. Dill, S. Bromberg, K. Yue, K.M. Fiebig, D.P. Yee, P.D. Thomas, and H.S. Chan.Principles of protein folding - a perspective from simple exact models. Protein Science,4:561�602, 1995.

[12] Ken A. Dill. Theory for the folding and stability of globular proteins. Biochemistry,24:1501, 1985.

[13] Marc Ebner, Adrian Grigore, Alexander He�ner, and Jurgen Albert. Coevolutionproduces an arms race among virtual plants. In EuroGP '02: Proceedings of the 5thEuropean Conference on Genetic Programming, pages 316�325, London, UK, 2002.Springer-Verlag.

[14] EMBL-EBI. Pdbsum: A database of the known 3d structures of proteins and nucleicacids. http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/, 2004.

[15] Larry J. Eshelman and J. David Scha�er. Preventing premature convergence in geneticalgorithms by preventing incest. In Lashon B. Belew, Richard K.; Booker, editor,Proceedings of the 4th International Conference on Genetic Algorithms, pages 115�122, San Diego, CA, 1991. Morgan Kaufmann.

[16] A. Fraenkel. Complexity of protein folding. Bulletin of Mathematical Biology, 55:1199�1210, 1993.

[17] Murzin A. G., Brenner S. E., Hubbard T., and Chothia C. Scop: a structural classi�-cation of proteins database for the investigation of sequences and structures. J. Mol.Biol., 247:536�540, 1995.

REFERENCIAS 94

[18] J. Galloway. Helical imperative: paradigm of form and function. Encyclopedia of LifeSciences (Online), pages 1�7, 2001.

[19] David E. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learn-ing. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 1989.

[20] William E. Hart and Sorin Istrail. Fast protein folding in the hydrophobic�hydrophillicmodel within three�eights of optimal. Journal of Computational Biology, 3(1):53�96,1996.

[21] J.D. Hirst. The evolutionary landscape of functional and model proteins. ProteinEng., pages 721��726, 1999.

[22] J.H. Holland. Adaptation in natural and arti�cial systems. University of MichiganPress, 1975.

[23] Gregory S. Hornby, Hod Lipson, and Jordan B. Pollack. Evolution of generative designsystems for modular physical robots. In IEEE International Conference on Roboticsand Automation, 2001.

[24] Gregory S. Hornby and Jordan B. Pollack. The advantages of generative grammaticalencodings for physical design. In Proceedings of the 2001 Congress on EvolutionaryComputation CEC2001, pages 600�607. IEEE Press, 2001.

[25] Gregory S. Hornby and Jordan B. Pollack. Evolving L-systems to generate virtualcreatures. Computers and Graphics, 25(6):1041�1048, 2001.

[26] Philip M. Iannaccone and Mustafa Khokha. Fractal Geometry in Biological Systems:An Analytical Approach. CRC Press, Boca Ratón, Florida, 1996.

[27] A. Irback and E. Sandelin. On hydrophobicity correlations in protein chains. Biophys.J., 79:2252�2258, 2000.

REFERENCIAS 95

[28] C. Jacob. Genetic l-system programming. In PPSN III-Parallel Problem Solving fromNature, Lecture Notes in Computer Science, pages 334�343, Berlin, 1994. SpringerVerlag.

[29] G. Kókai, Z. Tóth, and R. Ványi. Modelling blood vessels of the eye with parametricL-systems using evolutionary algorithms. In Proceedings of the Joint European Confer-ence on Arti�cial Intelligence in Medicine and Medical Decision Making (AIMDM-99),volume 1620 of LNAI, pages 433�442, Berlin, 1999. Springer.

[30] Gabriella Kókai, Zoltán Tóth, and Robert Ványi. Evolving arti�cial trees describedby parametric L-systems. In Proceedings of the First Canadian Workshop on SoftComputing, pages 1722�1728, Edmonton, Alberta, Canada, 9 May 1999.

[31] R. König and T. Dandekar. Improving genetic algorithms for protein folding simula-tions by systematic crossover. BioSystems, 50:17�25, 1999.

[32] J. R. Koza. Hierarchical genetic algorithms operating on populations of computerprograms. In N. S. Sridharan, editor, Proceedings of the Eleventh International JointConference on Arti�cial Intelligence IJCAI-89, volume 1, pages 768�774, 1989.

[33] Natalio Krasnogor. Studies on the Theory and Design Space of Memetic Algorithms.PhD thesis, University of the West of England, Bristol, UK, 2002.

[34] Natalio Krasnogor, William E. Hart, Jim Smith, and David A. Pelta. Protein struc-ture prediction with evolutionary algorithms. In Wolfgang Banzhaf, Jason Daida,Agoston E. Eiben, Max H. Garzon, Vasant Honavar, Mark Jakiela, and Robert E.Smith, editors, Proceedings of the Genetic and Evolutionary Computation Conference,volume 2, pages 1596�1601, Orlando, Florida, USA, 13-17 1999. Morgan Kaufmann.

[35] Natalio Krasnogor, D. Pelta, P.E. Martinez-Lopez, P. Mocciola, and E. de la Canal.Enhanced evolutionary search of foldings using parsed proteins. In Proceedings of theArgentinian Operational Research Simposium (S.I.O. 97), 1997.

REFERENCIAS 96

[36] Natalio Krasnogor, David Pelta, Pablo E. Martinez Lopez, and Esteban de la Canal.Genetic algorithms for the protein folding problem: a critical view. In Proceedings ofEngineering of Intelligent Systems (EIS 98), 1998.

[37] A. Owens L. Fogel and M. Walsh. Arti�cial intelligence through simulated evolution.Wiley, New York, 1966.

[38] Neal Lesh, Michael Mitzenmacher, and Sue Whitesides. A complete and e�ective moveset for simpli�ed protein folding. In Proceedings 7h Annual International Conferenceon Research in Computational Molecular Biology (RECMB), 2003.

[39] Arthur M. Lesk. Introduction to protein architecture. Oxford Univ. Press, 2001.

[40] C. Levinthal. Are there pathways for protein folding? Journal of Chemical Physics,65:44�45, 1968.

[41] F. Liang and W. Wong. Evolutionary monte carlo for protein folding simulations.Journal of Chemical Physics, 115(7):3374�3380, 2001.

[42] R.B. Lyngsø and C.N.S. Pedersen. Protein folding in the 2d hp model. TechnicalReport RS-99-16, BRICS, 1999.

[43] Benoit B. Mandelbrot. The Fractal Geometry of Nature. W. H. Freedman, San Fran-cisco, 1982.

[44] J. P. McCormack. Interactive evolution of L-system grammars for computer graphicsmodelling. In D. G. Green and T. Bossomaier, editors, Complex Systems: from biologyto computation, pages 118�130. ISO Press, Amsterdam, 1993.

[45] Melanie Mitchell. An introduction to genetic algorithms. MIT Press, Cambridge, MA,USA, 1996.

[46] Kenrick J. Mock. Wildwood: The evolution of L-system plants for virtual environ-ments. In Proceedings of the 1998 IEEE World Congress on Computational Intelli-gence, pages 476�480, Anchorage, Alaska, USA, 5-9 May 1998. IEEE Press.

REFERENCIAS 97

[47] H.Ñoser, P. Stucki, and H. Walser. Integration of optimization by genetic algorithmsinto an l-system animation system. In Proceedings Computer Animation 2001, Seoul,Korea, November 7-8, pages 106�112, 2001.

[48] Gabriela Ochoa. On genetic algorithms and lindenmayer systems. In PPSN V: Pro-ceedings of the 5th International Conference on Parallel Problem Solving from Nature,pages 335�344, London, UK, 1998. Springer-Verlag.

[49] C.A. Orengo, A.D. Michie, S. Jones, D.T. Jones, M.B. Swindells, and J.M. Thornton.Cath- a hierarchic classi�cation of protein domain structures. Structure, 5(8):1093�1108, 1997.

[50] Arnold L. Patton, William F. Punch III, and Erik D. Goodman. A standard gaapproach to native protein conformation prediction. In Larry J. Eshelman, editor,Proceedings of the 6th International Conference on Genetic Algorithms, Pittsburgh,PA, USA, pages 574�581. Morgan Kaufmann, 1995.

[51] H. O. Peitgen and P. H. Richter. The Beauty of Fractals. Springer-Verlag, Germany,1986.

[52] H.O. Peitgen, H. Jürgens, and D. Saupe. Chaos and Fractals: New Frontiers of Science.Springer-Verlag, New York, USA, 1992.

[53] P. Prusinkiewicz and A. Lindenmayer. The algorithmic beauty of plants. Springer,New York, 1990.

[54] Stephan Rudolph and Rolf Alber. An evolutionary approach to the inverse problem inrule-based design representations. In Proceedings 7th International Conference on Ar-ti�cial Intelligence in Design (AID'02), Cambridge, UK, July 15-17 2002. CambridgeUniversity, Kluwer Academic Publishers.

[55] Ajit Sadana and Tuan Vo-Dinh. Biomedical implications of protein folding and mis-folding. Biotechnology and Applied Biochemistry, 33(1):7�16, Feb 2001.

REFERENCIAS 98

[56] E. Sandelin. On hydrophobicity and conformational speci�city in proteins. Biophys.J., 86:23�30, 2004.

[57] Marcos Paulo Scapin and Heitor Silvério Lopes. Protein structure prediction usingan enhanced genetic algorithm for the 2d hp model. In Proceedings of 3rd. BrazilianWorkshop on Bioinformatics, Brasilia, 20-22 Oct, 2004.

[58] Ste�en Schulze-Kremer. Genetic algorithms for protein tertiary structure prediction.In Parallel Problem Solving from Nature 2, PPSN-II, Brussels, Belgium, September28-30, pages 393�402, 1992.

[59] Ste�en Schulze-Kremer. Genetic algorithms and protein structure analysis. VSNS-BCD Guest Lectures at BioMOO. University of Bielefeld, Germany, VSNS BioCom-puting Division, 27-July 1996.

[60] R. P. Taylor, B. Spehar, C. W. G. Cli�ord, and B. R. Newell. The visual complexity ofpollock's dripped fractals. In Proceedings of the International Conference of ComplexSystems, 2002.

[61] L. Toma and S. Toma. Contact interactions method: A new algorithm for proteinfolding simulations. Protein Science, 5:147�153, 1996.

[62] E. Gerstner P. Grassberger U. Bastolla, H. Frauenkron and W.Ñadler. Testing a newmonte carlo algorithm for protein folding. Proteins: Structure, Function, and Genetics,32:52�66, 1998.

[63] R. Unger and J. Moult. Finding lowest free energy conformation of a protein is annp-hard problem. Bulletin of Mathematical Biology, 55:1183�1198, 1993.

[64] R. Unger and J. Moult. Genetic algorithms for protein folding simulations. Journalof Molecular Biology, 1(231):75�81, 1993.

REFERENCIAS 99

[65] Berrin Yanikoglu and Burak Erman. Minimum energy con�gurations of the 2-dimensional hp-model of proteins by self-organizing networks. Journal of Compu-tational Biology, 9(4):613�620, 2002.

[66] K. Yue and K.A. Dill. Forces of tertiary structural organization in globular proteins.Proc. Natl. Acad. Sci., USA, 92:146�150, 1994.

[67] M. Zamir. Arterial branching within the con�nes of fractal l-system formalism. J GenPhysiol., 118(3):267�276, Sep 2001.

[68] Junni L. Zhang and Jun S. Liu. A new sequential importance sampling method andits application to the 2d hydrophobic-hydrophilic model. Journal of Chemical Physics,117(7):3492�3498, 2002.

[69] L. Zou, X. G. Gong, and Z. Zhu. Relationship Between Structural Fractal and PossibleDynamic Scaling Properties in Protein Folding. ArXiv Condensed Matter e-prints,June 1996.

UNIVERSIDAD SIMÓN BOLÍVAR Gabi Escuela

Documents

Transcript of UNIVERSIDAD SIMÓN BOLÍVAR Gabi Escuela