Aprendizaje en Agentes con Mecanismos de Seleccion de Acci ...€¦ · Aprendizaje en Agentes con...

Aprendizaje en Agentes conMecanismos de Seleccion de Accion

basados en Redes deComportamiento

por

Selene Ivette Jimenez Castillo

Tesis submitida porLANIA - Universidad Veracruzana

para el grado deMaestrıa en Inteligencia Artificial

Facultad de Fısica e Inteligencia ArtificialUniversidad Veracruzana2005

Indice general

Introduccion IX

Objetivos XIII

1. Redes de Comportamiento, un Mecanismo de Seleccion de Accion 11.1. Agente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1. Ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.2. Autonomıa y adaptacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.3. La seleccion de accion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.4. Aprender de la experiencia . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2. Mecanismos de seleccion de accion . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.1. Arquitectura de Subsumcion . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.2. Redes de Comportamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2.3. Hamsterdam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3. Redes de Comportamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.1. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.2. Modelo matematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.3. Limitaciones y crıticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Aprendizaje 192.1. ¿Que es aprendizaje? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1.1. ¿Por que, que y de donde aprender? . . . . . . . . . . . . . . . . . . . . . 202.2. Tipos de Aprendizaje Automatico . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3. El Aprendizaje por Reforzamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3.1. Concepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3.2. Historia del ApR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.4. Modelo del Aprendizaje por Reforzamiento . . . . . . . . . . . . . . . . . . . . . 262.4.1. Elementos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4.2. Algoritmo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.5. Equilibrio explotacion-exploracion . . . . . . . . . . . . . . . . . . . . . . . . . . 292.6. El Problema del Bandido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.7. Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.7.1. Algoritmo del Bandido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.7.2. Metodos de evaluacion de acciones . . . . . . . . . . . . . . . . . . . . . . 31

2.7.2.1. Estrategias codiciosas . . . . . . . . . . . . . . . . . . . . . . . . 32

2.7.2.2. Estrategias aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 332.7.3. Estrategias basadas en vectores . . . . . . . . . . . . . . . . . . . . . . . . 342.7.4. Metodos de comparacion de reforzamientos . . . . . . . . . . . . . . . . . 342.7.5. Tecnicas basadas en intervalos . . . . . . . . . . . . . . . . . . . . . . . . 35

3. Antecedentes 373.1. Herramienta ABC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.1.1. Extension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.1.2. Alcance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.2. Herramienta XLearn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.3. Estudios etologicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.4. Mejoramiento propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4. Modulo de Aprendizaje por Reforzamiento con Redes de Comportamiento 494.1. Red de Comportamiento y Aprendizaje por Reforzamiento . . . . . . . . . . . . . 494.2. Modulo de aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2.1. Algoritmos de Aprendizaje por Reforzamiento . . . . . . . . . . . . . . . . 524.2.1.1. Algoritmo del Bandido . . . . . . . . . . . . . . . . . . . . . . . 524.2.1.2. Algoritmo Greedy . . . . . . . . . . . . . . . . . . . . . . . . . . 534.2.1.3. Algoritmo ε-Greedy . . . . . . . . . . . . . . . . . . . . . . . . . 544.2.1.4. Algoritmo Softmax . . . . . . . . . . . . . . . . . . . . . . . . . 544.2.1.5. Algoritmo LRP . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2.1.6. Algoritmo LR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2.1.7. Algoritmo RC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2.1.8. Algoritmo IE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2.1.9. Comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.2. Ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.2.3. Impacto del ambiente en la seleccion de acciones . . . . . . . . . . . . . . 58

4.3. Impacto del aprendizaje en la Red de Comportamiento . . . . . . . . . . . . . . . 594.4. Variaciones ambientales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.4.1. Cantidad de acciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.4.1.1. Ambiente escaso . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.4.1.2. Ambiente abundante . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.4.2. Distribucion de acciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.4.2.1. Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.4.2.2. Por zonas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.4.3. Datos y graficas obtenidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5. Simulaciones 655.1. Simulaciones sin aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.1.1. Estudio etologico de Rodrıguez Luna . . . . . . . . . . . . . . . . . . . . . 665.1.1.1. Modelo ABC RodrıguezLuna . . . . . . . . . . . . . . . . . . . . 67

5.1.2. Estudio etologico de Domingo Balcells . . . . . . . . . . . . . . . . . . . . 695.1.2.1. Modelo ABC DomingoBalcells . . . . . . . . . . . . . . . . . . . 70

5.2. Simulaciones con aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.2.1. Modelo ABC RodrıguezLuna . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.2.2. Modelo ABC DomingoBalcells . . . . . . . . . . . . . . . . . . . . . . . . 775.3. Desempeno de los algoritmos de aprendizaje . . . . . . . . . . . . . . . . . . . . . 79

5.3.1. Por recompensa promedio y factor XLearn . . . . . . . . . . . . . . . . . 805.3.1.1. Desempeno en relacion al numero de opciones . . . . . . . . . . 815.3.1.2. Desempeno en relacion al tipo de mundo . . . . . . . . . . . . . 825.3.1.3. Desempeno en relacion al caso probabilıstico . . . . . . . . . . . 82

5.3.2. Por solicitud del optimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 845.3.2.1. Desempeno en relacion al numero de opciones . . . . . . . . . . 865.3.2.2. Desempeno en relacion al tipo de mundo . . . . . . . . . . . . . 865.3.2.3. Desempeno en relacion al caso probabilıstico . . . . . . . . . . . 87

5.3.3. Observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 885.3.3.1. Algoritmos con tendencia a obtener la misma recompensa . . . . 885.3.3.2. Algoritmos con tendencia a tener el mismo porcentaje de solici-

tud del optimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 895.3.3.3. Porcentaje de algoritmos que convergen a la recompensa deseada 895.3.3.4. Porcentaje de algoritmos con la maxima recompensa por corrida 905.3.3.5. Comparacion de porcentaje de sobrevivencia . . . . . . . . . . . 91

Conclusiones 93

A. Apendice 99

Bibliografıa 114

Indice de figuras

1.1. Descripcion general de un agente . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2. Arquitectura de Subsumcion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3. Red de Comportamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4. Seleccion de accion en Hamsterdam . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1. Agente ApR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2. Breve historia del ApR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3. Modelo estandar del Aprendizaje por Reforzamiento . . . . . . . . . . . . . . . . 262.4. Esquematizacion del proceso de Aprendizaje por Reforzamiento . . . . . . . . . . 29

3.1. Ventana principal de ABC (primera version) . . . . . . . . . . . . . . . . . . . . . 383.2. Grafica de activacion en el tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.1. Modelo de Red de Comportamiento con Aprendizaje por Reforzamiento . . . . . 504.2. Ambiente del modulo de aprendizaje de ABC . . . . . . . . . . . . . . . . . . . . 574.3. Mundo de distribucion aleatoria con cantidad escasa . . . . . . . . . . . . . . . . 614.4. Mundo de distribucion aleatoria con cantidad abundante . . . . . . . . . . . . . . 624.5. Mundo de distribucion por zonas con cantidad escasa . . . . . . . . . . . . . . . . 634.6. Mundo de distribucion por zonas con cantidad abundante . . . . . . . . . . . . . 63

5.1. Modelo ABC RodrıguezLuna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.2. Segmento de grafica de activacion en el tiempo . . . . . . . . . . . . . . . . . . . 685.3. Patron de actividades del modelo ABC RodrıguezLuna . . . . . . . . . . . . . . . 695.4. Modelo ABC DomingoBalcells . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.5. Patron de actividades del modelo ABC DomingoBalcells . . . . . . . . . . . . . . 715.6. Segmento de grafica de activacion en el tiempo . . . . . . . . . . . . . . . . . . . 725.7. Curva de aprendizaje del ejemplo del modelo ABC RodrıguezLuna . . . . . . . . 755.8. Curva de convergencia del ejemplo del modelo ABC RodrıguezLuna . . . . . . . 765.9. Curva de aprendizaje del ejemplo del modelo ABC DomingoBalcells . . . . . . . 785.10. Curva de convergencia del ejemplo del modelo ABC DomingoBalcells . . . . . . . 78

A.1. Grafica de activacion en el tiempo del modelo ABC RodrıguezLuna . . . . . . . . 100A.2. Grafica de activacion en el tiempo - Ejemplo ABC RodrıguezLuna . . . . . . . . 103A.3. Patron de actividades - Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 104A.4. Curvas de aprendizaje y convergencia - Corrida general del ejemplo . . . . . . . . 105A.5. Curvas de aprendizaje - Corrida general del ejemplo . . . . . . . . . . . . . . . . 105

A.6. Grafica de activacion en el tiempo del modelo ABC DomingoBalcells . . . . . . . 107A.7. Grafica de activacion en el tiempo - Ejemplo ABC DomingoBalcells . . . . . . . 110A.8. Patron de actividades - Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 111A.9. Curvas de aprendizaje y convergencia - Corrida general del ejemplo . . . . . . . . 112A.10.Curvas de aprendizaje - Corrida general del ejemplo . . . . . . . . . . . . . . . . 112A.11.Grafica de tiempo de busqueda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Indice de cuadros

5.1. Porcentaje y tiempos promedio para estaciones humeda (EH) y seca (ES). . . . . 665.2. Matriz de probabilidades de transicion para la estacion humeda. . . . . . . . . . 665.3. Matriz de probabilidades de transicion para la estacion seca. . . . . . . . . . . . . 675.4. Porcentaje y tiempos promedio del modelo ABC RodrıguezLuna. . . . . . . . . . 685.5. Matriz de probabilidades de transicion del modelo ABC RodrıguezLuna. . . . . . 685.6. Porcentajes reportados por Domingo. . . . . . . . . . . . . . . . . . . . . . . . . . 695.7. Porcentaje y ciclos promedio del modelo ABC DomingoBalcells. . . . . . . . . . . 715.8. Matriz de probabilidades de transicion del modelo ABC DomingoBalcells. . . . . 715.9. Casos probabilısticos de recompensa para N = 2. . . . . . . . . . . . . . . . . . . 735.10. Casos probabilısticos de recompensa para N = 3. . . . . . . . . . . . . . . . . . . 735.11. Casos probabilısticos de recompensa para N = 4. . . . . . . . . . . . . . . . . . . 735.12. Parametros de los algoritmos de aprendizaje y sus valores. . . . . . . . . . . . . . 745.13. Porcentaje y tiempos promedio del ejemplo del modelo ABC RodrıguezLuna. . . 765.14. Matriz de probabilidades de transicion del ejemplo del modelo ABC RodrıguezLuna. 765.15. Porcentaje y ciclos promedio del ejemplo del modelo ABC DomingoBalcells. . . . 795.16. Matriz de probabilidades de transicion del ejemplo del modelo ABC Domingo-

Balcells. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.17. Jerarquizacion de algoritmos y comparativos por recompensa promedio y XLearn

para el modelo ABC RodrıguezLuna. . . . . . . . . . . . . . . . . . . . . . . . . . 805.18. Jerarquizacion de algoritmos y comparativos por recompensa promedio y XLearn

para el modelo ABC DomingoBalcells. . . . . . . . . . . . . . . . . . . . . . . . . 815.19. Jerarquizacion global de algoritmos y comparativos por recompensa promedio y

XLearn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.20. Jerarquizacion de mundos en funcion a la recompensa promedio recibida - Modelos. 825.21. Jerarquizacion de los tipos de mundo en base a la recompensa promedio recibida. 825.22. Jerarquizacion de los casos probabilısticos en base al factor XLearn. . . . . . . . 835.23. Diferencias entre las probabilidades de recompensa . . . . . . . . . . . . . . . . . 835.24. Jerarquizacion de los casos probabilısticos en base a la distancia entre probabili-

dades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 845.25. Jerarquizacion de algoritmos por convergencia - modelo ABC RodrıguezLuna. . . 855.26. Jerarquizacion de algoritmos por convergencia - modelo ABC DomingoBalcells. . 855.27. Jerarquizacion global de algoritmos ApR por convergencia al optimo. . . . . . . . 865.28. Porcentaje de convergencia segun el tipo de mundo - modelo ABC RodrıguezLuna. 865.29. Porcentaje de convergencia segun el tipo de mundo - modelo ABC DomingoBalcells. 86

5.30. Jerarquizacion de los tipos de mundo en funcion a la convergencia al optimo -ambos modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.31. Jerarquizacion global de los casos probabilısticos en base al porcentaje de conver-gencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.32. Frecuencia de algoritmos con tendencia a obtener la misma recompensa. . . . . . 885.33. Frecuencia de algoritmos con tendencia a tener el mismo porcentaje de solicitud

del optimo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 895.34. Jerarquizacion de algoritmos que convergieron a la recompensa deseada. . . . . . 905.35. Jerarquizacion de algoritmos en base a la obtencion de la maxima recompensa

por corrida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 905.36. Sobrevivencia en los mejores algoritmos ApR y en el comparativo SinApR. . . . . 915.37. Jerarquizacion de mundos en funcion al porcentaje de sobrevivencia promedio -

Algoritmos ApR y SinApR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

Introduccion

Uno de los temas de mayor importancia en la Inteligencia Artificial es el referente a la toma dedecisiones que debe realizar un agente autonomo, para decidir que hacer o como comportarse encada momento de su existencia. Esto es conocido como el problema de la seleccion de accion, yha sido ampliamente estudiado; en el presente trabajo se enfrenta la seleccion de accion mediantela interaccion de dos procesos: un mecanismo de seleccion conocido como Redes de Comporta-miento [Mae89, Mae90a, Mae90b] y un aprendizaje de polıticas de accion por Reforzamiento[Kae93, SyB98].

Computacionalmente, la herramienta disenada implementa el algoritmo de Redes de Compor-tamiento [Mae90a], un Mecanismo de Seleccion de Accion para modelar las interacciones deun agente con su ambiente al momento de elegir que hacer, teniendo que decidir, en base aun conjunto de comportamientos posibles pre-compilados, lo que va a ejecutar. Por su parte,el Aprendizaje por Reforzamiento (ApR) tambien esta relacionado con la toma de decisionesde un agente, pero unicamente basa su seleccion de accion en torno a una evaluacion de lasacciones que ha tomado, aprendiendo con base en su experiencia. Cabe destacar que las Redesde Comportamiento son estaticas al estar precompiladas, en tanto que el Aprendizaje por Re-forzamiento introduce un aspecto dinamico a la seleccion de accion.

En este trabajo, el modulo de Aprendizaje por Reforzamiento implementado actua sobre unmodulo de comportamiento particular perteneciente a la Red de Comportamiento. El objetivodel modulo de aprendizaje es que una conducta sujeta a tecnicas de aprendizaje experimenteuna especializacion, ante la posibilidad de elegir una opcion de entre varias opciones para laconducta; dicho en otras palabras, que mediante aprendizaje se logre la optimizacion de la selec-cion de opciones del agente, quien debera aprender a identificar a la mejor opcion de entre todasaquellas que le sea posible ejecutar, a fin de que siempre elija la opcion que mejor desempenotenga dados el ambiente del agente y sus motivaciones.

Para una mejor comprension de estos procesos, considere un animal viviendo en su medio am-biente, teniendo continuamente que tomar decisiones a fin de satisfacer sus necesidades basicas,como alimentarse, descansar, huir de sus depredadores, explorar su entorno, etc. Cada una deestas actividades implica la realizacion de muchas otras, por ejemplo, para alimentarse tiene quebuscar alimento y para descansar debe tener un lugar que le proporcione comodidad y seguri-dad. Aun mas, al ingerir alimento, los animales desarrollan una preferencia por aquellos que lesproporcionan mas nutrientes o que son ricos en reservas energeticas. Estas actividades implicanaprender a partir de lo que se experimenta; la vida del animal es un aprendizaje constante, acosta de la superviviencia.

x

El animal puede ser visto como un agente, ya que vive en un ambiente que debe conocer y sobreel que va a actuar al decidir que hacer. La Red de Comportamiento de este agente se conformade modulos que representan las diversas actividades del animal (alimentar, descansar, explorar,evitar depredacion, etc.). El aprendizaje en esta Red puede aplicarse a aquellas actividades querequieran una seleccion mas especializada; como un ejemplo, el comportamiento alimentar pue-de ser objeto de aprendizaje para decidir el tipo de alimento que el animal debe ingerir antevarias opciones alimenticias. Situaciones similares a las de este agente/animal son consideradasen la parte experimental de la investigacion.

Cabe mencionar que los experimentos realizados tienen sus fundamentos en estudios etologicosy en investigaciones computacionales que plantean el uso y desarrollo de modelos que ayu-den a explicar las observaciones de campo. En particular, en este caso se analiza el compor-tamiento de forrajeo de los monos aulladores (Alouatta Palliata), y computacionalmente seconsidera el Proyecto Monots, que durante anos se ha dedicado al modelado de tal conducta[Mar96a, Mar96b, Gar97, Gue97a, Gue97b, Gue98].

Este trabajo plantea primero los fundamentos teoricos de los procesos de seleccion de accion men-cionados: la Red de Comportamiento y el Aprendizaje por Reforzamiento. Se describe ademasABC [Gue97c, Mon98], una herramienta para simular Redes de Comportamiento. Finalmente,se explica la implementacion del aprendizaje y el impacto que tiene ante diversos experimentosplanteados. La organizacion capitular de la tesis es la siguiente:

En el capıtulo uno se exponen diversos conceptos de agente, ası como lo referente a los ambientesen los que un agente puede estar inmerso y las ideas de autonomıa y adaptacion, caracterısticasdeseables en todo agente. Como punto principal de este capıtulo se explica lo que es la seleccionde accion y los diversos mecanismos existentes para llevarla al cabo, de los cuales se destaca fi-nalmente la arquitectura bajo la que esta elaborada la implementacion de esta investigacion: lasRedes de Comportamiento, propuestas por Pattie Maes en su artıculo “How do the right thing”[Mae90a], ası como en “Situated agents can have goals” [Mae90b] y “A bottom-up mechanismfor behavior selection in an artificial creature”[Mae91a], de las que se indica su funcionamientotanto en algoritmo como en modelo matematico.

El capıtulo dos introduce el concepto de aprendizaje y plantea la importancia de aprender enun contexto de agente computacional. El enfasis se concentra en el enfoque que ha sido tomadopara el desarrollo del modulo de aprendizaje propuesto en esta investigacion: el Aprendizajepor Reforzamiento. Se da una breve resena historica de ApR y se presentan sus caracterısticasprincipales, tanto en sus componentes y algoritmo general, como en el problema de decidir entreaprovechar el conocimiento obtenido o buscar nuevo conocimiento en el ambiente. Se presentaun escenario simplificado del mismo: el problema del Bandido, ası como diversos metodos queenfrentan este problema desde varias perspectivas de solucion, como la evaluacion de acciones,los vectores de probabilidad, la comparacion de reforzamiento y la construccion de intervalos deconfianza.

En el capıtulo tres se presentan los antecedentes inmediatos de este trabajo. En primer lugar,la herramienta ABC, una implementacion de Redes de Comportamiento multi-aplicacion, de-

xi

sarrollada en 1997 por Alejandro Guerra [Gue97c] y extendida en 1998 por Fernando Montes[Mon98]. Esta herramienta ha demostrado gran aplicabilidad en diferentes entornos: se muestranlos resultados obtenidos al modelar el robot de Charniak, el Mundo de los Cubos y, de gran im-portancia a esta investigacion, el Proyecto Monots. De este ultimo trabajo surge la inquietud derealizar un estudio mas profundo de simulacion del comportamiento animal, especıficamente delmono aullador. Montes modifica ABC para emular la conducta de forrajeo de este animal, expe-rimentando con variaciones en la Red de Comportamiento y el uso de motivaciones. En segundolugar se hace una resena de XLearn, una herramienta de estudio de algoritmos de Aprendizajepor Reforzamiento, como antecedente del modulo de aprendizaje. En tercer lugar, se exponenlos estudios etologicos con monos aulladores que sirven de referencia a los experimentos desarro-llados: las investigaciones de Ernesto Rodrıguez Luna [Rod94] y de Cristina Domingo Balcells[Dom04]. En este ultimo se analiza la plasticidad conductual (capacidad de modular la conductaen funcion de las circunstancias del medio) de un grupo de monos aulladores ante variacionesen la disponibilidad de recursos alimenticios dentro de un espacio restringido, concepto de granimportancia en los experimentos realizados.

El capıtulo cuatro presenta el desarrollo del modulo de aprendizaje propuesto en esta investiga-cion. Se presenta la implementacion de los diversos algoritmos de Aprendizaje por Reforzamiento(Bandido, Greedy, ε-Greedy, Softmax, LRP, LR, RC e IE, ademas de dos comparativos no-ApR:optimo y sin aprendizaje), para plantear el impacto del mundo en las decisiones del agentesimulado y, mas importante aun, el impacto del modulo de aprendizaje en la Red de Comporta-miento. Asimismo, se indican las variantes ambientales en base a la cantidad y distribucion delas acciones posibles en el mundo del agente. Lo anterior constituye las modificaciones realizadasa la herramienta ABC, ahora ABC ApR.

En el capıtulo cinco se exponen los experimentos con los que se probo ABC ApR, los cuales giranen torno a la simulacion del comportamiento de forrajeo del mono aullador (el agente), por locual el aprendizaje es concerniente a la conducta de alimentacion que es modelada por una Redde Comportamiento. El modulo disenado modela la toma de decisiones que el animal enfrentaal momento de alimentarse, pues ante varias opciones alimenticias (acciones posibles), el monoselecciona un alimento de preferencia que busca como primera opcion, como se ha demostradoen estudios etologicos [Dom04]; ademas, tiene que tomar decisiones concernientes a situacionesen las que la distribucion ambiental del alimento complique la rapida ingesta del mismo, o peoraun, cuando el alimento deseado no este disponible en el ambiente (escasez de comida).

Estos experimentos estan sustentados en los modelos etologicos de Rodrıguez [Rod94] y Domin-go [Dom04], de los cuales se presentan los datos arrojados por la observacion de monos reales.Fue necesario el diseno de una Red de Comportamiento que simulara cada uno de los modelos;de estas redes se exponen los resultados obtenidos con sus versiones sin aprendizaje. Sobre estassimulaciones se realizaron los experimentos con aprendizaje, mismos que se ejemplifican breve-mente en este capıtulo. Posterior a esto, se expone el desempeno de los diversos algoritmos deaprendizaje en los experimentos bajo cada modelo. En el analisis de resultados se considerandiversos criterios, a traves de los cuales se analizan ambas simulaciones, y se presentan categorıasy resultados globales segun el desempeno obtenido.

Finalmente, se presentan las conclusiones derivadas de este trabajo de tesis y se plantea el po-

xii

sible trabajo futuro.

Como apoyo, se cuenta con un apendice que contiene diversas graficas y resultados de las corridas,ası como los modelos de Red de Comportamiento disenados para las simulaciones.

Objetivos

Objetivo principalImplementar un modulo de Aprendizaje por Reforzamiento que actue sobre un modulo decomportamiento particular perteneciente a un Mecanismo de Seleccion de Accion basadoen Redes de Comportamiento.

Objetivos secundariosInvestigar si experimentar con aprender sobre una conducta repercute o no en el patronde activacion de los modulos conductuales de la Red de Comportamiento.

Optimizar la seleccion de acciones por parte de un agente mediante tecnicas de aprendizaje.

Analizar el desempeno de los algoritmos de Aprendizaje por Reforzamiento implementados.

Objetivos de los experimentos

Modelar, mediante aprendizaje, la conducta de forrajeo de los monos aulladores, simulandosu toma de decisiones frente a diversas opciones alimenticias.

Maximizar la ganancia alimenticia del mono simulado, durante toda su vida, considerandoque se encuentra en un ambiente desconocido y que debe seleccionar, de entre variasopciones, la mejor.

Optimizar la alimentacion del mono simulado en situaciones donde el alimento de su pre-ferencia este disponible y en situaciones donde no lo este.

Capıtulo 1

Redes de Comportamiento, un Mecanismo deSeleccion de Accion

1.1 Agente

Hasta mediados de 1980’s, los investigadores de Inteligencia Artificial daban poca importanciaa los temas relacionados al concepto de agente, pero posteriormente surgio un gran interes entorno a este tema y actualmente la nocion de agentes es central a la Inteligencia Artificial. In-cluso se ha llegado a definir a la Inteligencia Artificial [RyN95] como el estudio y la construccionde agentes racionales (donde un sistema es racional si hace lo correcto).

Pero hasta el momento, no se ha dicho que es un agente. A fin de tomar una definicion apropiadaal presente trabajo, se exponen diversas conceptualizaciones dentro del campo de la InteligenciaArtificial.

Por un lado, existe la nocion de agente propuesta por Russell y Norving [RyN95], quienescentran completamente su libro “Inteligencia Artificial: un enfoque moderno” en los agentes ra-cionales, enunciando que un agente es algo que sensa y actua, o bien, cualquier cosa que percibesu ambiente a traves de sus sensores y actua en el a traves de sus efectores. Ya anteriormente,Kaelbling [Kae93] y Mataric [Mat94] definıan un agente como un sistema capaz de percibir yactuar en un medio ambiente.

Maes [Mae95] enuncia que un agente autonomo “es un sistema computacional que habita algunambiente dinamico complejo, sensa y actua autonomamente en ese ambiente, y al hacerlo realizaun conjunto de metas o tareas para las que esta disenado”.

Otros investigadores han optado por proponer ciertas propiedades basicas que un sistema debetener para ser identificado como agente. Una de las recopilaciones de propiedades mas difundidaes la de Wooldridge y Jennings [Woo95], en la cual consideran agente a un sistema auto-contenidosolucionador de problemas, autonomo, reactivo, pro-activo y con habilidad social, con lo que es-pecifican que el agente debe operar sin intervencion directa de los humanos, percibiendo suambiente y respondiendo a el, siendo capaz de guiar sus acciones hacia sus metas y ademas, deinteractuar con otros agentes.

Franklin y Graesser por su parte, a partir de una comparacion de diversas definiciones, pro-ponen que un agente es un sistema situado dentro de un ambiente, siendo a la vez parte de el,

2 1. Redes de Comportamiento, un Mecanismo de Seleccion de Accion

percibiendolo y actuando en el mismo, influenciando sus percepciones futuras y buscando lograrsus objetivos [Fra96].

Estas definiciones de agente coinciden en varios puntos. El agente 1) esta situado en algunambiente; 2) percibe su ambiente y actua en el; 3) actua para alcanzar metas; 4) actua demanera que sus acciones actuales puedan influenciar sus percepciones posteriores (sus accionesinfluencian su ambiente), y; 4) actua continuamente sobre algun periodo de tiempo.

Tales puntos ayudan a la construccion de una definicion de agentes: “Un agente es un sistemasituado en un ambiente, capaz de percibirlo y de actuar en el de manera continua e influen-ciandolo a la vez, para lograr sus objetivos”.

Russell y Norving [RyN95] presentan el esquema general implicado en un agente (figura 1.1).El agente tiene un rol activo, originando acciones que afectan su ambiente, mas que permitirpasivamente que el ambiente le afecte.

Figura 1.1: Descripcion general de un agente

Para disenar un agente hay que tener idea de las posibles percepciones y acciones, de las metas omedidas de desempeno que debe alcanzar el agente y de la clase de ambiente en el que operara:

Diseno de agente (tipo de agente) = Percepciones + Acciones + Metas + Ambiente

1.1.1. Ambiente

Hasta ahora se ha mencionado que todo agente esta inmerso en un ambiente que es capaz desensar y sobre el que puede actuar, pero no se ha mencionado con precision lo que es el ambiente.En una forma sencilla, pero concluyente, el ambiente de un agente identifica a todo aquello quele rodea y la naturaleza de la conexion entre agente y ambiente siempre es la misma: las accionesson realizadas por el agente en el ambiente, el cual a su vez proporciona percepciones al agente.

No importa si el agente esta situado en el mundo real o en un ambiente virtual; lo que in-teresa en relacion a ellos es la secuencia de percepciones generadas por el ambiente, pues es apartir de ellas que el agente puede interactuar con su ambiente. A continuacion se presentandiversos tipos de ambientes [RyN95]:

Accesible / inaccesible. El ambiente es accesible cuando el aparato sensorial del agente daacceso al estado completo del ambiente; en caso contrario es inaccesible.

1.1. Agente 3

Determinıstico / no determinıstico. El ambiente es determinıstico si el proximo estado delambiente es determinado completamente por el estado actual y las acciones seleccionadaspor los agentes; si no es ası, el ambiente es no determinıstico.

Episodico / no episodico. En un ambiente episodico, la experiencia del agente es divididaen “episodios”, consistentes de la percepcion del agente y de su actuacion; sus accionesdependen solo del episodio actual. Si no existen divisiones, es no episodico.

Estatico / dinamico. Si el ambiente puede cambiar mientras un agente esta deliberando,entonces se dice que el ambiente es dinamico para el agente; de otra manera es estatico.Si el ambiente no cambia con el paso del tiempo pero la calificacion del desempeno delagente lo hace, entonces el ambiente es semidinamico.

Discreto / continuo. Si hay un numero limitado de percepciones y acciones distintas,claramente definidas, el ambiente es discreto. En caso contrario, es continuo.

1.1.2. Autonomıa y adaptacion

Los sistemas basados en el comportamiento, conocidos tambien como “agentes autonomos”[Mae94], tienen su inspiracion en la etologıa, area de la biologıa que estudia el comportamientode los animales en su habitat natural. La IA basada en el comportamiento enfatiza el modeladoy construccion de sistemas que interactuan directamente con el medio ambiente, que es lo quecaracteriza a este tipo de sistemas; por lo general, se trata de un medio ambiente dinamico, com-plejo e impredecible, en el cual el agente busca satisfacer un conjunto de metas o motivaciones,variantes o no en el tiempo.

Maes [Mae94] enuncia los principales conceptos que interesan en este trabajo: “Un agente esun sistema que intenta satisfacer un conjunto de metas en un ambiente dinamico y complejo.Un agente esta situado en el ambiente: puede sensar el mundo a traves de sus sensores y actuarsobre el usando sus efectores ... Un agente es llamado autonomo si decide por sı mismo comorelacionar los datos que sensa a instrucciones para sus efectores de forma tal que sus metassean atendidas acertadamente. Se dice que un agente es adaptativo si es capaz de mejorar conel tiempo, esto es, si el agente llega a ser mejor alcanzando sus metas en base a la experiencia.”

La autonomıa es una caracterıstica deseable en los sistemas bajo el enfoque de la IA basadaen el comportamiento. De acuerdo a McFarland, la autonomıa implica libertad de control ex-terno o, en otras palabras, auto-gobierno [McF95]. La razon por la cual los agentes autonomosno deben ser controlados por un agente externo es que el estado del agente autonomo no es com-pletamente observable. Debe tenerse en cuenta que la autonomıa requiere que el agente este enfuncionamiento continuo, repitiendo el proceso percepcion-accion permanentemente (persisten-cia).

Por su parte, Russell y Norving [RyN95] mencionan que un sistema es autonomo en la medida enque su comportamiento es determinado por su propia experiencia, sin basarse en conocimientoempotrado al construir el agente (lo que lo harıa inflexible), ası como que la autonomıa conllevala capacidad de operar en una amplia variedad de ambientes, por adaptabilidad.


El principal problema a ser resuelto en la investigacion de los agentes autonomos es el pro-poner una arquitectura para un agente autonomo que resulte en un agente que demuestre uncomportamiento adaptativo, robusto y efectivo. Al decir adaptativo se hace referencia a un agen-te que mejora su habilidad para alcanzar metas en el tiempo. Un agente robusto es aquel quenunca colapsa completamente, pues en cambio presenta una degradacion graciosa cuando fallanalgunos componentes o suceden situaciones inesperadas. Se denomina como efectivo al agenteque tiene exito al alcanzar sus metas.

Existen dos subproblemas que se han intentado resolver: el problema de la seleccion de accion yel problema de aprender de la experiencia. Muchas de las arquitecturas de agentes propuestassolo se han enfocado a uno de los dos subproblemas: ya sea que se combine una seleccion deaccion simplista con un aprendizaje sofisticado o bien, se implemente una seleccion de accionsofisticada sin ninguna clase de aprendizaje. El presente trabajo estudia ambos problemas en unagente que debe decidir que hacer mediante un mecanismo de seleccion de accion y aprendizaje(del tipo reforzado). A continuacion se expondran los dos subproblemas mencionados.

1.1.3. La seleccion de accion

En los sistemas basados en el comportamiento, el problema de la seleccion de accion radica enel proceso que un agente debe llevar al cabo en cada instante de tiempo a fin de satisfacer lasmultiples metas que posee. Tal proceso consiste de seleccionar de entre un conjunto de posiblesacciones a ejecutar, aquella accion que mas se adecue a lo que se percibe en ese momento, pa-ra generar y mantener un comportamiento correcto y robusto del agente. Este problema puedeplantearse con las siguientes interrogantes: ¿Como puede un agente decidir que debe hacer inme-diatamente para fomentar el progreso hacia sus multiples metas variantes en el tiempo? ¿Comopuede tratar con contingencias u oportunidades que puedan surgir? ¿Como puede arbitrar entremetas conflictivas? ¿Como puede reaccionar de manera oportuna?

En teorıa es posible que, para un agente que tiene un conjunto fijo de metas y que vive enun ambiente determinıstico o probabilıstico, se pueda calcular la polıtica optima de seleccion deaccion. Pero cuando se trata de agentes que se encuentran en ambientes mas reales, es imposibledeterminar una polıtica optima, dado que se enfrentan diversos problemas que aumentan la di-ficultad para modelar, pues en principio se enfrenta un ambiente dinamico, no determinıstico ono probabilıstico y se tienen metas variantes en el tiempo, por lo cual se cuenta con informacionque posiblemente sea incompleta o incluso incorrecta. Ademas, no debe olvidarse el problemade la limitacion de recursos, ya sea en memoria, computacion o tiempo.

Los investigadores en el campo de los agentes autonomos estan interesados en encontrar me-canismos de seleccion de accion que sean robustos y adaptativos, ası como tambien en que losagentes alcancen sus metas dentro de los requerimientos y restricciones impuestos por el medioambiente y las tareas a realizar. El mecanismo de seleccion de accion “ideal” debera cubrir lossiguientes requisitos [Mae94]:

Favorecimiento de acciones que contribuyan a alcanzar metas, particularmente aquellasque representen un mayor progreso hacia las metas.

Flexibilidad ante contingencias y oportunidades.

1.1. Agente 5

Operacion en tiempo real.

Minimizacion de alternancias innecesarias entre acciones que contribuyan a metas diferen-tes.

Mejoramiento en base a la experiencia.

Mostrar una degradacion graciosa cuando fallen los componentes o bien, sucedan cambiosinesperados.

No caer en ciclos o en situaciones de interbloqueos, o bien, en situaciones en que el agentedemande metas inalcanzables.

Ser bastante bueno para el ambiente y las tareas disponibles. Es decir, mientras el agentese dirija a alcanzar sus metas dentro de las restricciones impuestas por la situacion en quese encuentre, la forma en que resuelve el problema es considerada como aceptable.

Maes [Mae94] presenta una clasificacion de los modelos para la seleccion de accion que se hanpropuesto, dividiendolos en tres clases:

(a) Redes heterarquicas, construidas a mano. Arquitecturas que requieren que el disenador delagente resuelva el problema de la seleccion de accion desde el inicio para cada agente quese construya, es decir, el disenador debe analizar cuidadosamente el ambiente y las tareasa manipular, para que proceda a disenar un conjunto de modulos reflejos y la manera decombinar las salidas de esos modulos. Las metas en esta clase de agentes estan implıcitas,pudiendo ser multiples y de naturaleza muy diversa. El mecanismo para solucionar con-flictos (determinar que modulos dirigiran a los efectores) esta dado ya sea por un conjuntode alambrados de supresion/inhibicion o bien, por un circuito logico, mediante lo cual seasegura que a lo mas un modulo controlara a un efector en todo momento. Ejemplos: laArquitectura de Subsumcion [Bro86] y la version minimalista de la misma [Con90].

(b) Redes heterarquicas, compiladas. Arquitecturas que intentan facilitar la construccion delos agentes mediante la automatizacion del proceso de disenar la solucion de conflictosentre los modulos de competencia. Se requiere que el disenador especifique en un determi-nado formalismo cuales son las metas del agente, como pueden devenir unas metas en otrasacciones o metas y cuales son los diversos modulos/accion y sus condiciones y efectos espe-rados. Ejemplos de esta clase de arquitecturas lo constituyen las Redes de Comportamiento[Mae89, Mae90a] y el sistema Rex/Gapps [KyR90]

(c) Redes jerarquicas, construidas a mano. Propone organizar las acciones en una jerarquıa quecomprende desde “modos” o actividades de alto nivel a traves de acciones compuestas denivel medio hasta acciones primitivas detalladas. En realidad, solo las acciones primitivasson ejecutables. Estos sistemas usan una clase de ordenamiento para la seleccion de accionen niveles de abstraccion mas altos para sesgar la seleccion de acciones mas primitivas.Ejemplos de tales arquitecturas son Hamsterdam [Blu94] y el trabajo de Tyrell [Tyr93].

En la seccion dos del presente capıtulo se analizan algunos de los mecanismos de seleccion deaccion que han sido desarrollados con el fin de solucionar el problema de la seleccion de accion.


1.1.4. Aprender de la experiencia

El problema del aprendizaje a partir de la experiencia puede definirse ası: Sea un agente con (a)un conjunto de acciones o modulos de competencia, (b) cierta informacion sensada y (c) multi-ples metas -variantes en el tiempo-, ¿como puede tal agente mejorar su desempeno basandose ensu experiencia? ¿Como puede decidir cuando “explotar” su actual mejor accion, versus la “explo-racion” de otras acciones para posiblemente descubrir formas de lograr sus metas? ¿Como puedeincorporar la realimentacion del mundo en las estructuras internas que generan su comporta-miento? Por mejorıa debe entenderse que el agente llegue a ser mas exitoso en la satisfaccionde sus metas o necesidades. Ası, si se tiene una meta final, entonces el tiempo o el numero deacciones promedio requerido (u otra medida de costo) para lograr la meta, decrementa con eltiempo. Si en cambio, se tiene una meta por maximizacion de reforzamiento, entonces el prome-dio del reforzamiento positivo recibido durante un cierto intervalo de tiempo incrementara conla experiencia.

La mayorıa de las arquitecturas descuidan el problema de aprender por experiencia (excepto[Mae91b]), lo cual se observa porque sus agentes solo son adaptativos en un sentido muy restrin-gido, dado que son capaces de tratar con situaciones inesperadas, pero no aprenden por reali-mentacion de su ambiente. No llegan a mejorar el logro de sus metas por medio de la experiencia.

Aprender a partir de la experiencia es una necesidad para cualquier agente que deba demostrarun comportamiento autonomo y robusto sobre largos periodos de tiempo. Dado que el apren-dizaje por experiencia representa una fuente para mejorar el comportamiento, guarda estrecharelacion con la capacidad de adaptacion de los agentes. Es importante tener en cuenta que elverdadero comportamiento adaptativo es un proceso continuo, inherentemente dinamico.

Cualquier modelo por aprendizaje en agentes autonomos debe cubrir los siguientes puntos:

(a) El aprendizaje debe ser incremental.

(b) El aprendizaje debe estar sesgado a la adquisicion de conocimiento relevante a las metas(no puede permitirse que el agente aprenda cualquier hecho que pueda ser aprendido).

(c) Debe ser capaz de enfrentar ambientes probabilısticos y ruidosos, sensores con fallas, etc.

(d) El aprendizaje debe ser no supervisado.

(e) De preferencia, que el modelo de aprendizaje proporcione al agente algun conocimientoinicial propio del sistema.

En el capıtulo 2 se trata mas a fondo el tema del aprendizaje, dado que este es el tema centraldel presente trabajo.

1.2 Mecanismos de seleccion de accionComo ya se menciono, el dilema al que se enfrenta un agente al tener que decidir que acciondebe seleccionar en cada momento es conocido como el problema de la seleccion de accion. Laespecificacion de la manera en que el agente debe seleccionar las acciones constituye lo que sedenomina Mecanismo de Seleccion de Accion, el cual es un modelo computacional para el diseno

1.2. Mecanismos de seleccion de accion 7

de agentes, cuya implementacion producira la eleccion de la accion mas apropiada cuando sele proporciona al sistema una entrada conformada de diversos estımulos internos y/o externos.Los estımulos externos son percepciones del estado del mundo externo del agente. Los estımulosinternos son percepciones del estado del mundo interno de la entidad (hambre, cansancio, etc).Las acciones son conductas externas ejecutadas por el agente en respuesta a la presencia de de-terminados estımulos internos y/o externos. Solo una accion puede ser ejecutada en un tiempoespecıfico. Un mecanismo de seleccion de accion combina los estımulos externos e internos yselecciona de entre todas las acciones potenciales que la entidad puede ejecutar en ese momento,aquella que resulte ser la mas adecuada.

De forma breve, se puede decir que el problema de la seleccion de accion especifica el que,en tanto que el mecanismo de seleccion de accion indica el como. A continuacion se hace unbreve analisis de los mecanismos de seleccion de accion mas importantes dentro de los sistemasbasados en el comportamiento.

1.2.1. Arquitectura de Subsumcion

Arquitectura computacional propuesta por R. Brooks [Bro86], que surge ante la necesidad decontrolar robots, con el proposito de programar agentes incorporados, situados e inteligentes.La arquitectura de subsumcion (SA, por sus siglas en ingles) consiste de una serie de comporta-mientos, mismos que contituyen una red de maquinas de estados finitos fuertemente alambrada.La seleccion de accion consiste de comportamientos de niveles superiores dominando (o subsu-miendo) la salida de comportamientos inferiores.

En esta arquitectura, Brooks define niveles de competencia, que son una especificacion infor-mal de una clase deseada de comportamiento en diversos niveles de abstraccion (por ejemplo,evitar obstaculos, explorar el mundo, etc.). Un nivel de competencia mas alto implica una clasedeseada de comportamiento mas especıfica (ver ejemplo en la figura 1.2). Brooks argumenta queadhiriendose a los principios de la arquitectura de subsumcion, se puede construir un sistemaincrementalmente.

Cada nivel de competencia en la arquitectura de subsumcion es implementado usando unamaquina de estados finitos aumentada con elementos temporizadores y registros. En la arquitec-tura de subsumcion, los modulos/comportamientos no pueden cooperar -cada capa es construidasobre su propio hardware totalmente desde el principio. El sistema de control esta fuertementealambrado directamente sobre la estructura de los comportamientos y sus interconexiones, porlo que no puede ser alterado sin redisenar el sistema.

La funcionalidad de un robot basado en SA es vista como una propiedad emergente de lainteraccion de sus conductas y depende de las propiedades estaticas y dinamicas del ambiente.

La SA constituye un sustrato computacional que puede ser usado como medio para instanciardiferentes mecanismos de seleccion de accion, o como un medio de instanciamiento de diferentestecnicas para control motriz.

La SA no es ni una descripcion computacional del problema de la seleccion de accion, ni una


descripcion algorıtmica de como seleccionar acciones, sino mas bien es una tecnica de imple-mentacion, la cual puede usarse para implementar un gran numero de diferentes algoritmos. Laarquitectura de subsumcion no contiene una descripcion de como tratar con los aspectos impor-tantes del problema de seleccion de accion. En conclusion, es una tecnica de implementacion,mas que un algoritmo o un mecanismo para la seleccion de accion.

Figura 1.2: Arquitectura de Subsumcion con una capa de niveles de competencia para un robotmovil

1.2.2. Redes de Comportamiento

Modelo propuesto por P. Maes [Mae89, Mae90a, Mae90b, Mae91a]. El sistema consiste de unconjunto de comportamientos o modulos de competencia que se encuentran conectados paraformar una red. Este enfoque esta inspirado en la Sociedad de la Mente de Minsky [Min86]1, yen realidad implementa una clase de analisis de medios-fines, donde un conjunto de comporta-mientos reduce la diferencia entre el estado actual y el estado meta del sistema.

En la red, cada comportamiento mi es presentado como una tupla (ci, ai, di, αi), describiendo:1) las precondiciones ci bajo las cuales es ejecutable (esto es, puede ser aplicado), 2) los efec-tos posteriores a la ejecucion exitosa en forma de una lista anadir ai y una lista borrar di, y3) el nivel de activacion, αi, el cual es una medida de la relevancia de la conducta. Cuando elnivel de activacion de una conducta ejecutable excede un umbral especıfico, es seleccionada parahabilitar su accion. Cuando una conducta es seleccionada ejecutara la accion mas apropiadadesde su punto de vista. El nivel de activacion de los comportamientos esta influenciado por lainyeccion y remocion externas de “energıa de activacion” de la red ası como tambien por unintercambio interno de energıa de activacion entre los modulos dentro de la red. El intercambiode energıa de activacion toma lugar continuamente y en cada ciclo es seleccionada la conductaejecutable con el nivel de activacion mas alto.

1Esta teorıa sugiere la construccion de un sistema inteligente como una sociedad de agentes interactuantes,cada uno con su propia competencia especıfica. La idea es que los agentes cooperen en tal forma que la sociedadcomo un todo funcione apropiadamente. Maes plantea sus Redes de Comportamiento como sociedades de agentes,donde un agente es un modulo de competencia.

1.2. Mecanismos de seleccion de accion 9

Mediante el intercambio de energıa de activacion, los comportamientos compiten y cooperanpara seleccionar una accion (un comportamiento que ejecuta una accion) que es la mas apro-piada al estado actual del ambiente y a las metas del sistema. La forma en que la energıa deactivacion es intercambiada entre las conductas favorece la seleccion de una secuencia de com-portamientos que pueden transformar el estado actual del ambiente a un estado meta. Estasecuencia, sin embargo, no es determinada definitivamente y seguida despues como en los pla-nificadores de la IA tradicional. A diferencia de los planificadores tradicionales, este sistema notiene una representacion explıcita de planes, ni implementa un algoritmo de busqueda especıficopara construir planes. Mas bien el sistema selecciona y ejecuta el proximo paso de la secuenciaemergentemente, lo cual es influido no solo por las metas del sistema sino tambien por el estadodel ambiente en cada paso. Las acciones seleccionadas corresponden a las submetas del sistema,mismas que llevan al sistema a estar proximo a una de sus metas.

La idea central del modelo de Maes para la seleccion de accion es que diferentes tipos de li-gas codifican varias relaciones (por ejemplo, relaciones consumatorias/apetitivas entre nodos,relaciones conflictivas entre nodos, relaciones para alcanzar metas entre nodos y metas, rela-ciones que contrarrestan metas entre nodos y metas y relaciones dependientes de la situacionentre los sensores ambientales y los nodos), y con esta informacion fuertemente alambrada en elmecanismo, la excitacion solo puede alimentarse a partir de la situacion y las metas actuales, yla actividad, despues de varias iteraciones, vendra a asentarse en el nodo que represente el com-portamiento mas apropiado. La figura 1.3 muestra un ejemplo de una Red de Comportamiento.

Figura 1.3: Ejemplo de una Red de Comportamiento que simula un robot con dos manos quetiene que lijar una tabla y pintarse a sı mismo (adaptado de [Mae90b]

El sistema esta disenado para manejar situaciones lo mismo que esta orientado a metas, ası elsistema sera oportunıstico y elegira la secuencia mas corta de acciones que puede llevar al sistemaa un estado meta. Debido a su naturaleza distribuida, el sistema es tolerante a fallos, por lo que


el fracaso de un simple modulo de comportamiento no necesariamente conduce a la falla delsistema completo.

1.2.3. Hamsterdam

Modelo computacional de seleccion de accion [Blu94] inspirado en observaciones (basado en elmodelo de Ludlow [Lud76]), en el cual se implementa un sistema del tipo “el ganador se lolleva todo”, consistente con el pensamiento etologico tradicional, pero permitiendo perdida deactividad para expresar preferencias en forma de recomendaciones. Este enfoque se centra enla importancia de las organizaciones jerarquicas del comportamiento aunado a compartir infor-macion y contar con un flujo comun con el cual expresar necesidades internas y oportunidadesexternas.

Las actividades son organizadas en jerarquıas traslapadas no conexas, con las actividades masgenerales en la parte superior y las actividades mas especificas en las hojas. Las actividades serepresentan como nodos en un arbol, pudiendo cada nodo tener 0 o mas hijos. El mecanismo deseleccion de accion consiste en determinar el nodo hoja a activar en un momento dado, comen-zando desde la raız del arbol. Los hijos se inhiben mutuamente y solo uno puede estar activo ala vez. Si se activa un nodo hoja, este podra ejecutar una o mas acciones; en caso contrario, loshijos del nodo activado compiten por el control hasta alcanzar un nodo hoja (ver figura 1.4).Las acciones compiten en base a su valor, el cual resulta del monitoreo de variables endogenasy factores externos. Dentro de una coleccion de actividades mutuamente inhibidas, el sistemaitera hasta hallar una solucion estable en la cual una actividad tenga un valor positivo y el valorde las restantes actividades este dentro de ciertos rangos.

Las jerarquıas de actividad son construidas a mano, y los parametros ajustados en base acomportamientos observados. Con su modelo, Blumberg demostro que es necesario incorporarmecanismos tomados del conocimiento etologico a fin de lograr que los animats se comportende manera similar a los animales (un animat es un animal artificial [Wil85], ya sea simula-do o incorporado en un robot, que debe sobrevivir y adaptarse en ambientes progresivamentecambiantes).

Figura 1.4: Seleccion de accion en Hamsterdam - Jerarquıa de comportamientos.

1.3. Redes de Comportamiento 11

1.3 Redes de ComportamientoABC [Gue97c], [Mon98], la herramienta para el diseno de agentes sobre la cual se desarrollael presente trabajo, consta de una implementacion del mecanismo de seleccion de accion deno-minado Redes de Comportamiento, propuesto por Maes [Mae89, Mae90a]. Por tal motivo, lapresente seccion esta dedicada a presentar de manera amplia dicho modelo.

Un agente autonomo es visto como un conjunto de modulos de competencia (nodos de la red).En el enfoque de las Redes de Comportamiento, la seleccion de accion es modelada como unapropiedad emergente de las dinamicas de activacion/inhibicion entre los modulos de competen-cia. La red de conductas es en sı una red distribuida, recurrente y no jerarquica. El conjunto denodos que lo conforman representa las conductas; estos nodos pueden ser consumatorios (los quedesencadenan una accion) o apetitivos (los que al dispararse, establecen condiciones para queotro, ya sea consumatorio o apetitivo, pueda dispararse). Existen dos flujos de entrada a la red,ya sea por los sensores del ambiente (estımulos externos) o por las motivaciones (generalmentederivadas de estımulos internos). Las motivaciones constituyen la energıa interna potencial, yaque tiende a acumularse en el tiempo y se descarga por la ejecucion de una conducta consu-matoria; deben conectarse unicamente a nodos consumatorios. Los sensores del ambiente sonevaluados binariamente (V o F), en tanto que las motivaciones son dadas en cantidades reales.La red exhibe un comportamiento guiado por metas.

1.3.1. Algoritmo

Formalmente, la Red de Comportamiento esta constituida por:

� Modulos de competencia

Un modulo de competencia mi se describe mediante la tupla: mi = (ci, ai, di, αi)

La cual se conforma por los siguientes componentes:

ci lista de precondiciones. ai lista de agregar.di lista de eliminar. αi nivel de activacion.

La lista de precondiciones debe cubrirse en su totalidad al momento de activar al agente.Las listas de agregar y eliminar se utilizan para capturar los efectos esperados de la acciondel agente. En base a esta definicion, un agente es ejecutable en el tiempo t cuando todassus precondiciones son verdaderas en t, con lo cual tal agente puede ser activado, lo quesignifica que podra ejecutar algunas acciones sobre su ambiente.

� Ligas

Los agentes estan enlazados en una red por medio de ligas sucesoras (→), predecesoras(←) y conflictivas (=). Las ligas son usadas para propagar la activacion entre los modulosy es precisamente mediante su accion sobre un agente (en sus 3 listas -precondiciones,anadir y eliminar), que se logra definir completamente la red.

Sean dos modulos de competencia, mx = (cx, ax, dx, αx) y my = (cy, ay, dy, αy), las ligasque entre ellos se establecen pueden ser de 3 tipos:


Existe para toda proposicionLiga sucesora de mx a my mx → my p ∈ ax ∩ cy

Liga predecesora de mx a my mx ← my p ∈ cx ∩ ay

Liga conflictiva de mx a my mx = my p ∈ cx ∩ dy

� Activacion

Los modulos usan estas ligas para activar e inhibir a los demas modulos. A esto se leconoce como propagacion de activacion. Al transcurrir el tiempo, la energıa de activacionse acumula en los modulos que representan las mejores acciones a tomar, dadas la situaciony las metas actuales. El nivel de activacion de cada uno de esos nodos se compara contraun umbral (analizado mas adelante), y cuando alguno de ellos logra sobrepasarlo y ademasse comprueba que tal modulo es ejecutable, entonces se activa ese modulo para que ejecutesus acciones en el mundo.

A cada momento, la propagacion de la activacion junto con la entrada de nueva energıade activacion a la red son determinadas por el estado del ambiente y las metas globalesdel agente. De ahı que existan tres tipos de activaciones:

Activacion por estado. Energıa proveniente del ambiente hacia los modulos que apa-rean parcialmente con el estado actual.

Activacion por metas. Incremento de la activacion de los modulos que alcanzan metasglobales. Existen dos tipos de metas: (a) temporales, a alcanzar una sola vez, y (b)permanentes, a alcanzar continuamente.

Inhibicion de metas protegidas. Disminucion de la activacion por las metas globalesque el agente ha alcanzado y que deben protegerse. Dichas metas protegidas remuevenparte de la activacion de aquellos modulos que podrıan anularlas.

Ademas de la influencia del ambiente y de las metas, los modulos se activan e inhibencomunmente entre ellos a traves de sus ligas, por lo cual existen otras tres formas depropagacion de activacion:

Activacion de sucesores Un modulo de competencia mx = (cx, ax, dx, αx) ejecutablepropaga activacion hacia adelante, al incrementar el nivel de activacion de aquellossucesores my para los cuales la proposicion compartida p ∈ ax ∩ cy es falsa.

Activacion de predecesores Un modulo de competencia mx = (cx, ax, dx, αx) no ejecu-table propaga activacion hacia atras, al incrementar el nivel de activacion de aquellospredecesores my para los cuales la proposicion compartida p ∈ cx ∩ ay es falsa.

Inhibicion de conflictos Un modulo de competencia mx = (cx, ax, dx, αx) ejecutable ono, decrementa el nivel de activacion de los modulos confictivos my para los cuales laproposicion compartida p ∈ cx ∩ dy es verdadera, excepto para aquellas ligas para lascuales existe una liga conflictiva inversa que es mas fuerte.

� Parametros

La red requiere el uso de cinco parametros, a fin de ajustar la dinamica de activacion y,por ende, la seleccion de accion del agente.


θ Umbral de activacion. Se reduce 10 % cada vez que ningun modulo puede ser selec-cionado. Se restablece a su valor inicial cuando se ha seleccionado un modulo.

π Nivel promedio de activacion.

φ Cantidad de energıa de activacion que inyecta en la red una proposicion que se observacomo verdadera.

γ Cantidad de energıa de activacion que una meta inyecta en la red.

δ Cantidad de energıa de activacion que una meta protegida sustrae de la red.

Como ya se menciono, estos parametros determinan la cantidad de activacion que propaganlos modulos, la cual puede darse en alguna de las siguientes formas:

• Para una proposicion falsa en su lista de precondiciones, un modulo no ejecutablepropaga α a sus predecesores.

• Para una proposicion falsa en su lista de agregar, un modulo ejecutable propagaα(φ/γ) a sus sucesores.

• Para una proposicion verdadera en su lista de precondiciones un modulo decrementaα(δ/γ) de los modulos conflictivos.

Algoritmo de las Redes de Comportamiento

El algoritmo global de la Red de Comportamiento realiza un ciclo infinito que abarca a to-dos los modulos de competencia:

Algoritmo 1 Algoritmo de las Redes de Comportamiento

1: Calcular el impacto del estado, las metas y las metas protegidas sobre el nivel de activacionde un modulo.

2: Calcular la activacion e inhibicion que un modulo ejerce a traves de sus ligas sucesoras,predecesoras y conflictivas sobre cada uno de los modulos relacionados.

3: Aplicar funcion de decaimiento, para asegurar que el nivel de activacion global permanezcaconstante.

4: Activar el modulo que cumpla las siguientes tres condiciones:(a) Ser ejecutable.(b) Tener un nivel de activacion que sobrepase al umbral.(c) Tener el nivel de activacion mas alto entre todos los modulos que cubran los dospuntos anteriores.Cuando 2 modulos de competencia satisfacen las tres condiciones (son igualmente fuer-tes), uno de ellos es seleccionado aleatoriamente. El nivel de activacion del modulo acti-vado se reinicializa a 0. Si ninguno de los modulos cumple las condiciones (a) y (b), elumbral es reducido en un 10 %.

1.3.2. Modelo matematico

A continuacion se presenta la descripcion matematica del algoritmo [Mae89].

� Agente

Como ya se establecio anteriormente (seccion 1.3.1), un modulo de competencia mi se


define como una tupla mi = (ci, ai, di, αi), siendo ci, ai y di los conjuntos de proposicionesde precondicion, agregar y eliminar, respectivamente, y α el nivel de activacion de mi.

Un agente A se define como el conjunto de todos los modulos de competencia:A = {m1,m2, ...,mn}.

� Proposiciones

Sea p = (ci ∪ ai ∪ di) el conjunto de proposiciones que definen el modulo de competenciami.

Sea P el conjunto de precondiciones usadas para definir al agente A: P = {p1∪p2∪...∪pn}.

Dado el agente A, sea:

M(p) = {mi : mi ∈ A ∧ p ∈ ci, 1 ≤ i ≤ n} el conjunto de todos los modulos decompetencia mi en A que tienen a la proposicion p como precondicion.

A(p) = {mi : mi ∈ A ∧ p ∈ ai, 1 ≤ i ≤ n} el conjunto de todos los modulos de competenciami en A que alcanzan la proposicion p.

D(p) = {mi : mi ∈ A ∧ p ∈ di, 1 ≤ i ≤ n} el conjunto de todos los modulos de competenciami en A que anulan la proposicion p.

� Percepcion

La funcion S(t) = {p : p ∈ PA ∧ p es verdadera al tiempo t} retorna el conjunto deproposiciones que se observan verdaderas en el ambiente al tiempo t (el estado del ambientecomo es percibido por el agente).

� Metas globales del agente

La funcion G(t) = {p : p ∈ PA ∧ p es una meta del agente al tiempo t} regresa el conjuntode proposiciones que son metas del agente A en el tiempo t.

� Metas globales alcanzadas

La funcion R(t) = {S(t)∩G(t)} regresa el conjunto de metas del agente A que ya han sidoalcanzadas en el tiempo t.

� Modulos de competencia ejecutables

La funcion E(mi, t) regresa 1 si el modulo de competencia mi es ejecutable al tiempo t(esto es, si todas sus precondiciones son miembros de S(t)), y 0 en caso contrario.

� Dinamica de Activacion/Inhibicion

Activacion por influencia del medio ambiente

La cantidad de energıa que recibe un modulo mi del medio ambiente, por correspondenciaparcial con este, es:

entrada por estado(mi, t) =∑∀p∈P

φ1

|M(p)|1|ci|


Activacion por influencia de las metas

La cantidad de energıa que recibe un modulo mi, debido a su capacidad de realizar algunameta, es:

entrada por metas(mi, t) =∑∀p∈P

γ1

|A(p)|1|ai|

Inhibicion por metas realizadas

La cantidad de energıa que recibe un modulo mi cuya accion puede afectar una metapreviamente realizada es:

salida por metas realizadas(mi, t) =∑∀p∈P

δ1

|D(p)|1|di|

Propagacion hacia atras

La cantidad de energıa que un modulo mi recibe de un modulo mj a traves de sus ligas desucesor es:

factor bwp(mi,mj , t) =

∑∀p∈P

αj(t− 1)1

|A(p)|1|ai|

Si E(mi, t) = 0

0 Si E(mi, t) = 1

donde P = {p : p ∈ ai ∩ cj ∧ p ∈ S(t)}

La cantidad de energıa en que un modulo mi recibe propagacion hacia atras es:

bwp(mi, t) =∑∀m∈A

factor bwp(mi,m, t)

Propagacion hacia adelante

La cantidad de energıa que un modulo mi recibe de un modulo mj a traves de sus ligas depredecesor es:

factor fwp(mi,mj , t) =

∑∀p∈P

αj(t− 1)σ

γ

1|A(p)|

1|ai|

Si E(mi, t) = 1

0 Si E(mi, t) = 0

donde P = {p : p ∈ ci ∩ aj ∧ p /∈ S(t)}

La cantidad de energıa en que un modulo mi recibe propagacion hacia adelante es:

fwp(mi, t) =∑∀m∈A

factor fwp(mi,m, t)

Inhibicion por conflicto

La cantidad de energıa que es retirada de un modulo mi por inhibicion debida a conflictos


es:

factor confp(mi,mj , t) =

0 Si αi(t− 1) > αj(t− 1) ∧ (∃p)(p ∈ S(t) ∩ ci ∩ dj)

max

[ ∑∀p∈P

αj(t− 1)1

|D(p)|1|di|

, αi(t− 1)]

En cualquier otro caso

donde P = {p : p ∈ di ∩ cj ∧ p ∈ S(t)}

La cantidad de energıa que es retirada de un modulo mi por inhibicion debida a conflictoses:

confp(mi, t) =∑

∀m∈A∧m6=m

factor confp(mi,m, t)

� Nivel de activacion

El nivel de activacion del modulo mi al tiempo t se define como:

α(mi, t) =

0 Si t = 0

normaliza

α(mi, t− 1) +entrada por estado(mi, t) +entrada por metas(mi, t) −salida por metas realizadas(mi, t) +fwp(mi, t) + bwp(mi, t)− confp(mi, t)

Si t > 0

donde normaliza es una funcion que se encarga de que la activacion total del agente An

permanezca constante en πn (por analogıa con la “energıa de activacion”).

� Modulo de habilidad activo

El modulo de competencia mi que se activa al tiempo t esta determinado por:

activo(t, mi) =

1 Si

α(mi, t) > θ ∧E(mi, t) ∧random({mi|α(mi, t) ≥ α(mj 6=i, t)})

0 En cualquier otro caso

1.3.3. Limitaciones y crıticas

La arquitectura de Redes de Comportamiento presenta unas limitaciones, algunas de las cualesson expuestas por Maes en sus artıculos [Mae90a, Mae90b, Mae91a]: 1) es necesaria una cali-bracion cuidadosa de los parametros, ya que son dependientes del problema (la calibracion esmanual); 2) debido a que la red no mantiene registro de sus acciones, puede caer en ciclos deseleccion de acciones ([Mon98] introduce la dinamica del mundo para evitar los ciclos), y; 3)no usa retroalimentacion del ambiente para mejorar la Red de Comportamiento (en [Mae91b]propone adaptar las ligas de los comportamientos en base a la experiencia).

Una de los principales crıticos de las Redes de Comportamiento es Tyrrell, quien en su tesis


doctoral [Tyr93] realizo un analisis de varios mecanismos de seleccion de accion; el reconoceque el mecanismo de Maes es una mejorıa a los enfoques previos porque basa sus calculos tantoen motivaciones como en estımulos internos, abordando satisfactoriamente muchos aspectos delproblema de seleccion de accion, pero tambien senala que algunas deficiencias en el diseno delas Redes de Comportamiento significan que estas no se desempenaran bien sobre problemas deseleccion de accion similares a los de los animales.

Uno de los puntos que observa en contra del mecanismo es que los sensores del ambiente estanrestringidos a tomar valores binarios (al considerar el superar un umbral), lo que hace que sepierda informacion, dado que muchas propiedades de los ambientes reales son continuas.

Ademas, Tyrrell [Tyr93, Tyr94] noto que hay perjuicio contra los modulos que reciben entradade los sensores que tambien dan activacion a otros modulos; esto porque Maes especifica quela activacion que una condicion verdadera tiene disponible para propagar a la red debiera serdividida equitativamente entre todos los modulos que abastece.

Ademas de estas observaciones, se han senalado otras mas [Nor94] con respecto al tamano de laRed de Comportamiento, alegando que no esta claro como se podrıa expandir el sistema a unconjunto de tareas mas complejas de las que uso Maes, sin que el algoritmo llegue a ser compu-tacionalmente costoso hasta el punto de volverse impractico, pues la complejidad del algoritmoy el tiempo de reaccion se incrementan con el numero de comportamientos, ası como el numerode ligas entre ellos. Asimismo se acusa que la Red de Comportamiento es una representacionestatica de los metodos que un agente puede elegir para satisfacer un conjunto de posibles metas.

La propia Maes, en [Mae94], documento donde aborda esta arquitectura por ultima vez, concluyeque la clase de agentes que pueden ser construidos esta restringida, ademas de que en ocasioneses difıcil especificar las metas y el comportamiento deseado de un agente, lo cual es necesariohacer bien para tener una buena seleccion de accion.

Pero aun con las crıticas que se le han hecho, no todo esta en contra de las Redes de Com-portamiento, pues han sido muy estudiadas y son uno de los mecanismos de seleccion de accionmas conocidos y utilizados, sirviendo de inspiracion a otros trabajos; incluso se han desarrolladopropuestas para solucionar sus limitaciones (por ejemplo [Goe97] y [Sin02]).

Capıtulo 2

Aprendizaje

2.1 ¿Que es aprendizaje?

El aprendizaje es considerado una parte esencial de toda forma de inteligencia. En el ambitocomputacional es uno de los aspectos mas discutidos y deseados, pues no basta con hacer que lascomputadoras se comporten de acuerdo a lo que un programador les indica, sino que es deseableque por ellas mismas adquieran conocimiento en base a lo que experimentan, de manera similara como lo hacen los humanos y los animales, con el objetivo de que el conocimiento adquiridosea utilizado para ampliar los comportamientos mas alla de lo programado.

De esta necesidad es que surge toda una amplia investigacion en Inteligencia Artificial queha llegado a conformar el Aprendizaje de Maquina, campo concerniente con el desarrollo deteorıas computacionales del aprendizaje y la construccion de sistemas de aprendizaje.

De los muchos trabajos de investigacion en dicha area se han recopilado algunas definicionesal termino “aprendizaje”, las cuales se citan a continuacion:

“El aprendizaje denota cambios en el sistema que son adaptativos en el sentido de que ha-cen posible que el sistema realice una misma tarea o tareas a partir de una misma poblacion,mas eficiente y efectivamente la proxima vez”.

Simon [Sim83]

“Aprender es hacer cambios utiles en nuestras mentes”.Minsky [Min86]

“Aprender es construir o modificar representaciones de lo que esta siendo experimentado”.Michalski [Mic86]

Definicion operacional de aprendizaje: “Habilidad de ejecutar nuevas tareas que anteriormenteno podıan ejecutarse o de ejecutar mejor antiguas tareas (mas rapido, con mayor precision, etc.)como resultado de los cambios producidos por el proceso de aprendizaje”.

Carbonell [Car89]

El aprendizaje es “mejorar automaticamente con la experiencia”. Desde el punto de vista del

20 2. Aprendizaje

Aprendizaje de Maquina, el aprendizaje incluye “cualquier programa de computadora que me-jore su desempeno en algunas tareas a traves de la experiencia... Se dice que un programa decomputadora aprende de la experiencia E con respecto a alguna clase de tareas T y medida dedesempeno P , si su desempeno en las tareas T , medido por P , mejoran con la experiencia E”.

Mitchell [Mit97]

“El aprendizaje es la mejorıa del comportamiento de un sistema haciendolo mas apropiadopara el ambiente en el cual el sistema esta incorporado”. “El problema de aprender a actuar esdescubrir el mapeo de los estados perceptuales a las acciones”. Aprendizaje es “la mejorıa delcomportamiento a traves de la informacion incrementada acerca del ambiente”.

Kaelbling [Kae93]

De todas estas definiciones queda clara la idea de que el aprendizaje implica cambiar en basea conocimientos adquiridos por medio de la experiencia y que esos cambios se reflejan en unamejora en la vida del aprendiz. El que una computadora sea capaz de aprender significa la po-sibilidad de tener sistemas inteligentes, autonomos, que sean capaces de adaptarse a situacionesambientales por sı mismos, al ser capaces de adquirir conocimiento a traves de la propia expe-riencia y utilizarlo de acuerdo a sus cambiantes necesidades. Estos motivos hacen del aprendizajeuna de las metas mas deseadas de los investigadores de IA.

2.1.1. ¿Por que, que y de donde aprender?

Se ha hablado acerca de la necesidad de aprender que los sistemas computacionales tienen, perono se ha especificado que debe aprenderse y de donde debe tomarse la experiencia para adquirirel conocimiento a aprender. Esta seccion esta dedicada a tales cuestiones.

El aprendizaje tiene dos propositos universales que resumen el por que se debe aprender [Mat94].Estos propositos radican en la utilidad del aprendizaje para:

Adaptarse a cambios externos e internos.

Simplificar la construccion interna de conocimiento.

Ahora bien, retomando la definicion de agente, “sistema capaz de percibir y actuar en un me-dio ambiente” [Kae93] [Mat94], y la definicion de aprendizaje, “mejorıa del comportamiento deun sistema haciendolo mas apropiado para el ambiente en el cual el sistema esta incorporado”[Kae93], se establece que el agente debe aprender a partir de la interaccion con el ambiente quele rodea, el cual puede sensar y sobre el que puede actuar. Es precisamente de esta interaccionde donde el agente debe tomar la experiencia, la cual le producira el conocimiento a usar en susposteriores acciones.

De lo anterior se tiene que el sistema, al experimentar en el medio que le rodea, debe ob-servar y recabar informacion, es decir, debe aprender como trabaja el mundo y tambien debeaprender cual es su tarea, o como [Kae93] enuncia: “el agente debe aprender a realizar una tareaen particular en un ambiente en particular”.

Con lo anterior, al contestar la pregunta ¿que aprender? diciendo: informacion del mundo y

2.2. Tipos de Aprendizaje Automatico 21

cual es la tarea (para llevarla al cabo), es necesario aclarar que hay infinidad de cosas que unagente puede aprender (aunque no muchas formas en que pueda lograrlo), por lo que debe es-tablecerse el tipo de tarea de aprendizaje que el agente debe enfrentar. Una categorıa en base alo que es aprendido es la siguiente:

Aprender conocimiento declarativoEl aprendizaje de conocimiento declarativo es un area importante de la IA. Para agentessituados, los mapas del ambiente son el ejemplo mas claro de conocimiento declarativoque se ha buscado que aprenda un agente. El construir y actualizar los mapas y modelosdel mundo ha estado cercanamente relacionado a la accion en el mundo por parte de losagentes situados.

Aprendizaje de controlBasado en el control adaptativo y la teorıa de control, este aprendizaje esta orientadoa sistemas dinamicos comunmente involucrados en fabricas, donde deben monitorearseprocesos y hacerse predicciones del comportamiento del sistema a fin de que se tenga uncorrecto desempeno, de acuerdo a los estandares establecidos.

Aprender nuevos comportamientosEl aprendizaje de nuevos comportamientos se refiere al problema de adquirir estrategiaspara alcanzar metas particulares. Es aprender “como” hacer algo.

Aprender a seleccionar acciones/comportamientosAprender “cuando” hacer algo; decidir, de entre varias opciones, que accion (o comporta-miento) tomar en cada momento.

El presente trabajo esta orientado al aprendizaje de seleccion de acciones que un agente deberealizar con el objetivo de mejorar al momento de escoger entre varias opciones, siendo estocrucial para su sobrevivencia.

Ademas, como se ha anticipado ya, el aprendizaje involucrado en esta investigacion el es Apren-dizaje por Reforzamiento (que se definira en las siguientes secciones) y precisamente el aprendi-zaje de seleccion de acciones es por definicion un “problema de Aprendizaje por Reforzamiento”,debido a que esta basado en correlacionar las acciones que elige y ejecuta el agente con la retro-alimentacion que recibe como resultado.

Habiendo establecido que el agente debe aprender una tarea a partir de su ambiente, ahoracorresponde elegir la manera en que dicho aprendizaje debe llevarse al cabo, puesto que existendiferentes clases de aprendizaje. En la siguiente seccion se dara una clasificacion.

2.2 Tipos de Aprendizaje Automatico

En base al tipo de retroalimentacion disponible que el agente tiene, las tareas de aprendizajepueden clasificarse en:

Aprendizaje SupervisadoAprendizaje a partir de ejemplos - Se especifica lo que debe ser aprendido por cada ejem-plo. El agente percibe las entradas y salidas esperadas al modulo de seleccion de accion y

22 2. Aprendizaje

se ajusta en base a las diferencias entre sus salidas y las deseadas (se conoce el comporta-miento deseado). Por tanto, este tipo de aprendizaje requiere que un maestro especifiquelas respuestas correspondientes a las entradas.

Aprendizaje no SupervisadoAprendizaje por observacion - No existe ninguna retroalimentacion del exterior (no sedan clasificaciones). El agente debe descubrir categorıas y regularidades en los datos, esdecir, busca patrones en las entradas y, por tanto, se limita a modelar la secuencia depercepciones. En este caso, no existe una respuesta explıcita que sea la correcta.

Aprendizaje por ReforzamientoEn este tipo de aprendizaje se proporcionan entradas y en vez de comparar la salida contraun comportamiento deseado, se obtiene como retroalimentacion una cierta valoracion dela calidad de las acciones realizadas. Es decir, no se le indica al agente que acciones debeelegir, pero en cambio recibe un valor que le indica la deseabilidad de la accion que haelegido. El Aprendizaje por Reforzamiento actua en funcion a premios/castigos, ajustan-do/aprendiendo las acciones a elegir. El proposito de estos sistemas es descubrir, medianteprueba y error, un mapeo desde las entradas a las salidas que maximice la recompensa(valoracion positiva de acciones elegidas).

2.3 El Aprendizaje por Reforzamiento

En las siguientes secciones se expondran aspectos concernientes al Aprendizaje por Reforza-miento, esenciales para la presente investigacion, en virtud de que el modulo de aprendizajepropuesto para trabajar conjuntamente con las Redes de Comportamiento pertenece a este tipode aprendizaje. Esta eleccion surge de que los metodos de Aprendizaje por Reforzamiento sonlos apropiados cuando se requiere que el sistema aprenda durante el tiempo de ejecucion, sinque se posea de antemano ningun conocimiento de la organizacion y dinamicas del ambiente.

Se ha optado por trabajar con Aprendizaje por Reforzamiento dada la necesidad de que elagente modelado en este trabajo aprenda acerca de, a partir de, y mientras interactua, medianteprueba y error, con un ambiente externo dinamico.

2.3.1. Concepto

El Aprendizaje por Reforzamiento es aprender que hacer -como mapear sensaciones a acciones-a partir de la retroalimentacion con el ambiente, relativa a cuan bien se actua. Es decir, esaprender como comportarse de manera que se maximice una senal de recompensa numerica.

En base a esta definicion se ha modificado la descripcion general de agente mostrada en lafigura 1.1, resultando un agente de Aprendizaje por Reforzamiento como el de la figura 2.1.

Los dos aspectos distintivos mas importantes del Aprendizaje por Reforzamiento son:

Busqueda mediante prueba y error. No se le dice al aprendiz que acciones tomar, sino masbien debe descubrir que acciones producen la mayor recompensa al intentarlas.

2.3. El Aprendizaje por Reforzamiento 23

Figura 2.1: Agente ApR

Recompensa retardada. En algunos casos, las acciones pueden afectar no solo la recompensainmediata, sino tambien la proxima sensacion y, a traves de esto, todas las recompensassubsecuentes.

El Aprendizaje por Reforzamiento no esta definido para especificar algun metodo particular deaprendizaje o un conjunto de algoritmos de aprendizaje. Mas bien, cualquier metodo que busqueresolver un problema de Aprendizaje por Reforzamiento caracterıstico es considerado un metodode Aprendizaje por Reforzamiento.

Existen dos estrategias principales para resolver problemas de Aprendizaje por Reforzamien-to:

Buscar en el espacio de comportamientos a fin de hallar uno que se ejecute bien en elambiente. Este enfoque ha sido tomado por el trabajo en Algoritmos Geneticos y Progra-macion Genetica.

Usar tecnicas estadısticas y metodos de programacion dinamica para estimar la utilidadde tomar acciones en estados del mundo.

La segunda estrategia toma ventaja de la estructura especial de los problemas de Aprendizajepor Reforzamiento que no esta disponible en problemas de optimizacion en general (en ApR nose asume ningun conocimiento de la organizacion y dinamica del ambiente).

Los problemas de Aprendizaje por Reforzamiento involucran interactuar con un ambiente. Elagente debe aprender acerca del ambiente y tambien debe descubrir como actuar optimamenteen ese ambiente. Por tanto, hay un componente estadıstico (aprender acerca del ambiente) y uncomponente computacional (decidir como actuar).

Generalmente se espera que un aprendiz por reforzamiento se desempene pobremente en lasetapas iniciales, pero que paulatinamente aprenda de la experiencia.

2.3.2. Historia del ApR

El Aprendizaje por Reforzamiento como campo de la Inteligencia Artificial se conforma a finalesde 1980’s. Anterior a esto, es posible encontrar los antecedentes que le dieron origen, ası como

24 2. Aprendizaje

los trabajos pioneros en el area. Cabe destacar que es en los ultimos anos cuando este campo haganado importancia dentro de la IA hasta el grado de ser reconocido dentro de la clasificacionde aprendizaje (ver seccion anterior).

Como lo destacan Sutton y Barto [SyB98], los antecedentes principales del Aprendizaje por Re-forzamiento pueden identificarse en la psicologıa del aprendizaje animal (misma que influencıaigualmente a la escuela conductista de psicologıa) y en el control optimo (programacion dinami-ca):

Aprendizaje animal. Basandose en el aprendizaje por prueba y error, Edward Thorndikeformulo en 1911 la Ley del Efecto, planteando que un animal, al enfrentarse a una tomade decisiones en una situacion determinada, al estar nuevamente en la misma situacionelegira aquello que le produzca mayor satisfaccion (en base a sus respuestas anteriores),siendo muy poco probable que opte por aquello que le produzca insatisfaccion. Esto sebasa en la idea de que las acciones seguidas por buenos resultados tienen la tendenciade ser reseleccionadas, mientras que las malas acciones que llevan a la inconformidad delanimal debilitan su tendencia a repetirse. Fue llamada Ley del Efecto por que precisamentedescribe el efecto de los eventos reforzados en la tendencia a seleccionar acciones.

Los aspectos mas importantes del aprendizaje por prueba y error son la selectividad yla asociatividad. La primera conlleva el probar acciones y seleccionarlas mediante la com-paracion de sus consecuencias; la segunda se refiere a que las acciones seleccionadas sonasociadas a situaciones particulares. La Ley de Efecto cubre ambos aspectos.

El trabajo de Thorndike fue considerado por Pavlov (1927) en sus experimentos de con-dicionamiento clasico y en general, el aprendizaje por estımulo-respuesta ha llegado a seruna metodologıa predominante para el estudio del comportamiento animal en psicologıa ybiologıa.

Control optimo. Este termino fue usado a finales de la decada de 1950 para describir unatecnica para minimizar una medida de desempeno de un sistema dinamico. Un enfoque alproblema que esto representa fue desarrollado por Richard Bellman, quien en su Ecuacionde Bellman (1957) define una ecuacion para calcular la funcion de evaluacion de un sistemadinamico. La clase de metodos para resolver problemas de control optimo mediante lasolucion de esta ecuacion son conocidos como Programacion Dinamica; actualmente sonfundamentales a la teorıa y algoritmos del Aprendizaje por Reforzamiento moderno.

El deseo de que una computadora aprenda mediante prueba y error ya se veia en los trabajosde Turing (1950), pero es en 1954 cuando Minsky desarrolla el primer trabajo que involucramodelos computacionales de aprendizaje, en particular, aprendizaje por prueba y error. Por suparte, Samuel, en su juego de damas (1959) implemento un metodo de aprendizaje sin establecerconexiones al aprendizaje animal. Otros trabajos bajo el aprendizaje por prueba y error fueron:STeLLA, de John Andreae (1963); MENACE, de Donald Michie (1961, 1963), y; GLEE y BO-XES, de Michie y Chambers (1968). Widrow, Maitra y Gupta (1973) desarrollan el “aprendizaje

2.3. El Aprendizaje por Reforzamiento 25

con un crıtico” al modificar el algoritmo LMS1 con aprendizaje por reforzamiento. Estos fuerontrabajos aislados enmedio del emergente campo del aprendizaje supervisado.

Es hasta la decada de 1970 cuando, gracias a Harry Klopf, el Aprendizaje por Reforzamientoretoma al ya olvidado aprendizaje por prueba y error, a partir de lo cual se empieza a establecerla diferencia entre aprendizaje supervisado y aprendizaje por reforzamiento. En 1973 surgen, ba-jo la influencia del aprendizaje por prueba y error, los Automatas de Aprendizaje (Tsetlin, 1973).

Junto con los trabajos de Klopf se da origen a una nueva area en el Aprendizaje por Refor-zamiento: el aprendizaje por diferencia temporal, cuyos fundamentos se encuentran tambienen la psicologıa del aprendizaje animal, de donde toma el concepto de reforzador secundario(estımulo apareado con un reforzador primario, que llega a tomar propiedades de reforzamientosimilares). La primera regla de aprendizaje por diferencia temporal fue propuesta por Ian Witten(1977), bajo el aprendizaje por prueba y error y el control optimo.

Figura 2.2: Breve historia del ApR

En 1989, Chris Watkins desarrollo el algoritmo Q-learning, con el cual conjunto los tres hilosde investigacion: aprendizaje por prueba y error, control optimo y aprendizaje por diferenciatemporal. En esa epoca el Aprendizaje por Reforzamiento cobra importancia dentro de la Inte-ligencia Artificial, en especıfico en el aprendizaje de maquina.

Un trabajo muy importante que debe mencionarse, por ser representativo del Aprendizaje porReforzamiento, es el realizado en 1992 por Gerry Tesauro, quien usando tecnicas de ApR desa-rrollo el TD-Gammon, el mejor juego computarizado de backgammon capaz de enfrentarse alcampeon humano.

1El algoritmo LMS (Least Mean Squares) es una regla de entrenamiento que por cada ejemplo de entrenamientoobservado ajusta los pesos en una pequena cantidad en vıas de reducir el error de ese ejemplo de entrenamiento.

26 2. Aprendizaje

A la fecha existe mucha investigacion en esta area, con el desarrollo de muchos algoritmos yaplicaciones con resultados interesantes. La figura 2.2 presenta los puntos mas destacados de lahistoria del ApR, ya que esta seccion unicamente intenta dar a conocer los eventos mas relevantesde esta area.

2.4 Modelo del Aprendizaje por Reforzamiento

En el modelo estandar del Aprendizaje por Reforzamiento, un agente esta conectado a su am-biente via percepcion y accion, como se bosqueja en la figura 2.3. Cabe destacar la correspon-dencia con el esquema general de agente (figura 1.1), estando ahora constituida la percepcionpor el estado del ambiente y una senal de reforzamiento que evalua las decisiones tomadas.

El agente debe ser capaz de sensar su ambiente y de tomar decisiones que afecten el estadodel ambiente, a fin de alcanzar una meta; debe ser capaz de aprender a partir de su propiaexperiencia (usandola para mejorar su desempeno).

Figura 2.3: Modelo estandar del Aprendizaje por Reforzamiento

En cada momento el agente recibe como entrada i, alguna indicacion del estado actual del am-biente, s; entonces el agente selecciona una accion, a, a generar como salida. La accion cambia elestado del ambiente, y el valor de esta transicion de estado es comunicada al agente a traves deuna senal de reforzamiento escalar, r. El comportamiento del agente, P , debiera elegir accionesque tendieran a incrementar a largo plazo la suma de valores de la senal de reforzamiento. Estopuede aprenderlo a hacer mediante prueba y error sistematica, usando una amplia variedad dealgoritmos.

El modelo formal del Aprendizaje por Reforzamiento consiste de:

Un conjunto discreto S de estados del ambiente.

Un conjunto discreto A de acciones del agente.

2.4. Modelo del Aprendizaje por Reforzamiento 27

Un conjunto de senales de reforzamiento escalar, r (tıpicamente {0,1}, o los numerosreales).

Una funcion de entrada I, que determina la forma en que el agente ve el estado delambiente.

Una polıtica π que mapea estados a acciones: π : S ×A

El objetivo unico del agente es maximizar la cantidad de reforzamiento total recibida a largoplazo.

2.4.1. Elementos

Los elementos principales del Aprendizaje por Reforzamiento son, logicamente, el agente y elambiente del agente.

El agente es el aprendiz y tomador de decisiones. El ambiente es todo lo externo al agente,aquello con lo que interactua.

El agente selecciona acciones y el ambiente responde a aquellas acciones, presentando nuevassituaciones al agente. El ambiente tambien da origen a recompensas, que el agente intenta ma-ximizar durante toda su vida.

Ademas del agente y del ambiente, existen cuatro subelementos principales en un sistema deAprendizaje por Reforzamiento: una polıtica, una funcion de recompensa, una funcion de eva-luacion y un modelo del ambiente (opcional).

Polıtica

Define la manera de comportarse del agente. Es un mapeo de los estados percibidos a las accionesa ser tomadas. La polıtica es el nucleo de un agente de Aprendizaje por Reforzamiento en elsentido de que por si sola es suficiente para determinar el comportamiento.

Funcion de recompensa

Define cuales son los buenos y los malos eventos para el agente. Mapea cada estado percibido (opar estado-accion) a un numero unico, una recompensa, indicando la deseabilidad de ese estado(debida a la accion tomada). Especifica lo que es bueno en un sentido inmediato.

Funcion de evaluacion

Trabaja en base a los valores de los estados, especificando lo que es bueno a largo plazo. Elvalor de un estado es la cantidad total de recompensa que un agente puede esperar acumular afuturo, comenzando desde ese estado. Los valores, como predicciones de recompensas, indicanla deseabilidad a largo plazo.

28 2. Aprendizaje

Para aclarar la diferencia entre recompensa y valor, considerese la siguiente situacion: la ac-cion tomada mas recientemente ha producido una recompensa baja; no obstante, esa accion auntiene un valor alto, debido a su buen desempeno historico, lo que la hace deseable.

Es mas difıcil determinar valores que determinar recompensas, pero el unico proposito de laestimacion de valores es la obtencion de mas recompensa. Por otra parte, es con los valores conlos que se trabaja al momento de tomar y evaluar decisiones. La seleccion de acciones esta ba-sada en juicios de valor.

Por todo esto, el componente mas importante de casi todos los algoritmos de Aprendizaje porReforzamiento es un metodo para estimar valores eficientemente.

Modelo del ambiente

El modelo de un ambiente es algo que imita el comportamiento de ese ambiente; por ejemplo, unmodelo de prediccion del proximo estado resultante y la proxima recompensa, dados un estado yaccion actuales. Este es un elemento opcional en los sistemas de Aprendizaje por Reforzamiento.

2.4.2. Algoritmo general

Un algoritmo de Aprendizaje por Reforzamiento es aquel que aprende un comportamiento apro-piado para un agente en un mundo, mapeando entradas a acciones, y que requiere una entradaadicional: el valor de reforzamiento del estado del mundo para el agente.

El algoritmo general del Aprendizaje por Reforzamiento se presenta en el algoritmo 2. El apren-dizaje esta constituido por tres partes:

s Estado interno - Guarda informacion acerca de las interacciones del agente con el mundo.El estado inicial es denotado por s0

e Funcion de evaluacion - Mapea el estado interno y la entrada en una accion, seleccionandola accion que parece mas util para el agente en esa situacion, en base a la informacion acercadel mundo almacenada en el estado interno. La utilidad de una accion puede deberse ados situaciones: 1) tiene un alto valor de informacion, o; 2) el agente sabe poco acerca desu resultado.

u Funcion de actualizacion - Mapea el estado interno del agente, su entrada, su accion y elvalor de reforzamiento en un nuevo estado interno, ajustando el estado actual en base alreforzamiento resultante de ejecutar esa accion en esa entrada.

2.5. Equilibrio explotacion-exploracion 29

Algoritmo 2 Algoritmo General del Aprendizaje por Reforzamiento

1: s = s0 . Estado inicial2: loop3: i = entrada . Lee entrada del ambiente4: a = e(s, i) . Toma accion en base a la funcion evaluadora5: r = reforzamiento . Se determina el valor de la accion6: s = u(s, i, a, r) . Actualiza el estado interno del agente7: end loop

La figura 2.4 presenta la estructura interna del comportamiento del Aprendizaje por Reforza-miento; las lıneas punteadas representan al estado inicial s0, en cuyo caso la funcion evaluadorae actua como mapa de accion libre de estado.

Figura 2.4: Esquematizacion del proceso de Aprendizaje por Reforzamiento

2.5 Equilibrio explotacion-exploracion

Inicialmente, el agente debe intentar una variedad de acciones y favorecer progresivamente aaquella que parezca ser la mejor. Como el objetivo del Aprendizaje por Reforzamiento es ob-tener gran cantidad de recompensa, el agente debe preferir las acciones que ha probado en elpasado y que han sido efectivas en la produccion de recompensa. A la preferencia de accionesconocidas se le conoce como explotacion, ya que es el aprovechamiento del conocimiento reca-bado por el agente en relacion al buen desempeno de las acciones.

Un problema con este metodo de aprendizaje es que si un agente siempre se dedicara a ex-plotar lo que sabe, puede suceder que posea un conocimiento erroneo acerca de las acciones yentonces este favoreciendo a acciones sub-optimas, ignorando totalmente el que existe una accionmejor.

Una manera de superar el inconveniente de la explotacion pura radica en que el agente de-be probar otras acciones de las que no tiene demasiado conocimiento o que parecen ser peor, loque le lleva a ganar informacion acerca de sus valores de reforzamiento y en ocasiones le hacedescubrir informacion completamente nueva de tales acciones, como por ejemplo, encontrar laaccion optima. A la eleccion de acciones desconocidas se le llama exploracion.

30 2. Aprendizaje

Uno de los aspectos mas interesantes del Aprendizaje por Reforzamiento es precisamente elequilibrar la explotacion contra la exploracion. Un agente debe decidir en que momento debeincrementar el reforzamiento total y en que momento puede optar por intentar descubrir nuevoconocimiento, en busca de una mejor accion.

Para el aprendiz por reforzamiento es muy importante actuar en base a informacion correc-ta, por tanto, la recoleccion de informacion le es absolutamente necesaria, pues con una maladecision puede converger prematuramente a una accion sub-optima.

La exploracion del ambiente es una de las principales diferencias entre el aprendizaje super-visado y el Aprendizaje por Reforzamiento.

2.6 El Problema del Bandido

En la comunidad de estadıstica, el problema del Aprendizaje por Reforzamiento es analizadomediante el problema del “Bandido de los 2-brazos”, denominado ası por su similitud con lasmaquinas tragamonedas de juego/apuesta del mismo nombre, cuyo funcionamiento es el siguien-te: una maquina consta de 2 brazos o palancas que, independientemente, cada vez que una deellas es jalada, pueden o no pagar cierta cantidad de dinero. La recompensa dada por una pa-lanca es igualmente independiente de lo que acontezca alrededor de la maquina y del jugador.El objetivo de jugar con tales maquinas es obtener la mayor cantidad de ganancia economicaposible.

El jugador puede optar por elegir una palanca al azar o bien, desarrollar una estrategia pa-ra ganar la maxima paga con el tiempo, en base a la experiencia previa de jugadas (palancajalada - pago), lo que definitivamente es mejor que optar por el azar. Un ejemplo de estrategiaes la de “permanecer con un ganador, pero cambiar con un perdedor”, indicando que se debejalar una palanca hasta que se pierda, entonces cambiar a otra y permanecer jalando hasta quese pierda, y asi en lo sucesivo.

Una extension al paradigma del Bandido de los 2-brazos es su generalizacion: el problema del“Bandido de los N -brazos”, donde el problema de aprendizaje consiste de seleccionar entre Nalternativas (dıgase palancas o, en el lenguaje de aprendizaje, acciones).

En estos problemas se asume lo siguiente:

Los eventos de jalar los brazos (palancas) son independientes.

Los brazos no pagan nada o pagan una cantidad fija.

La probabilidad de que cada brazo pague permanece constante durante todo el juego.

El mundo elegira las probabilidades en la peor forma para el jugador.

Dicho en otros terminos, este es un problema donde se tiene que seleccionar entre N acciones,obteniendo una recompensa por cada accion seleccionada, y mediante esto, aprender a escogerla mejor de ellas para maximizar la recompensa total.

2.7. Algoritmos 31

Las situaciones planteadas en el problema del Bandido constituyen en sı un problema de se-leccion de accion; es un escenario simplificado del problema de Aprendizaje por Reforzamientoen su version no asociativa, que involucra aprender a actuar en una situacion. Por tales motivos,el paradigma del Bandido ha sido ampliamente usado para analizar el problema de aprendermediante reforzamiento. De ahı que sirva de base para la presente investigacion, cuyo objetivoes precisamente optimizar la seleccion de acciones por parte de un agente mediante tecnicas deaprendizaje.

2.7 Algoritmos

A continuacion se expondran algunos de los algoritmos de Aprendizaje por Reforzamiento den-tro de un escenario de retroalimentacion puramente evaluativa, la cual indica cuan buena es unaaccion tomada, pero no si es la mejor o la peor accion posible.

En primer lugar, se presenta el algoritmo del Bandido, el cual hace un analisis en base a larecompensa neta que se acumula al seleccionar las acciones. Posteriormente se exponen diversastecnicas con caracterısticas que permiten clasificar a los algoritmos ApR. Los metodos que sepresentan estan clasificados en metodos de evaluacion de acciones, estrategias de vectores deprobabilidad, metodos de comparacion de reforzamientos y tecnicas de estimacion de intervalos.Todos ellos trabajan sobre el problema de aprender a seleccionar acciones.

2.7.1. Algoritmo del Bandido

En relacion al problema del Bandido (seccion 2.6), en el ambito computacional, el problema del“Bandido de los N -brazos”ha sido ampliamente estudiado, refiriendose, como ya se comento,al problema de enfrentarse a una eleccion entre N opciones (o acciones) diferentes. Despues decada decision se recibe una recompensa numerica seleccionada desde una distribucion de proba-bilidades estatica que depende de la accion seleccionada. Igual que en el caso real, el objetivo esmaximizar la recompensa total esperada sobre un periodo de tiempo.

El algoritmo basico es la version para dos tipos de acciones, el problema del “Bandido de los2-brazos”, para el caso de decidir entre dos acciones, para lo cual se alterna entre ambas y seregistra el numero de exitos de cada una; cuando el numero de exitos de una accion excedeel numero de exitos de la otra accion por una cantidad k, se elige ganadora por siempre en elfuturo.

2.7.2. Metodos de evaluacion de acciones

Como ya se indico con el problema del Bandido, el problema de aprender a seleccionar acciones,desde la perspectiva del Aprendizaje por Reforzamiento, implica obtener una medida numeri-ca o recompensa por cada accion que es seleccionada, la cual indica la deseabilidad de esa accion.

En base a las recompensas recibidas, cada accion tiene una recompensa esperada o prome-dio, que se denomina el valor de la accion, denotado por Q(a).

32 2. Aprendizaje

Si se conociera el valor real Q∗(a) de cada accion, serıa facil resolver el problema del Ban-dido y en general, de la seleccion de accion, pues se escogerıa siempre a la accion que tuvierael valor mas grande. Pero precisamente el problema que se enfrenta radica en que no es posibleconocer los valores de las acciones con certeza y, por tanto, se debe recurrir a una estimacion delos mismos.

Una manera de calcular el valor estimado de una accion, denotado por Qt(a), es promediarlas recompensas recibidas (al tiempo t) cuando esa accion fue seleccionada, a lo que se le deno-mina el metodo del promedio de la muestra para la estimacion de valores de acciones, dado quecada estimado es un simple promedio de la muestra de recompensas relativas.

Una vez explicado lo anterior, finalmente se puede senalar que los metodos de evaluacion deacciones estan basados precisamente en la estimacion de los valores de las acciones y en el usode tales estimados al momento de llevar al cabo la seleccion de las acciones.

Dentro de estos metodos se presentan los algoritmos Greedy, ε-Greedy y Softmax, clasificadosen estrategias codiciosas y aleatorias.

2.7.2.1. Estrategias codiciosas

Escogen los estimados de valores de accion mas grandes, considerandolos como indicadores delas mejores acciones a seguir. Por tanto, estos metodos explotan el conocimiento que tienen paramaximizar la recompensa inmediata, sin perder tiempo en probar acciones que consideran malas.

A su favor tienen el hecho de que, a medida que el numero de veces que se ha seleccionadouna accion a, tiende a infinito, por la Ley de los Grandes Numeros, su recompensa esperadaQt(a) converge a su valor real Q∗(a).

Un inconveniente de estos algoritmos es que pueden caer prematuramente en la seleccion devalores no-optimos.

El algoritmo del Bandido es clasificado como una estrategia codiciosa, pues una vez que haevaluado todas las alternativas posibles, se dedica a seleccionar siempre a la que considera, esla mejor, ignorando totalmente a las demas (explota su conocimiento). La unica cuestion es quelos algoritmos basicos del Bandido hacen su seleccion evaluando la recompensa total recibida decada accion, no su recompensa promedio (no aplican estrictamente el metodo de evaluacion deacciones).

Algoritmo Greedy (Codicioso)

En cada momento existe al menos una accion que posee el valor estimado mas grande. A estaaccion se le denomina codiciosa - “greedy” en ingles.

Este algoritmo se basa en la regla mas simple de seleccion de accion: en todo momento se-lecciona la accion (o una de las acciones) con el valor de accion estimado mas grande, es decir,

2.7. Algoritmos 33

selecciona la accion codiciosa a∗, para la cual Q∗(a) = maxaQt(a)

2.7.2.2. Estrategias aleatorias

Surgen como una mejorıa a los metodos codiciosos, en particular al algoritmo Greedy, buscandoevitar quedar atrapados en acciones sub-optimas. La operacion de tales estrategias es compor-tarse codiciosamente la mayor parte del tiempo, pero de vez en cuando, seleccionar una accionaleatoriamente, sin tomar en cuenta los estimados de los valores de las acciones.

Dada la azarosidad que ocasionalmente introducen estos metodos, ademas de explotar su cono-cimiento, realizan exploracion para adquirir nueva informacion, con lo que mejoran sus posibi-lidades de encontrar la accion optima.

Algoritmo ε-Greedy

La seleccion de accion sigue una estrategia codiciosa la mayor parte del tiempo, pero ocasio-nalmente, de acuerdo a una pequena probabilidad ε, selecciona una accion al azar, de manerauniforme, independientemente de las estimaciones de las acciones.

La ventaja con que cuenta este algoritmo es que, en el lımite, a medida que se incrementael numero de selecciones de acciones, toda accion sera probada un numero infinito de veces, ga-rantizando ası que, para toda a, el numero de veces que una accion a se ha seleccionado tiendaa infinito y, en consecuencia, todo valor estimado Qt(a) converja a su valor real Q∗(a).

Este es un metodo efectivo y popular de balance de explotacion/exploracion en el Aprendi-zaje por Reforzamiento, pero presenta el inconveniente de que al explorar, dado que seleccionauniformemente una accion al azar, es posible que igualmente escoja la peor accion o la segundamejor accion, ya que todas son susceptibles de ser seleccionadas.

Algoritmo Softmax

Esta estrategia trata de superar el inconveniente de la uniformidad en la seleccion aleatoria delmetodo ε-Greedy. Durante casi todo el tiempo se comporta de manera codiciosa, seleccionandola accion con el maximo valor estimado, pero cuando lo permite una probabilidad ε, seleccionauna accion aleatoriamente.

A diferencia de ε-Greedy, la solucion planteada por esta estrategia propone variar las proba-bilidades con que son seleccionadas las acciones, usando el valor estimado de las mismas Qt(a),mediante la aplicacion de alguna variante de las distribuciones de Boltzmann o de Gibbs, to-madas de las tecnicas de recocido simulado, aunque existen otras maneras de producir el efectosoftmax. La distribucion de Boltzmann es calculada con la formula 2.1.

P (a) =eQt(a)/T∑

a′∈A eQt(a′)/T(2.1)

Un inconveniente que presenta es que requiere la calibracion del parametro T . La exploracion

34 2. Aprendizaje

softmax trabaja bien si la mejor accion esta bien separada de las otras, pero padece un pococuando los valores de las acciones son cercanos.

2.7.3. Estrategias basadas en vectores

Metodos clasicos del campo de aprendizaje automatico en los que el estado interno del algorit-mo de aprendizaje es representado como un vector de numeros no negativos que suman uno. Elagente selecciona una accion probabilısticamente, con la probabilidad (pn) de que seleccione lan-esima accion igual al n-esimo elemento del vector de estados.

El problema en estas estrategias radica en actualizar los valores en el vector de estados enbase a la accion mas reciente y su resultado.

Existen varios algoritmos pertenecientes a este enfoque, pero en particular se presentan dosde ellos, dado que se opto por su implementacion en este trabajo.

Algoritmo LRP - Linear Reward-Penalty (Recompensa-Costo Lineal)

Su nombre se refiere a que la actualizacion que se realiza es lineal en las probabilidades y aque se ejecuta tanto en juegos de exito como de fracaso. En su version original, para dos accio-nes, la actualizacion del vector de probabilidades depende del valor de reforzamiento obtenido,el cual es de tipo booleano. Ası, sucede que:

1. Una accion a con un r = 1 (exito), incrementa su probabilidad pa de ser ejecutada en1− pa.

2. Una accion a con un r = 0 (fracaso), incrementa la probabilidad pa′ de ejecutar la otraaccion a′ en proporcion a su probabilidad pa actual.

Este algoritmo hace uso de dos parametros, denotados por α y β, que controlan la cantidad deajuste de exito y fracaso. Tiene estados no absorbentes, lo que significa que siempre ejecuta laaccion incorrecta con alguna probabilidad diferente de 0.

Algoritmo LR - Linear Reward (Recompensa Lineal)

Variante del algortimo LRP, caracterizado por no realizar ajustes al vector de probabilidadescuando se recibe un valor de reforzamiento de 0, por lo que solo hace uso del parametro α parael ajuste de exito. Tiene estados absorbentes; por ejemplo, cuando una de las probabilidades sehace 0, nunca sera tomada su accion asociada.

2.7.4. Metodos de comparacion de reforzamientos

La idea principal en estos metodos radica en la interpretacion de una recompensa en compara-cion con algun nivel estandar o de referencia, con la finalidad de que el agente pueda considerara una recompensa como grande si supera a la recompensa de referencia o como pequena en casocontrario. Por lo general, la recompensa de referencia es un promedio de recompensas previa-mente recibidas.

2.7. Algoritmos 35

Estos metodos pueden ser muy eficientes, desempenandose en ocasiones aun mejor que los meto-dos de evaluacion de accion.

Algoritmo RC - Reinforcement Comparison (Comparacion de Reforzamientos)

Algoritmo propuesto por Sutton [SyB98]. Para elegir entre las acciones, ademas de calcularla recompensa de referencia, mantiene una medida de la preferencia de cada accion, la cualmodifica cada vez que se selecciona la accion, tomando en cuenta la diferencia entre la recom-pensa recibida y la recompensa de referencia, con lo que se implementa la idea de que altasrecompensas incrementan la probabilidad de reseleccionar la accion tomada y bajas recompen-sas la decrementan. Finalmente, estas preferencias se usan para determinar las probabilidadesde seleccion de las acciones.

2.7.5. Tecnicas basadas en intervalos

Basadas en la tecnica estadıstica de construccion de estimados de intervalos de confianza decantidades, estos metodos proponen almacenar un estimado del reforzamiento esperado paracada accion, junto con alguna informacion acerca de cuan bueno es ese estimado. El tamanodel intervalo de confianza es una medida de la falta de informacion acerca de la cantidad queesta siendo estimada.

El objetivo de estas estrategias es hacer mas eficiente la exploracion, planteando que esto selogra cuando se tiene informacion acerca de la certeza de los valores estimados de las acciones.

Algoritmo IE - Interval Estimation (Estimacion de Intervalos de Confianza)

Este algoritmo fue propuesto por Kaelbling [Kae93]. El algoritmo codifica los estimados delas acciones junto con el grado de confianza que se tiene en tales estimados, el cual se calculadaen base al numero de intentos y la recompensa recibida de cada accion. La medida adicionalque se obtiene es el lımite superior de un intervalo de confianza, ub(x, n), calculado mediante laecuacion 2.2:

ub(x, n) =xn + z2

2n + z√n

√(xn

) (1− x

n

)+ z2

4n

1 + z2

n

(2.2)

donde, para la accion a, xa es la suma de reforzamiento recibido, na es el numero de intentos dea y z es un parametro que controla el tamano del intervalo de confianza.

Al inicio, cada una de las acciones tendra un lımite superior igual a 1, pero a medida queaumenta el numero de intentos, los lımites de confianza se ajustan, teniendo en cuenta que exis-ten dos razones para que estos puedan ser altos: hay poca informacion acerca de la accion, o;hay informacion de que la accion es buena.

La funcion de evaluacion selecciona la accion con el lımite superior mas alto de reforzamien-

36 2. Aprendizaje

to esperado. Este metodo balancea el actuar para ganar informacion con el actuar para ganarreforzamiento.

Existe otro algoritmo similar a este, el algoritmo de Lai; ambos metodos usan la nocion deseleccionar la acccion con el lımite superior de confianza mas alto, pero los lımites de confian-za del algoritmo de Lai son mas complejos que los metodos estadısticos estandar usados en elalgoritmo IE.

Capıtulo 3

Antecedentes

A continuacion se presentan los trabajos previos a esta propuesta de investigacion, considerandoen primer lugar a la herramienta ABC, una implementacion de las Redes de Comportamiento,sobre la cual se hara una extension; posteriormente se hablara de otra herramienta implementa-da, XLearn, inspiradora directa del uso del Aprendizaje por Reforzamiento en modelos etologicossimulados; asimismo, se expondran los estudios etologicos que sirven de base para el desarrollode los experimentos con la nueva implementacion. Finalmente, se presentara el mejoramientopropuesto en el presente trabajo de tesis, cuyo desarrollo se da en el capıtulo 4.

3.1 Herramienta ABC

En el ano de 1997 se defendio en la Maestrıa en Inteligencia Artificial un trabajo de tesis de-sarrollado por Alejandro Guerra, quien se propuso realizar una implementacion del algoritmopropuesto por Maes [Mae89], presentado en el capıtulo 1. La tesis se titula “Agentes Autonomosy Seleccion de Accion, una perspectiva basada en Redes de Comportamiento” [Gue97c], y laimplementacion resultante es conocida como ABC.

ABC es una herramienta auxiliar en la experimentacion con agentes basados en Redes de Com-portamiento, conformada de un ambiente grafico que permite el diseno y simulacion de agentesbasados en este mecanismo de seleccion de accion, proporcionando al usuario la capacidad deobservar el desempeno del agente a fin de ajustar su comportamiento. ABC esta programadaen lenguaje Tcl/Tk, por lo cual es altamente portable a diversos ambientes: UNIX, Windows yMAC OS.

El motivo por el cual se eligio la propuesta de Maes [Mae89] para implementarse se baso pre-cisamente en las propiedades del mecanismo: comportamiento guiado por metas, relevante a lasituacion del agente, capaz de adaptacion, robusto, persistente, reactivo y rapido.

Mediante la interfaz grafica de ABC se permite al usuario describir los modulos conductua-les que conforman al agente a disenar/simular, con lo cual se desliga al usuario final de detallesde programacion. Las Redes de Comportamiento enfrentan un problema en relacion a la eleccionadecuada del conjunto de valores para los diversos parametros necesarios en este algoritmo, delos cuales dependera en cierto grado, el que un agente se comporte de manera correcta. Comoya se menciono, mediante las capacidades graficas de ABC es posible que el usuario observe

38 3. Antecedentes

el comportamiento del agente que se modela, con lo cual obtiene informacion (al momento deejecucion) que le sera de ayuda para un posible ajuste de parametros. El comportamiento de unagente (la competencia entre los modulos de habilidad) puede ser monitoreado por dos vias:

1 Mediante un informe dinamico que lista las conductas que conforman al agente, junto coninformacion que refleja el estado actual de las mismas, y/o

2 Por una grafica de activacion sobre el tiempo, la cual ofrece informacion relativa al nivelde activacion de cada conducta sobre el tiempo, visualizando las secuencias de accionesque conforman el comportamiento del agente.

Dado que una de las condiciones para que un agente sea autonomo es que se desenvuelva en unmedio ambiente dinamico, ABC permite realizar cambios en la definicion del medio y del agentemismo, con el objetivo de que el agente modifique su percepcion del ambiente y se enfrente anuevas situaciones, como cambio de metas o ambientes ruidosos.

La ventana principal de ABC (figura 3.1) presenta la informacion que describe al agente amodelar y su medio; esta conformada de diversas secciones, basicamente: percepcion, simulaciony control/operacion del simulador. La percepcion del agente abarca el mundo y las metas delagente, por lo cual se informa acerca de las listas de proposiciones que se observan verdaderasen el medio ambiente en un momento dado, ası como de las metas que el agente ya realizo y lasque debe alcanzar.

Figura 3.1: Ventana principal de ABC (primera version)

3.1. Herramienta ABC 39

El area de simulacion presenta los modulos conductuales que definen al agente, informando sison o no ejecutables y su nivel de activacion; tambien se muestra el ciclo de reloj en el que se en-cuentra la simulacion, el valor del umbral de activacion (θ) y el modulo que se encuentra activo.La operacion de ABC se realiza mediante botones que permiten iniciar la ejecucion, ya sea pasoa paso o de forma contınua. Ademas cuenta con botones para accesar a otros componentes deABC, tales como la administracion de archivos, la grafica de activacion en el tiempo y el modulode diseno de agentes. Los parametros globales de la red pueden ser modificados en cualquiermomento de la ejecucion, dado que estan presentes en esta ventana.

La grafica de activacion en el tiempo forma parte de una ventana (figura 3.2) que contieneinformacion relativa al comportamiento del agente que puede ser analizada a fin de configurarlos parametros de la red para obtener un comportamiento adecuado por parte del agente; talgrafica se conforma de la lista de modulos conductuales que componen al agente, presentandouna grafica de barras cuyo eje X lo conforma el tiempo transcurrido desde el inicio de la simu-lacion, etiquetado en series de 10 ciclos de simulacion.

Figura 3.2: Grafica de activacion en el tiempo

Cada modulo tiene una barra, misma que varıa en tonalidades blancas a rojas de acuerdo a sunivel de activacion: un cuadro blanco representa un nivel de activacion de 0, un cuadro rojosignifica que el nivel de activacion se encuentra 100% por encima del umbral de activacion. Uncuadro con una linea amarilla arriba y abajo de el indica que el modulo al que pertenece es eje-cutable. Un cuadro amarillo senala que el modulo esta activo en ese tiempo. La lınea verde sobrelos cuadros delinea la secuencia de activacion de los modulos. En la ventana tambien se listantodas las conductas que han sido activadas durante la simulacion, ası como tambien se mues-tra el ciclo de tiempo en el cual se grafico, el total de modulos activados y la velocidad del agente.

40 3. Antecedentes

Primeros experimentos

Guerra [Gue97c] realizo una serie de experimentos a fin de probar la funcionalidad de ABC.Para ello eligio tres ejemplos, dos de los cuales son problemas planteados anteriormente en elcampo de la IA (el robot de Charniak y el Mundo de los Cubos) y el tercero fue tomado enbase a un proyecto de investigacion etologico a fin de emular la conducta de forrajeo del monoaullador (Alouatta palliata).

Robot de Charniak

El primer ejemplo consiste en la definicion de un agente que emule el comportamiento delrobot de Charniak [Cha85], esto es, plantear la existencia de un robot de dos manos cuyas me-tas son lijar una tabla y pintarse a sı mismo. El medio ambiente esta constituido por una mesade trabajo, una pintura en spray, una lija y una tabla. Existe una restriccion en este problema:al momento en que el robot se pinta a sı mismo, queda fuera de operacion (no puede realizarmas acciones). Ası, la red disenada para modelar tal agente comprendio modulos conductualesreferentes a las acciones basicas del robot: tomar objeto, soltar objeto, apoyarse en mesa, lijartabla, pintarse a sı mismo.

Resultados: La Red de Comportamiento disenada para simular al robot de Charniak de-mostro un buen comportamiento, acorde a lo que se esperaba de ella; este ejemplo mostro sertolerante a fallas, al ser expuesto a situaciones que pudieron quebrantar su desempeno.

El Mundo de los Cubos

El segundo experimento tomo como base un problema clasico de planeacion: el Mundo de losCubos. Este mundo consiste de un numero de bloques cuadrados, todos del mismo tamano, colo-cados sobre una superficie plana. Los cubos pueden estar apilados, pero solo un bloque puedeestar acomodado directamente sobre otro. Existe un brazo robotico que puede manipular loscubos, pudiendo levantar un bloque y moverlo a otra posicion, ya sea sobre la superficie planao encima de algun otro cubo; unicamente se le permite levantar un bloque a la vez. La metaes construir una o mas pilas de bloques, especificando cuales bloques estaran por encima deque otros bloques. Por ejemplo, una meta estarıa dada por la construccion de dos pilas, una conel cubo A encima del cubo B, y la otra con C sobre D.

En particular, para este experimento se construyo un ambiente grafico auxiliar en la mani-pulacion del medio ambiente. La meta final era construir una o mas pilas de bloques, a partirde cubos ubicados o no en pilas ya existentes, de acuerdo a especificaciones particulares de so-breposicion de bloques, dadas en la red.

Resultados: El agente situado en el mundo de los cubos fue capaz de resolver diversas configu-raciones, a peticion del usuario. La red demostro tolerancia a fallas cuando se le introdujo ruidoo cambios imprevistos al tiempo de ejecucion de la simulacion.


Proyecto Monots

El ultimo experimento para demostrar la funcionalidad de ABC consistio en relacionar a esta he-rramienta con un problema del campo de la etologıa (estudio del comportamiento animal), debidoa que el mecanismo de seleccion de accion en estudio (Redes de Comportamiento) presenta unaclara influencia etologica. El proyecto Monots [Mar96a, Mar96b, Gar97, Gue97a, Gue97b, Gue98]fue el elegido para simular, dado que es un proyecto que estudia la conducta de forrajeo del monoaullador (Alouatta palliata) desde la perspectiva de generacion de modelos que ofrezcan un marcoteorico posible para explicar las operaciones experimentales. Con ABC aplicado a este problemase pretendio que el simulador fuera de ayuda en el enriquecimiento de un modelo de forrajeobasado en la simplificacion de las Redes de Comportamiento.

La Red de Comportamiento utilizada para generar la conducta de forrajeo del mono aulladorfue muy sencilla, ya que no contemplaba el establecimiento de la relacion entre las motivacionesy la conducta de forrajeo en el mono. Precisamente, esto es propuesto como trabajo futuro.

Resultados: El comportamiento del agente exhibio un patron interesante en donde el monose alimenta, descansa y luego se mueve de forma coherente. Se observo la necesidad de lasmotivaciones, a fin de contrarrestar una sub-valoracion de la competencia entre los modulosconductuales. Se observa que el comportamiento del agente cae en un ciclo ante la ausencia defactores que obligen al mono a contender con cambios en su medio ambiente.

Como nota importante cabe destacar que los parametros utilizados en cada simulacion fue-ron seleccionados despues de una serie de experimentos, segun los comportamientos obtenidosdel agente modelado. Finalmente, se eligieron para cada experimento, aquellos parametros conlos que se observo un buen desempeno del simulador.

3.1.1. Extension

Como continuacion del trabajo anteriormente presentado, en 1998 Fernando Montes [Mon98]realiza la extension de ABC, misma que se presenta bajo el trabajo de tesis titulado “Un Mo-delo de Conductas Animales basado en el Mecanismo de Seleccion de Accion de Maes”.

Como se menciono en el apartado previo, el experimento del comportamiento de forrajeo delmono aullador tiene su fundamento en estudios etologicos [Rod94], a partir de las observacionesrecabadas en la isla de Agaltepec en el lago de Catemaco, Ver., Mex., zona de confinamientode un grupo de Alouattas palliatas, conocidos comunmente como monos aulladores, los cualesforman parte de un programa conservacionista de dicha especie. Como resultados de tales ob-servaciones se obtuvo una relacion estadıstica de las variables relevantes. Con ABC aplicado aeste problema se busca que el simulador sea de ayuda en el enriquecimiento de un modelo deforrajeo basado en la simplificacion de las Redes de Comportamiento [Gue97a, Gue97b, Gar97].

El objetivo de esta extension a la herramienta ABC es el diseno de un modelo computacio-nal que capture la estrategia de forrajeo del mono aullador y que al comparar los resultados dela simulacion con los datos reales, se obtenga un comportamiento similar. Dado que ya existıa laprimera version de ABC con el experimento de una red sencilla de modelado de la conducta de

42 3. Antecedentes

forrajeo del mono aullador, se busca extender ABC para poder modelar conductas compuestasen animales.

Modificaciones

La herramienta ABC tuvo que ser modificada a fin de que la conducta de forrajeo simuladapresentara una buena aproximacion a la conducta del mono real. En la primera version, lasmetas eran definidas como metas temporales, asumiendose que todas tenian un peso asociadoigual a 1. Por su lado, las motivaciones participaban en el calculo de activacion con un mismopeso. Fue necesario modificar el uso de metas, permitiendose el uso de metas permanentes ymetas temporales; las metas pueden ser usadas como motivaciones al asociarles un peso, mis-mo que representa la fuerza de la motivacion. El peso en cuestion debe ser definido al iniciode la simulacion, a fin de que las motivaciones participen en el calculo de la activacion de unmodulo conductual. De acuerdo al algoritmo de Maes [Mae89], a las conductas que satisfacenmotivaciones se les conoce como consumatorias, y su activacion reduce la fuerza de activacionasociada. Las conductas que contribuyen a que las consumatorias sean ejecutables se conocencomo conductas apetitivas.

Dentro de la definicion de modulos de comportamiento, se agrego una parte de accion quepermite la continua modificacion de los pesos asociados a las metas, a fin de lograr que el agen-te exhiba un mejor desempeno. Con esto, la nueva version de ABC contempla la posibilidadde definir condiciones variables en el mundo del agente, junto con la definicion de su negacionexplıcita; tambien se establecieron intervalos de tiempo sobre los cuales cambiar las proposicio-nes variables en el mundo. Conjuntamente, es posible definir el valor de un incremento (a sumaro restar) de los pesos asociados a las motivaciones de las conductas, lo cual permite que existauna mejor calibracion. Con esta version es posible consultar datos referentes a los porcentajesde tiempo dedicado a cada conducta, el tiempo promedio (en ciclos de simulacion) dedicado acada actividad, e incluso, una matriz de transiciones entre conductas.

Experimentos

Se realizaron una serie de experimentos enfocados a determinar la correcta implementacionde las motivaciones a la Red de Comportamiento, mismas que no existıan anteriormente. Basi-camente, fueron cuatro los experimentos, los cuales se explican brevemente a continuacion.

Experimento 1Modelo manejado por motivaciones

Red en la cual no existen ligas de ningun tipo. Se diseno con el proposito de mostrar la for-ma en que los pesos agregados pueden influir sobre las motivaciones para lograr que el monopresente un patron de conductas estable, que respete los tiempos que el mono real dedica a lasconductas descanso, alimentacion y locomocion. Las motivaciones respectivas son: cansancio,hambre e inquietud. Cada conducta esta asociada con una precondicion (siempre presente). Lasmotivaciones correspondientes deben ser tomadas en cuenta contınuamente como metas que elmono debe satisfacer.


Experimento 2Modelo que emplea un mundo dinamico, sin modificacion de las motivaciones

El mundo es dinamico y cambia con cierto intervalo de tiempo las proposiciones: comida presentey sombra presente por comida ausente y sombra ausente respectivamente (y viceversa). Se agre-gan las conductas buscar comida y buscar sombra. No se modifican los pesos asociados a lasmotivaciones, aun cuando sı se establecen los pesos iniciales de las mismas.

Experimento 3Modelo que emplea un mundo dinamico, modificando las motivaciones

Combinacion de los experimentos 1 y 2. Se establece un mundo dinamico para las tres conductasbasicas y las dos de busqueda. Despues de la activacion de cada modulo de comportamiento, semodifican los pesos asociados a las motivaciones de las conductas basicas. Resultado: el patronde conductas ya no es uniforme y se conserva a pesar de las modificaciones de los pesos y de queel mundo esta cambiando.

Experimento 4Modelo que emplea un mundo dinamico con una generacion aleatoria con distribucion normal

La Red de Comportamiento es similar a la del experimento 3, pero estableciendo un mundodinamico. Aquı se modifican los pesos y las condiciones de sombra. La comida aparece con unadistribucion normal con media de 100 y desviacion estandar de 10; los pesos asociados a la mo-tivacion hambre se modifican incrementandolos si la comida es suficiente (mas de 100 unidadesde comida) o disminuyendolos (100 o menos unidades de comida), con mayor o menor peso.

3.1.2. Alcance

Las Redes de Comportamiento son un mecanismo de seleccion de accion descentralizado ydinamicamente reconfigurable, donde la seleccion de accion es modelada como una propiedademergente de las dinamicas de activacion/inhibicion entre los modulos de competencia. La Redde Comportamiento tiene las caracterısticas de ser distribuida, recurrente y no jerarquica. Debi-do a su naturaleza distribuida, el sistema es tolerante a fallos; posee comportamiento orientadoa metas, adaptabilidad, persistencia en el curso de accion, prevencion de conflictos y rapidez.

Por sus caracterısticas, este mecanismo ofrece grandes ventajas para la programacion de agentesautonomos operando en ambientes dinamicos, mismos que se enfrentan a la toma de decisionde la proxima accion necesaria para cumplir multiples metas variables en el tiempo de maneraeficiente, es decir, enfrentando y superando cambios no previstos en el medio ambiente y en susmetas a alcanzar, o peor aun, fallas en sus sensores y en las acciones a aplicar.

Los resultados obtenidos con ABC han sido prometedores, por lo cual se ha considerado que esuna herramienta de utilidad en la ensenanza de sistemas basados en el comportamiento, dado lasfacilidades que ofrece para la experimentacion en el tiempo de ejecucion, ofreciendo al usuario lavisualizacion del comportamiento del agente simulado, y permitiendole, a su criterio, manipularla definicion del agente y/o del medio ambiente. En general, ABC ofrece grandes facilidades para

44 3. Antecedentes

la construccion de agentes autonomos.

Queda de manifiesto que, mediante las Redes de Comportamiento, es posible modelar con-ductas animales reales observadas en la naturaleza. La complejidad en la estructura de una redde modulos conductuales y en la dinamica del ambiente, permiten explicar el surgimiento depatrones en el comportamiento animal observable en la naturaleza.

El modelado con el algoritmo de Maes permite ascender desde conductas muy elementales hastacomportamientos relativamente complejos que se derivan de la interacciones entre conductasmas simples. Por tal motivo, los modelos de Redes de Comportamiento permiten estudiar lainteraccion entre un agente y un medio que puede ser dinamico.

3.2 Herramienta XLearn

Desde el punto de vista computacional, uno de los trabajos que motivaron esta investigacionfue la implementacion de una herramienta de simulacion basada en aprendizaje denominada“XLearn: Un paquete para la simulacion de Aprendizaje por Reforzamiento” [Mar00b], desa-rrollada en un curso de Aprendizaje impartido en la Maestrıa en Inteligencia Artificial de laUniversidad Veracruzana. Dicho trabajo fue desarrollado por los alumnos bajo el asesoramien-to del Dr. Manuel Martınez, como un paquete de apoyo en labores pedagogicas en relacion alAprendizaje Automatico.

El objetivo de XLearn fue simular el comportamiento de una abeja en un jardın al seleccio-nar su alimento de entre varios tipos de flores, cada una con una probabilidad desconocida deproporcionar miel (recompensa). La abeja tenıa permitido un numero fijo n de visitas a cual-quiera de las flores en su ambiente. La recompensa era binaria (tener o no miel). El objetivoera que la abeja obtuviera la mayor cantidad de miel durante las n visitas a las flores. Los algo-ritmos implementados en XLearn fueron: Greedy, ε-Greedy, Softmax, LR, LRP e Intervalos deConfianza; la simulacion era estatica, sin navegacion de la abeja y la distribucion de las floressiempre era la misma; las visitas eran determinadas por generacion aleatoria entre el numero deflores.

Como parte de los resultados se calculaba el factor XLearn [Mar00a], una medida de la efi-ciencia de los algoritmos, indicadora de la bondad en la estimacion de la probabilidad de que laabeja encontrara miel en una flor. Este coeficiente se calculo, para cada tipo de flor f , con lasiguiente formula:

XLearnf =NumRecompensas

NumV isitas

Probabilidad(3.1)

Donde:

NumRecompensas Numero de veces que hubo miel en flores tipo f .NumV isitas Numero de visitas hechas a las flores f .Probabilidad Probabilidad de encontrar miel en una flor del tipo f .

3.3. Estudios etologicos 45

Cuando el factor XLearn se aproxima mas a 1, mejor es la estimacion de la probabilidad. Estecoeficiente da una medida de la capacidad del agente para discriminar entre los distintos estadosdel mundo.

La herramienta obtuvo buenos resultados y se establecio como un medio didactico para unamayor comprension del Aprendizaje por Reforzamiento, al permitir experimentar con diversosalgoritmos ApR.

3.3 Estudios etologicos

Al igual que en las versiones previas de ABC, nuevamente se considera el trabajo etologicode [Rod94] con monos aulladores (Alouatta Palliata) de la isla de Agaltepec, del municipiode Catemaco, Veracruz. Rodrıguez describe algunos aspectos de las estrategias de forrajeo deun grupo de estos primates bajo condiciones de semi-libertad, obteniendo datos estadısticos apartir de 1500 horas de observacion. Ademas, presenta un modelo estocastico que simula elcomportamiento del mono, describiendo tres conductas (descanso, alimentacion y locomocion) yla forma en que cada una de ellas cambia a las otras, requiriendo como parametros los tiempospromedio de permanencia en cada conducta y las probabilidades de transicion (probabilidad decambiar de una conducta a otra dependiendo de la presente) de la tropa de los monos aulladores.

Adicionalmente, este trabajo esta basado en los estudios etologicos realizados por la biologaCristina Domingo Balcells [Dom04]. Domingo se enfoca de manera particular a la plasticidadconductual (capacidad de modular la conducta en funcion de las circunstancias del medio) de lamisma especie de primates.

La plasticidad conductual se define como la potencialidad de emitir respuestas flexibles, mo-dificar la conducta y por consiguiente, responder ante situaciones o condiciones cambiantes. Deahı su gran importancia para la adaptacion de los animales ante los cambios del medio respectoa la disponibilidad y localizacion de las fuentes alimenticias y en general, del ambiente.

El objetivo de Domingo era analizar la respuesta conductual plastica de un grupo de monosaulladores ante variaciones en la disponibilidad de recursos alimenticios dentro de un espaciorestringido.

El grupo de estudio fue una poblacion de seis monos en cautiverio, en las instalaciones situadasen la estacion biologica de Pipiapan, dentro del Parque de Flora y Fauna Silvestre Tropical(PAFFASIT), de la Universidad Veracruzana, localizada en la region de Los Tuxtlas, en el mu-nicipio de Catemaco, Veracruz (Mexico).

El estudio consistio en someter al grupo a dos condiciones experimentales de distribucion delalimento en el encierro:

Fase control - se suministraron ramas frescas de especies silvestres colocadas en el centrodel encierro y cuatro tipos de fruta cultivada presentadas en cuatro comederos de posicionfija y equidistantes entre sı; cada comedero contenıa las cuatro frutas. Duracion: 180 horas.

46 3. Antecedentes

Fase experimental - se situo una unica fruta por comedero al azar. Duracion: 96,22 horas.

La cantidad total suministrada en ambas fases permanecıa constante. El objetivo del experi-mento era identificar los alimentos preferidos.

Se predijo que el grupo de estudio ajustarıa su comportamiento individual en funcion del cam-bio a corto plazo en la disposicion del alimento. Tales ajustes conductuales comprenden cambiosa nivel individual, como son: modificaciones del patron de actividades, tiempo dedicado a labusqueda y consumo de alimentos, locomocion y descanso, ası como cambios en la dieta de losanimales, en relacion al tipo de alimento y cantidad consumida.

En sus estrategias de forrajeo, los monos aulladores presentan adaptaciones a la distribucionespacial y temporal de los recursos alimenticios. Segun explica Domingo, los herbıvoros gene-ralistas, como el individuo de estudio, pueden seleccionar un menu adecuado de plantas con laayuda de sus habilidades de percepcion y su experiencia previa con los alimentos; probablemen-te, la eleccion selectiva del alimento no se base unicamente en la calidad nutrimental del mismo,sino en otros factores, como la disponibilidad de los recursos, la capacidad de localizarlos y elgrado de accesibilidad de los mismos.

La hipotesis del trabajo de Domingo era que “en respuesta a la distribucion de alimento dealta calidad (fruta) suministrado a un grupo de monos aulladores en cautiverio, se produciranajustes conductuales plasticos por parte de los animales”.

Los ajustes que se esperaban a nivel individual eran cambios en el patron de actividades (eltiempo dedicado a la busqueda y consumo de alimentos, la locomocion y el descanso), ası comocambios en la dieta, en relacion al tipo de alimento y cantidad consumida por cada individuo.

En cuanto a los cambios en el patron diario de actividades, se esperaba que variando aleatoria-mente la ubicacion espacial de las frutas, hubiera un aumento de las actividades de locomocion ybusqueda de alimento, dado que los individuos ya no podrıan predecir la ubicacion del alimentopreferido, lo que les obligarıa a realizar un mayor rastreo del area.

En relacion a la alimentacion, forrajeo y estructura espacial, se esperaba que durante la fasecontrol, en que todas las estaciones alimenticias contendrıan una mezcla de todos los alimentos,los animales tenderıan a distribuirse ampliamente, de manera aleatoria, pero al variar al azar laposicion de cada tipo de alimento en las estaciones alimenticias, se esperaba que ocurriera unaexploracion por parte del individuo hasta encontrar la ubicacion del alimento de preferencia.Asimismo, se previo un acceso caotico al alimento inicial y un aprendizaje rapido de la posicionespacial de los alimentos.

Estas hipotesis fueron corroboradas con el estudio etologico, teniendo como resultados la va-riacion en la duracion de la actividad de busqueda de alimento, lo cual indica la selectividad delos individuos a la hora de alimentarse, es decir, los monos establecieron preferencias alimen-ticias. Otros datos obtenidos fueron en relacion a las jerarquıas grupales y la alimentacion delos individuos: el mono de mayor jerarquıa siempre comio el alimento de preferencia, debidoa que mientras hubiera en existencia, siempre tuvo acceso a el. Por el contrario, los monos de

3.4. Mejoramiento propuesto 47

menor jerarquıa, ante la inexistencia o no disponibilidad del alimento de preferencia, tuvieronque comer de las otras opciones alimenticias, observandose tambien la preferencia jerarquizadade alimentos.

La importancia de esta propuesta de investigacion radica en que los estudios etologicos sondifıciles de realizar, ademas de que toman mucho tiempo, pero una de las principales limita-ciones de estos estudios es la disponibilidad del individuo de investigacion, es decir, del monoaullador, ya que estos animales actualmente se encuentran en peligro de extincion, ademas deque con frecuencia enferman en cautiverio o presentan otro tipo de complicaciones a la adapta-bilidad al encierro.

Por tanto, la simulacion del comportamiento de estos animales es ideal para experimentar,siendo un apoyo a los estudios reales de los especialistas.

3.4 Mejoramiento propuesto

En el primer capıtulo se planteo la construccion de arquitecturas de agentes que enfrentan elproblema de la seleccion de accion, destacandose ahı un problema que pocas veces es atendido:aprender de la experiencia. El aprendizaje en base a la experiencia tiene como objetivo lograrque el agente sea capaz de mejorar su desempeno, por lo cual es algo deseable y necesario en elmodelado de agentes que se aspira, tengan un comportamiento adaptativo y robusto.

Por tanto, hacer que un mecanismo de seleccion de accion se combine con aprendizaje es la pro-puesta de esta investigacion. A diferencia de la forma en que otras arquitecturas puedan plantearel aprendizaje, aquı se propone aprender acerca de la toma de decisiones de una conducta, la cualforma parte del repertorio de conductas controladas por el mecanismo de seleccion de accion.Ası, el agente a modelar cubre ambos aspectos, al seleccionar conductas de entre un repertoriomediante un mecanismo y aprender, por realimentacion con el ambiente, a seleccionar accionesque sson de interes a una conducta.

Esta idea tuvo sus origenes al ver el modelado de abejas con la herramienta XLearn, pensando enhacer un modulo de aprendizaje parecido para los monos aulladores. Posteriormente, tomandoen cuenta que la herramienta ABC en su ultima etapa habia simulado a este animal, se pla-neo entonces modelar la conducta de forrajeo mediante tecnicas de aprendizaje, uniendo ası losproblemas de seleccion de acciones y aprendizaje.

Como no existe en la literatura algo similar, esta combinacion conlleva el investigar los posiblesefectos que el aprendizaje pueda tener en el mecanismo de seleccion de acciones.

De manera especıfica, se planea la introduccion de un modulo de aprendizaje a la herramien-ta ABC, buscando que los agentes sean capaces de aprender en base a su experiencia en unmedio ambiente dinamico, a fin de mejorar los resultados ya obtenidos con la herramienta. Elaprendizaje que se utiliza es el Aprendizaje por Reforzamiento (ApR). El modulo de ApR seactivara al estar el agente en una conducta especıfica, que implique toma de decisiones y sobre-

48 3. Antecedentes

vivencia. Para este fin se ha considerado la implementacion de varios algoritmos de Aprendizajepor Reforzamiento: Bandido, Greedy, ε-Greedy, Softmax, LRP, LR, Estimacion de Intervalos yComparacion de Reforzamiento.

Con esto se busca dar seguimiento al trabajo iniciado por Guerra [Gue97c] y ampliado porMontes [Mon98]. Con la nueva extension de ABC se pretende continuar el estudio del compor-tamiento de forrajeo del mono aullador, analizando los cambios que el aprendizaje genere en laRed de Comportamiento y buscando resultados similares al comportamiento del animal real.

Ademas, como ABC es una herramienta generica, que implica el modelado de agentes, y en basea esto, toda una gama de simulaciones (ya sea robots inteligentes u otros animales), segun sedesee experimentar, la herramienta final con aprendizaje podra ser aplicada a otros experimentos,cuidando unicamente la naturaleza del problema a plantear por aprendizaje.

Capıtulo 4

Modulo de Aprendizaje por Reforzamiento conRedes de Comportamiento

Este capıtulo esta dedicado a describir la implementacion de la propuesta de investigacion: laelaboracion de un modulo de Aprendizaje por Reforzamiento actuando sobre un modulo decomportamiento particular perteneciente a un Mecanismo de Seleccion de Accion, constituidopor las Redes de Comportamiento (la nueva herramienta ABC ApR). Por tanto, se presentaun esquema general de la interaccion de la Red de Comportamiento con el Aprendizaje porReforzamiento, para posteriormente exponer la implementacion de los algoritmos ApR, ası comolas variantes ambientales en funcion a la cantidad y distribucion de las posibles acciones aejecutar.

4.1 Red de Comportamiento y Aprendizaje por Reforzamiento

El modelo que se propone en este trabajo enlaza al mecanismo de seleccion de Redes de Com-portamiento con el Aprendizaje por Reforzamiento mediante un subsistema adicional a la redque se activa cada vez que se selecciona el modulo conductual sobre el que se desea aprender,mApR. El aprendizaje actua como una especializacion de seleccion de accion del comportamientoa aprender. La grafica 4.1 presenta el esquema general de la forma en que interactuan ambosprocesos de seleccion de accion.

Cuando el modulo de aprendizaje se activa, se seleccionara una opcion opi (1≤ i≤N) medianteel mecanismo propio del algoritmo de aprendizaje que se este aplicando. Estas opciones impli-can diferentes niveles de recompensa para el agente. La meta deseada es que, a medida que seaplique el aprendizaje, se identifique la opcion que maximice la ganancia en la conducta mApR

del agente modelado por la Red de Comportamiento.

Para ejemplificar la estructura de la herramienta ABC ApR, considerese el diseno de una Redde Comportamiento que simule el comportamiento de un animal, por ejemplo, un mono. Losmodulos conductuales mi que definen al agente son las actividades de este animal: descansar,explorar, alimentar, socializar, huir de depredadores, etc.; y, en concordancia a los experimentosrealizados con ABC ApR, relativos al forrajeo de los monos aulladores, sea mApR = alimentarla conducta sobre la que se aplique el aprendizaje.

50 4. Modulo de Aprendizaje por Reforzamiento con Redes de Comportamiento

Figura 4.1: Modelo de Red de Comportamiento con Aprendizaje por Reforzamiento

Para alimentarse, el animal tiene opciones alimenticias -varios tipos de frutas y hojas- de calidaddiversa, de entre las cuales existe un alimento preferencial (el de mayor calidad), segun lo de-terminado por estudios etologicos (ver [Dom04] y seccion 3.3). El animal determina el alimentopreferencial en base a su experiencia en la ingesta de las diversas opciones alimenticias y pos-teriormente realiza una eleccion selectiva orientada a este alimento. En terminos de ABC ApR,los diferentes tipos de alimentos conforman las opciones opi y el alimento de preferencia es laopcion optima, op∗, que posee la maxima probabilidad de recompensa para la conducta mApR

del agente.

4.2 Modulo de aprendizaje

Para implementar el aprendizaje se opto por el Aprendizaje por Reforzamiento, dadas las carac-terısticas que posee y que lo hacen ideal para el tipo de problema que se enfrenta: un agente quese encuentra en un ambiente desconocido, cuyo objetivo es seleccionar, de entre varias opciones,la mejor, a fin de maximizar su recompensa total durante toda su vida.

A continuacion se plantean las generalidades en torno al modulo de aprendizaje implementado:

El aprendizaje actua sobre una conducta especıfica mApR de la Red de Comportamientoque modela al agente simulado. Es deseable que esta conducta implique la optimizacionde seleccion entre sus opciones opi.

4.2. Modulo de aprendizaje 51

Los algoritmos implementados son Bandido, Greedy, ε-Greedy, Softmax, LRP, LR, Esti-macion de Intervalos y Comparacion de Reforzamiento.

Todos los algoritmos trabajan bajo el modelo del algoritmo general de aprendizaje, contan-do con una funcion de opcion, una funcion de recompensa y una funcion de evaluacion deaccion, manteniendo actualizados los datos necesarios en cada iteracion. La funcion de op-cion corresponde a la funcion de seleccion de accion del algoritmo mencionado (algoritmo2, pagina 29)

Todos los algoritmos trabajan bajo un marco comun: el problema del Bandido, en suversion generalizada de N acciones. El usuario determina el valor de N.

Las recompensas o valoraciones de la deseabilidad de las opciones elegidas, opi, que elambiente otorga al agente son de tipo estocastico, de acuerdo a una probabilidad asociadaa cada opcion al momento de definir la corrida de ABC ApR. Las senales de reforzamientogeneradas son booleanas {0, 1}.

El modulo de aprendizaje cuenta con un ambiente de simulacion 2-D, con el cual el agenteinteractua confrontando las opciones a elegir. Cada vez que el modulo entra en actividad,el ambiente muestra la forma en que el agente adopta las opciones opi, reflejando ası susdecisiones para la conducta mApR.

Desde sus versiones anteriores, ABC ha tenido un ambiente de tipo dinamico, determinadopor las dinamicas de activacion/inhibicion entre los modulos de competencia de la Red deComportamiento. Ademas de esto, ABC ApR anade al ambiente un dinamismo propio dela distribucion de las opciones opi sujetas a aprendizaje. Ası, el ambiente cambia cada 20iteraciones de aprendizaje. En terminos del experimento simulado del mono, esta dinamicaimplica la redistribucion del alimento en el mundo.

Cada vez que una opcion ha sido seleccionada por el algoritmo, antes de calcular susrecompensas real y esperada, el agente debe ver la disponibilidad de tal opcion, por loque debe realizar una busqueda en el ambiente simulado. Si la opcion seleccionada no sepuede encontrar en el ambiente, debe tomar alguna otra existente en el mundo (ver seccion4.2.3).

Para fines comparativos, se implementaron dos mecanismos bajo los que el agente selec-ciona acciones en su ambiente. El primero de ellos es el caso paraıso, donde el ambientedel agente unicamente contiene las situaciones que definen la opcion optima, op*, por loque solo esta puede ser percibida y, por tanto, seleccionada. El segundo es el caso sinaprendizaje, donde el agente puede percibir todas las opciones opi en su ambiente, pero se-leccionara la primera opcion que detecte en su mundo, pues no se aplica ningun mecanismode seleccion de opcion y por tanto, no se aprende de lo experimentado.

El modulo corre en funcion a la herramienta ABC, por lo que no es posible determinarel total de iteraciones que tendra; este surge de las motivaciones del agente en la Red deComportamiento; el criterio de parada global son 1500 iteraciones de ABC.


4.2.1. Algoritmos de Aprendizaje por Reforzamiento

En el capıtulo 2 se analizo lo relativo al Aprendizaje por Reforzamiento y se presentaron diversastecnicas a las que pertenecen los algoritmos usados en este trabajo. Antes de exponer las imple-mentaciones de los algoritmos de aprendizaje de los que consta el modulo, se debe considerar lanotacion usada en las siguientes secciones:

Sea un agente A, A={m1,m2, ...,mn}, donde mi (1≤i≤n) es un modulo de competencia dela Red de Comportamiento que modela al agente.

Sea mApR∈A, indicado por el usuario al disenar la red para que sea objeto de aprendizaje.Para el modulo de competencia mApR = (cApR, aApR, dApR, αApR) existe un conjunto de opcio-nes OP del que mApR debe seleccionar una opcion opi al ser activado por la red. Esta seleccionde opcion depende del algoritmo de aprendizaje aplicado.

OP = {op1, ..., opN}

seleccion op(OP) → op

rop =

1

con probabilidad PR(op), op = opi

0

N Numero de opciones del modulo mApR.op Opcion seleccionada actualmente.mApR op Opcion ejecutada por mApR.PR(opi) Probabilidad de recompensa de la opcion opi.rop Recompensa recibida actualmente al ejecutar una opcion op.R(opi) Recompensas que ha dado la opcion opi.A(opi) Numero de veces que se ha seleccionado la opcion opi.Q(opi) Valor estimado de la opcion opi.P (opi) Probabilidad de seleccionar la opcion opi.

Se prescinde de usar el indicativo de tiempo t, debido a que todos los calculos son realizados conlos datos actuales en t.

4.2.1.1. Algoritmo del Bandido

De acuerdo a la naturaleza del algoritmo, como se explico en la seccion 2.7.1, el algoritmo cuen-ta con una etapa de predecision, de tamano k. Este algoritmo trabaja sobre las recompensastotales obtenidas, no sobre la recompensa estimada. Se usa la notacion m y j para indicar quelas opciones sobre las que se realiza la comparacion son cualesquiera de la gama de opcionesdisponibles ordenadas en decremento por su recompensa recibida (Ropm > Ropn > ... > Ropj ).


En etapa de predecision:

Prueba todas las opciones en orden y verifica en cada momento que, ordenadas de mayor amenor por sus recompensas totales obtenidas hasta ese momento, esten en etapa de predecision:(|Rmax(opm)−Rmin(opj)| < k). En el momento en que |Rmax(opm)−Rmin(opj)| >= k y existanmas de dos opciones en etapa de predecision, elimina a la opcion opj con la mınima recompensarecibida Rmin(opj).

En etapa de decision:

Cuando la comparacion |Rmax(opm)−Rmin(opj)| >= k unicamente se realiza entre dos opciones(ya se han eliminados las otras), se toma la decision de que por siempre se seleccionara la opcioncon la maxima recompensa recibida Rmax(opm):

op = Rmax(opm)

Despues de que se ha seleccionado una opcion, se obtiene su recompensa mediante PR(op) ypara fines de presentacion de resultados, se calcula su recompensa esperada (ver ecuacion 4.1).

4.2.1.2. Algoritmo Greedy

La seleccion de accion se da en dos etapas:

Etapa de predecision

Al iniciar la corrida, el algoritmo cumple una etapa de predecision, la cual consiste de probartodas las acciones en orden (opa, opb, .., opN ), hasta completar un cierto numero k (segun seanecesario, se reinicia el ciclo de prueba: opm, opN , opa, opb,...). Esto con el fin de recabar infor-macion acerca de las opciones. Por tal motivo, la seleccion de las opciones es determinada porel orden que posean.

Etapa codiciosa

Una vez que se ha superado la etapa de predecision, el metodo Greedy entra en actividad. Realizala seleccion de una accion de manera codiciosa, es decir, elige la opcion que posea el valor deestimacion mas alto, para lo cual unicamente busca la mayor recompensa acumulada:

op = maxopQ(opi)

En caso de haber mas de una opcion que tenga el maximo valor, se elige aleatoriamente entreellas:

op = random({opi | Q(opi) = Q(opj 6=i)})

Posterior a la seleccion de accion se obtiene la recompensa de la opcion elegida, rop. Finalmente,se calcula la recompensa esperada de la opcion ejecutada, mediante la ecuacion 4.1. La estimaciondel valor de la opcion, o recompensa esperada, es calculada mediante el promedio de la muestrade las recompensas observadas, en su implementacion incremental. Ası, para cuando una opcionop = opi se ha ejecutado, recibiendo una recompensa rop, se calcula su valor mediante:


Q(opi) = Q(opi) +rop −Q(opi)

A(opi)(4.1)

La implementacion incremental se debe a la conveniencia de no ir guardando la informacionrelativa a todas las recompensas recibidas hasta un tiempo t.

4.2.1.3. Algoritmo ε-Greedy

Selecciona la mayor parte del tiempo codiciosamente, pero con una baja probabilidad ε se dedicaa explorar las demas alternativas, de manera aleatoria, uniformemente. El valor del parametroε es proporcionado por el usuario al inicio de la corrida.

Con probabilidad εop = random({opi | 1 ≤ i ≤ N})

Caso contrarioop = maxopQ(opi)

Posterior a la seleccion de accion, obtiene la recompensa que la opcion elegida le otorga, en basea lo que el ambiente determine por medio de la probabilidad de recompensa asociada a la opcion,PR(op). Finalmente, se calcula el valor estimado o recompensa promedio, que es mediante elpromedio incremental de la muestra (ecuacion 4.1).

4.2.1.4. Algoritmo Softmax

Debido a que este algoritmo pertenece a las estrategias aleatorias, se dedica una parte del tiempoa actividades exploratorias, pero a diferencia de el algoritmo ε-Greedy, la seleccion aleatoria noes uniforme, sino mediante las probabilidades obtenidas por la distribucion de Bolztmann, cuyaecuacion (ya presentada en 2.1) es utilizada de la siguiente manera:

Con probabilidad εop = opi con

P (opi) =eQ(opi)/T∑j 6=i e

Q(opj)/T

Caso contrarioop = maxopQ(opi)

El parametro T es conocido como Temperatura y es el que controla el grado de exploracion, puesa grandes valores provoca que exista mas exploracion del ambiente, pero a medida que tiende a0 la estrategia de seleccion de accion iguala a la estrategia codiciosa.

Una vez que se ha tomado la decision de que opcion probar, se obtiene la recompensa porhaber ejecutado esa opcion. Al igual que con los tres algoritmos previos, se calcula la recompen-sa esperada mediante la ecuacion 4.1.


4.2.1.5. Algoritmo LRP

Este algoritmo se enfoca a la representacion de la deseabilidad de una accion mediante unvector de probabilidades (denotado por Q). Cuenta con una etapa de predecision en la cualse prueban todas las opciones con el fin de recabar informacion relativa a cada una, obtenien-do su recompensa rop y realizando los ajustes al vector de probabilidades de la siguiente manera:

Para op = opi,

si rop = 1:Q(opj 6=i) = (1− α) ∗Q(opj)

Q(opi) = Q(opi) + α(1−Q(opi))

si rop = 0:

Q(opj 6=i) =β

N − 1+ (1− β) ∗Q(opj)

Q(opi) = (1− β) ∗Q(opi)

Fuera de la etapa de predecision, la polıtica de seleccion de accion es establecida aleatoriamentede acuerdo a las probabilidades que posee cada opcion, por tanto

Selecciona una opcion op de acuerdo a el vector de probabilidades:op = opi con probabilidad Q(opi)

El algoritmo es una de las versiones que existen (tomado de [Uns97]) y funciona para N acciones.

4.2.1.6. Algoritmo LR

Cuenta con dos etapas, una etapa de predecision para probar todas las acciones y una deaplicacion de una polıtica aleatoria de seleccion de accion:

Selecciona una opcion op considerando su probabilidad en el vector Q:op = opi con probabilidad Q(opi)

Posterior a la eleccion de una opcion op se obtiene su recompensa rop y para la actualizacion delvector de probabilidades, a diferencia de LRP, unicamente se ajusta el vector ante opciones exi-tosas, sin penalizar en ningun sentido por el hecho de que no se generen recompensas (rop = 0).El vector es actualizado de la siguiente manera:

Sea op = opi y rop = 1:

Q(opj 6=i) = (1− α) ∗Q(opj)

Q(opi) = Q(opi) + α(1−Q(opi))

4.2.1.7. Algoritmo RC

Esta tecnica hace uso de una recompensa de referencia, rp, y de una medida de preferencia decada opcion, Pr(opi), a fin de calcular las probabilidades Q(opi) de seleccion de las acciones.


rp - Promedio incremental de todas las recompensas recibidas.

rp = rp + α(rop − rp)

Pr(opi) - Preferencia de la opcion seleccionada op = opi.

Pr(opi) = Pr(opi) + β(rop − rp)

Calcula la probabilidad de seleccionar la opcion opi, Q(opi), mediante:

Q(opi) =ePr(opi)∑N

n=1 ePr(opn)

Al principio aplica un proceso de recolecta de informacion, mediante la seleccion ordenada de lasopciones. Posterior a esa etapa, aplica una polıtica ε-greedy, decrementando ε con el transcursodel tiempo, a fin de seleccionar la mejor accion la mayor parte del tiempo.

4.2.1.8. Algoritmo IE

Inicialmente el algoritmo entra en una etapa de recoleccion de informacion, probando cada unade las opciones opi. Posterior a esto, cada vez que se va a seleccionar una accion aplica unapolıtica ε-greedy, con un valor de ε grande que es decrementado con el tiempo, para favorecer ala polıtica greedy.

Cada vez que se ejecuta una opcion op se obtiene la recompensa rop de acuerdo a su proba-bilidad de recompensa asociada. Como op = opi, se analiza la deseabilidad de opi, mediante elcalculo del lımite superior del intervalo de confianza, y se almacena en Q(opi), que representala probabilidad de seleccionar a la opcion opi. Los lımites superiores del intervalo de confianzason obtenidos mediante la ecuacion 2.2, que nuevamente se presenta a continuacion:

Q(opi) =

R(opi)N(opi)

+ z2

2N(opi)+ z√

N(opi)

√(R(opi)N(opi)

) (1− R(opi)

N(opi)

)+ z2

4N(opi)

1 + z2

N(opi)

4.2.1.9. Comparativos

Seleccion optima

El ambiente solo cuenta con la opcion optima, op*, la de maxima probabilidad de recompensa,op∗ = maxopPR(opi). Por tanto, el agente siempre la percibe y selecciona, lo cual representa elmundo ideal, o paraıso. El agente no toma decisiones sobre el tipo de opcion que debe tomar,unicamente ejecuta la que detecta primero en su mundo.

A pesar de que con este ambiente optimo el agente siempre selecciona la mejor de todas lasacciones posibles que los demas algoritmos buscan, la recompensa puede o no ser satisfactoria(debido a la aleatoriedad). Para fines de obtener resultados comparativos, se calcula la recom-pensa esperada mediante la ecuacion 4.1.


Seleccion sin aprendizaje

El ambiente contiene todos los tipos de opciones que mApR puede ejecutar, pero no se rea-liza ninguna seleccion de accion mediante tecnicas de aprendizaje; por el contrario, el agenteunicamente se limita a que, una vez que la Red de Comportamiento activa el modulo mApR,opta por seleccionar la opcion opi que detecta primero en el ambiente, sin considerar la posibleganancia que le pueda redituar (si es la mejor o la peor), o si existe otra opcion opj que puedeejecutar y que era mejor que la que ha seleccionado.

Al igual que todos los algoritmos, una vez ejecutada la opcion, se obtiene su recompensa pormedio de PR(opi) y se calcula la recompensa promedio con la ecuacion 4.1.

4.2.2. Ambiente

El modulo de aprendizaje consta de un ambiente de dos dimensiones anexado a la derecha de lapantalla principal de la herramienta ABC, como se muestra en la figura 4.2.

El agente esta representado por un cırculo grande color cafe, en tanto que los diversos tiposde opciones de mApR se representan por pequenos cırculos de colores (amarillo, naranja, verdeo rojo, segun sea el caso).

Figura 4.2: Ambiente del modulo de aprendizaje de ABC

Al comienzo, el agente se ubica en el centro de la pantalla que representa al ambiente, parainiciar su navegacion de acuerdo a los requerimientos del modulo de aprendizaje. Las opcionesopi se distribuyen en el ambiente en posiciones aleatorias, de acuerdo al mundo seleccionado (verseccion 4.4).

En la parte inferior externa del ambiente simulado se presentan diversos datos de las acciones:sus probabilidades de recompensa, su color de identificacion, la opcion seleccionada y obtenida,


el numero de veces que se ha seleccionado cada opcion opi y la recompensa generada, ası como larecompensa acumulada y la recompensa promedio total, junto con los valores de los parametrosen caso de que el algoritmo requiera alguno.

Cuando el modulo mApR es activado por la Red de Comportamiento, se ejecuta el modulode aprendizaje y en el ambiente, el agente inmediatamente busca a su alrededor la opcion opque le indica su aprendizaje (o la mas proxima, en cualquiera de los dos comparativos). Paraesto, el agente cuenta con una zona de percepcion dentro de la que detecta las opciones a sualrededor; al detectar la opcion de su eleccion, modifica su direccion de navegacion y se dirigehacia ella y una vez que esta a su alcance (dentro de su area circular), la ejecuta, con lo cualdesaparece del ambiente.

En caso de que la opcion elegida no se no encuentre a su alcance, el agente navega por elambiente en busca de ella, siguiendo la direccion que tenıa antes de requerir la busqueda, hastaencontrarla o modificar su seleccion (ver seccion 4.2.3). Al llegar a los lımites del mundo, elagente gira en direcciones aleatorias para continuar su navegacion.

El ambiente simulado de ABC ApR presenta una dinamica al cambiar cada 20 iteraciones deaprendizaje la posicion de las opciones opi, en forma aleatoria. En tanto no se dispare el modulode aprendizaje, el agente navega aleatoriamente por el ambiente.

4.2.3. Impacto del ambiente en la seleccion de acciones

Cada vez que el agente ha seleccionado una opcion de acuerdo a la naturaleza del algoritmo deaprendizaje en ejecucion, es necesario corroborar la existencia de situaciones donde sea posiblepercibir la opcion deseada, op, en el ambiente, para lo cual, mediante navegacion, se ejecutasu busqueda. En el caso ideal, la opcion op sera percibida y el agente procedera a ejecutarla,realizando posteriormente los ajustes de la deseabilidad o conveniencia de ese tipo de accion.

Por el contrario, puede darse el caso de que, si durante un cierto tiempo le fuera imposibleal agente encontrar la opcion elegida, entonces debera seleccionar una opcion de otro tipo parasu ejecucion, ante la escasez de situaciones donde se perciba la opcion deseada.

Al suceder lo anterior, el agente tiene que modificar su seleccion de accion, desechando lo que elaprendizaje le indico. Ası, el agente seleccionara en orden jerarquizado (por recompensa) de en-tre los tipos de opciones diferentes a la opcion deseada, o bien, de acuerdo a la opcion que tengamas cercana. Una vez que se modifica la seleccion de accion, se inicia la busqueda de la nuevaopcion, hasta que una opcion es ejecutada. Posterior a esto, se procede a ver la recompensa queotorga el nuevo tipo de opcion y se actualiza el aprendizaje.

Con esto, se evita que el agente caiga en un bloqueo permanente en espera de que se perci-ba una opcion inexistente en el ambiente.

El tiempo de busqueda de la opcion tiempobusqueda op es considerado como parte del desem-peno del agente durante el aprendizaje. La manera en que se registra es la siguiente:

4.3. Impacto del aprendizaje en la Red de Comportamiento 59

tiempobusqueda op = 1 Si el agente ejecuta la opcion indicada por el modulo de aprendi-zaje

tiempobusqueda op += 1 Cada vez que el agente no encuentra situaciones que le permitanejecutar un cierto tipo de opcion y se ve en la necesidad de buscaruna opcion diferente.

4.3 Impacto del aprendizaje en la Red de Comportamiento

El resultado obtenido por el aprendizaje actuando sobre una conducta especıfica de la Red deComportamiento tiene que ser tomado en cuenta cada vez que el modulo de aprendizaje con-cluye una iteracion. La forma en que se planeo la afectacion a la Red de Comportamiento fueen relacion al nivel de activacion α de la conducta mApR sobre la que se modela el aprendizaje.El algoritmo 3 muestra las modificaciones al nivel de activacion en la Red de Comportamientocuando hay aprendizaje y cuando no lo hay.

Algoritmo 3 Enlace de Aprendizaje y Red de Comportamiento

1: loop2: Red de Comportamiento ⇒ mi . Selecciona mi3: if mi = mApR then4: Aprendizaje por Reforzamiento ⇒ op . Selecciona op y obtiene rop

5: if op = op∗ & rop = 1 then6: mApR(α) = 07: else if rop = 1 then8: mApR(α) = mApR(α) ∗ 0,5 ∗ tiempobusqueda op

9: intervalodinamica = X10: else11: mApR(α) = mApR(α) ∗ 1,5 ∗ tiempobusqueda op

12: intervalodinamica = Y13: end if14: else15: mi(α) = 0 . Por defecto16: end if17: end loop

Cuando no se aplica aprendizaje, la Red de Comportamiento aplica a sus modulos seleccionadosun restablecimiento a cero en sus niveles de activacion, para que reinicien el acumulamiento deenergıa a fin de entrar nuevamente en competencia con los demas modulos.

Cuando se aplica aprendizaje, al hacer la modificacion del nivel de activacion se consideranel tipo de opcion seleccionada durante el aprendizaje, la recompensa obtenida y el tiempo utili-zado en hallar la opcion. El ajuste a α puede ser de tres tipos:

Si se selecciono la opcion optima, op∗, y se obtuvo recompensa, aplica el decremento comunde la Red de Comportamiento, es decir, el nivel de activacion de mApR es cero.

Si la opcion seleccionada no es la optima (op 6= op∗), pero se obtuvo recompensa, el nivelde activacion de mApR es decrementado en un 50 % y multiplicado por el tiempo que le


tomo encontrar la opcion indicada por el modulo. Ademas, se modifica el intervalo quecontrola la dinamica del mundo (lapso de tiempo en que se cambian las proposicionesvariables en el mundo, en la Red de Comportamiento).

En caso de que la opcion, optima o no-optima, no haya obtenido recompensa (rop = 0), elnivel de activacion es incrementado en un 50 % de su valor ademas de multiplicarlo por eltiempo de busqueda que empleo en hallar la opcion. Modifica tambien el valor del intervaloen el que se va a cambiar el mundo.

Cuando la opcion solicitada por el modulo de aprendizaje es encontrada (sin necesidad de cam-bios por no percibirla), el tiempo de busqueda no afecta.

La modificacion del valor del intervalo con que se cambian las proposiciones variables en elmundo introduce mas dinamica en las Redes de Comportamiento y, con esto, se acentua el im-pacto del aprendizaje en la Red de Comportamiento modelada. La cantidad en que se varıa elintervalo es constante, unicamente se determino que Y > X, para ejercer penalizacion cuandono se recibe recompensa.

Estos ajustes indican que el obtener recompensa es lo correcto y que las opciones optimasson las deseadas; por tanto, ejerce cierto castigo al elegir una opcion no-optima y al no recibirrecompensa, y aun mas, al emplear mucho tiempo en hallar una de ellas. En estos casos, elnivel de activacion de mApR refleja la insatisfaccion al aprender y la urgencia por seleccionar almodulo mApR en el corto plazo.

4.4 Variaciones ambientales

Una vez que se implementaron los algoritmos de aprendizaje y los comparativos, se busco tenerdiferentes marcos de experimentacion de los mismos, por lo que se opto por hacer variacionesen relacion a la cantidad total de las diversas opciones opi que forman parte del ambiente delagente y que este puede percibir, ası como en la forma en que tales opciones ocupan una posiciondentro del ambiente simulado.

En el ultimo caso, que en adelante se denominara variacion por distribucion, las opciones opseran ubicadas ya sea en cualquier lugar del ambiente, o bien, en zonas especıficas del mismo(lo cual tiene inspiracion etologica en un intento por emular parches alimenticios). En tanto, enla variante por cantidad, el ambiente tendra escasez o abundancia de las opciones op.

4.4.1. Cantidad de acciones

Se penso en hacer que el agente se enfrentara a situaciones donde hubiera opciones en abundanciaen el ambiente, ası como donde hubiera escasez de ellas. Por tal motivo se hizo variar la cantidadde toda la gama de opciones op que el agente podrıa percibir en su mundo al momento deseleccionar una opcion para el modulo mApR, lo que da como resultado que existan ambientesde tipo escaso (con pocas opciones) y ambientes de tipo abundante (con muchas opciones).

4.4. Variaciones ambientales 61

4.4.1.1. Ambiente escaso

Bajo este mundo, las situaciones donde el agente pueda percibir las opciones estan limitadas,debido a que es mınima la cantidad de opciones que forman parte del ambiente. Con este tipode mundo se planea estudiar el comportamiento del agente ante la falta de opciones. La figura4.3 ejemplifica la cantidad de opciones accesibles para el agente en un ambiente de este tipo.

4.4.1.2. Ambiente abundante

Representa un ambiente al que pertenecen mas opciones en comparacion a un ambiente escaso,es decir, donde hay abundancia de opciones; se espera que este tipo de mundo contribuya a queel agente maximice su recompensa promedio al poder percibir y por tanto, ejecutar, las opcionesque desea. La figura 4.4 representa la forma en que el agente tiene grandes posibilidades depercibir opciones en este tipo de ambiente.

Figura 4.3: Mundo de distribucion aleatoria con cantidad escasa

4.4.2. Distribucion de acciones

Considerando los experimentos realizados con la herramienta ABC ApR, surge esta variacion delambiente que rodea al agente, misma que comprende las distintas formas en que las opciones opque satisfacen al modulo mApR ocupan una posicion dentro del mundo simulado. Por un lado, ensemejanza a la distribucion de los alimentos en la naturaleza, existe una distribucion de opcionesen posiciones aleatorias de todo el ambiente; por otra parte, en una simulacion de experimentosetologicos, se considera que el alimento puede ser distribuido por medio de parches (lugaresespecıficos donde los diversos alimentos son colocados), lo que mapeado a la distribucion de lasopciones resulta en que estas sean ubicadas unicamente en ciertas zonas del ambiente simulado,donde tienden a acumularse.


Figura 4.4: Mundo de distribucion aleatoria con cantidad abundante

4.4.2.1. Aleatoria

Es el caso mas sencillo de la ubicacion de las opciones en el ambiente, consistiendo simplementede poner cada opcion en una posicion al azar, dentro del mundo simulado que rodea al agente.Las figuras presentadas en la seccion anterior (4.4.1) muestran graficamente la disposicion delas opciones bajo este criterio, presentando los casos de un ambiente escaso (figura 4.3) y unoabundante (figura 4.4).

4.4.2.2. Por zonas

Esta variacion en la distribucion de opciones se hizo a fin de que en los experimentos realizadoscon la herramienta implementada se pudiera hacer una simulacion de estudios etologicos conparches alimenticios.

Bajo la inspiracion del trabajo de Domingo [Dom04], (resenado en la seccion 3.3), se presentanlas opciones en tres zonas, definidas perfectamente en el mundo; las opciones son generadas deacuerdo a dos fases:

Fase primaria- Las tres zonas contienen todos los tipos de opciones.

Fase secundaria - Solo una zona presenta la opcion optima, en tanto que las otras dospresentan un surtido de las opciones restantes (a diferencia del experimento de Domingo,en el que cada parche contenıa un unico tipo de alimento, lo cual se cumple en parte parael caso de dos opciones, N = 2).

Al inicio, se presentan las zonas en fase primaria, para que el agente pueda tener acceso en unmismo lugar a todos los tipos de opciones posibles. Posteriormente se distribuyen las opcionesen la fase secundaria, que se presenta cada vez que sea necesario, dependiendo de las iteracionesdel modulo de aprendizaje.

4.4. Variaciones ambientales 63

Figura 4.5: Mundo de distribucion por zonas con cantidad escasa

La figura 4.5 muestra el mundo del agente en su version “por zonas”, para un caso escaso yen fase primaria, pues todas las zonas contienen una mezcla de todo tipo de opcion. Por su par-te, la figura 4.6 presenta el ambiente de zonas con cantidad abundante de opciones, en una fasesecundaria, donde una de los zonas (determinada aleatoriamente) posee unicamente la opcionoptima.

Figura 4.6: Mundo de distribucion por zonas con cantidad abundante

4.4.3. Datos y graficas obtenidas

Al ejecutar la herramienta ABC se obtienen diversos datos y graficas, que muestran el desem-peno de la Red de Comportamiento y del modulo de aprendizaje. En relacion a la Red de


Comportamiento, se genera una grafica de activacion en el tiempo, que muestra como se fueronseleccionando los modulos y durante cuanto tiempo estuvieron activos, ası como su acumulamien-to de energıa de activacion (seccion 3.1). Tambien se obtienen el porcentaje, el tiempo promedioy la matriz de probabilidades de transicion para cada modulo de la Red de Comportamiento(seccion 3.1.1). Ademas, se guardan en archivo los datos para poder generar una grafica de laproporcion de tiempo dedicada a cada conducta, por bloques del total de ciclos de ABC (tomadode estudios etologicos, donde se conoce como la grafica del Patron Diario de Actividades, PDA).

Como resultados del aprendizaje, se presentan las curvas de aprendizaje y de convergencia, lascuales representan el desempeno de los algoritmos en cuanto a la recompensa total obteniday a la ejecucion de la opcion optima. La curva de aprendizaje es una grafica de los valores dereforzamiento esperado contra el tiempo, que muestra una tasa de mejorıa del desempeno. Porsu parte, la curva de convergencia muestra la forma en que se obtiene la opcion optima a travesde las iteraciones del modulo de aprendizaje.

Asimismo, se conserva un listado de las decisiones tomadas en cada iteracion por el algorit-mo de aprendizaje ejecutado. Los datos incluyen la recompensa y el numero de selecciones decada opcion, la recompensa promedio, la opcion solicitada por el modulo de aprendizaje y laque se obtiene en el ambiente, junto con la iteracion de convergencia al optimo; asimismo, seregistran los datos globales de la corrida, que incluyen las recompensas acumulada y promedioobtenidas en la corrida, el factor XLearn (modificado de la ecuacion 3.1, seccion 3.2, calculadosobre los datos finales, no sobre cada tipo de opcion), los porcentajes de solicitud de la opcionoptima, de su obtencion y de la seleccion de opciones no optimas (“sobrevivencia”).

Todos estos resultados son almacenados en un archivo .txt para su posterior consulta y enun archivo .pdf se conservan las curvas y la grafica de activacion en el tiempo. Ademas, enun archivo .txt adicional se conservan los datos de generacion de las graficas ya mencionadas,ası como del tiempo de busqueda de las opciones (no graficado).

Capıtulo 5

Simulaciones

Debido al interes en el modelado del comportamiento de los monos aulladores, hecho con laherramienta ABC de [Gue97c] y [Mon98], el objetivo de la presente investigacion es modelar,mediante aprendizaje, la conducta de forrajeo de estos animales, por medio de la simulacion desu toma de decisiones frente a diversas opciones alimenticias.

Para lograr esto, en primer lugar se analizaron los datos estadısticos reales de las investiga-ciones etologicas de [Rod94] y [Dom04], vistos en la seccion 3.3. Para simular el comportamientodel animal, se disenaron Redes de Comportamiento que se aproximaran a estos resultados, lascuales constituyen los dos modelos computacionales con los que se experimenta con ABC ApR.Sobre estos modelos se aplicaron los diversos algoritmos de aprendizaje a la conducta de alimen-tacion.

Las Redes de Comportamiento disenadas comprenden conductas basicas simplificadas y sonmuy sencillas, pero resultan suficientes para la obtencion de simulaciones que se aproximen adatos reales. Ası, para las dos redes disenadas se calibro experimentalmente con respecto alintervalo de tiempo de la dinamica del mundo, para cambiar las proposiciones verdaderas delmundo simulado, y se ajustaron los pesos de las motivaciones de las conductas (la parte deaccion del modulo de comportamiento de [Mon98]).

Por tanto, en este capıtulo se expondran, en primer lugar, los datos obtenidos de cada estudioetologico junto con los datos generados por el modelo computacional respectivo. Posteriormentese presentara un ejemplo de cada modelo con aprendizaje y finalmente se analizaran los resul-tados obtenidos bajo los diversos experimentos, presentando las observaciones mas importantesen cuanto al desempeno de los algoritmos de aprendizaje y de la Red de Comportamiento conAprendizaje por Reforzamiento.

5.1 Simulaciones sin aprendizaje

Esta seccion presenta los datos obtenidos de las observaciones etologicas consideradas en la pre-sente investigacion, en base a los cuales se simula computacionalmente el comportamiento delmono aullador. Ası, se muestran los resultados presentados por Rodrıguez Luna [Rod94], paraser comparados con los obtenidos por el modelo de simulacion ABC RodrıguezLuna. Lo mismose hace para los datos de la investigacion de Domingo Balcells [Dom04] y los resultados del

66 5. Simulaciones

modelo ABC DomingoBalcells.

Cabe hacer mencion que en la investigacion de Domingo se reportan graficas del Patron Diariode Actividades, PDA, individuales y grupales. Este tipo de graficas muestran la proporcion detiempo dedicada a cada actividad del tiempo total diario, y sirven para comparar los patrones decada conducta durante intervalos, dando una perspectiva del tiempo dedicado a cada conductadel total del tiempo de observacion.

Este tipo de grafica es una representacion mas compacta de la activacion de las conductas, encomparacion a la grafica de activacion en el tiempo generada por las versiones anteriores de laherramienta ABC (que presenta los niveles de la energıa de activacion de las conductas en cadaiteracion). Por este motivo, se opto por incluir entre los resultados obtenidos por ABC ApR alos datos necesarios para generar graficas tipo PDA, las cuales se muestran para los modelos desimulacion sin aprendizaje y sus ejemplos con aprendizaje.

5.1.1. Estudio etologico de Rodrıguez Luna

El trabajo de Rodrıguez Luna [Rod94] (ver seccion 3.3, p. 45) presenta un modelo estocasticoy los datos estadısticos producto de la observacion del comportamiento de una tropa de monosaulladores. Estos ultimos constituyen el Patron Diario de Actividades (PDA), o la distribucionde las principales actividades realizadas por los primates a lo largo del dıa.

Las conductas que se incluyen en el modelo son alimentacion, descanso y exploracion. Los datosestadısticos son: el porcentaje ocupado en cada conducta y los tiempos de espera estacionales-tiempos promedio de permanencia en una conducta-, presentados en la tabla 5.1, y; la matrizde probabilidades de transicion, conteniendo las probabilidades de pasar de una conducta a otradependiendo de la presente. Las tablas 5.2 y 5.3 muestran las matrices de probabilidades paralas estaciones humeda y seca, respectivamente.

Conducta Porcentaje Tiempo promedio EH Tiempo promedio ESexplorar 15 12.93 10.38alimentar 25 24.35 19.45descansar 60 54.45 71.48

Cuadro 5.1: Porcentaje y tiempos promedio para estaciones humeda (EH) y seca (ES).

Conducta explorar alimentar descansarexplorar 0.00 0.57 0.43alimentar 0.50 0.00 0.50descansar 0.56 0.44 0.00

Cuadro 5.2: Matriz de probabilidades de transicion para la estacion humeda.

5.1. Simulaciones sin aprendizaje 67


Cuadro 5.3: Matriz de probabilidades de transicion para la estacion seca.

5.1.1.1. Modelo ABC RodrıguezLuna

Sobre los datos presentados por Rodrıguez Luna se busco disenar una Red de Comportamien-to que se aproximara al patron diario de actividades del mono aullador. El flujo de activa-cion/inhibicion de la Red de Comportamiento que modela el comportamiento del animal deacuerdo a los resultados de Rodrıguez Luna se presenta en la grafica 5.1.

Figura 5.1: Modelo ABC RodrıguezLuna - Activacion/inhibicion de la Red de Comportamiento.

Esta simulacion, que se ha nombrado modelo ABC RodrıguezLuna, arrojo los resultados que semuestran en los cuadros 5.4 y 5.5 con porcentaje y tiempo promedio, el primero, y matriz detransiciones, el segundo. Para fines comparativos, la tabla 5.4 presenta el porcentaje reportadopor Rodrıguez Luna.

68 5. Simulaciones

Conducta Porcentaje Tiempo promedio PorcentajeABC RodrıguezLuna (ciclo*4.662 minutos) Rodrıguez Luna

explorar 15.33 13.94 15alimentar 24.73 22.47 25descansar 59.93 54.45 60

Cuadro 5.4: Porcentaje y tiempos promedio del modelo ABC RodrıguezLuna. Notar aproxima-cion del tiempo al reportado para la temporada humeda de la tabla 5.1.


Cuadro 5.5: Matriz de probabilidades de transicion del modelo ABC RodrıguezLuna. Existe unaaproximacion a los datos de la tabla 5.2.

Estos resultados se aproximan bastante a los datos reales correspondientes a la estacion humedaque reporta Rodrıguez (tablas 5.1 y 5.2). Los tiempos promedio de espera han sido calculadosa partir de los ciclos promedio de ABC en que el agente permanecio en cada conducta; paraigualarlos a los datos reales, se asume que un ciclo equivale a 4.662 minutos.

Un fragmento de la grafica de activacion en el tiempo generada por la Red de Comportamientose presenta en la figura 5.2. Esta grafica muestra los niveles de activacion de cada conducta y,de esta manera, cuando se seleccionaron y por cuanto tiempo (ver seccion 3.1 para una mayorexplicacion).

Figura 5.2: Segmento de grafica de activacion en el tiempo de la Red de Comportamiento delmodelo ABC RodrıguezLuna

La figura 5.3 presenta la grafica del Patron de Actividades que esta simulacion genero, la cualpresenta los patrones de activacion de cada conducta por bloques de tiempo. El eje Y presentael tiempo en que la conducta estuvo activa, en tanto que el eje X muestra los bloques de ciclosde ABC.

Se observa en el patron de actividades que la conducta descansar se mantiene activa la mayorparte del tiempo, en tanto que la conducta alimentar es la segunda en tiempo de activacion, yque cuando esta conducta ocupa mas tiempo, la conducta descansar presenta un descenso en sutiempo de activacion.


Figura 5.3: Patron de actividades del modelo ABC RodrıguezLuna

En el apendice (p. 99), se pueden consultar la codificacion que estructura la Red de Compor-tamiento de este modelo (listado A.1) y la grafica de activacion en el tiempo completa (figuraA.1).

5.1.2. Estudio etologico de Domingo Balcells

El estudio de Domingo [Dom04] (ver p. 45) trata del forrajeo del mono aullador bajo un contextoexperimental que incluye el uso de parches alimenticios a fin de identificar el comportamientodel animal al buscar un alimento de preferencia, ası como situaciones ambientales cambiantes. Eltrabajo de Domingo es de importancia a la presente investigacion, debido a que el uso de parchesalimenticios es el modelado que interesa en este trabajo, para la especializacion de seleccion quese planea mediante aprendizaje.

El Patron Diario de Actividades que reporta Domingo en base a sus observaciones esta consti-tuido unicamente por el porcentaje de tiempo que el animal invierte en las diversas actividades,las cuales son descanso, alimentacion, busqueda de alimento, exploracion e interacciones sociales.

El cuadro 5.6 muestra los porcentajes presentados por Domingo, aclarando que, para fines delmodelo computacional, la conducta de alimentacion comprende tambien la conducta de busque-da de alimento (11.09 + 2.41 = 13.50).

Conducta Porcentajesocial 3.17explorar 5.80alimentar 13.50descansar 77.53

Cuadro 5.6: Porcentajes reportados por Domingo.

A pesar de carecer de los tiempos de espera y de la matriz de transiciones, el trabajo de Do-mingo sı reporta graficas que muestran el patron de cada una de las actividades principales

70 5. Simulaciones

en funcion de la proporcion de tiempo dedicado a cada una de ellas. De ahı surgio la idea deobtener las graficas PDA como parte de los resultados de la herramienta, para lo cual se almace-na el tiempo en que cada conducta esta activa, para poder graficar el patron de comportamiento.

5.1.2.1. Modelo ABC DomingoBalcells

El diseno de la Red de Comportamiento del modelo ABC DomingoBalcells incluyo, ademasde las conductas descanso, alimentacion y exploracion, la conducta social. El flujo de acti-vacion/inhibicion de la red disenada para emular los estudios de Domingo Balcells se puedeobservar en la grafica 5.4.

Figura 5.4: Modelo ABC DomingoBalcells - Activacion/inhibicion de Red de Comportamiento.

Puesto que Domingo no reporta datos respecto al tiempo promedio y a la matriz de transiciones,no es posible calcular el tiempo promedio a partir de los ciclos promedio que arroja ABC. Sin em-bargo, teniendo en cuenta los buenos resultados obtenidos con el modelo ABC RodrıguezLuna,el hecho de que ABC DomingoBalcells se aproxime a los porcentajes reportados por Domingo,nos permite considerar validos todos los resultados para fines de analisis del desempeno de laherramienta.


Los cuadros 5.7 y 5.8 exhiben el patron de comportamiento para el agente simulado bajo estemodelo. Como se observa, existe una gran similitud en el porcentaje del agente simulado con eldel animal (presentado nuevamente en la tabla 5.7).

Conducta Porcentaje Ciclos ABC PorcentajeABC DomingoBalcells promedio Domingo Balcells

social 3.33 1.72 3.17explorar 5.87 2.51 5.80alimentar 13.53 3.03 13.50descansar 77.27 22.29 77.53

Cuadro 5.7: Porcentaje y ciclos promedio del modelo ABC DomingoBalcells.

Conducta social explorar alimentar descansarsocial 0.00 0.07 0.45 0.48explorar 0.06 0.00 0.71 0.23alimentar 0.19 0.37 0.00 0.43descansar 0.27 0.16 0.57 0.00

Cuadro 5.8: Matriz de probabilidades de transicion del modelo ABC DomingoBalcells.

La grafica correspondiente al patron de actividades, que exhibe el tiempo de actividad de cadamodulo de la red, se puede consultar en la figura 5.5.

Figura 5.5: Patron de actividades del modelo ABC DomingoBalcells

La figura 5.6 exhibe un fragmento de la grafica de activacion en el tiempo generada por estemodelo. En ella se representa la forma en que los modulos conductuales se fueron activando ydurante cuanto tiempo, ademas de mostrar como se fue acumulando la energıa de activacion encada conducta.

72 5. Simulaciones

Figura 5.6: Segmento de grafica de activacion en el tiempo de la Red de Comportamiento delmodelo ABC DomingoBalcells

La codificacion de este modelo computacional se presenta en el listado A.4 (p. 106) del apendice,en donde tambien se incluye la grafica de activacion en el tiempo (sobre los 1500 ciclos de ABC),en la figura A.6.

5.2 Simulaciones con aprendizaje

Hasta ahora, se ha evidenciado la utilidad de las Redes de Comportamiento y, especıficamente,de la herramienta ABC para el modelado de simulaciones de comportamientos reales observadosen monos aulladores, presentado los resultados generados por tales modelos y remarcando susimilitud con los reportados por las investigaciones etologicas, lo cual hace que tales modeloscomputacionales sean considerados validos en sus dinamicas de seleccion de conductas y, portanto, esten bien fundamentados para fines de analisis del desempeno de la herramienta.

Con el diseno y obtencion de Redes de Comportamiento que reportan un buen desempeno, seprocede ahora a probar ABC APR, aplicando el modulo de Aprendizaje por Reforzamiento ala toma de decisiones del mono simulado en su conducta alimentar, para lo cual se enfrentara asituaciones donde existan diversas opciones alimenticias (opi), de las que se espera logre identi-ficar la opcion que le brinde mayor ganancia al largo plazo (op∗), o en terminos comunes, que lebrinde mejor satisfaccion en su necesidad de alimentacion. El hecho de que existan diversos tiposde opciones alimenticias permite enfrentar la especializacion de seleccion de opciones, ademasde que su tipificacion es esencial a la emulacion de los experimentos de Domingo.

Ası, en ABC ApR se ejecutara cada modelo simulado bajo diversos experimentos, conformadospor variaciones en el numero del tipo de opciones alimenticias en el mundo y por diversos tiposde mundos simulados (por la cantidad de opciones, escaso o abundante; por su distribucion,aleatorio o por zonas), considerando ademas diversas configuraciones de probabilidades de re-compensa de cada tipo de opcion.

El numero de opciones alimenticias, N, con los que se trabajo vario en 2, 3 y 4 opciones; eldiseno de la herramienta soporta un numero mayor de opciones, segun se desee probar.

Cada tipo de opcion requiere tener asociada una probabilidad de recompensa, mediante la cualse determina si una opcion otorga o no recompensa al ser ejecutada; esta probabilidad es in-dependiente de las probabilidades de las otras opciones. Para los experimentos se establecieroncinco configuraciones de probabilidades de recompensa por cada variacion de tipo de opcion (con

5.2. Simulaciones con aprendizaje 73

N = 2, 3, 4). A tales configuraciones se les denominara en lo sucesivo casos probabilısticos. Loscuadros 5.9, 5.10 y 5.11 muestran las diversas probabilidades para 2, 3 y 4 opciones, respectiva-mente.

Caso Opcion 1 Opcion 20 0.90 0.801 0.90 0.102 0.60 0.403 0.50 0.504 1.00 0.10

Cuadro 5.9: Casos probabilısticos de recompensa para N = 2.

Caso Opcion 1 Opcion 2 Opcion 30 0.80 0.90 0.601 0.70 0.90 0.202 0.30 0.60 0.103 0.50 0.50 0.504 0.10 1.00 0.10


Caso Opcion 1 Opcion 2 Opcion 3 Opcion 40 0.70 0.80 0.90 0.601 0.30 0.70 0.90 0.202 0.50 0.30 0.60 0.103 0.50 0.50 0.50 0.504 0.10 0.10 1.00 0.10


Los casos 3 y 4 fueron propuestos para analizar el desempeno de los algoritmos ante situacionesextremas: una, el caso 4, donde se cree facil la tarea de determinar la opcion optima; la otrasituacion, el caso 3, donde todas las opciones poseen la misma probabilidad de ser recompen-sadas. Ademas, cada uno de los casos probabilısticos guarda cierta similitud para las diversasopciones, esto con la intencion de analizar la variabilidad en el desempeno en funcion del numerode opciones.

Los parametros requeridos por los diversos algoritmos de aprendizaje se presentan en el cuadro5.12. Todos los algoritmos cuentan con una etapa de predecision, igual al numero de opciones,N, durante la cual probaran las diversas opciones sin aplicar su polıtica de seleccion, perosı aprenderan de la rentabilidad de las opciones.

74 5. Simulaciones

Algoritmo Parametro Valor Parametro ValorBandido k {2, 3, 4}ε-Greedy ε 0.1Softmax T 100

LRP α 0.1 β 0.1LRP α 0.1IE z 1.96RC α 0.15 β 0.1

Cuadro 5.12: Parametros de los algoritmos de aprendizaje y sus valores.

Los algoritmos IE y RC aplican su mecanismo de aprendizaje y registran ası su decision acercade la deseabilidad de las opciones, para posteriormente aplicar una polıtica ε-Greedy, donde elvalor de ε es decrementado con el tiempo, para favorecer la seleccion de la que se considera, esla mejor opcion. Ası, en ambos casos, ε inicial = 1.00 y ε final = 0.50. El decremento de ε seda al llegar a las 50 iteraciones de aprendizaje.

A continuacion se expondran los ejemplos de dos corridas tıpicas, una por cada modelo simulado,presentando sus resultados y graficas. Ası mismo, en el apendice (p. 99) se presentan los datosgenerales de todo el experimento al que la corrida presentada pertenece.

5.2.1. Modelo ABC RodrıguezLuna

Como ejemplo de este modelo computacional se ha seleccionado la corrida del algoritmo Soft-max bajo las condiciones experimentales que se indican en el recuadro inmediato. Los resultadosarrojados por la corrida tambien son presentados.

Algoritmo No. Opcion Caso probabilıstico Tipo de mundoSoftmax 2 2 (0.60, 0.40) Abundante aleatorio

RESULTADOS:

Recompensa promedio 66.36Recompensa acumulada 71Total de iteraciones 107Factor XLearn 1.11Iteracion de convergencia 6Solicita optima 105 98.13 %Obtiene optima 104 97.20 %Sobrevivencia 3 2.80 %Periodo de predecision 1-5R1/A1 70/104R2/A2 1/3


Como se puede observar, se trata de un caso probabilıstico donde la probabilidad de la recom-pensa deseada es 0.60, habiendo logrado el algoritmo una recompensa promedio de 66.36 %,es decir, supera lo esperado. Su porcentaje de convergencia al optimo es de 98.13 %, habiendotomado la decision de la mejor opcion en la iteracion 6, pero por sobrevivencia, es a partir de laiteracion 89 que siempre ejecuto opciones optimas.

El termino sobrevivencia define ocasiones donde se consumen opciones no optimas, ya sea porqueası lo solicita el modulo de aprendizaje o por excepciones en el ambiente, por ejemplo, cuando laopcion solicitada por el modulo de aprendizaje no es validada por la percepcion del agente (nove lo que quiere comer). Por periodo de predecision se entiende el tiempo transcurrido desde laprimera iteracion de aprendizaje hasta el momento inmediato anterior a la primera consumacionde opciones optimas a solicitud del modulo de aprendizaje.

Otra perspectiva del desempeno obtenido en la corrida ejemplo es presentada por las curvasde aprendizaje y convergencia resultantes. En la curva de aprendizaje se grafican puntos querepresentan el reforzamiento promedio recibido sobre el total de iteraciones de aprendizaje, entanto que la curva de convergencia se delinea por el acumulado (por bloques de iteraciones) delas veces que se ejecuto la opcion optima.

La curva de aprendizaje es mostrada en la figura 5.7. Es posible observar en la curva de apren-dizaje como fue la maximizacion de la recompensa promedio, que incluso supera la recompensaque se esperaba (la lınea recta representa la recompensa que genera la opcion optima, de serseleccionada siempre).

Figura 5.7: Curva de aprendizaje del ejemplo del modelo ABC RodrıguezLuna. La recompensapromedio recibida supera lo esperado.

La curva de convergencia se presenta en la figura 5.8. La lınea horizontal discontinua representael porcentaje de convergencia esperado, es decir, la convergencia optima que se obtendrıa alseleccionar y ejecutar en todo momento la opcion optima, op∗. Por otro lado, la lınea solida fuegraficada con la cantidad acumulada por bloques de las veces que se ejecuto la opcion optima. La

76 5. Simulaciones

corrida ejemplo exhibe una buena convergencia al optimo en su curva , ya que la opcion optimase obtuvo casi desde el principio, aunque al final se observa una ligera baja en la convergencia,provocada por sobrevivencia, al no percibir en el ambiente a la opcion optima solicitada por elaprendizaje.

Figura 5.8: Curva de convergencia del ejemplo del modelo ABC RodrıguezLuna. Se obtuvo laopcion optima la mayor parte del tiempo.

Dentro del patron de comportamiento obtenido, el porcentaje es dado en la tabla 5.13, en tantoque la matriz de probabilidades de transicion se presenta en el cuadro 5.14. Comparando contralos datos reales, de las tablas 5.1 y 5.2 (p. 66), es posible observar que el comportamiento en estacorrida ejemplo se aproxima a ellos, siendo a la vez diferentes a los reportados por el modelocomputacional sin aprendizaje (tablas 5.4 y 5.5, p. 68).

Conducta Porcentaje Ciclos promedio ABC Tiempo (ciclo*4.662)explorar 15.07 2.83 13.19alimentar 26.20 4.73 22.05descansar 58.73 11.59 54.03

Cuadro 5.13: Porcentaje y tiempos promedio del ejemplo del modelo ABC RodrıguezLuna.


Cuadro 5.14: Matriz de probabilidades de transicion del ejemplo del modelo ABC RodrıguezLu-na.


La corrida completa se encuentra en el listado A.2 (p. 101) del apendice, donde se muestra laforma en como el algoritmo hizo su seleccion de opciones para llegar a los resultados ya expues-tos. Ası mismo, en el apendice se presenta la grafica de activacion en el tiempo (figura A.2) y lagrafica del patron de comportamiento (figura A.3).

El apendice tambien incluye la corrida general del experimento al que pertenece la corrida quese ha presentado como ejemplo. Se muestran los resultados globales del experimento (listadoA.3, p. 104), junto con una grafica acumulada de las curvas de aprendizaje (figura A.5) y lascurvas de aprendizaje y convergencia de los ocho algoritmos ApR y los dos comparativos (figuraA.4). Ası mismo, se comentan brevemente los resultados de la corrida general.

5.2.2. Modelo ABC DomingoBalcells

Para ejemplificar la simulacion del modelo ABC DomingoBalcells se selecciono la corrida delalgoritmo Greedy en un experimento que consta de 2 opciones, con el caso probabilıstico No. 1(0.90, 0.10) y un mundo abundante con distribucion aleatoria. Los resultados obtenidos en estacorrida se muestran a continuacion.

Algoritmo No. Opcion Caso probabilıstico Tipo de mundoGreedy 2 1 (0.90, 0.10) Abundante aleatorio

RESULTADOS:

Recompensa promedio 92.71Recompensa acumulada 106Total de iteraciones 115Factor XLearn 1.02Iteracion convergencia 3Solicita optima 114 99.13 %Obtiene optima 114 99.13 %Sobrevivencia 1 0.87 %Periodo de sobrevivencia 1-2R1/A1 106/114R2/A2 0/1

La recompensa promedio que se obtiene (92.71 %) es superior a la que se esperaba (90 %), lo cualdemuestra que hubo buen aprendizaje y se recompenso en gran numero de veces a las opcionesseleccionadas. La curva de aprendizaje que arrojo la corrida se muestra en la figura 5.9. Comose puede observar en esta grafica, la recompensa recibida por las decisiones del aprendizaje llegaa ser alta y con el tiempo, supera la recompensa esperada.

Por otra parte, la convergencia al optimo fue muy rapida y no hubo necesidad de ejecutaropciones no optimas. La figura 5.10 muestra la curva de convergencia de la corrida ejemplo,la cual representa el buen desempeno del algoritmo en la identificacion temprana de la opcionoptima (la lınea discontinua corresponde a la convergencia ideal, al ejecutar siempre la opcion

78 5. Simulaciones

optima).

Figura 5.9: Curva de aprendizaje del ejemplo del modelo ABC DomingoBalcells. La recompensaesperada (lınea horizontal, 90 % ) es superada por la recompensa promedio obtenida.

Figura 5.10: Curva de convergencia del ejemplo del modelo ABC DomingoBalcells. La ejecucionde la opcion optima predomina en toda la corrida ejemplo.

El porcentaje en que se activaron los modulos de la Red de Comportamiento, ası como la matrizde transiciones que indica las probabilidades con las que se puede cambiar de un modulo a otrosse muestran en las tablas 5.15, para el porcentaje, y 5.16, para la matriz.

En el apendice se presenta la corrida completa en el listado A.5 (p. 108). Ahı mismo, la figura A.7(p. 110) muestra la grafica de activacion en el tiempo generada y el patron de comportamientode todas las conductas se puede observar en la figura A.8.

5.3. Desempeno de los algoritmos de aprendizaje 79

Conducta Ciclos promedio ABC Porcentajesocial 1.70 3.40explorar 2.05 5.60alimentar 2.71 12.67descansar 23.50 78.33

Cuadro 5.15: Porcentaje y ciclos promedio del ejemplo del modelo ABC DomingoBalcells.

Conducta social explorar alimentar descansarsocial 0.00 0.07 0.40 0.53explorar 0.05 0.00 0.76 0.20alimentar 0.20 0.44 0.00 0.36descansar 0.29 0.16 0.55 0.00

Cuadro 5.16: Matriz de probabilidades de transicion del ejemplo del modelo ABC Domingo-Balcells.

La corrida general de la que es parte el ejemplo aquı presentado pertenece al experimento de 2opciones, caso de probabilidades No. 1, mundo abundante aleatorio. El resumen de los resultadosde todos los algoritmos y de los comparativos bajo estas condiciones se presenta en el listadoA.6 del apendice (p. 111), junto con las graficas de aprendizaje y de convergencia (figura A.9) yuna grafica que incluye a todas las curvas de aprendizaje (figura A.10).

Como los dos ejemplos presentados tuvieron buena convergencia al optimo y el ambiente lesfavorecio en la disponibilidad de las acciones solicitadas, casi no presentan variacion en su tiempode busqueda. Para ilustrar una situacion donde sı existe la modificacion de la seleccion de accionesy donde el tiempo de busqueda fluctua, consultar el ejemplo de la grafica A.11 del apendice (p.113).

5.3 Desempeno de los algoritmos de aprendizaje

Con los parametros indicados en la seccion anterior (tablas 5.9, 5.10, 5.11 y 5.12, pp. 73 y 74),para cada experimento se ejecutaron los algoritmos de Aprendizaje por Reforzamiento, juntocon los mecanismos de seleccion implementados para fines comparativos (seleccion optima, o pa-raıso, y seleccion sin aprendizaje), que se denominaran en lo sucesivo comparativos no-ApR; portanto, los datos analizados de cada modelo constituyeron un colchon de pruebas de 60 corridas,cada una con los ocho algoritmos y los dos comparativos.

El numero de iteraciones por corrida de algoritmo varıa en funcion de las decisiones tomadaspor la Red de Comportamiento. Por tanto, para analizar el desempeno de los algoritmos deaprendizaje se considera la recompensa promedio total recibida (junto con el factor XLearn dela corrida) y el porcentaje de solicitud de la opcion optima por parte de la polıtica basada enaprendizaje.

80 5. Simulaciones

El factor XLearn de la corrida surge de una modificacion a la ecuacion 3.1 (p. 44), que calculael factor sobre cada tipo de accion para ser una estimacion de la obtencion de recompensa alseleccionar una accion especıfica. A diferencia de la ecuacion original, el factor de la corrida escalculado sobre los datos finales de manera global (no sobre cada tipo de opcion), para lo cual secalcula dividiendo la recompensa promedio de la corrida entre el porcentaje de la opcion optima.

A continuacion se presenta el analisis del desempeno de los ocho algoritmos y los dos compara-tivos, dependiendo del numero de opciones, del tipo de mundo simulado y de la configuracionprobabilıstica que determino las recompensas de las opciones. Para los diversos analisis, se es-tablecieron ordenamientos jerarquicos, de tipo descendente principalmente, segun los diferentesrubros bajo examinacion.

5.3.1. Por recompensa promedio y factor XLearn

Se analizo la recompensa promedio recibida en cada algoritmo ApR y comparativo no-ApRejecutado, junto con el factor XLearn por corrida, el cual es un indicador del desempeno delalgoritmo en la obtencion de ganancia total (maximizacion de la recompensa promedio por corri-da) mediante su especializacion de seleccion de opciones.

Las tablas 5.17 y 5.18 muestran el ordenamiento jerarquico descendente de los algoritmos ycomparativos, en base a estos dos indicadores de desempeno para los dos modelos probados.

Orden Algoritmo % Recompensa Orden Algoritmo % factorjerarquico promedio jerarquico XLearn

1 Optimo 11.729 1 Optimo 11.5552 Softmax 10.256 2 Softmax 10.2583 ε-Greedy 10.155 3 ε-Greedy 10.1754 IE 10.035 4 IE 10.0255 Greedy 10.015 5 Bandido 10.0106 Bandido 10.014 6 Greedy 9.9377 RC 9.906 7 RC 9.9088 LR 9.696 8 LR 9.7439 LRP 9.564 9 LRP 9.59610 SinApR 8.631 10 SinApR 8.793

Cuadro 5.17: Jerarquizacion de algoritmos y comparativos por recompensa promedio y XLearnpara el modelo ABC RodrıguezLuna.

El cuadro 5.19 muestra el ordenamiento jerarquico global de todas las corridas de ambos modelos.Los algoritmos de Aprendizaje por Reforzamiento que obtienen mayor recompensa promedioson ε-Greedy y Softmax, pertenecientes ambos a las estrategias aleatorias, en tanto que la peorestrategia es la basada en vectores, pues los algoritmos LR y LRP no obtienen gran cantidad de



1 Optimo 11.754 1 Optimo 11.5862 ε-Greedy 10.293 2 ε-Greedy 10.3103 Softmax 10.194 3 Softmax 10.1864 IE 10.104 4 IE 10.1055 Greedy 10.087 5 Bandido 10.0436 Bandido 10.052 6 Greedy 10.0397 RC 9.939 7 RC 9.9398 LR 9.668 8 LR 9.6909 LRP 9.533 9 LRP 9.53510 SinApR 8.376 10 SinApR 8.568

Cuadro 5.18: Jerarquizacion de algoritmos y comparativos por recompensa promedio y XLearnpara el modelo ABC DomingoBalcells.


1 Optimo 11.742 1 Optimo 11.5712 Softmax 10.225 2 ε-Greedy 10.2423 ε-Greedy 10.223 3 Softmax 10.1224 IE 10.069 4 IE 10.0655 Greedy 10.051 5 Bandido 10.0266 Bandido 10.033 6 Greedy 9.9887 RC 9.922 7 RC 9.9238 LR 9.682 8 LR 9.7169 LRP 9.549 9 LRP 9.56610 SinApR 8.504 10 SinApR 8.681

Cuadro 5.19: Jerarquizacion global de algoritmos y comparativos por recompensa promedio yXLearn.

recompensa en su ejecucion, pero logran mas que el comparativo sin aprendizaje (SinApR). Comose esperaba, el comparativo Optimo presenta el maximo porcentaje de recompensa recibida.

5.3.1.1. Desempeno en relacion al numero de opciones

Analizando el desempeno en ambos modelos, siempre se obtuvo mayor recompensa en las pruebascon dos opciones, posteriormente con tres y finalmente con cuatro opciones. Esto indica que entremenor sea el numero de tipos de opciones entre las cuales decidir, se obtendra mayor recompensa,pues la tarea de aprendizaje es mas facil para identificar a la mejor opcion.

82 5. Simulaciones

5.3.1.2. Desempeno en relacion al tipo de mundo

El cuadro 5.20 muestra en que tipos de mundo se obtuvo mayor recompensa promedio en cadauno de los modelos probados. Existen diferencias al jerarquizar el tipo de mundo, pues mientrasel modelo de RodrıguezLuna posiciona en primer lugar al mundo abundante con distribucion porzonas y en segundo al mundo abundante aleatorio, el modelo de DomingoBalcells los clasificaintercambiados. La tabla 5.21 muestra la jerarquizacion global obtenida.

Orden ABC RodrıguezLuna % Recomp. ABC DomingoBalcells % Recomp.jerarquico promedio promedio

1 M. abundante por zonas 27.17 M. abundante aleatorio 27.272 M. abundante aleatorio 27.10 M. abundante por zonas 26.993 Mundo escaso por zonas 23.77 Mundo escaso por zonas 23.764 Mundo escaso aleatorio 21.97 Mundo escaso aleatorio 21.98

Cuadro 5.20: Jerarquizacion de mundos en funcion a la recompensa promedio recibida - Modelos.

Orden jerarquico Tipo de mundo % Recomp. promedio1 Mundo abundante aleatorio 27.182 Mundo abundante por zonas 27.083 Mundo escaso por zonas 23.764 Mundo escaso aleatorio 21.97

Cuadro 5.21: Jerarquizacion de los tipos de mundo en base a la recompensa promedio recibida.

En terminos generales, la tendencia es que los mundos abundantes superan en recompensapromedio recibida a los mundos escasos. Por su parte, para ABC RodrıguezLuna los mundoscon distribucion por zonas son mejores al obtener recompensa que su respectivo mundo (esca-so/abundante) con distribucion aleatoria, es decir, la distribucion de las opciones en el ambientepor medio de zonas favorece la maximizacion de la recompensa que se recibe; lo anterior se man-tiene para ABC DomingoBalcells en escasez, pero ante abundancia de opciones, la distribucionaleatoria es mejor que las zonas alimenticias. Globalmente, se impone el patron observado enABC DomingoBalcells.

5.3.1.3. Desempeno en relacion al caso probabilıstico

En funcion al factor XLearn, los diferentes casos probabilısticos se han ordenado jerarquicamentede mayor a menor, con la intencion de mostrar cual de ellos es el que favorece la maximizacionde la recompensa promedio por corrida. Los casos No. 3 y 0, para todos los numeros de opcio-nes, siempre se posicionaron en el primero y segundo lugar, respectivamente; los demas casospresentaron variaciones en sus numero de ordenamiento, para finalmente quedar organizadosjerarquicamente como lo muestra la tabla 5.22.


Orden Caso % factorjerarquico probabilıstico XLearn

1 3 22.892 0 21.633 1 19.374 2 18.795 4 17.32

Cuadro 5.22: Jerarquizacion de los casos probabilısticos en base al factor XLearn.

Con el caso No. 3 (0.50, ..., 0.50), donde todas las posibles opciones a seleccionar tienen asociadala misma probabilidad de recompensa, el seleccionar cualquier opcion y la aleatoriedad al decidirel exito favorecen el que se recompense gran cantidad de las opciones seleccionadas, superandoen varias ocasiones la recompensa deseada (50% ).

El caso No. 4 (1.00, 0.10, ..., 0.10), por otra parte, es el que presenta dificultad al alcanzar larecompensa deseada (100% ), puesto que las corridas bajo este caso probabilıstico exhiben undesempeno muy pobre en los mundos con cantidades escasas, lo cual repercute en los resultadosglobales. Este mismo patron de bajo desempeno en la escasez lo muestra en menor grado el casoNo. 1.

La maximizacion de recompensa de los casos No. 0 y 3 se debe a la poca diferencia que guarda laprobabilidad de recompensa media de las opciones no optimas, PR(opi), opi 6= op∗, con respectoa la probabilidad de recompensa de la opcion optima, PR(op∗) cuya relacion se muestra en latabla 5.23.

Caso PR(op∗) PR(op6=op∗) PR(op6=op∗) PR(op6=op∗) PR(op∗)− PR(op6=op∗)probabilıstico N = 2 N = 3 N = 4 ∀N

0 0.90 0.80 0.70 0.70 0.171 0.90 0.10 0.45 0.40 0.582 0.60 0.40 0.20 0.30 0.303 0.50 0.50 0.50 0.50 0.004 1.00 0.10 0.10 0.10 0.90

Cuadro 5.23: Diferencias entre la probabilidad de recompensa de la opcion optima PR(op∗) ylas probabilidades medias no optimas PR(op 6= op∗).

La probabilidad de recompensa media de las opciones no optimas es calculada de la siguienteforma

PR(opi) =

∑opi 6=op∗ PR(opi)

N − 1

Por ejemplo, para el caso probabilıstico No. 1 de 4 opciones, las probabilidades de recompensa

84 5. Simulaciones

de las opciones no optimas son 0.30, 0.70 y 0.20, cuyo promedio nos da un valor de 0.40 para suprobabilidad de recompensa media.

Por su parte, la probabilidad global de recompensa no optima, PR(op 6= op∗),∀N, es calculadaal promediar, por cada caso probabilıstico, las N probabilidades medias no optimas. Finalmen-te, a la probabilidad de recompensa de la opcion optima se le resta la probabilidad global derecompensa no optima, para obtener la distancia entre ambas.

Se considera que los casos probabilısticos con la menor distancia entre las probabilidades PR(op∗)y PR(op6=op∗),∀N, son los que mayor recompensa brindaran, y que aquellos con la mayor dis-tancia son los peores en la maximizacion de la ganancia.

En base a esto, y considerando los datos de la tabla 5.23, es posible establecer un numero deordenamiento de los casos probabilısticos en funcion de la minimizacion de la distancia entrelas probabilidades de recompensas de las opciones optima y no optimas. La tabla 5.24 presentala jerarquizacion global de las configuraciones probabilısticas en cuanto a su cercanıa con laprobabilidad de recompensa optima.

Orden Caso Distancia entrejerarquico probabilıstico probabilidades

1 3 0.002 0 0.173 2 0.304 1 0.585 4 0.90

Cuadro 5.24: Jerarquizacion de los casos probabilısticos en base a la distancia entre probabili-dades.

Se puede enunciar que, con algunas excepciones, entre menor sea la diferencia entre las probabi-lidades de recompensar optima y no optimamente, mayor sera la maximizacion de recompensapromedio en situaciones donde sea necesario elegir opciones no optimas por escasez de la opcionoptima deseada.

Como se puede observar, existe similitud entre la jerarquizacion de la tabla 5.24 y la presentadaen la tabla 5.22; se cree que la diferencia en los casos No. 1 y 2 se debe a que el caso No. 1 poseeuna probabilidad de recompensa de 0.90 en su opcion optima, en tanto el caso No. 2 tiene unade 0.60, viendose el primero mas favorecido con la obtencion de recompensa.

5.3.2. Por solicitud del optimo

Los algoritmos fueron jerarquizados en base al porcentaje de solicitud de la opcion optima de-terminada mediante aprendizaje. Debido a las caracterısticas de las simulaciones, la opcion que


se cree mejor no se encuentra siempre, por lo que debe modificarse la seleccion determinada porel aprendizaje para optar por otra opcion, evitando ası los interbloqueos.

El porcentaje de solicitud de la opcion optima representa la convergencia al optimo de los algo-ritmos ApR. El desempeno de los algoritmos bajo este rubro para cada una de las simulacioneses mostrado en las tablas 5.25 y 5.26.

Orden jerarquico Algoritmo % Convergencia1 ε-Greedy 13.962 IE 13.933 Bandido 13.344 Softmax 13.225 Greedy 13.006 RC 12.297 LR 10.488 LRP 9.78

Cuadro 5.25: Jerarquizacion de algoritmos por convergencia - modelo ABC RodrıguezLuna.

Orden jerarquico Algoritmo % Convergencia1 IE 14.272 ε-Greedy 14.153 Softmax 13.454 Bandido 12.975 Greedy 12.806 RC 12.697 LR 10.108 LRP 9.57

Cuadro 5.26: Jerarquizacion de algoritmos por convergencia - modelo ABC DomingoBalcells.

A diferencia del analisis de desempeno por recompensa promedio recibida y el factor XLearn, eneste analisis no se tomaron en cuenta los comparativos Optimo y SinApR, dado que el primerosiempre converge al optimo y el segundo, debido a que no existe aprendizaje, no guarda registrode convergencia.

Como se puede observar, existen discrepancias en las jerarquizaciones de los modelos, por lo quela tabla 5.27 muestra una jerarquıa globalizada de la convergencia. El algoritmo por Intervalosde Confianza ahora es el que obtiene la mayor convergencia al optimo, desplazando a segundoy tercer lugar a ε-Greedy y Softmax. Como en el analisis por obtencion de recompensa, losalgoritmos basados en vectores resultan ser los peores al momento de converger.

86 5. Simulaciones

Orden jerarquico Algoritmo % Convergencia1 IE 14.102 ε-Greedy 14.063 Softmax 13.344 Bandido 13.155 Greedy 12.906 RC 12.497 LR 10.298 LRP 9.67

Cuadro 5.27: Jerarquizacion global de algoritmos ApR por convergencia al optimo.

5.3.2.1. Desempeno en relacion al numero de opciones

Los algoritmos, de manera general para ambos modelos simulados, se comportaron en la si-guiente forma: cuando hubo solo dos tipos de opciones sobre las cuales decidir, se tuvo mayorconvergencia al optimo que cuando hubo tres o cuatro tipos; asimismo, con tres tipos de op-ciones hubo mayor convergencia que con cuatro. Esto muestra que es mas facil la convergenciamientras menor sea el numero de opciones entre las cuales seleccionar.

5.3.2.2. Desempeno en relacion al tipo de mundo

Los porcentajes de convergencia al optimo obtenidos por cada uno de los modelos, ordenadosdescendentemente, determinan las jerarquias que se pueden observar en los cuadros 5.28 y 5.29.De manera general, la jerarquizacion de los tipos de mundo es mostrada en la tabla 5.30.

Orden jerarquico Tipo de mundo % Convergencia1 Mundo abundante aleatorio 25.612 Mundo escaso aleatorio 25.223 Mundo abundante por zonas 24.824 Mundo escaso por zonas 24.35

Cuadro 5.28: Porcentaje de convergencia segun el tipo de mundo - modelo ABC RodrıguezLuna.

Orden jerarquico Tipo de mundo % Convergencia1 Mundo abundante aleatorio 25.692 Mundo escaso aleatorio 25.193 Mundo escaso por zonas 24.914 Mundo abundante por zonas 24.21

Cuadro 5.29: Porcentaje de convergencia segun el tipo de mundo - modelo ABC Domingo-Balcells.


Orden jerarquico Tipo de mundo % Convergencia1 Mundo abundante aleatorio 25.652 Mundo escaso aleatorio 25.203 Mundo escaso por zonas 24.634 Mundo abundante por zonas 24.52

Cuadro 5.30: Jerarquizacion de los tipos de mundo en funcion a la convergencia al optimo -ambos modelos

Cabe mencionar que estos datos han sido determinados sin consideracion del caso No. 3 (0.50,..,0.50), en el cual no se puede diferenciar de entre todas las opciones una que sea mejor que lasdemas, pues todas ella tienen la misma probabilidad de recompensa asociada.

En general, bajo este indicador, los mundos aleatorios muestran una mayor convergencia quelos mundos por zonas. Un punto a destacar es que esta medida de desempeno presenta unadependencia con la cantidad de opciones disponibles en el mundo, lo que hace que los mundosescasos favorezcan un buen reconocimiento de la opcion optima, pues a traves de la dinamica delambiente (que consiste en redistribuir las opciones cada determinadas epocas de aprendizaje),la escasez obliga a que el agente pruebe todas las opciones disponibles y con esto, le sea posibleidentificar a la opcion optima. Bajo estas condiciones, las experiencias de superviviencia son mascomunes (el modulo de aprendizaje recomienda una opcion que no se encuentra disponible enel ambiente), de forma que si el agente presentaba una tendencia a convergir hacia una opcionsuboptima, al experimentar otras opciones por sobrevivencia podra corregir este error. En losmundos abundantes las experiencias de supervivencia son menos comunes, por lo que el agenteconfronta mas facilmente una repeticion de opciones suboptimas.

5.3.2.3. Desempeno en relacion al caso probabilıstico

El orden jerarquico de los casos probabilısticos establecido en funcion a la convergencia exhibidapor los algoritmos ApR se puede ver en la tabla 5.31; se analizo sobre los casos aplicados a lostres tipos de opciones probados. Para ambos modelos simulados se obtuvo la misma jerarquiza-cion.

Orden Caso % Convergenciajerarquico probabilıstico

1 4 26.842 1 23.773 2 20.974 0 19.855 3 8.58

Cuadro 5.31: Jerarquizacion global de los casos probabilısticos en base al porcentaje de conver-gencia.

88 5. Simulaciones

El caso No. 4 es el que se posiciona como el primero en converger, al tener el mas alto porcen-taje de solicitud de la opcion optima (con una probabilidad de recompensa asociada a la opcionoptima de 1.00 ). El peor desempeno en convergencia lo presenta el caso No. 3 (0.50, ..., 0.50).

Los niveles por convergencia 1, 2 y 5 se presentan por unanimidad en ambos modelos y paratodos los mundos, en tanto, existe intercambio en los casos No. 0 y 2.

El ordenamiento en cuestion exhibe un desempeno similar al que se esperaba: los casos No. 4 y1 se suponıan faciles de converger; el caso No. 2, medianamente facil, y; los casos No. 0 y 3 seesperaban difıciles en la tarea de determinar la opcion optima.

Cabe notar que en la jerarquizacion de los casos probabilısticos mediante el factor XLearn (in-dicador de la recompensa promedio que toma en cuenta a la recompensa deseada), el caso No.4 se ubico en ultimo lugar mediante la obtencion de recompensa promedio, pero es primeroen cuanto a convergencia al optimo. Esto se debe a la afectacion que los mundos escasos tie-nen al no encontrar la opcion optima solicitada y optar por una opcion diferente a la convergida.

Ademas, bajo el factor XLearn, las jerarquıas principales, 1 y 2, son para los casos que demos-traron el mas bajo desempeno en porcentaje de convergencia. En relacion a esto se sugiere ver elcomentario referente a la tabla 5.23 del desempeno de la recompensa en los casos probabilısticos(seccion 5.3.1), donde se analiza el impacto de la diferencia entre la probabilidad de recompensade la opcion optima y la probabilidad media de recompensa de las opciones no optimas (notarque ahı se obtuvo una jerarquizacion inversa a la determinada por la convergencia).

5.3.3. Observaciones

5.3.3.1. Algoritmos con tendencia a obtener la misma recompensa

Considerando los resultados arrojados por las dos simulaciones, se observo una tendencia enciertos algoritmos a obtener la misma recompensa, y en algunos casos, a comportarse de maneraidentica. En el cuadro 5.32 se presentan las combinaciones que sucedieron con mas frecuenciaen las corridas.

Combinacion de algoritmos FrecuenciaIE RC 20

Bandido Greedy 18LRP LR 7

ε-Greedy IE RC 6ε-Greedy RC 3Softmax IE 3

Cuadro 5.32: Frecuencia de algoritmos con tendencia a obtener la misma recompensa.


La similitud entre IE y RC se debe a que ambos utilizan una polıtica de seleccion de opcionaleatoria adicional a su mecanismo de aprendizaje; debido a que tal polıtica es ε-Greedy, enocasiones ambos tambien son similares a este algoritmo (surgiendo incluso combinaciones). Almostrar similitud, Bandido y Greedy demuestran que ambos pertenecen a las estrategias codi-ciosas, al igual que LRP y LR como estrategias basadas en vectores.

5.3.3.2. Algoritmos con tendencia a tener el mismo porcentaje de solicitud del optimo

Analizando con respecto a los algoritmos que suelen ser identicos en cuanto al porcentaje desolicitudes de la opcion optima, se obtuvo una lista de combinaciones, de las cuales la tabla 5.33muestra las mas frecuentes. 32 de las combinaciones se dieron con el modelo ABC Rodrıguez-Luna y 25 con el otro modelo. Cabe destacar que la mayorıa de estas combinaciones se dio enexperimentos con 2 opciones (41), en tanto que con 3 y 4 opciones, el numero de repeticionesfue mınimo (9 y 7 respectivamente).

Combinacion de algoritmos FrecuenciaIE RC 17

Bandido Greedy 15ε-Greedy IE RC 7

LRP LR 5ε-Greedy IE 2Bandido IE 2

Bandido Softmax 2

Cuadro 5.33: Frecuencia de algoritmos con tendencia a tener el mismo porcentaje de solicituddel optimo.

5.3.3.3. Porcentaje de algoritmos que convergen a la recompensa deseada

Al analizar el total de las corridas, se destacaron aquellas donde se hubiese alcanzado o superadola recompensa deseada (la recompensa esperada de la opcion optima). Los algoritmos fueron en-tonces jerarquizados mediante el porcentaje de convergencia a la recompensa deseada, quedandocomo se muestra en el cuadro 5.34.

Cabe mencionar que en las jerarquıas de los desempenos de algoritmos presentadas anterior-mente, el algoritmo LR se ha ubicado penultimo, al tener un desempeno pobre y solo superara LRP, pero bajo el criterio de convergencia a la recompensa deseada se clasifica en una mejorposicion, lo que senala que este algoritmo es de convergencia deficiente y generalmente no ob-tiene bastante recompensa, pero cuando la logra, incluso puede superar la recompensa deseada(demuestra aquı superioridad ante los algoritmos del Bandido y RC).

90 5. Simulaciones

Orden Algoritmo % Convergencia a lajerarquico recompensa deseada

1 Optimo 33.332 Softmax 13.333 ε-Greedy 9.784 Greedy 8.895 IE 8.006 LR 6.677 Bandido 6.228 RC 5.339 LRP 4.8910 SinApR 3.56

Cuadro 5.34: Jerarquizacion de algoritmos que convergieron a la recompensa deseada.

5.3.3.4. Porcentaje de algoritmos con la maxima recompensa por corrida

Considerando exclusivamente a los algoritmos que obtuvieron la maxima recompensa por corrida,se obtuvo una jerarquizacion de ellos mediante el ordenamiento descendente de sus porcentajes;esto nos indica cuales algoritmos se comportaron con tendencias a maximizar la recompensapromedio. La tabla 5.35 presenta tal ordenamiento.

Orden Algoritmo % Obtencion dejerarquico maxima recompensa

1 Greedy 22.862 Softmax 20.713 ε-Greedy 20.004 Bandido 12.145 RC 7.146 LR 6.436 IE 6.437 LRP 4.29

Cuadro 5.35: Jerarquizacion de algoritmos en base a la obtencion de la maxima recompensa porcorrida.

Cabe destacar que obtener la maxima recompensa no implica superar la recompensa deseada;esto se logra en 22 de 38 ocasiones bajo el modelo ABC RodrıguezLuna y en 25 veces de 35 conABC DomingoBalcells.


5.3.3.5. Comparacion de porcentaje de sobrevivencia

Para los experimentos con aprendizaje del modelo de simulacion ABC DomingoBalcells, se se-lecciono un algoritmo ApR por corrida (o dos algoritmos en situaciones donde presentaban uncomportamiento identico) de entre los algoritmos que obtuvieron la maxima recompensa. Sobreesta coleccion, se analizo el porcentaje de sobrevivencia que tuvo cada algoritmo, para estableceruna comparacion con respecto a la sobrevivencia obtenida por el comparativo SinApR, a fin deobservar si el aprendizaje (mediante la especializacion de los comportamientos) representa unamejorıa bajo este rubro y, de ser ası, cuanto mejor es aprender a solo comportarse sin conoci-miento.

El porcentaje de sobrevivencia es un indicador de la seleccion y consumacion de opciones nooptimas por parte del agente. Se selecciono el comparativo SinApR debido a que no aplica ningunmecanismo de aprendizaje, por lo que el agente simulado solo selecciona y consume las opcionesque logra percibir en su entorno; por tanto, la cantidad de opciones no optimas que consuma esindependiente a todo mecanismo de aprendizaje. Por el contrario, los algoritmos de aprendizajeaplican polıticas de seleccion en funcion a tecnicas de aprendizaje, a fin de identificar la mejoropcion.

En la tabla 5.36 se muestran los porcentajes de sobrevivencia de las corridas realizadas conABC DomingoBalcells. En promedio, el comparativo SinApR obtuvo un porcentaje de sobre-vivencia de 59.34%, en tanto que los mejores algoritmos ApR tuvieron una sobrevivencia de38.43%, habiendo entre ambos una diferencia de 20.91 %, lo cual indica que es mejor aplicaraprendizaje a fin de minimizar la seleccion de opciones no optimas.

Porcentaje de Algoritmos ApR SinApRsobrevivencia promedio 38.43 59.34

Cuadro 5.36: Sobrevivencia en los mejores algoritmos ApR y en el comparativo SinApR.

Por otro lado, con el proposito de analizar el nivel de sobrevivencia con respecto a los diferentestipos de mundo, la tabla 5.37 muestra los porcentajes de sobrevivencia promedio de los algo-

Tipo de % Sobrevivencia % Sobrevivencia DiferenciaMundo algoritmos ApR SinApR

M. escaso aleatorio 58.039 63.425 5.386M. escaso por zonas 48.062 58.958 10.896

M. abundante aleatorio 23.167 56.175 33.008M. abundante por zonas 24.463 58.810 34.347

Cuadro 5.37: Jerarquizacion de mundos en funcion al porcentaje de sobrevivencia promedio -Algoritmos ApR y SinApR.

92 5. Simulaciones

ritmos ApR y de SinApR para cada tipo de mundo (escaso/abundante, aleatorio/por zonas),ası como la diferencia entre ambos porcentajes.

Comparando los tipos de mundo mediante la sobrevivencia promedio, los mundos abundantes sedestacan como los mejores para la minimizacion del consumo de opciones no optimas con respec-to a los mundos escasos. Pero, por otro lado, tanto en ambientes abundantes como en escasos,los mundos con distribucion de opciones mediante zonas son mejores que aquellos distribuidosaleatoriamente; esto es mas obvio en mundos de tipo escaso, en donde la diferencia entre losporcentajes de sobrevivencia para las zonas supera en mas de un 100 % a la distribucion aleato-ria. Los experimentos inspirados en parches alimenticios, por tanto, demuestran ser provechosospara la explotacion de lo aprendido con respecto a la identificacion de la mejor opcion.

Con lo anterior, queda de manifiesto que la aplicacion de tecnicas de Aprendizaje por Re-forzamiento en busqueda de una especializacion de conducta, siempre es mejor al uso de laaleatoriedad en la toma de decisiones.

Conclusiones

Habiendo llevado al cabo la presente investigacion se ha determinado un conjunto de conclusio-nes, mismo que se expone a continuacion.

En primer lugar, se presenta la herramienta ABC ApR en respuesta al objetivo principal deltrabajo, que propone la implementacion de un modulo de Aprendizaje por Reforzamiento queactua sobre uno de los modulos de una Red de Comportamiento. ABC ApR anade tecnicasde aprendizaje al mecanismo de seleccion de accion ya implementado en la herramienta ABC[Gue97c, Mon98], proponiendo que un modulo de la Red de Comportamiento sea especializadoen su toma de decisiones mediante la aplicacion de algoritmos de Aprendizaje por Reforzamiento(la figura 4.1 -p. 50- contiene la estructura general de la nueva herramienta).

Se ha propuesto la especializacion de una conducta como una forma de selectividad en el mo-mento en que un agente ejecuta tal conducta, en el sentido de que pueda decidir que elegir deentre varias opciones disponibles para la conducta. Un ejemplo de esto es un agente simuladoal momento de disparar una conducta de alimentacion; sin especializacion, unicamente se sabeque el agente comera; con especializacion, el agente puede decidir un tipo especıfico de alimentode entre varios que pueda consumir y, con el tiempo, comer aquel que considere mejor.

El hecho de que se aplique aprendizaje a una conducta tiene como objetivo conseguir su espe-cializacion, y es precisamente esta especializacion de la conducta la que influencia la dinamicade la red.

En base a lo experimentado con ABC ApR, se concluye que mediante los resultados arrojadospor el modulo de aprendizaje, es posible influenciar la dinamica que, en base a su construccioninicial y al intercambio interno/externo de energıas de activacion, establece una Red de Com-portamiento para la seleccion de conductas.

Como ya se sabe, para probar la herramienta se hicieron experimentos basados en informaciondel campo etologico, en relacion al estudio del comportamiento de un primate: el mono aulla-dor. Los resultados obtenidos de las simulaciones se compararon con los datos reportados en losestudios etologicos de Rodrıguez Luna [Rod94] y de Domingo Balcells [Dom04].

Desde la perspectiva de las simulaciones realizadas con ABC ApR, se busco que el mono simula-do aprendiera acerca de las opciones alimenticias que su mundo contenıa, a fin de especializarse

94

en la identificacion e ingesta del mejor alimento, optimizando con esto su alimentacion. Comoresultado de este aprendizaje, el mono llega a ser selectivo en su toma de decisiones; un indi-cador de esta selectividad es el porcentaje de sobrevivencia presentado en la tabla 5.36 (p. 91)para una toma de decisiones aleatoria y una basada en tecnicas ApR (hay menos sobrevivenciacuando se aplican tecnicas de aprendizaje).

Por otro lado, el hecho de que la dinamica de la Red de Comportamiento se vea influenciada pordecisiones basadas en aprendizaje no significa que se de origen a sesgos en la seleccion, que fa-vorezcan a la conducta sobre la que se lanza el modulo de aprendizaje; mas bien, se re-equilibraconstantemente la Red de Comportamiento, a fin de resolver las necesidades cambiantes delagente simulado.

En los experimentos realizados sobre dos simulaciones (ABC RodrıguezLuna y ABC DomingoBalcells), la conducta alimentar conserva un porcentaje de activacion de conducta aproximadoal reportado en los respectivos estudios etologicos (ver tabla 5.1 -p. 66- para Rodrıguez y tabla5.6 -p. 69- para Domingo), pero al mismo tiempo cada experimento implica la optimizacionen la eleccion de la fuente alimenticia, dependiente de las caracterısticas del mundo. Ademas,ante excepciones ambientales, el mono aplico sobrevivencia mediante el consumo de opcionesdiferentes a la elegida por aprendizaje y, en general, presento adaptabilidad a los diversos tiposde ambientes. Ası, mediante una evaluacion sencilla de los resultados que arroja el modulo deaprendizaje anexado, se abre toda una gama de exploracion de variaciones del comportamientode un agente simulado bajo un mismo modelo de Red.

En relacion a otro de los objetivos de esta investigacion, se presentan a continuacion las con-clusiones obtenidas mediante el analisis del desempeno de los algoritmos de Aprendizaje porReforzamiento implementados.

Por un lado, en cuanto a la maximizacion de la recompensa esperada y la convergencia a laopcion optima, los algoritmos que demostraron ser mejores son ε-Greedy y Softmax (las dos es-trategias aleatorias) y Estimacion de Intervalos, que se ubica como el mejor algoritmo en cuantoa convergencia al optimo (ver tablas 5.19 -p. 81- y 5.27 -p. 86).

En contraposicion, las estrategias de aprendizaje con desempeno mas pobre son las basadas envectores: los algoritmos LRP y LR, de entre los cuales, LRP siempre resulta ser el peor bajotodos los desempenos, pero nunca se ubica por debajo de la situacion donde se elige al azar(comparativo SinApR).

En ocasiones, los algoritmos tienden a comportarse de forma identica, ya sea porque obtienen elmismo porcentaje de solicitud de la opcion optima o porque igualan su recompensa promedio.Se presentan con mas frecuencia cuatro combinaciones de algoritmos:

1) Estimacion de Intervalos y Comparacion de Reforzamiento.2) Bandido y Greedy.

95

3) ε-Greedy, Estimacion de Intervalos y Comparacion de Reforzamiento.4) LRP y LR.

Esta semejanza en el comportamiento se presenta ya sea porque los algoritmos pertenecen a unamisma estrategia (2, 4 ), o bien, porque comparten la misma polıtica de seleccion de accion (1,3 ), que los hace identificarse con respecto a la estrategia de la polıtica (tablas 5.32 y 5.33, p. 88).

Por otra parte, de entre todas las corridas, el algoritmo que converge mas veces a la recompensadeseada es Softmax (tabla 5.34, p. 90).

A continuacion se expondran las conclusiones que derivan de las diversas configuraciones expe-rimentales en cuanto al numero de tipos de opciones de las cuales aprender, los ambientes enque el agente se encuentra inmerso y las probabilidades de recompensa asociadas a las diversasopciones.

En relacion al numero de opciones sobre las que se busca identificar la que sea de mas bene-ficio para el agente, se establece que a menor numero de opciones, las tareas de maximizar larecompensa esperada y de identificacion de la opcion optima seran mas faciles (sin ignorar elhecho de que la identificacion de la mejor opcion depende fuertemente de las probabilidades derecompensa asociadas).

Cabe hacer mencion que la obtencion de recompensa promedio se ve afectada tanto por lasprobabilidades de recompensa asociadas, como por la cantidad y distribucion de las opcionesen el ambiente, por lo cual se observo que los mundos abundantes se muestran mas propicios alograr la maximizacion de la recompensa esperada que los mundos escasos (tabla 5.21, p. 82),ya que la abundancia de la opcion optima minimiza las excepciones por el ambiente (consumode opciones no optimas).

En los parrafos anteriores se ha mencionado la influencia de las probabilidades de recompensaasociadas a las opciones, acerca de lo cual se han formulado dos conclusiones, apoyadas en ladiferencia existente entre la probabilidad de recompensa de la opcion optima y el promedio delas probabilidades de recompensa de las opciones restantes. Ası, se ha observado que:

A mayor distancia entre la probabilidad de recompensa de la opcion optima y el pro-medio de las probabilidades de recompensa de las opciones no-optimas, “mayor sera laconvergencia al optimo” (ver tabla 5.31 y comentario, p. 87).

A menor diferencia entre la probabilidad de recompensa asociada a la opcion optima yla media de probabilidades de recompensa de las opciones no-optimas, “mayor sera lamaximizacion de la recompensa promedio” en situaciones donde no se pueda acceder a laopcion optima. Se consideran excepciones ante buenas convergencias al optimo, recompen-sas deseadas muy altas y disponibilidad de la opcion optima (ver tablas 5.22 -p. 83- y 5.24-p. 84-, ası como sus comentarios).

El primer punto establece que si al momento de ser recompensado a partir de diferentes tipos de

96

opciones, el beneficio obtenido de una de ellas (la opcion optima) se destaca de el de las otras,se lograra una rapida y correcta identificacion de la mejor opcion.

El segundo planteamiento establece el caso contrario, donde las probabilidades de recompensade las opciones no se encuentran perfectamente diferenciadas, lo cual beneficia la maximizacionde recompensa aun en las situaciones donde el agente no haya elegido a la mejor opcion.

En cuanto al porcentaje de solicitud de la opcion optima por parte del modulo de aprendiza-je (que representa la convergencia al optimo de los algoritmos), se tiene que la identificacioncorrecta de la mejor opcion se presenta con mas frecuencia en ambientes aleatorios (tabla 5.30,p. 87), principalmente cuando existe abundancia en las opciones.

Por otro lado, se ha observado que los mundos escasos presentan una buena identificacion de laopcion optima, lo cual se debe a que en estos mundos se presentan frecuentemente las excep-ciones por el ambiente (modificaciones a lo solicitado por falta de su percepcion), que favorecenal agente al permitirle explorar mas opciones, aun sin que ası lo hubiera deseado; esto permiteque en situaciones de convergencia a suboptimos, el agente pueda darse cuenta de la existenciade una mejor opcion y por tanto, rectificar hacia la solicitud de esta.

En este punto, habiendo expuesto lo relativo a la convergencia al optimo y a la recompensapromedio obtenida, es de destacar la funcion ejercida por la cantidad de opciones disponiblesen los dos tipos de mundo, pues se observa que en los ambientes escasos se favorece la conver-gencia a la opcion optima en mayor grado, en tanto que los mundos abundantes presentan lasrecompensas promedio mas altas (notese que una alta convergencia al optimo no conlleva unaalta recompensa promedio).

La rapida identificacion de la opcion optima en los mundos escasos simulados es congruente conla etologıa, pues cuando el animal se enfrenta a escasez de alimento en la naturaleza, debe haceruna rapida y correcta identificacion del alimento que le sea mas benefico energeticamente, a finde establecerlo como su alimento de preferencia y aprovecharlo al maximo.

Finalmente, en cuanto al analisis del porcentaje de consumo de opciones no optimas (o porcen-taje de sobrevivencia) experimentado por el agente simulado bajo las diversas configuracionesambientales a las que se enfrento, debe destacarse la diferencia (20.91 %) entre el porcentaje desobrevivencia promedio de los algoritmos de aprendizaje que lograron la maxima recompensapromedio por corrida y el de la seleccion aleatoria sin aprendizaje (comparativo SinApR), tantode manera global (38.43% para los algoritmos y 59.34 % para SinApR; tabla 5.36, p. 91) comodesglosada para los diferentes mundos (tabla 5.37).

Desde una perspectiva global, los algoritmos de aprendizaje presentan una seleccion de la op-cion optima mas alta que la que se origina bajo circunstancias aleatorias, por lo cual siempresera mejor la toma de decisiones con aplicacion de aprendizaje a aquella donde se tenga uncomportamiento que no se base en el conocimiento de las opciones que el mundo ofrezca.

97

Tambien en relacion a la sobrevivencia, se puede concluir que los mundos abundantes y la dis-tribucion por zonas favorecen la minimizacion del consumo de opciones no optimas. En especial,cabe destacar el hecho de que los mundos escasos distribuidos aleatoriamente enfrentan la tareamas difıcil en cuanto a la disponibilidad de las opciones solicitadas y que la distribucion porzonas en estos mundos viene a plantear una mejorıa en su desempeno, lo cual aplica tambien enmenor grado en mundos con opciones en abundancia.

Ası, con lo expuesto para diferentes rubros, se considera que ha sido posible hacer un analisis delos algoritmos de Aprendizaje por Reforzamiento implementados, viendo ademas su desempenoante excepciones por el ambiente, situaciones que generalmente no se experimentan.

En relacion a esto, cabe mencionar que, bajo muchos experimentos, la capacidad de identificacionde la opcion optima del agente fue mayor a su capacidad de maximizacion de recompensa, perolas caracterısticas de los ambientes en los experimentos hace que la oportunidad de optimizar larecompensa se pierda.

Trabajo futuro

Dentro de las tareas a experimentar y/o mejorar se considera la implementacion de un aprendi-zaje multiconductual, entendido como la aplicacion de aprendizaje sobre varios modulos conduc-tuales, a diferencia del unico comportamiento que actualmente se especializa mediante tecnicasde aprendizaje. Se considera que el aprendizaje multiconductual afectarıa en mayor grado ladinamica de la red y, en consecuencia, los patrones de comportamiento que se obtengan mos-trarıan mas variabilidad, obteniendose ası un conjunto de experimentaciones mas amplio.

Otra tarea deseable es que el ambiente simulado refleje todas las conductas que conforman laRed de Comportamiento del agente, con lo que la simulacion serıa mas completa. Con esto,la toma de decisiones, que implica las percepciones del estado del mundo, considerarıa la exis-tencia/inexistencia de situaciones en el ambiente que sean propicias para la activacion de cadaconducta (por ejemplo, para descansar el agente necesitarıa estar en un lugar apropiado delambiente para hacerlo). Con un ambiente simulado de este tipo se mostrarıan las acciones eje-cutadas por el agente en todo momento.

Por otro lado, es deseable experimentar con recompensas no booleanas, implicando que las op-ciones del modulo mApR no desaparezcan del ambiente al ser consumidas por el agente; estoademas serıa un indicador de la deseabilidad de la accion. En el caso de aprendizaje multicon-ductual, la consumacion paulatina de recursos se aplicarıa a toda conducta sujeta a aprendizaje.

Una extension que serıa un buen marco de experimentacion lo constituye la version de la herra-mienta para un sistema multi-agentes donde exista competencia y/o cooperacion por los recursosdel ambiente, lo que harıa mas real la investigacion de animats. Computacionalmente, esto re-

98

quiere la modificacion de ABC ApR, que actualmente modela a un solo agente, para que puedasoportar la co-existencia de varios agentes.

Se proponen dos tipos de aprendizaje para el sistema multi-agentes: 1) aprendizaje individual,resultante de la propia experiencia del agente (ya implementado) y, 2) aprendizaje grupal, impli-cando que a partir de informacion obtenida de todos los agentes, se establezca una informacionpublica que sea utilizada por cada agente para reafirmar o modificar su aprendizaje individual.El aprendizaje grupal serıa una forma de comunicacion entre los agentes, pero ademas el sistemarequerirıa del establecimiento de otros tipos de interacciones que permitan la co-existencia de losagentes, considerando que estos se veran inmersos en situaciones de competencia por recursos,o de cooperacion para la realizacion de metas conjuntas.

Ası mismo, el sistema debera contar con mecanismos que coordinen la asignacion de recursosante situaciones conflictivas. Por ejemplo, ante la solicitud por parte de dos o mas agentes deuna opcion percibida en el ambiente, con todos los agentes ubicados mas o menos a la mis-ma distancia con respecto a la opcion solicitada, una solucion basada en la etologıa serıa elpre-establecimiento de jerarquıas entre los agentes, a semejanza de las jerarquıas sociales en lastropas de monos, con lo que se establecerıa una competencia directa, favoreciendo un accesojerarquico a la opcion; en cambio, si esta misma situacion se diera con un agente ubicado muycerca de la opcion deseada y los demas a una distancia mayor, la solucion serıa asignar el recursosolicitado al agente mas proximo, sin considerar su jerarquıa social (competencia por explota-cion).

En el contexto de la simulacion de los monos aulladores, un sistema multi-agentes serıa de granimportancia, al permitir analizarlos en conductas de interaccion social, que involucren relacionesdirectas entre los agentes. Por otro lado, un experimento interesante que implicarıa aprendizajegrupal esta en los mundos distribuidos en zonas, donde un mono podrıa hallar la zona optima y,mediante informacion publica, guiar hacia ella a la tropa, lo cual es particularmente importanteen mundos con escasez de alimento, donde un tiempo grande de exploracion conduce al consumode opciones no optimas. Sin embargo, a semejanza de lo reportado por los etologos [Dom04],esto implicarıa una disminucion en la ganancia alimenticia del individuo que, habiendo halladoun parche, debera competir por los recursos alimenticios y compartirlos con el resto de la tropa.

Por otro lado, tambien en el contexto de simulacion de monos aulladores, existen observacionesrelativas a las rutas de forrajeo de estos animales en su habitat, que implican la identificaciondel mismo mediante el etiquetado de todas las fuentes de alimentacion (arboles) disponibles enel medio, para poder establecer los lugares donde los monos realizan sus actividades y hacer unseguimiento de sus desplazamientos y preferencias alimenticias [Arr99].

Estas rutas de forrajeo, en terminos de ABC ApR que ya plantea la seleccion de alimentos porparte del mono simulado, se considera viable de investigar, pudiendo implicar incluso el uso deun ambiente simulado mas apegado a lo real, que comprenda una distribucion de las fuentesalimenticias parecida a la del mundo del animal.

Apendice A

Modelo ABC RodrıguezLuna

### Archivo..: /modelo_Luna.tcl

### Parametrosset PI 20.0set TETA 15set SIGMA 20.0set GAMMA 70.0set DELTA 50.0

### Proposiciones Variables en el Mundoset PVM {{comida_ausente comida_presente} {suenio_ausente suenio_presente}

{sombra_ausente sombra_presente}}### Intervalo en el que se va a cambiar el Mundoset interval 15### Estado inicial del mundoset PV {sombra_presente suenio_ausente comida_presente}### Metas del agenteset M {}

### Modulos conductualesdefine_mc descansar \

{sombra_presente} \{cansancio} \{} \{global cansancio hambre inquietud interval

set cansancio(peso) [expr [valor_campo cansancio peso] *1.85 ]set hambre(peso) [expr [valor_campo hambre peso] * 2.0 ]set inquietud(peso) [expr [valor_campo inquietud peso] * 2.1 ]set interval 12}

define_mc alimentar \{comida_presente} \{hambre} \{} \{global cansancio hambre inquietud interval

set cansancio(peso) [expr [valor_campo cansancio peso] * 2.0 ]set hambre(peso) [expr [valor_campo hambre peso] * 1.03 ]set inquietud(peso) [expr [valor_campo inquietud peso] * 3.2 ]set interval 15}

define_mc explorar \{suenio_ausente} \{inquietud} \{} \{global cansancio hambre inquietud interval

set cansancio(peso) [expr [valor_campo cansancio peso] * 2.0 ]set hambre(peso) [expr [valor_campo hambre peso] * 2.7 ]set inquietud(peso) [expr [valor_campo inquietud peso] * 0.5 ]set interval 15}

### Motivaciones -> 0 Permanente, 1 Temporaldefine_motivacion cansancio {0.60} {0}define_motivacion hambre {0.25} {0}define_motivacion inquietud {0.15} {0}

### Conducta sobre la que se lanza el modulo de aprendizajeglobal OPTAPR; set OPTAPR alimentar

Listado A.1: Codigo del modelo ABC RodrıguezLuna

100

Figura A.1: Grafica de activacion en el tiempo del modelo ABC RodrıguezLuna

101

Ejemplo de ABC RodrıguezLuna - Algoritmo Softmax, mundo abundante aleatorio

Caso 2: 0.60 0.40 (optima: 1) Sem.Aleat. 0.1

It. R/A_1 R/A_2 REC. OPT. Conv. Sol/Obt timeABC1 (0/1) (0/0) 0 1 * 0 0/0 (72)2 (0/1) (0/1) 0.0 0 * 2/2 1/1 (74)3 (1/2) (0/1) 33.33 1 * 2 0/0 (75)4 (2/3) (0/1) 50.0 1 * 2 0/0 (77)5 (2/3) (1/2) 60.0 0 * 5/5 1/1 (82)6 (3/4) (1/2) 66.67 1 * 5 0/0 (84)7 (3/5) (1/2) 57.14 1 * 5 0/0 (146)8 (4/6) (1/2) 62.5 1 * 5 0/0 (147)9 (4/7) (1/2) 55.56 1 * 5 0/0 (149)10 (5/8) (1/2) 60.0 1 * 5 0/0 (216)11 (6/9) (1/2) 63.64 1 * 5 0/0 (217)12 (7/10) (1/2) 66.67 1 * 5 0/0 (221)13 (8/11) (1/2) 69.23 1 * 5 0/0 (252)14 (8/12) (1/2) 64.29 1 * 5 0/0 (253)15 (9/13) (1/2) 66.67 1 * 5 0/0 (255)16 (10/14) (1/2) 68.75 1 * 5 0/0 (257)17 (10/15) (1/2) 64.71 1 * 5 0/0 (266)18 (11/16) (1/2) 66.67 1 * 5 0/0 (300)19 (11/17) (1/2) 63.16 1 * 5 0/0 (302)20 (12/18) (1/2) 65.0 1 * 5 0/0 (303)21 (13/19) (1/2) 66.67 1 * 5 0/0 (305)22 (14/20) (1/2) 68.18 1 * 5 0/0 (309)23 (15/21) (1/2) 69.57 1 * 5 0/0 (314)24 (16/22) (1/2) 70.83 1 * 5 0/0 (341)25 (17/23) (1/2) 72.0 1 * 5 0/0 (347)26 (18/24) (1/2) 73.08 1 * 5 0/0 (354)27 (19/25) (1/2) 74.07 1 * 5 0/0 (360)28 (20/26) (1/2) 75.0 1 * 5 0/0 (362)29 (20/27) (1/2) 72.41 1 * 5 0/0 (365)30 (21/28) (1/2) 73.33 1 * 5 0/0 (370)31 (21/29) (1/2) 70.97 1 * 5 0/0 (405)32 (22/30) (1/2) 71.88 1 * 5 0/0 (415)33 (23/31) (1/2) 72.73 1 * 5 0/0 (425)34 (24/32) (1/2) 73.53 1 * 5 0/0 (464)35 (24/33) (1/2) 71.43 1 * 5 0/0 (473)36 (25/34) (1/2) 72.22 1 * 5 0/0 (495)37 (25/35) (1/2) 70.27 1 * 5 0/0 (496)38 (26/36) (1/2) 71.05 1 * 5 0/0 (497)39 (26/37) (1/2) 69.23 1 * 5 0/0 (503)40 (27/38) (1/2) 70.0 1 * 5 0/0 (514)41 (28/39) (1/2) 70.73 1 * 5 0/0 (536)42 (29/40) (1/2) 71.43 1 * 5 0/0 (589)43 (29/41) (1/2) 69.77 1 * 5 0/0 (591)44 (30/42) (1/2) 70.45 1 * 5 0/0 (599)45 (30/43) (1/2) 68.89 1 * 5 0/0 (625)46 (31/44) (1/2) 69.57 1 * 5 0/0 (660)47 (32/45) (1/2) 70.21 1 * 5 0/0 (691)48 (33/46) (1/2) 70.83 1 * 5 0/0 (709)49 (33/47) (1/2) 69.39 1 * 5 0/0 (710)50 (33/48) (1/2) 68.0 1 * 5 0/0 (712)51 (34/49) (1/2) 68.63 1 * 5 0/0 (714)52 (34/50) (1/2) 67.31 1 * 5 0/0 (717)53 (35/51) (1/2) 67.92 1 * 5 0/0 (732)54 (36/52) (1/2) 68.52 1 * 5 0/0 (795)55 (36/53) (1/2) 67.27 1 * 5 0/0 (796)56 (36/54) (1/2) 66.07 1 * 5 0/0 (805)57 (36/55) (1/2) 64.91 1 * 5 0/0 (811)58 (36/56) (1/2) 63.79 1 * 5 0/0 (828)59 (36/57) (1/2) 62.71 1 * 5 0/0 (830)60 (37/58) (1/2) 63.33 1 * 5 0/0 (834)61 (38/59) (1/2) 63.93 1 * 5 0/0 (841)62 (39/60) (1/2) 64.52 1 * 5 0/0 (848)

Ejemplo RodrıguezLuna - Continua . . .

102

63 (40/61) (1/2) 65.08 1 * 5 0/0 (856)64 (41/62) (1/2) 65.63 1 * 5 0/0 (866)65 (42/63) (1/2) 66.15 1 * 5 0/0 (877)66 (42/64) (1/2) 65.15 1 * 5 0/0 (879)67 (43/65) (1/2) 65.67 1 * 5 0/0 (881)68 (44/66) (1/2) 66.18 1 * 5 0/0 (947)69 (45/67) (1/2) 66.67 1 * 5 0/0 (957)70 (46/68) (1/2) 67.14 1 * 5 0/0 (961)71 (47/69) (1/2) 67.61 1 * 5 0/0 (963)72 (48/70) (1/2) 68.06 1 * 5 0/0 (965)73 (48/71) (1/2) 67.12 1 * 5 0/0 (972)74 (49/72) (1/2) 67.57 1 * 5 0/0 (984)75 (50/73) (1/2) 68.0 1 * 5 0/0 (1032)76 (51/74) (1/2) 68.42 1 * 5 0/0 (1034)77 (52/75) (1/2) 68.83 1 * 5 0/0 (1037)78 (52/76) (1/2) 67.95 1 * 5 0/0 (1056)79 (52/77) (1/2) 67.09 1 * 5 0/0 (1057)80 (53/78) (1/2) 67.5 1 * 5 0/0 (1062)81 (53/79) (1/2) 66.67 1 * 5 0/0 (1080)82 (54/80) (1/2) 67.07 1 * 5 0/0 (1082)83 (55/81) (1/2) 67.47 1 * 5 0/0 (1085)84 (56/82) (1/2) 67.86 1 * 5 0/0 (1104)85 (57/83) (1/2) 68.24 1 * 5 0/0 (1110)86 (58/84) (1/2) 68.6 1 * 5 0/0 (1117)87 (58/85) (1/2) 67.82 1 * 5 0/0 (1126)88 (58/85) (1/3) 67.05 0 * 5/88 0/1 (1145)89 (59/86) (1/3) 67.42 1 * 5 0/0 (1164)90 (60/87) (1/3) 67.78 1 * 5 0/0 (1167)91 (61/88) (1/3) 68.13 1 * 5 0/0 (1177)92 (62/89) (1/3) 68.48 1 * 5 0/0 (1187)93 (62/90) (1/3) 67.74 1 * 5 0/0 (1192)94 (63/91) (1/3) 68.09 1 * 5 0/0 (1212)95 (64/92) (1/3) 68.42 1 * 5 0/0 (1216)96 (65/93) (1/3) 68.75 1 * 5 0/0 (1224)97 (66/94) (1/3) 69.07 1 * 5 0/0 (1274)98 (66/95) (1/3) 68.37 1 * 5 0/0 (1280)99 (67/96) (1/3) 68.69 1 * 5 0/0 (1320)100 (67/97) (1/3) 68.0 1 * 5 0/0 (1322)101 (68/98) (1/3) 68.32 1 * 5 0/0 (1329)102 (68/99) (1/3) 67.65 1 * 5 0/0 (1353)103 (68/100)(1/3) 66.99 1 * 5 0/0 (1365)104 (68/101)(1/3) 66.35 1 * 5 0/0 (1425)105 (69/102)(1/3) 66.67 1 * 5 0/0 (1430)106 (70/103)(1/3) 66.98 1 * 5 0/0 (1446)107 (70/104)(1/3) 66.36 1 * 5 0/0 (1484)

Recompensa Acumulada 71 Recompensa Promedio 66.36Factor XLearn: 1.11Solicita optima 105 (98.13%) Obtiene optima 104 (97.2%)Convergencia 6/89 Sobrevivencia (no-optimos) 3 (2.8%)

Tiempo promedio y porcentaje por modulo de red:t_prom %

explorar 2.83 15.07alimentar 4.73 26.20descansar 11.29 58.73

Matriz de Probabilidadesexplorar alimentar descansar

explorar 0.00 0.55 0.45alimentar 0.51 0.00 0.49descansar 0.49 0.51 0.00

Listado A.2: Corrida ejemplo - RodrıguezLuna

103

Figura A.2: Grafica de activacion en el tiempo del ejemplo del modelo ABC RodrıguezLuna

104

Figura A.3: Patron de actividades del ejemplo del modelo ABC RodrıguezLuna

Corrida general del ejemplo de ABC RodrıguezLuna

No. Opcion: 2 Caso probabilıstico: 2 (0.60, 0.40) Mundo abundante aleatorio

Alg. R_Prom R_Total Iter. XLearn Conv. R/A_1 R/A_2 %Sol* %Obt* %Sobreviv.Bandido 60.55 66 109 1.01 19/106 61/96 5/13 91.74 88.07 11.93Greedy 42.86 42 98 0.71 -/- 3/10 39/88 3.06 10.2 89.8Egreedy 61.74 71 115 1.03 84/84 70/111 1/4 97.39 96.52 3.48Softmax 66.36 71 107 1.11 6/89 70/104 1/3 98.13 97.2 2.8LRP 52.73 58 110 0.88 110/110 41/68 17/42 61.82 61.82 38.18LR 58.42 59 101 0.97 76/76 50/78 9/23 77.23 77.23 22.77IE 53.15 59 111 0.89 13/90 59/107 0/4 97.3 96.4 3.6RC 54.05 60 111 0.90 13/90 60/108 0/3 98.2 97.3 2.7SinApR 56.0 56 100 0.93 -/100 34/50 22/50 0.0 50.0 50.0Optimo 63.73 65 102 1.06 1/1 65/102 0/0 100.0 100.0 0.0

Listado A.3: Corrida general ejemplo - RodrıguezLuna

El listado A.3 es un resumen del experimento al que pertenece la corrida ejemplo de la simula-cion ABC RodrıguezLuna. La grafica A.4 muestra las curvas de aprendizaje y de convergenciade los ocho algoritmos y los dos comparativos implementados, en tanto que la figura A.5 pre-senta el graficado acumulado de las curvas de aprendizaje generadas bajo la configuracion delexperimento.

Analizando el resumen de la corrida, se puede ver que el algoritmo Greedy no convergio al opti-mo, pues solo presenta un 3.06 % de solicitud de la accion optima (corroborar con su grafica deconvergencia, en la figura A.4); esto repercute en un bajo aprendizaje, al no lograr maximizarla recompensa promedio. En tanto, LRP y LR tambien exhiben un desempeno bajo, aunque lagrafica de convergencia de LR demuestra que logra converger y alcanza una recompensa prome-dio cercana a la esperada. Por su parte, IE y RC, a pesar de presentar un buen porcentaje deconvergencia, no logran una buena recompensa promedio.

Por otro lado, debe notarse que existen variaciones entre lo solicitado y lo obtenido en el am-biente, la mayorıa en forma negativa (Bandido, Egreedy, Softmax, IE y RC) y en contadasocasiones, positivamente (ver Greedy, donde el ambiente ayuda a seleccionar la accion optima).

105

Figura A.4: Curvas de aprendizaje y de convergencia de la corrida general - ABC RodrıguezLuna

Figura A.5: Curvas de aprendizaje de la corrida general - ABC RodrıguezLuna

106

Modelo ABC DomingoBalcells

### Archivo..: /modelo_Balcells.tcl

### Parametrosset PI 20.0set TETA 15set SIGMA 20.0set GAMMA 70.0set DELTA 50.0

### Proposiciones Variables en el Mundoset PVM {{comida_ausente comida_presente} {suenio_ausente suenio_presente}

{mono_ausente mono_presente} {sombra_ausente sombra_presente}}### Intervalo en el que se va a cambiar el Mundoset interval 20### Estado inicial del mundoset PV {sombra_presente suenio_ausente comida_presente mono_ausente}### Metas del agenteset M {}

### Modulos conductualesdefine_mc descansar \

{sombra_presente} \{cansancio} \{} \{global cansancio hambre inquietud interval

set cansancio(peso) [expr [valor_campo cansancio peso] * 1.0 ]set hambre(peso) [expr [valor_campo hambre peso] * 1.3 ]set aburrimiento(peso) [expr [valor_campo aburrimiento peso] * 0.1 ]set inquietud(peso) [expr [valor_campo inquietud peso] * 1.0 ]set interval 21 }

define_mc alimentar \{comida_presente} \{hambre} \{} \{global cansancio hambre inquietud interval


define_mc explorar \{suenio_ausente} \{inquietud} \{} \{global cansancio hambre inquietud interval


define_mc social \{mono_presente} \{aburrimiento} \{} \{global cansancio hambre inquietud interval


### Motivaciones -> 0 Permanente, 1 Temporaldefine_motivacion cansancio {0.7753} {0}define_motivacion hambre {0.135} {0}define_motivacion inquietud {0.058} {0}define_motivacion aburrimiento {0.0317} {0}

### Conducta sobre la que se lanza el modulo de aprendizajeglobal OPTAPR; set OPTAPR alimentar

Listado A.4: Codigo del modelo ABC DomingoBalcells

107

Figura A.6: Grafica de activacion en el tiempo del modelo ABC DomingoBalcells

108

Ejemplo de ABC DomingoBalcells - Algoritmo Greedy, mundo abundante aleatorio

Caso 1: 0.90 0.10 (optima: 1) Sem.Aleat. 0.1.It. R/A_1 R/A_2 REC. OPT. Conv. Sol/Obt timeABC1 (0/1) (0/0) 0 1 * 0 0/0 (5)2 (0/1) (0/1) 0.0 0 * 2/2 1/1 (15)3 (1/2) (0/1) 33.33 1 * 2 0/0 (63)4 (2/3) (0/1) 50.0 1 * 2 0/0 (147)5 (3/4) (0/1) 60.0 1 * 2 0/0 (148)6 (4/5) (0/1) 66.67 1 * 2 0/0 (151)7 (5/6) (0/1) 71.43 1 * 2 0/0 (161)8 (6/7) (0/1) 75.0 1 * 2 0/0 (171)9 (6/8) (0/1) 66.67 1 * 2 0/0 (181)10 (7/9) (0/1) 70.0 1 * 2 0/0 (194)11 (8/10) (0/1) 72.73 1 * 2 0/0 (204)12 (9/11) (0/1) 75.0 1 * 2 0/0 (214)13 (10/12) (0/1) 76.92 1 * 2 0/0 (225)14 (11/13) (0/1) 78.57 1 * 2 0/0 (273)15 (12/14) (0/1) 80.0 1 * 2 0/0 (275)16 (13/15) (0/1) 81.25 1 * 2 0/0 (283)17 (14/16) (0/1) 82.35 1 * 2 0/0 (293)18 (15/17) (0/1) 83.33 1 * 2 0/0 (303)19 (16/18) (0/1) 84.21 1 * 2 0/0 (313)20 (17/19) (0/1) 85.0 1 * 2 0/0 (316)21 (18/20) (0/1) 85.71 1 * 2 0/0 (318)22 (19/21) (0/1) 86.36 1 * 2 0/0 (321)23 (20/22) (0/1) 86.96 1 * 2 0/0 (323)24 (20/23) (0/1) 83.33 1 * 2 0/0 (325)25 (21/24) (0/1) 84.0 1 * 2 0/0 (326)26 (22/25) (0/1) 84.62 1 * 2 0/0 (328)27 (23/26) (0/1) 85.19 1 * 2 0/0 (330)28 (24/27) (0/1) 85.71 1 * 2 0/0 (332)29 (25/28) (0/1) 86.21 1 * 2 0/0 (334)30 (26/29) (0/1) 86.67 1 * 2 0/0 (359)31 (27/30) (0/1) 87.1 1 * 2 0/0 (363)32 (28/31) (0/1) 87.5 1 * 2 0/0 (366)33 (29/32) (0/1) 87.88 1 * 2 0/0 (371)34 (30/33) (0/1) 88.24 1 * 2 0/0 (374)35 (31/34) (0/1) 88.57 1 * 2 0/0 (376)36 (32/35) (0/1) 88.89 1 * 2 0/0 (379)37 (33/36) (0/1) 89.19 1 * 2 0/0 (382)38 (34/37) (0/1) 89.47 1 * 2 0/0 (384)39 (35/38) (0/1) 89.74 1 * 2 0/0 (387)40 (36/39) (0/1) 90.0 1 * 2 0/0 (401)41 (37/40) (0/1) 90.24 1 * 2 0/0 (404)42 (38/41) (0/1) 90.48 1 * 2 0/0 (407)43 (39/42) (0/1) 90.7 1 * 2 0/0 (462)44 (40/43) (0/1) 90.91 1 * 2 0/0 (481)45 (41/44) (0/1) 91.11 1 * 2 0/0 (484)46 (42/45) (0/1) 91.3 1 * 2 0/0 (487)47 (43/46) (0/1) 91.49 1 * 2 0/0 (490)48 (44/47) (0/1) 91.67 1 * 2 0/0 (493)49 (45/48) (0/1) 91.84 1 * 2 0/0 (495)50 (46/49) (0/1) 92.0 1 * 2 0/0 (546)51 (47/50) (0/1) 92.16 1 * 2 0/0 (548)52 (48/51) (0/1) 92.31 1 * 2 0/0 (550)53 (49/52) (0/1) 92.45 1 * 2 0/0 (552)54 (50/53) (0/1) 92.59 1 * 2 0/0 (554)55 (50/54) (0/1) 90.91 1 * 2 0/0 (556)56 (51/55) (0/1) 91.07 1 * 2 0/0 (557)57 (52/56) (0/1) 91.23 1 * 2 0/0 (559)58 (53/57) (0/1) 91.38 1 * 2 0/0 (674)59 (54/58) (0/1) 91.53 1 * 2 0/0 (676)60 (55/59) (0/1) 91.67 1 * 2 0/0 (678)61 (56/60) (0/1) 91.8 1 * 2 0/0 (680)62 (57/61) (0/1) 91.94 1 * 2 0/0 (682)63 (58/62) (0/1) 92.06 1 * 2 0/0 (684)64 (59/63) (0/1) 92.19 1 * 2 0/0 (686)

Ejemplo DomingoBalcells - Continua . . .

109

65 (60/64) (0/1) 92.31 1 * 2 0/0 (739)66 (61/65) (0/1) 92.42 1 * 2 0/0 (742)67 (62/66) (0/1) 92.54 1 * 2 0/0 (744)68 (62/67) (0/1) 91.18 1 * 2 0/0 (747)69 (63/68) (0/1) 91.3 1 * 2 0/0 (748)70 (64/69) (0/1) 91.43 1 * 2 0/0 (757)71 (65/70) (0/1) 91.55 1 * 2 0/0 (759)72 (66/71) (0/1) 91.67 1 * 2 0/0 (841)73 (67/72) (0/1) 91.78 1 * 2 0/0 (903)74 (68/73) (0/1) 91.89 1 * 2 0/0 (908)75 (69/74) (0/1) 92.0 1 * 2 0/0 (1031)76 (70/75) (0/1) 92.11 1 * 2 0/0 (1040)77 (71/76) (0/1) 92.21 1 * 2 0/0 (1140)78 (72/77) (0/1) 92.31 1 * 2 0/0 (1141)79 (73/78) (0/1) 92.41 1 * 2 0/0 (1142)80 (74/79) (0/1) 92.5 1 * 2 0/0 (1144)81 (75/80) (0/1) 92.59 1 * 2 0/0 (1146)82 (76/81) (0/1) 92.68 1 * 2 0/0 (1148)83 (77/82) (0/1) 92.77 1 * 2 0/0 (1150)84 (78/83) (0/1) 92.86 1 * 2 0/0 (1152)85 (79/84) (0/1) 92.94 1 * 2 0/0 (1155)86 (79/85) (0/1) 91.86 1 * 2 0/0 (1157)87 (80/86) (0/1) 91.95 1 * 2 0/0 (1158)88 (80/87) (0/1) 90.91 1 * 2 0/0 (1178)89 (81/88) (0/1) 91.01 1 * 2 0/0 (1179)90 (82/89) (0/1) 91.11 1 * 2 0/0 (1181)91 (83/90) (0/1) 91.21 1 * 2 0/0 (1184)92 (84/91) (0/1) 91.3 1 * 2 0/0 (1187)93 (85/92) (0/1) 91.4 1 * 2 0/0 (1190)94 (86/93) (0/1) 91.49 1 * 2 0/0 (1193)95 (87/94) (0/1) 91.58 1 * 2 0/0 (1195)96 (88/95) (0/1) 91.67 1 * 2 0/0 (1198)97 (89/96) (0/1) 91.75 1 * 2 0/0 (1202)98 (90/97) (0/1) 91.84 1 * 2 0/0 (1260)99 (91/98) (0/1) 91.92 1 * 2 0/0 (1262)100 (92/99) (0/1) 92.0 1 * 2 0/0 (1264)101 (93/100) (0/1) 92.08 1 * 2 0/0 (1266)102 (94/101) (0/1) 92.16 1 * 2 0/0 (1268)103 (95/102) (0/1) 92.23 1 * 2 0/0 (1270)104 (96/103) (0/1) 92.31 1 * 2 0/0 (1272)105 (97/104) (0/1) 92.38 1 * 2 0/0 (1274)106 (98/105) (0/1) 92.45 1 * 2 0/0 (1276)107 (99/106) (0/1) 92.52 1 * 2 0/0 (1278)108 (99/107) (0/1) 91.67 1 * 2 0/0 (1428)109 (100/108) (0/1) 91.74 1 * 2 0/0 (1429)110 (101/109) (0/1) 91.82 1 * 2 0/0 (1431)111 (102/110) (0/1) 91.89 1 * 2 0/0 (1434)112 (103/111) (0/1) 91.96 1 * 2 0/0 (1437)113 (104/112) (0/1) 92.04 1 * 2 0/0 (1451)114 (105/113) (0/1) 92.11 1 * 2 0/0 (1453)115 (106/114) (0/1) 92.17 1 * 2 0/0 (1455)

Recompensa Acumulada 106 Recompensa Promedio 92.17Factor XLearn: 1.02Solicita optima 114 (99.13%) Obtiene optima 114 (99.13%)Convergencia 3/3 Sobrevivencia (no-optimos) 1 (0.87%)

Tiempo promedio y porcentaje por modulo de red:t_prom %

social 1.70 3.40explorar 2.05 5.60alimentar 2.71 12.67descansar 23.50 78.33

Matriz de Probabilidadessocial explorar alimentar descansar

social 0.00 0.07 0.40 0.53explorar 0.05 0.00 0.76 0.20alimentar 0.20 0.44 0.00 0.36descansar 0.29 0.16 0.55 0.00

Listado A.5: Corrida ejemplo - DomingoBalcells

110

Figura A.7: Grafica de activacion en el tiempo del ejemplo del modelo ABC DomingoBalcells

111

Figura A.8: Patron de actividades del ejemplo del modelo ABC DomingoBalcells

Corrida general del ejemplo de ABC DomingoBalcells

No. Opcion: 2 Caso probabilıstico: 1 (0.90, 0.10) Mundo abundante aleatorio

Alg. R_Prom R_Total Iter. XLearn Conv. R/A_1 R/A_2 %Sol* %Obt* %SobrevivBandido 87.2 109 125 0.97 7/7 109/122 0/3 97.6 97.6 2.4Greedy 92.17 106 115 1.02 3/3 106/114 0/1 99.13 99.13 0.87Egreedy 88.8 111 125 0.99 119/119 111/121 0/4 96.8 96.8 3.2Softmax 90.99 101 111 1.01 6/6 101/109 0/2 98.2 98.2 1.8LRP 79.66 94 118 0.89 116/116 92/100 2/18 84.75 84.75 15.25LR 81.48 88 108 0.91 43/43 87/97 1/11 88.89 89.81 10.19IE 90.68 107 118 1.01 13/13 107/116 0/2 98.31 98.31 1.69RC 90.68 107 118 1.01 13/13 107/116 0/2 98.31 98.31 1.69SinApR 60.96 89 146 0.68 -/142 87/96 2/50 0.0 65.75 34.25Optimo 89.47 102 114 0.99 1/1 102/114 0/0 100.0 100.0 0.0

Listado A.6: Corrida general ejemplo - DomingoBalcells

El listado A.6 muestra la corrida general resumida del experimento al que pertenece la corridadel algoritmo Greedy que ejemplifica al modelo ABC DomingoBalcells. Las curvas de aprendi-zaje y de convergencias de todos los demas algoritmos ejecutados y de los comparativos Optimoy SinApR se muestran en la grafica A.9, en tanto que la figura A.10 muestra todas las curvasde aprendizaje en una sola grafica.

Como se puede observar, todos los algoritmos convergieron a la accion optima, siendo LRP elmas lento al hacerlo (ver esto en su grafica de convergencia en A.9). Por otro lado, los algoritmossuperaron tempranamente la recompensa esperada o quedaron proximos a lograrlo al terminarla corrida (a excepcion de los metodos basados en vectores, que finalmente se quedan un 10 %debajo de lo esperado).

112

Figura A.9: Curvas de aprendizaje y de convergencia de la corrida general del ejemplo - modeloABC DomingoBalcells

Figura A.10: Curvas de aprendizaje de la corrida general del ejemplo - modeloABC DomingoBalcells

113

Graficas de tiempo de busqueda

Los ejemplos presentados pertenecen ambos a mundos abundantes y tuvieron buen desempenode convergencia y aprendizaje, por lo que sus graficas de tiempo de busqueda no son significa-tivas, pues siempre encontraron la accion optima en el mınimo tiempo.

La escasez de las acciones en el ambiente repercute en la necesidad de seleccionar otras accionesy esto se refleja en el tiempo de busqueda de las opciones que son ejecutadas y en el porcentajede obtencion de la opcion optima.

Para mostrar que el ambiente modifica la seleccion de accion, se considera el caso del algoritmoGreedy para ABC DomingoBalcells con el mismo numero de acciones y caso probabilıstico queel ejemplo presentado, pero variando el mundo de una cantidad abundante a una escasa, aunquesigue siendo de distribucion aleatoria.

Ahora, el porcentaje de solicitud de la accion optima para Greedy es de 99.34 %, con una ob-tencion de la misma en tan solo un 57.89% (en la version abundante, ambos porcentajes fueronde 99.13 %).

La grafica de tiempo de busqueda -por bloques- es presentada en la figura A.11. La lınea amarillarepresenta el tiempo de busqueda ideal, donde se encuentra la opcion solicitada en el tiempomınimo; este patron de busqueda corresponde a los ejemplos, pues por lo regular se presenta enmundos abundantes. La lınea azul representa el tiempo de busqueda del ejemplo Greedy en unmundo escaso; como se puede observar, en este tipo de mundos existe variabilidad en los tiemposde percepcion y ejecucion de las opciones.

Figura A.11: Tiempo de busqueda del ejemplo (Greedy) con un mundo escaso - modeloABC DomingoBalcells

Bibliografıa

[Arr99] Arrioja Cruz, Marıa del Rosario y Grajales Lagunes, Marıa Concepcion. Un sistemade informacion geografica para la descripcion cartografica de la vegetacion arboreay de los patrones de forrajeo del mono aullador en la isla de Agaltepec, Catemaco,Veracruz. Tesina - Licenciatura en Informatica, Universidad Veracruzana, 1999.

[Blu94] Blumberg, Bruce. Action-selection in Hamsterdam: lessons from ethology. En Procee-dings of the Third International Conference on the Simulation of Adaptive Behavior,Brighton. MIT Press, Cambridge, MA, agosto 1994.

[Bro86] Brooks, Rodney. A robust layered control system for a mobile robot. IEEE Journalof Robotics and Automation, Vol. RA-2 No. 1 pags. 14–23, abril 1986.

[Car89] Carbonell, Jaime G., ed. Machine Learning: paradigms and methods. A BradfordBooks / MIT Press, E.U.A., 1989.

[Cha85] Charniak, Eugene y McDermott, Drew. Introduction to Artificial Intelligence.Addison-Wesley, Reading, Mass., 1985.

[Con90] Connell, Jonathan H. Minimalist mobile robotics: a colony architecture for an artificialcreature. Academic Press, Boston, 1990.

[Dom04] Domingo B., Cristina. Plasticidad conductual intergrupal del mono aullador (Alouattapalliata) en contexto de alimentacion y/o conductas de cautiverio. Tesis de maestrıa,Universidad Veracruzana, 2004.

[Fra96] Franklin, Stan y Graesser, Art. Is it an agent or just a program?: a taxonomy for Auto-nomous Agents. En Third International Workshop on Agent Theories, Architectures,and Languages. Springer-Verlag, Berlin, Alemania, 1996.

[Gar97] Garcia Angelica, Martınez Manuel, Munoz Angelica, Negrete Jose. Dos modelos deseleccion de accion para el estudio de la conducta de forrajeo del mono aullador(Alouatta palliata). V meeting of the International Biometric Society Network forCentral America, The Caribbean, Mexico and Venezuela, Xalapa, Mexico, agosto,1997.

[Goe97] Goetz, Philip y Walters, Deborah. The dynamics of recurrent Behavior Networks.Adaptive Behavior, Vol. 6 No. 2 pags. 247–283, 1997.

[Gue97a] Guerra Alejandro, Martınez Manuel, Montes Fernando. ABC, una herramienta paraimplantar modelos basados en redes de comportamiento. Primer Encuentro en Compu-tacion Enc97, SMCC-Sociedad Mexicana de Ciencias de la Computacion, SMIA-Sociedad Mexicana de Inteligencia Artificial, Queretaro, Mexico, 1997.

[Gue97b] Guerra Alejandro, Martınez Manuel, Montes Fernando. Un modelo de conductasanimales basado en redes de comportamiento. V meeting of the International Bio-metric Society Network for Central America, The Caribbean, Mexico and Venezuela,Xalapa, Mexico, 1997.

[Gue97c] Guerra H., Alejandro. Agentes Autonomos y Seleccion de Accion, una perspectivabasada en Redes de Comportamiento. Tesis de maestrıa, Universidad Veracruzana,1997.

[Gue98] Guerra Hernandez, Alejandro. Modeling behavior: an action selection approach.Workshop on Distributed Simulation, Artificial Intelligence, and Virtual Environ-ments, UNAM-Universidad Nacional Autonoma de Mexico, UHD-University of Hous-ton Downtown, Lania-Laboratorio Nacional de Informatica Avanzada, A.C., MexicoD.F., Mexico, 1998.

[Kae93] Kaelbling, Leslie Pack. Learning in embeded system. A Bradford Book / MIT Press,Cambridge, MA, 1993.

[KyR90] Leslie Kaelbling y Rosenschein, Jeffrey. Action and planning in embedded agents. EnDesigning Autonomous Agents: Theory and Practice from Biology to Engineering andBack, ed. Maes P. A Bradford Books / MIT Press, 1990.

[Lud76] Ludlow, A. The behavior of a model animal. Behavior, Vol. 58, 1976.

[Mae89] Maes, Pattie. The dynamics of Action Selection. En Proceedings the IJCAI-89 Con-ference. MIT Press, Detroit, 1989.

[Mae90a] Maes, Pattie. How do the right thing. Conection Science, special issue on HybridSystems, Vol. 1 No. 3 pags. 291–323, febrero 1990. Tambien en: MIT AILAB Memo1180.

[Mae90b] Maes, Pattie. Situated agents can have goals. En Designing Autonomous Agents:Theory and Practice from Biology to Engineering and Back, ed. Maes P. A BradfordBooks / MIT Press, Febrero 1990. Tambien en: Special Issue on Autonomous Agents,Journal of Robotics and Autonumous Systems, Vol. 6 No. 1, junio 1990).

[Mae91a] Maes, Pattie. A bottom-up mechanism for behavior selection in an artificial creature.En From Animals to Animats: Proceedings of the first International Conference onSimulation of Adaptive Behavior, ed. Meyer J.A. y Wilson S.W., pags. 238–246. MITPress, 1991.

[Mae91b] Maes, Pattie. Learning Behavior Networks from experience. En From Animals toAnimats: Proceedings of the first European Conference on Artificial Life, pags. 238–246. MIT Press, 1991.

[Mae94] Maes, Pattie. Modeling adaptive Autonomous Agents. En Artificial Life, an Overview,ed. Langton C., Vol. 1, pags. 135–162. MIT Press, 1994.

[Mae95] Maes, Pattie. Artificial Life meets entertainment: lifelike Autonomous Agents. Comu-nications of the ACM, Vol. 38 No. 11 pags. 108–114, 1995. Special issue on NewHorizons of Commercial and Industrial IA.

[Mar96a] Martınez Manuel. Proyecto Monots: una propuesta etorobotica para modelar la con-ducta de forrajeo del mono aullador (Alouatta palliata). Estudios Primatologicos enMexico, III. Universidad Veracruzana y Asociacion Mexicana de Primatologıa, Xala-pa, Mexico, 1996.

[Mar96b] Martınez Manuel, Garcia Angelica. Seminario sobre vida artificial (antologıa). Uni-versidad Veracruzana, Serie Textos Universitarios, Xalapa, Mexico, marzo, 1996.

[Mar00a] Martınez M., Barradas P., Caballero H., Cancela N. E., Islas E., Lapizco G., MendozaB., Sanchez R., Serna E., Varela V., Zavala R. L. Aprendizaje: reporte final. Maestrıaen Inteligencia Artificial, Universidad Veracruzana, 2000.

[Mar00b] Martınez Morales Manuel, Zavala Gutierrez Rosa Laura, Islas Perez Eduardo, Caballe-ro Barbosa Hilda, Lapizco Encinas Grecia, Varela Lara Edna Veronica, Cancela GarcıaNora Esmeralda, Mendoza Garcıa Benito, Serna Perez Eduardo, Barradas DomınguezPedro Darıo, Sanchez Chacon Rodrigo. XLearn: un paquete de apoyo didactico paraun curso de ApR. En MICAI 2000. MICAI, Acapulco, Gro., abril 2000.

[Mat94] Mataric, Maja J. Interaction and intelligent behavior. Tesis doctoral, MIT LAB, 1994.

[McF95] McFarland, David. Autonomy and self-sufficiency in robots. En The Artificial LifeRoute to Artificial Intelligence, ed. Steels L. y Brooks R., pags. 187–113. LawrenceErlbaum Associates, E.U.A., 1995.

[Mic86] Michalski, R. S., Carbonell, J. G., Mitchell, T. M., eds. Machine Learning: an ArtificialIntelligence approach, Vol. II. Morgan Kaufmann, Los Altos, California, E.U.A, 1986.

[Min86] Minsky, Marvin. The Society of the Mind. Simon y Schuster, 1986.

[Mit97] Mitchell, Tom. Machine Learning. Mc Graw Hill, E.U.A., 1997.

[Mon98] Montes G., Fernando. Un modelo de conductas animales basado en el Mecanismo deSeleccion de Accion de Maes. Tesis de maestrıa, Universidad Veracruzana, 1998.

[Nor94] Norman, T. J. Motivated goal and action selection. AISB workshop: Models orBehaviors, which way forward for robotics?, abril, 1994.

[Pir99] Pirjanian, Paolo. Behavior coordination mechanisms – State-of-the-art. USC RoboticsResearch Laboratory. University of Southern California, octubre, 1999.

[Rod94] Rodriguez Luna, Ernesto et.al. Forrajeo del mono aullador (Alouatta palliata) ensemilibertad. Parque de la Flora y Fauna Silvestre Tropical, Instituto de Neuroetologıa,Universidad Veracruzana, 1994.

[RyN95] Stuart Russell y Norving, Peter. Artificial Intelligence: a modern approach. PrenticeHall Inc., E.U.A, 1995.

[RyW91] Stuart Russell y Wefald, Erick H. Do the right thing: studies in limited rationality.MIT Press, Cambridge, MA, 1991.

[Sim83] Simon, Herbert A. ¿Why should machines learn? En Machine Learning: an ArtificialIntelligence Approach, Vol. I. Michalski, R. S., Carbonell, J. G., Mitchell, T. M., eds.,Los Altos, California, E.U.A, 1983.

[Sin02] Singleton, Darran. An evolvable approach to the Maes Action Selection Mechanism.Tesis de maestrıa, University of Sussex, 2002.

[SyB98] Richard Sutton y Barto, Andrew. Reinforcement Learning: an introduction. MITPress, Cambridge, MA, 1998.

[Tyr93] Tyrrell, Toby. Computacional mechanism for Action Selection. Tesis doctoral, Uni-versity of Edimburgh, 1993.

[Tyr94] Tyrrell, Toby. An evaluation of Maes’s bottom-up mechanism for Behavior Networks.Adaptive Behavior, Vol. 2 No. 4 pags. 307–348, 1994.

[Uns97] Unsal, Cem. Intelligent navigation of autonomous vehicles in an automated highwaysystem: learning methods and interacting vehicles approach. Tesis doctoral, VirginiaPolytechnic Institute and State University, 1997.

[Wil85] Wilson, S.W. Knowledge growth in an artificial animal. En Proceedings of the FirstInternational Conference on Genetic Algorithms and their Applications. LawrenceErlbaum Associates, 1985.

[Woo95] Wooldridge, Michael J. y Jennings, Nicholas R. Intelligent Agent: theory and practice.The Knowledge Engineering Review, Vol. 10 No. 2 pags. 115–152, 1995.

Aprendizaje en Agentes con Mecanismos de Seleccion de Acci ...€¦ · Aprendizaje en Agentes con...

Documents

Transcript of Aprendizaje en Agentes con Mecanismos de Seleccion de Acci ...€¦ · Aprendizaje en Agentes con...