Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización,...

45
Dra. Ma. de Guadalupe García Hernández Seminario “Pensamiento Sistémico y Análisis de Sistemas” 29 de Septiembre de 2014. 1

Transcript of Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización,...

Page 1: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

Dra. Ma. de Guadalupe García Hernández

Seminario “Pensamiento Sistémico y Análisis de Sistemas”

29 de Septiembre de 2014.1

Page 2: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Introducción

2. Objetivo

3. IPVI: nuevo algoritmo de iteración de valor priorizado

4. Evaluación

5. Conclusiones

6. Trabajo futuro

Contenido

2

Page 3: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Introducción

Los procesos de decisión de Markov (MDP) pertenecen a planificación

basada en decisiones que restringen a la planificación clásica al utilizar

[Puterman, 1994] :

Acciones probables (no deterministas).

Observabilidad parcial o total del entorno.

Metas con utilidad/costo (no restringidas a éxito/fracaso).

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3

Page 4: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Descripción, objetivo y aplicaciones de los MDP

dominio: modelo estocástico.

metas: función de utilidad/costo.

planes: políticas de acción.

problema de planificación: problema de optimización.

observabilidad: distribución de probabilidad en espacio de estados.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

Objetivo: obtener la política óptima para alcanzar la meta con mayor

recompensa y menor costo.

4

Page 5: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

simulación de procesos industriales.

planificación de operaciones de alto nivel en centros de control de energía.

planificación de emergencias en zonas de alto riesgo.

simulación de una planta de vapor de ciclo combinado.

asistentes inteligentes (sector Productivo, gestión administrativa).

tutores inteligentes (sector Educativo).

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

1. Descripción, objetivo y aplicaciones de los MDP

5

Page 6: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Solución de los MDP

Richard Bellman en 1954 calculó la utilidad de un estado mediante :

su recompensa inmediata,

la máxima utilidad futura al aplicar la acción óptima en ese

estado con su probabilidad de cambio y factor de descuento por

cada paso dado:

'

( ) ( , ) max ( , , ') ( ')a

s

U s R s a T s a s U s

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

6

Page 7: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Solución de los MDP

Ejemplo [Russell,2004]: Entorno de 4 X 3 casillas con recompensa -0.04 (para que el agente

desee abandonarlo inmediatamente) con un estado de inicio, una meta, un obstáculo y un

estado indeseable, con 0.9 de factor de descuento. El agente puede aplicar cuatro acciones:

arriba, abajo, izquierda, derecha.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

7

3 0,812 0,868 0,918 + 1

2 0,762 0,660 -1

1 0,705 0,655 0,611 0,388

1 2 3 4

Page 8: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Solución de los MDP

Técnicas informadas:

programación lineal

programación dinámica (iteración de valor o de política)

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

Iteración de valor [Puterman,1994]: enfoque recursivo sobre la ecuación de

Bellman, menos costosa.

La programación lineal e iteración de política deben resolver un sistema de

ecuaciones lineales del tamaño del espacio de estados en cada nodo o

actualización, respectivamente, considerablemente más costosas.

8

Page 9: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Problemática del algoritmo de iteración de valor

Es la intratabilidad frente a grandes problemas debida a:

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

9

Complejidad cuadrática con el número de

estados.

Convergencia lenta por enumeración

entera del espacio de estados-acciones

[Puterman,1994].

Alta dependencia del orden de las

actualizaciones [Littman,1995].

Page 10: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Investigación actual

La investigación actual se centra en mejorar técnicas de aceleración

considerando que:

La convergencia depende fuertemente del orden de las actualizaciones.

Los métodos de ruta más corta (Dijkstra) se han aplicado exitosamente a

MDP deterministas.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

10

Page 11: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Investigación actual

Métodos clásicos que han abordado las limitaciones de iteración de valor con

mayor éxito:

búsqueda heurística con programación dinámica, que busca estados relevantes

minimizando expansiones [Hansen,2001] [Bhuma,2003] [Bonet,2006].

priorización, que busca estados con cambio en función de valor entre dos

actualizaciones sucesivas [Moore,1993] [Wingate,2005] [McMahan,2005]

[Dai,2007] [Dibangoye,2008].

Objetivo común: reducción del espacio de búsqueda

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

11

Page 12: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Investigación actual

El algoritmo de priorización de McMahan et al. (barrido priorizado, IPS):

extiende a Dijkstra para resolver MDP deterministas.

obtiene planes subóptimos en MDP no deterministas [Li,2009].

Error del barrido priorizado

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

*U U

12

Page 13: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Aplicación de una técnica de minería de datos

Aplicación del algoritmo Apriori [Agrawal,1994] :

en Mercadotecnia, calcula el porcentaje de ocurrencia de las relaciones

de artículos habidas en una base de datos.

en los MDP,

- devuelve acciones en función de estado (por ejemplo, las

acciones en aula son diferentes a las de un laboratorio).

- calcula sobre un subconjunto del dominio.

- reduce la matriz tridimensional de probabilidad de

transición de estados a una lista de adyacencia.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

13

Page 14: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Aplicación de una técnica de minería de datos

Para las reglas si < estado (X) > entonces < acción (Y) > obtiene:

la de mayor soporte (combinación bien predicha):

la de mayor confianza (acierto o probabilidad):

( ) ( )X Y

sop X Y sop X YD

( ) ( )sop X Y

conf X Y P Y Xsop X

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

14

Page 15: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

2. Objetivo

Dada la intratabilidad o inexactitud del algoritmo de iteración de

valor ante problemas complejos de ruta estocástica más corta, se

propone reducir el espacio de búsqueda mediante:

acciones en función de estado.

nuevo método de priorización de estados.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

15

Page 16: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

2. Objetivos alcanzados

Representación y aprendizaje de acciones en función de estado

mediante Apriori modificado.

Nuevo algoritmo de iteración de valor basado en reglamentación de

acciones [Garcia-Hernandez,2009].

Nuevo algoritmo de iteración de valor priorizado con reglamentación de

acciones, basado en Dijkstra, para problemas de ruta estocástica más

corta con múltiples estados meta y de inicio [Garcia-Hernandez,2012].

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

16

Page 17: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

Improved Prioritized Value Iteration (IPVI) se basa en el algoritmo de

Dijkstra que reduce el espacio de:

Acciones, usando Apriori modificado.

Estados, usando un nuevo método de priorización.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3. IPVI: nuevo algoritmo de iteración de valor priorizado

Dinámica: Inserta en cola las metas, extrae el estado con mayor prioridad y

actualiza la máxima utilidad de sus estados predecesores. Cuando el error de

Bellman es mayor que el umbral de paro, entonces lo regresa a cola. En caso

contrario, devuelve la política óptima para ese estado.

17

Page 18: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

La nueva métrica de prioridad es la utilidad máxima del estado evaluado

dado que:

devuelve el orden de actualización más adecuado en MDP.

selecciona el estado con la función de valor máxima.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3. Nueva métrica de prioridad

18

Page 19: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

El nuevo algoritmo devuelve la función de valor óptima dado que:

iteración de valor y sus variantes aplican sucesivamente la

ecuación de Bellman.

en MDP aditivos (γ =1) la presencia de estados absorbentes

garantiza la convergencia [Hinderer, 2003].

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3. Garantía de convergencia

19

Page 20: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

I. Construye el conjunto de reglas de asociación de la base de datos del entorno

con Apriori modificado:

Con esto el algoritmo de iteración de valor:

calcula sobre acciones ejecutables en el estado en evaluación

durante su proceso de inferencia.

obtiene un ahorro considerable en recurso computacional.

{ | ( , , , ), ( , , ) 0}k k k k k k k k k kL s s a p p T s a s

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3. Metodología de IPVI

20

Page 21: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

II. Inserta en cola los estados meta.

Inicia en el estado meta con mayor prioridad y se orienta al estado

con mayor recompensa y menor costo.

Puede tratar con múltiples estados de inicio y de meta.

En cambio, otros enfoques tratan con un sólo estado meta y uno de

inicio.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3. Metodología de IPVI

21

Page 22: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

IV. Actualiza la política de los predecesores del estado prometedor:

1

( , , , )

( ) argmax ( , ) ( )k k k k

t t

k ka s y s a a p L

y R y a p U s

Devuelve el predecesor con la máxima utilidad, garantizando la convergencia.

Se adelanta a otros enfoques al calcular sobre los predecesores del estado

prometedor, no sobre este último.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3. Metodología de IPVI

22

III. Extrae de cola el estado con mayor prioridad.

1

( , , , )

( ) max ( , ) ( )k k k k

t t

k ka

s y s a a p L

U y R y a p U s

Page 23: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

V. Si el error de Bellman es mayor que el umbral de paro:

entonces regresa el estado a cola y repite desde III. En caso

contrario, devuelve la política óptima para ese estado.

1( ( ) ( ) )t tU y U y

Con esto el nuevo algoritmo reutiliza los datos del estado evaluado:

ahorrando una considerable cantidad de tiempo.

el conjunto de estados relevantes es mucho menor que el conjunto de

estados del problema.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3. Metodología de IPVI

23

Page 24: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

24

3. Comparación de algoritmos

Page 25: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

VI IPS IPVI

Actualiza estados

indiscriminadamente.

Toma el valor del

estado prometedor y

calcula el estado

predecesor con mayor

cota.

Actualiza los estados

predecesores del

estado más

prometedor y toma al

de máxima utilidad.

No prioriza estados. Su prioridad es el

criterio de cota superior:

Su prioridad es la

función de valor

completa:1

1

( , ) ( )

( , )

t t

t

Q s b U s

Q s b

1( )tU s

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3. Comparación de algoritmos

25

Page 26: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

VI IPS IPVI

No distingue estados.

Solamente trata con un

estado de inicio y un

estado meta.

Trata con múltiples

estados de inicio y de

meta.

Lenta convergencia.

Devuelve la política

óptima.

Procesa rápido pero

devuelve política

subóptima (inexacta).

Rápida convergencia.

Devuelve la política

óptima.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

3. Comparación de algoritmos

26

Page 27: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

VI IPS IPVI

Procesa incluso las

transiciones de estado

con probabilidad cero.

Solamente procesa las

transiciones con

probabilidad diferente

de cero con una lista de

adyacencia calculada

para cada problema.

Solamente procesa las

transiciones con

probabilidad diferente

de cero mediante la

Apriori modificado.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

27

3. Comparación de algoritmos

Page 28: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

4. Dominio utilizado

• el bote de vela debe alcanzar rápidamente

un punto del lago (ej. una competencia)

• existe viento con dirección variable.

• el bote de vela puede tener tres

movimientos para aprovechar el viento.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

28

Se probó en el dominio Sailing [Vanderbei,2008],

Page 29: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

4. Dominio utilizado

• la velocidad del bote de vela depende del ángulo relativo entre la

dirección de proa y la dirección del viento (este cambia en cada nodo).

• de acuerdo al ángulo relativo será la maniobra a ejecutar.

• cada maniobra tiene su propia duración.

• cuando la maniobra es opuesta (giro de babor a estribor) tendrá un

retardo.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

29

Sailing crea estrategias de navegación en un ambiente cambiante,

Page 30: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

30

4. Interfaz del dominio utilizado

Page 31: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

4. Problemática del dominio

Si n es el número de nodos laterales del lago, entonces los estados por

visitar serán:

(3 acciones del bote)(8 direcciones del viento)(n)2 = 24 n2

Si n es considerablemente grande, entonces habrá una explosión

combinatoria del espacio de estados.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

31

Page 32: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

4. Implementación

El MDP se modeló:

Estacionario (no varía con el tiempo).

Finito (número definido de etapas).

No determinista (estocástico)

Plano (no factorizado).

Totalmente observable (estados conocidos).

La función de valor es el tiempo (a minimizar).

Aditivo (costos positivos, factor de descuento la unidad).

Con estados absorbentes (playas del lago y estados meta).

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

32

Page 33: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

4. Implementación

Se codificó en Lenguaje Java por su

gran portabilidad.

Se implementó en un simulador de

planificación de movimientos robóticos

[Reyes, 2006].

Valores usados: = 1 y = 10-7.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

33

Page 34: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

4. Otros algoritmos probados

iteración de valor asíncrona con reglamentación de acciones (ARVI2) [Puterman,2005].

iteración de valor asíncrona de estados con cambio en función de valor (ARVI5)

[Wingate,2005].

program.dinámica asíncrona del dominio (VDP) [Vanderbei,2008].

iteración de valor topológico mejorado (iTVI) [Dibangoye,2008]**

Iteración de valor topológico modificado (ARVI6) [Wingate,2005].

iteración de valor asíncrona de estados con cambio y ordenamiento topológico

modificado con barrido priorizado (SIPS+ARVI5) [McMahan,2005] [Wingate,2005] .

** reporta mejores resultados que LAO* [Hansen,2001], LRTDP [ Bonet,2003] y TVI [Dai,2007]

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

34

Page 35: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

35

4. Desempeño de algoritmos

Page 36: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

36

4. Desempeño de algoritmos

Page 37: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

37

4. Ajuste de curvas

Page 38: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

4. Reducción de complejidad temporal

Con ordenamiento topológico mejorado (Dibangoye et al.): T(ns) = ns^2

Con ordenamiento topológico modificado (Wingate et al.): T(ns) = ns^2

Con actualización asíncrona y reglamentación de acciones [Garcia-

Hernandez,2009]: T(ns) = ns^1.48

Con actualización asíncrona de estados priorizados y ordenamiento

topológico de Wingate et al.: T(ns) = ns^1.45

Con la combinación de los dos anteriores: T(ns) = ns^1.32

Con el nuevo algoritmo priorizado [Garcia-Hernandez,2012]: T(ns) = ns^1.07

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

38

Page 39: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

4. Resultados experimentales

Todos los algoritmos entregaron la política óptima (mismo tiempo

necesario para alcanzar el estado de inicio), excepto barrido priorizado de

McMahan et al.., por lo que se le agregó reglamentación de acciones para

hacerlo convergente.

Iteración de valor con ordenamiento topológico modificado de Wingate et

al. resultó ser el más lento de todos, por su alto coste de inicio.

Iteración de valor con ordenamiento topológico mejorado de Dibangoye et

al. agotó la memoria asignada en 400 000 estados, por su alto coste de

inicio.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

39

Page 40: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

4. Resultados experimentales

Iteración de valor con actualización asíncrona de estados que

tuvieron cambio en función de valor de Wingate et al. tuvo un

desempeño medio

El anterior pero con barrido priorizado de McMahan et al. resultó un

poco mejor.

Se observa que el enfoque propuesto fue el más rápido en resolver

debido a que presenta complejidad temporal (en función del número

de estados) cercana a la linealidad y con pendiente cercana a cero.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

40

Page 41: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

5. Objetivo cumplido

El nuevo algoritmo de iteración de valor basado en priorización con

reglamentación de acciones redujo significativamente el espacio

de búsqueda en los procesos de decisión de Markov de ruta

estocástica más corta.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

41

Page 42: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

5. Ventajas del nuevo algoritmo

I. El criterio de prioridad es la utilidad máxima disponible.

II. Es capaz de calcular el estado predecesor con la máxima utilidad de un estado

prometedor.

III. Es capaz de reutilizar los datos del estado evaluado.

IV. Es capaz de calcular las acciones ejecutables en el estado en evaluación.

V. Es capaz de resolver problemas no deterministas y con múltiples estados de

inicio y meta.

VI. Es capaz de reducir considerablemente la complejidad temporal del algoritmo

de iteración de valor.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

42

Page 43: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

5. Principales publicaciones

Garcia-Hernandez M. G., Ruiz-Pinales J., Onaindia E., Reyes-Ballesteros A., Solving the Sailing

Problem with a new Prioritized Value Iteration, Applied Artificial Intelligence, DOI:

10.1080/08839514.2012.687662, ISSN 0883-9514, Taylor & Francis, Vol. 26, Issue 6, pp 571-587, 2012.

Garcia-Hernandez M. G., Ruiz-Pinales J., Onaindia E., Reyes-Ballesteros A., Aviña Cervantes J.

G., Ledesma-Orozco S., Alvarado Mendez E., New Prioritized Value Iteration for Markov Decision

Processes, Artificial Intelligence Review, An International Science and Engineering Journal, DOI:

10.1007/s10462-011-9224-z, Springer Editors, ISSN 0269-2821, Vol. 37, No.2, pp 157-167, 2012.

García-Hernández M. G., Ruiz-Pinales J., Onaindía E., Reyes-Ballesteros A., Ledesma S., Aviña J.

G., Alvarado E., Mixed Acceleration Techniques for solving quickly Stochastic Shortest-Path Markov

Decision Processes, Journal of Applied Research and Technology, ISSN 1665-6423, Vol. 9 No.

2, pp 129-144, 2011.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

43

Page 44: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

Garcia-Hernandez M. G., Ruiz-Pinales J., Reyes-Ballesteros A., Onaindía E., Ledesma S., Aviña J.

G., Combination of acceleration procedures for solving stochastic shortest-path Markov decision

processes, 2010 IEEE International Conference on Intelligent Systems and Knowledge

Engineering (ISKE), ISBN 978-1-4244-6790-7, pp 89-94, Hangzhou, China, November 15, 2010.

Garcia-Hernandez M.G., Ruiz-Pinales J., Reyes A., Onaindia E., Acceleration of Association Rule-

Based Markov Decision Processes, Journal of Applied Research and Technology, ISSN 1665-

6423, Vol. 7, No.3, pp 354-375, 2009.

5. Principales publicaciones derivadas

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

44

Page 45: Dra. Ma. de Guadalupe García Hernández · Los procesos de decisión de Markov ... priorización, que busca estados con cambio en función de valor entre dos actualizaciones sucesivas

6. Trabajo futuro

Generalizar el algoritmo propuesto.

Resolver procesos de decisión de Markov

parcialmente observables.

Resolver en tiempo real problemas de ruta

estocástica más corta.

1. Introducción > 2. Objetivo > 3. IPVI: nuevo algoritmo de iteración de valor priorizado > 4. Evaluación > 5.Conclusiones > 6. Trabajo futuro

45