Clase Markov Ultima_campus

32
7/23/2019 Clase Markov Ultima_campus http://slidepdf.com/reader/full/clase-markov-ultimacampus 1/32 Investigación d Operaciones I Prof. Juan José Bravo, PhD Cadenas de Markov Construcción de matrices de transición en conte manufactura con múltiples eventos aleatorios y Procesos de Decisión de Markov Sugerencia : Ver este material en modo de presentación

Transcript of Clase Markov Ultima_campus

Page 1: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 1/32

Investigación d

Operaciones IProf. Juan José Bravo, PhD

Cadenas de Markov

Construcción de matrices de transición en contemanufactura con múltiples eventos aleatorios y

Procesos de Decisión de Markov

Sugerencia: Ver este materialen modo de presentación

Page 2: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 2/32

En sistemas de manufactura o de servicios es común que la incertidumbreaparezca.

Desde mi perspectiva la incertidumbre se “siente” y en la vida real sentirá en(no pocas) ocasiones ganas de decirle a su subalterno: ¿por qué no pudisteprever lo que iba a pasar? A lo que él seguramente le responderá: “es que nosabía que eso pasaría justo en este momento”…”hay  veces pasa y hay vecesque no”. Es común también escuchar: “nunca sabemos el momento en quellegará ese cliente”, “hay  veces llega cuando menos lo esperamos, y noestamos listos”. Muchas veces los fallos de máquinas ocurren de manera

inesperada, generando paros de producción con pérdidas que pueden sersignificativas. Como puede ver, la incertidumbre perturba su estado detranquilidad y la clave está en identificar lo mejor posible las fuentes deincertidumbre para ver como adelantarse al evento “aleatorio” que tanto loincomoda y tomar así medidas de protección que le generen tranquilidad ensu labor diaria.

Lea primero esto

Juan J. Bra

Page 3: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 3/32

 A continuación resolveremos un problema que he diseñadocon el objeto de:

Identificar los eventos aleatorios que podrían participaren cierta problemática.• Mostrar el impacto que podría tener la interacción de

distintos eventos aleatorios sobre un sistema objeto deestudio.

•  Aprender a relacionar dichos eventos, considerando dosposibles tipos de relación: intersección y unión de

eventos.• Estudiar de qué manera ese análisis de eventos puede

conducir a la construcción de matrices de probabilidadesde transición entre estados.

Page 4: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 4/32

Cliente

Probabilidad de

que llegue un

cliente = 20%

Si un cliente llega:Demandará 2 unidades con probabilidad del 60%

Demandará 1 unidad con probabilidad del 30%Demandará 0 unidades con probabilidad del 10%

Se desea explorar la evolución del inventario en el almacén A1, considerando que pueden llegaclientes a solicitar productos, tal como se ha esquematizado. Considere entonces el análisis concadenas de markov del proceso estocásticoXt = Cantidad de productos en A1 al inicio de cada hora t

Listado de eventosa. M1 saca lote bub. M1 saca lote dec. M2 funciona bied. M2 falla (10%)e. Llega un clientef. No llega ningúng. Un cliente demh. Un cliente demai. Un cliente no d

      p      r       i      o      r       i       t      a      r

       i      o

Page 5: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 5/32

Listado de eventosa. M1 saca lote bueno (95%)b. M1 saca lote defectuoso (5%)c. M2 funciona bien (90%)d. M2 falla (10%)e. Llega un cliente (20%)f. No llega ningún cliente (80%)

Observe que lalista de eventos aleatorios

debería tener mejor el siguiente esquema:

g. Un cliente demanda 2 unid. (60%)h. Un cliente demanda 1 unid. (30%)i. Un cliente no demanda nada (10%)

Lo anterior deja establecido que los eventos aleatorios g, h, i dependen de la ocurdel evento aleatorio e.

Page 6: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 6/32

Habiendo considerado la Listade Eventos, se deberá construir laMatriz de Probabilidades deTransición entre estados, propiade las cadenas de markov.

¿Cuáles son los estados posibles pa

Xt = {0, 1, 2, 3}

Page 7: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 7/32

Para el cálculo de las probabilidades condicionales asociadas a la matrizP

, le doy lassiguientes recomendaciones:

• Mas importante que los valores de las probabilidades asignadas a los eventos de laEVENTOS, son los eventos en sí mismos y la relación entre ellos. Identificar qu

esa lista participan en cierta problema puntual y cómo ellos se relacionan, es unLos eventos interactúan entre sí produciendo consecuencias o efectos que se desea

• Luego de definir los eventos correctos y la relación entre ellos, los cálculos numérirealizan generalmente sin inconvenientes.

• Respecto a la relación entre eventos, manejaremos dos tipos de relaciones: La intereventos (eventos que deben ocurrir de manera simultánea para lograr cierta consecuunión. Considere tres eventos cualquiera A, B y C, y asuma que tiene clara cierta co

cuya ocurrencia se debe a la interacción de dichos eventos. En caso por ejemplo derelacionarlos de la siguiente manera: [(A ∩ B) U (A ∩ C)], implica que la consecuebuscada se obtiene si ocurren (A

y

B)ó

(Ay

C), es decir, note que la unión se encaenlazar “alternativas” que generan la “misma consecuencia”, enlaza opciones que co

mismo resultado final. En este caso, la probabilidad de que ocurra dicha consecuen

a: P((A ∩ B) U (A ∩ C)) = P(A ∩ B)+

P(A ∩ C) = P(A)P(B)+

P(A)P(C)

Page 8: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 8/32

Calculo de las probabilidades condicionales

P00 =

P02 =

P03 =

P(b) U P(a ∩ e ∩ g) U P(a ∩ e ∩ h ∩c)

= P(b) + P(a)P(e)P(g) + P(a)P(e)P(h)P(c) = 0,2153

P01 = P(a ∩ e ∩ h  ∩ d) U P(a ∩ f ∩ c) U P(a ∩ e ∩ i  ∩ c)= P(a)P(e)P(h)P(d) + P(a)P(f)P(c) + P(a)P(e)P(i)P(c) = 0,7068

P(a ∩ f  ∩ d) U P(a ∩ e ∩ i ∩ d)

= P(a)P(f)P(d) + P(a)P(e)P(i)P(d) = 0,0779

0

P10 = P(b ∩ f ∩ c) U P(b ∩ e ∩ i ∩c) U P(b ∩ e ∩ (g U h))U P(a ∩ e ∩ g ∩ c)

= P(b)P(f)P(c) + P(b)P(e)P(i)P(c) + P(b)P(e)(P(g)+P(h)) +

P(a)P(e)P(g)P(c) = 0,1485

Uso de la prioridaddel cliente

Supuesto: Si el clientedemanda 2 unidades ysolo hay 1, se lleva esa

unidad.

Tenga en cuenta queeventos es en cada ca

lógico” basado simpl

sentido común. Uste

preguntarse: ¿Qué evocurrir para que…?

Continúe usted…

Page 9: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 9/32

La matriz final es por lo tanto la siguiente:

=0,2153 0,7068 0,0779 00,1485 0,0668 0,7068 0,07790,1113 0,0999 0,7109 0,07790,108 0,066 0,744 0,082

Page 10: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 10/32

¿Que pasaría si la prioridad la tuviera la máquina

M2 sobre el Cliente?

P00 = P(b) U P(a ∩ e ∩ g ∩ d) U P(a ∩ e ∩ (g U h) ∩ c)

Rompimiento de laprioridad del cliente

Compare cuidadosamente la estructura de P00 cuando la

prioridad es del cliente y el cambio de dicha estructuracuando la prioridad es de la máquina M2

P00 = P(b)+

P(a)*P(e)*P(g)*P(d)+

P(a)*P(e)*[P(g) + P(h)]*P(c) =0,2153

En este caso, ambas estructuras de P00 con distintas prioridades arrojael mismo resultado (coincidencia que no debe generalizarse).

Consideración delestado de la máquinaM2

Page 11: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 11/32

¿Cómo podría usted construir la matriz de

probabilidades de transición en la práctica?

Concéntrese SOLAMENTEen los estados que tenga A1 Debe tener usted un registro de lo

del almacén en cada hora, a lo larg

periodo de tiempo. Es decir, debeen la empresa por la siguiente info

¿Cuál ha sido el nivel de inventario en A1 al inicio de cadahora, durante (por ejemplo) las últimas 100 horas?

Page 12: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 12/32

¿Cómo podría usted construir la matriz de

probabilidades de transición en la práctica?

Observación

No.

Estados

Observados

al inicio de

cada hora

Observación

No.

Estados

Observados

al inicio de

cada hora

Observación

No.

Estados

Observados

al inicio de

cada hora

Observación

No.

E

O

a

ca

1 2 21 2 41 1 61

2 0 22 3 42 0 62

3 0 23 2 43 1 63

4 0 24 0 44 2 64

5 1 25 2 45 2 65

6 0 26 1 46 0 66

7 1 27 2 47 2 67

8 2 28 1 48 1 68

9 3 29 3 49 2 69

10 1 30 1 50 3 70

11 1 31 2 51 3 7112 0 32 3 52 0 72

13 2 33 1 53 0 73

14 0 34 2 54 1 74

15 0 35 2 55 2 75

16 0 36 3 56 2 76

17 2 37 3 57 1 77

18 3 38 3 58 3 78

19 3 39 3 59 3 79

20 2 40 3 60 2 80

 Asuma que le proporcionanla siguiente información:

Esta información es

suficiente para construir la

Matriz de Probabilidades

de Transición

Page 13: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 13/32

¿Cómo podría usted construir la matriz de

probabilidades de transición en la práctica?

Observación

No.

Estados

Observados

al inicio decada hora

Registro de

Transiciones

1 2

2 0 de 2 a 0

3 0 de 0 a 0

4 0 de 0 a 0

5 1 de 0 a 1

6 0 de 1 a 0

7 1 de 0 a 1

8 2 de 1 a 2

9 3 de 2 a 3

10 1 de 3 a 1

11 1 de 1 a 1

12 0 de 1 a 0

13 2 de 0 a 2

14 0 de 2 a 0

15 0 de 0 a 0

16 0 de 0 a 0

17 2 de 0 a 2

18 3 de 2 a 3

19 3 de 3 a 3

20 2 de 3 a 2

0

0 8

1 5

2 7

3 2

Matri

Prob

Transi0

0 36%

1 19%

2 28%

3 8%

Page 14: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 14/32

¿Una vez encontrada la matriz de probabilidades

de transición, cómo se puede aprovechar dicha

matriz?

Análisis Básico

Procesos de Decisión de Markov

•  Análisis topológico (identificación de estados recurrentes, ytransitorios, definición de clases)

•  Análisis de estado estable (probabilidades de estado estable y sinterpretación)

•  Análisis de interacción entre estados transitorios y recurrentes

Considera un conjunto de acciones a tomar relacionadas con laocurrencia de distintos estados, y busca encontrar las “acciones

óptimas” que el decisor debe seguir, teniendo en cuenta el

beneficio que implica el tomar cada acción.

Page 15: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 15/32

Análisis de interacción entre estados transitorios

y recurrentes

(1) ¿Cuánto tiempo tardará el Sistema en ser “absorbido” por estadosrecurrentes?

(2) ¿Cuanto tiempo el Sistema permanecerá en cada estado transitorio,antes de que sea “absorbido” el sistema?

(3) Si hay múltiples estados/clases recurrentes, ¿cuál es la probabilidadde que el Sistema finalice en esos estados/clases?

Pueden habitualmente existir las siguientes inquietudes:

 Aquí se muestra una forma de realizar esos cálculos:

Page 16: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 16/32

Análisis de interacción entre estados transitorios

y recurrentes

1. Determine cuales estados son transitorios (T) y cuales recurrentes, llamados tambiabsorbentes, (A)

2. Partiendo de la matriz P, identifique y extraiga la sub-matriz PTT, la cual muestra solas probabilidad de pasar de un estado transitorio a otro transitorio.

3. Partiendo de la matriz P, identifique y extraiga la sub-matriz PTA , la cual muestra solas probabilidad de pasar de un estado transitorio a otro recurrente.

4. Realice los siguiente cálculos, donde I representa la matriz identidad:

(a) M = (I −PTT )−1. Entonces el element Mij de la matriz M es el numero esperad

 visitas hacia el estado transitorio j desde el estado transitorio i, antes de la abso

(a) X = (I −PTT )−1PTA . Entonces el element Xij de la matriz X es la probabilidad,comenzando en el estado i, que el Sistema sea absorbido por el estado recurre

Page 17: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 17/32

Análisis de interacción entre estados transitorios

y recurrentes

Ejemplo:

A B C D

A 100% 0% 0% 0%

B 9% 27% 41% 23%

C 18% 31% 9% 42%

D 0% 5% 26% 69%

A B

CD

Clase I = {A} RClase II = {B,C

P =

P =

A B C D

A 100% 0% 0% 0%

B 9% 27% 41% 23%

C 18% 31% 9% 42%D 0% 5% 26% 69%

A

B 9%

C 18%

D 0%

=

=

B C D

B 27% 41% 23%

C 31% 9% 42%

D 5% 26% 69%

1 0 0

0 1 0

0 0 1

27% 41% 23%

31% 9% 42%

5% 26% 69%

=

=

Page 18: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 18/32

Análisis de interacción entre estados transitorios

y recurrentes

Ejemplo:

A B C D

A 100% 0% 0% 0%

B 9% 27% 41% 23%

C 18% 31% 9% 42%

D 0% 5% 26% 69%

Clase I = {A} Recurrente (p=1)Clase II = {B,C,D} Transitoria 

P =

M =

B C D

B 3,51 3,8 7,8

C 2,38 4,37 7,7

D 2,56 4,27 11

A

B 1,00 

C 1,00 

D 1,00 

X =

El numero esperado de visitas al estado transitorio C, pa

estado transitorio D, antes de ser el proceso estocástico

por el estado recurrente A, es de 4,27 visitas.

Partiendo del estado transitorio C, la probabilidad de que

el proceso estocástico sea absorbido por el estado

recurrente A es de 1 (en este caso por razones lógicas,

dado que hay un solo estado recurrente).

Page 19: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 19/32

Procesos de Decisión de Markov

Componentes de un proceso de decisión de markov

MOMENTO de la decisión Tiempo en el cual las decisiones son tomadas.T = {1…N}, donde t ∈ T.

Espacio de ESTADOS Conjunto S de estados mutuamente excluyentes que definen los p

proceso en cada momento. Cada estado se simboliza como s ∈ S.estado que puede tomar el proceso en el momento t.

Espacio de ACCIONES Conjunto de posibles acciones que pueden realizarse al llegar a casimboliza como el conjunto A, donde a ∈ A, y a

t

representa una ael momento t.

Probabilidades de Transición Matriz de probabilidades de transición entre estados. La probabilestado en t+1, dependerá del estado actual en t y de la acción quehaya tomado. Puede decirse que Pij (a) = P(s

t+1

= j/ st

= i, a

t

= a)

Función de RECOMPENSA  Valor asociado a tomar una acción cuando se llega a un estado entiempo. Se simboliza r

t

 s,a). Estan relacionados con un factor de dque le indica la importancia de las recompensas futuras versus las

REGLA de decisión Qué acción del conjunto A (es decir, qué decision) se toma en una cada estado. Se simboliza como d

t

 s) ∈ A.

POLITICA Una secuencia de “REGLAS de decisión” en cada periodo de tiem

simbolizar la política =(d1,…,dN-1)

Page 20: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 20/32

Procesos de Decisión de Markov

En cada período de tiempo t, el estado del sistema s prove altomador de decisions toda la información necesaria para queescoja una acción a.

Como resultado de escoger esa acción, el tomador dedecisiones recibe una recompensa 

r

 y el sistema evoluciona a otro estado posiblemente diferente

 

con probabilidad p.

Page 21: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 21/32

Procesos de Decisión de Markov

∗   = max∈

    , (1 − )∈

(    , )+∗   ,  ∈ , = 1,

Ecuación de Bellman

Considere a ∗  el valor óptimo de la recompensa total esperada en el momento t, cuanestado del sistema es , y faltan (N- t) periodos en el horizonte de tiempo.

En cada periodo de tiempo t, se escoje la acción ∈ que maximiza ∗  , considerant, t+1,..,N, para un estado  actual.

Para un estado dado  y una acción particular ∈ , la recompense total esperada es calla recompensa “inmediata ”  ,  y la recompensa “futura ” . Esta última se obtiene mulprobabilidad de llegar (en t+1) a un estado j partiendo de , por la maxima recompensa espara el estado j, y esto se suma para todos los posibles estados en t+1. Como puede verse erecursivo.

Page 22: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 22/32

Procesos de Decisión de Markov

 Algoritmo de decisión alternativo (enumeración exhaustiva)

1. Se cuenta con la matriz de probabilidades de transición entre estados.

2. Si se toma la decisión ()=, se incurre en un costo “inmediato” esperado

3. Se definen a priori ciertas políticas de decisión a evaluar4. Cada política estará relacionada con una matriz de probabilidades de transición

especifica, derivada de la matriz de probabilidades de transición de estadosoriginal.

5. Se calculan las probabilidades de estado estable de cada matriz,

6. Se evalúa el costos esperado de cada política con la expresión = 7. El objetivo es encontrar una política óptima que maximice la recompensa

(minimice los costos) esperada.

Page 23: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 23/32

Procesos de Decisión de Markov

Tomado de

Page 24: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 24/32

Procesos de Decisión de Markov

Estado 0 1 2 3 

0

1

2

3

 

0 7/8 1/16 1/16

0 3/4 1/8 1/8

0 0 1/2 1/2

0 0 0 1

 

Solicitando datos históricos asociados a los estados demaquina de un mes a otro se construyó la siguiente matrizde probabilidades de transición de estados.

Se puede observar que, una vese vuelve inoperable (estado 3en ese estado, situación queporque detiene la producción,máquina debe reemplazarsemáquina comenzaría en el estad

El proceso de reemplazo toma 1 semana de manera que la producción se pierde dueste período. El costo de la producción perdida es de $2,000 y el costo de reemplamaquina es de $4,000, de manera que el costo total asociado a llegar al estado 3$6,000.

Page 25: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 25/32

Procesos de Decisión de Markov

 Aún antes de que la máquina llegue alestado 3, puede incurrirse en costospor producción de artículos

defectuosos.

Estado Costo esperado debido a

artículos defectuosos ($)

0

12

0

1,0003,000

Se han mostrado los costos de laPolítica 1: reemplazar la máquinacuando es inoperable y no darlemantenimiento en otros casos.

Estado

0

1

2

3

 

Con esta política la matriz detransición de transición ahoraes la siguiente:

Para evaluar la Política 1 con cadenas de markov, se usa el costo o beneficio) promedio espe

unidad de tiempo a la larga) que podríamos simbolizar como E(C). Para calcular estaprimero deben calcularse las probabilidades de estado estable. Verifique que en este caprobabilidades dan el siguiente resultado:  =  

,  =  ,  =  

,  = 

E(C) = 0+1,000  3,000  6,000 = 1,923.07

Page 26: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 26/32

Procesos de Decisión de Markov

Pero pueden existir otrasposibles acciones a tomar

Por ejemplo, quizás la máquina debierreemplazarse antes de llegar al estado 3es decir, reemplazar también en 1 y 2.

Decisión acciones) Estados

involucrados

Costo esperado por

defectuosos

Costo de

mantenimiento

Costo por

producción

perdida

1. No hacer nada 012

01,0003,000

000

000

2. Reparación general 2 0 2,000 2,000

3. Reemplazar 1,2,3 0 4,000 2,000

Otra alternativa es realizar una reparación general a un costo de $2,000. Esta opción no es en el estado 3 y no mejora la máquina si está en estado 0 o el 1, siendo solo de interés en e2. En ese estado, una reparación colocaría la máquina en el estado 1. Se requiere de una separa ello y por lo cual hay un costo adicional de $2,000 asociado a las pérdidas por no prod

Page 27: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 27/32

Procesos de Decisión de Markov

Decisión acciones) Estados

involucrados

Costo esperado por

defectuosos

Costo de

mantenimiento

Costo por

producción

perdida

1. No hacer nada 012

01,0003,000

000

000

2. Reparación general 2 0 2,000 2,000

3. Reemplazar 1,2,3 0 4,000 2,000

Estados Decisiones (acciones)

1 2 3

0 0 0 0

1 1,000 0 6,000

2 3,000 4,000 6,000

3 0 0 6,000

Por lo tanto es igual a:

Page 28: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 28/32

Procesos de Decisión de Markov

Después de cada inspección de la máquina se elige entonces entre tres decisiones(acciones) posibles:1. no hacer nada, 2. reparación general, 3. reemplazo

Considere a

la decisión (acción) a tomar al encontrarnos en el estado s. Se tiene

entonces que la Política 1 puede esquematizarse como: (, , , )=(1,1,1,3)

La políticas se van a considerar est ion ri s, es decir, siempre que el sistema se encuentredeterminado estado se aplicará cierta acción.Las políticas que se evaluarán y compararán en el ejemplo serán las siguientes:

Política Descripción (R)    (R)    (R)    (R) 

Reemplazo en el estado 3 1 1 1 3

Reemplazo en 3, reparación general en 2 1 1 2 3

Reemplazo en 2 y 3 1 1 3 3

Reemplazo en 1,2 y 3 1 3 3 3

Page 29: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 29/32

Cada política da una matriz de transicióndiferente

Matriz de Transición original

Estado Ra

0 1 2 3 

0

1

2

3

 

0 7/8 1/16 1/16

0 3/4 1/8 1/8

0 0 1/2 1/2

1 0 0 0

 

Estado Rb

0 1

0

1

2

3

 

0 7/8

0 3/4

0 1

1 0

Estado Rc

0 1 2 3 

01

2

3

 

0 7/8 1/16 1/160 3/4 1/8 1/8

1 0 0 0

1 0 0 0

 

Estado Rd

0

01

2

3

 

0 71

1

1

Estado 0 1 2 3 

0

1

23

 

0 7/8 1/16 1/16

0 3/4 1/8 1/8

0 0 1/2 1/20 0 0 1

 

Page 30: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 30/32

Procesos de Decisión de Markov

Política       E C)

2/13 7/13 2/13 2/13 0+1,000  3,000  6,000 =1,923.07

2/21 5/7 2/21 2/21 0+1,000  4,000 6,000 =1,667

2/11 7/11 1/11 1/11 0+1,000  6,000 6,000 = 1,727

1/2 7/16 1/32 1/32 0+6,000  6,000 6,000 = 3,000

Se puede observar que la política óptima es con un costo esperado a largoplazo de $1,667.

Page 31: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 31/32

Procesos de Decisión de Markov con PL

Sea la probabilidad de estado estable asociada al estado s cuando en él setoma la decision a.

Sea la probabilidad de estado estable asociada al estado s.

 = ∈

 = 1

 = ∈

 = ∈

 () Para un estado s ∈

Modelo de PL

= ∈

Sujeto a:

 = 1

 = ∈

 ()Escriba aquí la ecuación. ∈

 ≥ 0 para todo (s,a)

Page 32: Clase Markov Ultima_campus

7/23/2019 Clase Markov Ultima_campus

http://slidepdf.com/reader/full/clase-markov-ultimacampus 32/32

Procesos de Decisión de Markov con PL