Procesos de Markov

27
PROCESOS DE DECISIÓN MARKOVIANOS * En Programación Dinámica hemos visto la optimización de sistemas dinámicos discretos, tanto determinísticos como estocásticos, en horizonte finito. Estudiaremos ahora problemas de decisión en sistemas dinámicos estocásticos en horizonte infinito, es decir problemas en los que interesa el comportamiento a largo plazo del sistema. En estos casos es muy importante el concepto de proceso estocástico, en particular el de cadena de Markov. Las cadenas de Markov y los procesos de decisión markovianos constituyen modelos aplicables a una amplia gama de problemas en áreas tales como producción (stocks, mantenimiento, reemplazo de equipos), comercialización, finanzas, recursos hídricos, etc. 1. PROCESOS ESTOCÁSTICOS Se llama proceso estocástico a una colección de variables aleatorias {X t }, donde el subíndice t es una variable que pertenece a un conjunto dado. En la mayoría de los casos t representa el tiempo. Por ejemplo, X 1 ¸ X 2 ¸ X n ¸ , pueden representar el nivel de las existencias de un producto con demanda aleatoria al finalizar las semanas 1, 2, , n, . De esta forma un proceso estocástico es un modelo que describe el comportamiento de un sistema dinámico bajo el efecto de un fenómeno aleatorio. Cada valor posible de las variables X t es un estado del proceso. Por ejemplo, el valor que toma X k es el nivel de existencias al finalizar la semana t = k. El conjunto de todos los valores posibles asociados a un proceso estocástico (es decir los valores posibles de todas las X t ) se llama espacio de estados del proceso. Una transición es cualquier cambio, de un estado del proceso en un instante, a un estado en otro instante posterior. Si t 0 es una variable discreta (continua) el proceso se llama de parámetro discreto (continuo). Si las variables aleatorias X t son discretas (continuas) el proceso estocástico se llama discreto (continuo). Por ejemplo, en un sistema de fila de espera si X t representa la cantidad de arribos (proceso de nacimiento puro) en el intervalo [0, t), estamos en presencia de un proceso estocástico discreto de parámetro continuo; y análogamente para las partidas. En lo que sigue supondremos que el proceso es discreto, de parámetro discreto, y que todas las variables aleatorias tienen el mismo conjunto de definición. En un proceso estocástico discreto, de parámetro discreto, el espacio de estados es discreto. Si las X t de un proceso discreto son finitas, el proceso se llama finito. En un proceso estocástico finito se pueden graficar los estados y las transiciones entre ellos, en dos instantes consecutivos, mediante un grafo llamado diagrama de transición de estados. Cada estado se indica con un nodo y cada transición con un arco. Supongamos, por ejemplo, que una máquina puede estar en alguno de estos tres estados: 1-Operando; 2-Inactiva; 3-En reparación (por rotura, que sólo puede ocurrir estando en operación). El diagrama de transición de estados entre dos instantes consecutivos, por ejemplo de un día para el siguiente, es el indicado en la figura. 1 2 3 1 * Nota Técnica preparada por el Profesor Rogelio A. A. Morán. Escuela de Ingeniería Industrial, Facultad de Ciencias Exactas, Ingeniería y Agrimensura, Universidad Nacional de Rosario. Prohibida su reproducción sin autorización del autor. 2006.

description

Procesos de markov

Transcript of Procesos de Markov

Page 1: Procesos de Markov

PROCESOS DE DECISIÓN MARKOVIANOS *

En Programación Dinámica hemos visto la optimización de sistemas dinámicos discretos, tanto determinísticos como estocásticos, en horizonte finito. Estudiaremos ahora problemas de decisión en sistemas dinámicos estocásticos en horizonte infinito, es decir problemas en los que interesa el comportamiento a largo plazo del sistema. En estos casos es muy importante el concepto de proceso estocástico, en particular el de cadena de Markov.

Las cadenas de Markov y los procesos de decisión markovianos constituyen modelos aplicables a una amplia gama de problemas en áreas tales como producción (stocks, mantenimiento, reemplazo de equipos), comercialización, finanzas, recursos hídricos, etc.

1. PROCESOS ESTOCÁSTICOS Se llama proceso estocástico a una colección de variables aleatorias {Xt}, donde el

subíndice t es una variable que pertenece a un conjunto dado. En la mayoría de los casos t representa el tiempo. Por ejemplo, X1¸ X2¸ … Xn¸ … , pueden representar el nivel de las existencias de un producto con demanda aleatoria al finalizar las semanas 1, 2, … , n, … . De esta forma un proceso estocástico es un modelo que describe el comportamiento de un sistema dinámico bajo el efecto de un fenómeno aleatorio.

Cada valor posible de las variables Xt es un estado del proceso. Por ejemplo, el valor que toma Xk es el nivel de existencias al finalizar la semana t = k. El conjunto de todos los valores posibles asociados a un proceso estocástico (es decir los valores posibles de todas las Xt) se llama espacio de estados del proceso. Una transición es cualquier cambio, de un estado del proceso en un instante, a un estado en otro instante posterior.

Si t ≥ 0 es una variable discreta (continua) el proceso se llama de parámetro discreto (continuo). Si las variables aleatorias Xt son discretas (continuas) el proceso estocástico se llama discreto (continuo). Por ejemplo, en un sistema de fila de espera si Xt representa la cantidad de arribos (proceso de nacimiento puro) en el intervalo [0, t), estamos en presencia de un proceso estocástico discreto de parámetro continuo; y análogamente para las partidas.

En lo que sigue supondremos que el proceso es discreto, de parámetro discreto, y que todas las variables aleatorias tienen el mismo conjunto de definición.

En un proceso estocástico discreto, de parámetro discreto, el espacio de estados es discreto. Si las Xt de un proceso discreto son finitas, el proceso se llama finito. En un proceso

estocástico finito se pueden graficar los estados y las transiciones entre ellos, en dos instantes consecutivos, mediante un grafo llamado diagrama de transición de estados. Cada estado se indica con un nodo y cada transición con un arco. Supongamos, por ejemplo, que una máquina puede estar en alguno de estos tres estados: 1-Operando; 2-Inactiva; 3-En reparación (por rotura, que sólo puede ocurrir estando en operación). El diagrama de transición de estados entre dos instantes consecutivos, por ejemplo de un día para el siguiente, es el indicado en la figura.

1 2

3

1

* Nota Técnica preparada por el Profesor Rogelio A. A. Morán. Escuela de Ingeniería Industrial, Facultad de Ciencias Exactas, Ingeniería y Agrimensura, Universidad Nacional de Rosario. Prohibida su reproducción sin autorización del autor. 2006.

Page 2: Procesos de Markov

Cabe señalar que un diagrama de transiciones en el tiempo, como el utilizado en Programación Dinámica, no aportaría nada por cuanto sería una repetición indefinida del mismo esquema.

1.1. Probabilidades de transición A cada transición del proceso, de un estado en un instante a un estado en el instante

siguiente, se le asocia una probabilidad de transición. Es la probabilidad (condicional) de que el sistema esté en un cierto estado en un instante dado, sabiendo en qué estados estuvo en los instantes anteriores. Para parámetro discreto, indicando con ti a los distintos instantes, se puede escribir

),,,,,|(001111 tttttttttt xXxXxXxXxXP

iinnnnnn=====

−−++LL (1)

donde t0 indica el instante inicial del proceso.

Si estas probabilidades no dependen del tiempo, es decir del instante en el que se considera la transición, el proceso se llama homogéneo. Caso contrario es no homogéneo.

Si la probabilidad de estar en un estado cualquiera es independiente de cuáles hayan sido los estados anteriores, es decir si

)(),,,,|(110011 ++++

======nniinnnn tttttttttt xXPxXxXxXxXP LL (2)

el proceso se llama aleatorio puro. Todos los ensayos independientes al azar son procesos de este tipo.

1.2. Procesos de Markov Si en un proceso estocástico se cumple la propiedad de Markov: El estado del proceso

en un instante depende sólo del estado del proceso en el instante inmediato anterior y es independiente de todos los estados anteriores a éste, el proceso se llama proceso de Markov. Si el proceso de Markov es discreto se llama cadena de Markov, es decir si

)|(),,,,|(110011 nnnniinnnn tttttttttttt xXxXPxXxXxXxXP =======++++

LL (3)

Se dice entonces que los estados del proceso forman una cadena de Markov.

La condición de Markov se puede formular también así: Los estados anteriores de un sistema sólo pueden influir sobre los estados ulteriores a través del estado presente.

2. CADENAS DE MARKOV En lo que sigue, salvo indicación en contrario, vamos a considerar solamente cadenas de

Markov finitas (CMF), homogéneas y de parámetro discreto. Los instantes los indicaremos con: 0, 1, 2, … , n, … ; y los estados con: 1, 2, … , j, … , k, … , N.

La probabilidad de transición del estado j en el instante n al estado k en el instante n+1 la indicaremos

NkjjXkXPp nnjk ,,2,1,,)|( 1 L==== + (4)

Estas probabilidades se llaman probabilidades de transición en una etapa (o, simplemente, probabilidades de transición), porque son las que corresponden a transiciones de un estado en un instante, a un estado en el instante inmediato siguiente.

La probabilidad de transición en m etapas, es decir la probabilidad de transición del

Procesos de Decisión Markovianos. 2006 R. Morán. 2

Page 3: Procesos de Markov

estado j en el instante n al estado k en el instante n+m, se indicará

NkjmjXkXPp nmnm

jk ,,2,1,,,2,1,)|()( LL ===== +(5)

La (4) es un caso particular de la (5) para m = 1, pero no se indicará con el superíndice 1.

2.1. Matriz de probabilidades de transición de estados

Las probabilidades de transición de estados se pueden presentar en forma matricial Estados finales

P =

E

stad

os in

icia

les

NNNkNN

jNjkjj

Nk

Nk

pppp

pppp

pppppppp

N

j

Nk

LL

MMMM

LL

MMMM

LL

LL

M

M

LL

21

21

222221

111211

21

21

(6)

Análogamente, indicaremos con Pm a la matriz de probabilidades de transición en m etapas (m ≥ 2).

La j-esima fila de P contiene las probabilidades de transición del estado j en una etapa a cada uno de los estados en la etapa siguiente. Evidentemente las filas de esta matriz deben sumar 1 ya que todos los estados en una etapa forman un conjunto completo de sucesos. Es decir

NipN

jij ,,2,1,1

1L==∑

=

(7)

Análogamente para Pm. Una matriz tal que todos sus elementos son no negativos y todas sus filas suman 1, se llama matriz estocástica. Si sus columnas también suman 1 se llama doblemente estocástica o biestocástica, pues su transpuesta también es estocástica.

Propiedad. El producto de matrices estocásticas es una matriz estocástica.

En efecto, consideremos un vector U, de dimensión N × 1, cuyos elementos sean todos iguales a 1. Entonces por (7) es inmediato que PU = U, lo que demuestra que P tiene un autovalor igual a 1 y U es un autovector (columna) de P. Además, si P y Q son dos matrices estocásticas de orden N, entonces PU = U y QU = U, y premultiplicando la primera por Q y reemplazando la segunda resulta

UQUQPU == (8)

Es decir, la matriz QP es tal que sus filas suman 1 y sus elementos son todos no negativos, porque son de la forma pij × qkl y ambos factores son no negativos por ser elementos de matrices estocásticas, luego es una matriz estocástica.

En particular, todas las potencias de P son matrices estocásticas.

2.2 Ecuaciones de Chapman-Kolmogorov

Estas ecuaciones establecen una relación fundamental entre las probabilidades de transición (en una etapa) y las probabilidades de transición en m etapas. Para su deducción partiremos del conocido Teorema de las Probabilidades Totales:

Procesos de Decisión Markovianos. 2006 R. Morán. 3

Page 4: Procesos de Markov

∑=

=N

iii BPBAPAP

1)()|()( (9)

Este teorema puede generalizarse considerando probabilidades condicionales como sigue

∑=

=N

iii CBPCBAPCAP

1)|(),|()|( (10)

Pasando a variables aleatorias y aplicándolo a nuestro caso podemos escribir

∑=

++++ ========N

ip

nrnnrnmn

p

nmnr

jim

jk

jXiXPjXiXkXPjXkXP1 (*) )()(

)|(),|()|(444 3444 2144444 344444 21444 3444 21

(11)

donde 1 ≤ r < m. Por la condición de Markov la (*) resulta )()|(),|( rm

ikrnmnnrnmn piXkXPjXiXkXP −++++ ======= (12)

con lo que la (11) queda

∑=

−=N

i

rji

rmik

mjk ppp

1

)()()( (13)

que son las ecuaciones de Chapman-Kolmogorov.

Observemos ahora que la (13) es el producto escalar de la fila j de Pr por la columna k de Pm-r que da el elemento genérico de Pm. Luego podemos escribir las ecuaciones en forma equivalente

rmrm PPP −= (14)

Para r = 1 resulta Pm = P Pm-1 y por aplicación reiterada de ésta obtenemos mm

mmmm PPPPPPPPPPP ====== −−−−

12

221 L (15)

es decir m

m PP = (16)

Esto es, la matriz de probabilidades de transición en m etapas se obtiene calculando la potencia m-ésima de la matriz P. Concluimos entonces que la matriz P contiene toda la información necesaria para calcular las probabilidades de transición en cualquier número de etapas.

2.3. Clasificación de los estados

Un estado k es alcanzable desde otro j en m transiciones si . Dos estados j y k se llaman comunicantes si

son mutuamente alcanzables, aunque sea en diferente cantidad de transiciones, es decir si .

L,2,1,0)( => mp mjk

L,2,1,,0y0 )()( =>> rmpp rkj

mjk

j

Sin retorno

j

Absorbente

1

i

j

Comunicantes

k

Un conjunto de estados se llama comunicante si todos sus estados se comunican entre sí.

Un estado j tal que pkj = 0 ∀k se llama sin retorno (no se comunica con ninguno ni con él mismo). Un estado j tal que pjj = 1 se llama absorbente.

Procesos de Decisión Markovianos. 2006 R. Morán. 4

Page 5: Procesos de Markov

Un conjunto B de estados se llama esencial o absorbente si todo estado en B es alcanzable desde cualquier otro estado en B (son comunicantes), y no es posible alcanzar otro estado fuera de B. Es evidente que si un sistema evoluciona hacia algún estado de un conjunto

esencial no sale más de él. Un conjunto de estados no esencial se llama transitorio. Cuando se estudia el comportamiento de un proceso a largo plazo sólo interesan los conjuntos esenciales, puesto que una vez que alcanza un estado en un conjunto esencial el proceso no sale más de él. Una CMF puede tener varios conjuntos esenciales y transitorios. Si el conjunto esencial es único la CMF se llama indescomponible o inseparable. Caso contrario es descomponible o separable en conjuntos esenciales.

A3

A2 A1

Esencial

No esencial

A4

2.4. Probabilidades incondicionales Hasta ahora hemos considerado solamente las probabilidades condicionales que surgieron

del análisis de las transiciones. Sin embargo las variables aleatorias X0, X1, X2, … , Xn, … deben tener cada una su propia distribución de probabilidades, es decir las probabilidades de que el proceso esté en un determinado estado en un instante dado.

Nos proponemos ahora hallar estas distribuciones, y para esto necesitamos conocer la distribución de X0, la variable correspondiente a t = 0, el arbitrario instante inicial elegido para comenzar las observaciones del proceso.

Sean las probabilidades de X0

NjjXPwj ,,2,1,)( 0)0( L=== (17)

entonces la distribución de Xn está dada por

NkpwpjXPkXPwN

j

njkj

N

j

njkn

nk ,,2,1,)()(

1

)()0(

1

)(0

)( L====== ∑∑==

(18)

En forma matricial se puede expresar: 1 n

Nkn

Nn

knn Pwwwwwwww )()( )0()0()0(

2)0(

1)()()(

2)(

1 LLLL = (19)

e indicando con W(n) y W(0) a los vectores de probabilidades se tiene

L,2,1,)0()( == nPWW nn (20)

Ejemplo 1. Supongamos una CMF que puede tomar los dos estados A = {A1 , A2} y que el proceso comienza en el instante t = 0 con

32

20)0(

231

10)0(

1 )(,)( ====== AXPwAXPw

Sean además la matriz de probabilidades de transición y el diagrama de transiciones de estados

Procesos de Decisión Markovianos. 2006 R. Morán. 5

1 Conservaremos aquí la costumbre, habitual en la bibliografía, de indicar como vectores fila a los vectores de probabilidades.

Page 6: Procesos de Markov

A2 ¼

¾

½A1

½

=

21

21

43

41

P

Entonces en t = 1 será

)()()( 127

125

21

21

43

41

32

31)0(

2)0(

1)0()1( =

=== PwwPWW

y en t = 2 resulta

)()( 4829

4819

21

21

43

41

127

125)1(2)0()2( =

=== PWPWW

Y así sucesivamente.

Además resulta

=

=

=

12877

12851

256153

256103

4

3219

3213

6439

6425

3

85

83

169

167

2 ,, PPP

y se observa que las filas de las potencias sucesivas de P tienden a ser iguales. Esta es una propiedad que veremos más adelante.

Ejemplo 2. Consideremos un sistema que puede tomar dos estados: A1 y A2 con probabilidades de transición p12 = λ y p21 = µ, donde 0 < λ < 1 y 0 < µ < 1. Evidentemente debe ser p11 = 1–λ y p22 = 1–µ, con lo que resulta

A2 1-λ

λ

1-µA1

µ

−=

µµλλ

11

P

Sean las probabilidades de X)0(2

)0(1 y ww 0 en t = 0. Entonces, calculando se obtiene

(ejercicio):

+

−−−++

=

+

−−−++

=

µλλµλ

µλλ

µλµµλ

µλµ

)0(2

)(2

)0(1

)(1

)1(

)1(

ww

ww

nn

nn

(21)

y puesto que | 1 − λ − µ | < 1 resulta

µλλ

µλµ

+=

+=

∞→∞→

)(2

)(1 lim,lim n

n

n

nww

(22)

Se observa que la distribución de Xn tiende a una distribución límite cuando n → ∞.

Observaciones sobre el ejemplo 2: 1) Los límites (22) son independientes de las probabilidades iniciales de X0.

2) Si se adoptan como probabilidades iniciales: µλ

λµλ

µ+

=+

= )0(2

)0(1 , ww entonces

Procesos de Decisión Markovianos. 2006 R. Morán. 6

Page 7: Procesos de Markov

resulta µλ

λµλ

µ+

=+

= )(2

)(1 , nn w

µ= )(2

)(1 , nn ww

w para todo n y no sólo para n → ∞.

3) Si λ + µ = 1 resulta sin ninguna hipótesis sobre el estado inicial. En este caso las variables X

λ=n son independientes.

4) Es fácil verificar (ejercicio) que los autovalores de P son 1 y 1 – λ – µ (que tiene módulo | 1−λ−µ | < 1) y el autovector correspondiente al autovalor 1 es == )( 21 wwW

++

=µλ

λµλ

µ .

Otras propiedades de las matrices estocásticas. Se puede demostrar que: 2

i) Una matriz estocástica admite siempre el autovalor 1 (que puede ser múltiple).

ii) Todos los demás autovalores de una matriz estocástica tienen módulo menor o igual que 1. Los que tienen módulo 1 son raíces de la unidad.

En lo que sigue nos ocuparemos del comportamiento asintótico de las CMF, es decir en el largo plazo.

2.5. Definiciones Si existe una distribución límite para Xn, independiente de la distribución de X0, la CMF se

llama ergódica. Las probabilidades límite se llaman probabilidades de estado permanente.

)(lim 21)(

Nn

nwwwWW L==

∞→ (23)

No toda cadena de Markov tiene distribución límite.

Se define la ergodicidad como la propiedad de un sistema que tiende en probabilidad hacia un estado límite independiente de la situación inicial. Como veremos más adelante la ergodicidad es una característica fundamental para el comportamiento estable del proceso en el largo plazo.

Si la distribución de X0 es tal que Xn tiene la misma distribución para todo n, es decir

WWWW n ===== LL )()1()0( (24)

dicha distribución W de llama estacionaria.

Evidentemente si la CMF es ergódica (es decir tiene distribución límite) y existe una distribución estacionaria, esta distribución deberá coincidir con la distribución límite. Si la cadena no es ergódica y tiene distribución estacionaria, ésta no es distribución límite (que no existe).

De (20) resulta evidentemente que un vector de probabilidades W será una distribución estacionaria si, y sólo si, satisface W = WP, que es un sistema de ecuaciones lineales que también se puede expresar

0)( =−⇒=⇒= TTTTT WIPWWPWPW (25)

donde I es una matriz identidad. Es decir, W será una distribución estacionaria si, y sólo si, es el autovector (fila) correspondiente al autovalor 1 de P. 2 Cf., por ejemplo, P. Gordon, Cadenas finitas de Markov y sus aplicaciones, Barcelona: Ed. Hispano Europea, 1967, pp. 90-91.

Procesos de Decisión Markovianos. 2006 R. Morán. 7

Page 8: Procesos de Markov

Ya hemos visto que toda matriz estocástica tiene un autovalor igual a 1, luego existe siempre un vector W no nulo que es distribución estacionaria del proceso. Si el autovalor 1 es de orden de multiplicidad k > 1, la matriz podría tener k autovectores linealmente independientes como distribuciones estacionarias. Enseguida veremos que si hay ergodicidad la distribución estacionaria es única.

Ejemplo 3. Considerando nuevamente el ejemplo 2 tenemos:

=−+=+−

=

221

121

2

1

2

1

)1()1(

11

wwwwww

ww

ww

µλµλ

µλµλ

que es un sistema homogéneo con determinante nulo y por lo tanto admite soluciones distintas de la trivial. Para resolverlo utilizaremos la condición adicional: w1 + w2 = 1 ⇒ w1 = 1 – w2. Reemplazando w1 en la primera ecuación se obtiene

µλµµµλµλ+

=⇒=+−−−⇒=−+− 11111 0)11()1()1( wwwww

y reemplazando este valor en la segunda ecuación resulta µλ

λ+

=2w .

Se observa que la distribución estacionaria coincide con la distribución límite encontrada en (22). Como veremos, es una propiedad general de los procesos ergódicos.

2.6. Propiedades Se pueden demostrar las siguientes propiedades de las cadenas de Markov finitas. 3

Teorema 1. Sea P la matriz de probabilidades de transición de una CMF homogénea. Entonces la cadena tiene distribución límite (es ergódica) si, y sólo si, existe un número ν entero positivo tal que Pν tiene al menos una columna con todos sus elementos estrictamente positivos.

Esta condición equivale a establecer que un estado j cualquiera es alcanzable en ν etapas desde cualquier otro estado.

Si P no tiene ceros, todo estado es alcanzable desde cualquier otro estado en una sola etapa. Si Pm no tiene ceros todo estado es alcanzable desde cualquier otro en m etapas. La cadena se llama entonces regular. Evidentemente si una CMF es regular entonces es ergódica, pero la recíproca no es cierta.

Teorema 2. Sea una CMF y ergódica con matriz de probabilidades de transición P. Entonces:

i) Existen los límites y son independientes de j (la fila de P),

es decir del estado inicial.

Nkjwp kn

jkn

,,2,1,,lim )( L==∞→

ii) Los números w1, w2, … , wN constituyen la única solución no negativa del sistema de

ecuaciones W = WP y que además satisface la condición ∑ , donde W es el vector

W = (w

11

==

N

kkw

1 w2 … wN), es decir la distribución límite.

Luego la distribución límite es la única distribución estacionaria de la cadena.

3 Cf., por ejemplo, A. Rényi, Cálculo de probabilidades, Madrid.: Ed. Reverté, pp. 477-480.

Procesos de Decisión Markovianos. 2006 R. Morán. 8

Page 9: Procesos de Markov

La recíproca no es cierta, pues puede haber una distribución estacionaria sin que exista distribución límite. En efecto, supongamos el siguiente sistema con

. Evidentemente los valores de oscilan de 0 a 1 y

viceversa al crecer n y por lo tanto no existen los límites, es decir no hay distribución de estado permanente. Sin embargo, dado que P tiene el autovalor 1 (simple), existe una única distribución estacionaria que asigna a cada estado la probabilidad ½, pues w

=

0110

P )njk(p

1 = w2 = ½ es la única solución de la ecuación (w1 w2)P = (w1 w2) con valores no negativos.

1

1 A1 A2

Las probabilidades de estado estacionario expresan la proporción del tiempo que, en promedio, el proceso permanecerá en cada estado en el largo plazo.

Propiedad. Si una CMF es ergódica es indescomponible.

La recíproca no es cierta. En efecto, la CMF es indescomponible y no es ergódica.

A2A1

1

1

Observaciones 1) Que los límites wk constituyen la distribución límite de la cadena se puede ver fácilmente

a partir de la (20). En efecto, explicitando el k-ésimo elemento se tiene

∑=

=N

j

njkj

nk pww

1

)()0()(

(26)

y tomando límites

∑∑=

∞→=

∞→∞→==

N

j

njknj

N

j

njkjn

nkn

pwpww1

)()0(

1

)()0()( limlimlim

(27)

Puesto que por el teorema 2 estos últimos límites existen y son independientes de j, resulta

k

N

jjk

N

jkj

nkn

wwwwww === ∑∑==

∞→ 1

)0(

1

)0()(lim

(28)

El teorema establece luego que esa distribución límite es la única estacionaria.

2) La existencia de una distribución límite implica que tiene todas sus filas

iguales pues los límites w

*lim PPn

n=

∞→

k son independientes de j (la fila).

3) En el teorema 2, el sistema junto con la condición constituyen un

sistema de N+1 ecuaciones con N incógnitas. Como por el teorema tiene solución única, una de las ecuaciones debe ser combinación lineal de las demás y puede eliminarse. Ésta

no puede ser la porque de lo contrario las restantes tendrían la solución trivial

w

TTT WWP =

T

11

=∑=

N

kkw

11

=∑=

N

kkw

k = 0 ∀j. Además las otras N ecuaciones tienen solución única salvo una constante

multiplicativa, son los autovectores de P , y es la condición ∑ la que hace que se

pueda determinar esa constante, obteniendo una solución que sea una distribución de probabilidad. Luego la ecuación redundante es una cualquiera del sistema .

1=kw1=

N

k

TTT WWP =

Procesos de Decisión Markovianos. 2006 R. Morán. 9

Page 10: Procesos de Markov

1

1 A1 A2

Escribiendo el sistema como en (25): ( , y reemplazando la última fila por la

condición , se lo puede expresar como , donde A y b son

0) =− TT WIP

AW T

−−−

111 ,1,1

,2,1

1,1,1

MM

p

pppp

NNNN

NN

NN

11

=∑=

N

kkw

=

1

1

1,1

12

11

M

p

pp

N

b=

−1

2

*lim PPn

n=

∞→

2

10

ente el

=−

10

00

1

1

1,2

22

21

M

L

L

M

L

L

bpp

pp

A

N

(29)

4) Se suelen definir también las CMF ergódicas como aquellas constituidas por una única clase comunicante, y se dividen en regulares y periódicas según que Pν no tenga ningún cero o tenga algún cero, respectivamente, para algún ν. Según esta definición la CMF de la figura sería ergódica periódica. Sin embargo, como no tiene

distribución límite, de acuerdo a la definición que hemos adoptado aquí no es ergódica.

Si la matriz P tiene al menos una columna con todos sus elementos estrictamente positivos, la cadena es ergódica. En caso contrario, para verificar la ergodicidad, se deben calcular las sucesivas potencias Pν (ν = 2, 3, …), hasta encontrar alguna que tenga al menos una columna sin ceros. Se puede demostrar que la cota para ν es

2

2N≤ν ; superado este valor sin encontrar una columna sin ceros la cadena no es ergódica.

La ergodicidad también queda caracterizada por la siguiente propiedad. 4

Teorema 3. Una CMF homogénea tiene distribución límite independiente de la distribución inicial si, y sólo si, la matriz P tiene un único autovalor igual a 1 y todos los demás autovalores tienen módulo estrictamente menor que 1.

Si la CMF es ergódica la matriz límite tiene todas sus filas iguales y los

elementos de éstas son las probabilidades estacionarias. Aún dentro de las CMF ergódicas pueden presentarse casos en los que alguna probabilidad límite sea cero, es decir que alguna columna de P* sea nula. Es el caso en que el proceso tiene algún conjunto de estados no esencial o transitorio.

Ejemplo 4. Consideremos la siguiente CMF.

A2 3/4 1/4 1A1

=

1041

43

P

Evidentem 1

1 2

2

estado A es transitorio y el A absorbente. Los autovalores de P son

λ = 1 y λ = ¾. La matriz límite es

=

10*P y el vector de probabilidades estacionarias

W = (0 1). (Ejercicio). En el largo plazo el proceso estará siempre en el estado A .

Las propiedades de las CMF ergódicas pueden aplicarse a la parte esencial de las cadenas no ergódicas.

Procesos de Decisión Markovianos. 2006 R. Morán. 10

4 Cf. P. Gordon, op. cit., pp. 98-101.

Page 11: Procesos de Markov

Cadenas periódicas y cíclicas. si las sucesivas potencias de P presentan un patrón de

rep

donde × indica un valor positivo. Evidentemente es no ergódica.

conjunto de estados a otro con

bviamente la cadena no es ergódica.

2.7. Cadenas de Markov de parámetro continuo

l parámetro t era discreto. Si bien este sup

n sistema de

Una CMF se llama periódica etición de sus elementos nulos y no nulos. Por ejemplo:

× 00L

×××

×=

×××

××=

×××=

000

00

000

0

000 32 PPP A1 A2 A3

Una CMF se llama cíclica si pasa alternativamente de un junto de estados. Por ejemplo el proceso de la figura es cíclico, las potencias sucesivas

repiten el patrón:

A1 2

A3 A4

A

L

××××

××××

=

××××

××××

=

××××

××××

=

0000

0000

0000

0000

0000

0000

32 PPP

O

En todo lo anterior hemos considerado que euesto es apropiado para muchos sistemas reales, hay sin embargo sistemas en los cuales se

debe considerar continuo al parámetro; tal el caso de los sistemas de espera en fila.

Por ejemplo, en un proceso de Poisson de nacimiento puro (sólo los arribos a uespera en fila) con tasa media de arribos λ, el estado del sistema en el instante t está dado

por la cantidad de arribos en el intervalo [0, t), con t ≥ 0. Es decir, Xt = k indica que llegan k clientes en ese intervalo y sabemos que la probabilidad de ese evento está dada por

)(− te kt λλ

L,1,0,!

)( === kk

kXP t (30)

Ahora bien, por las hipótesis del proceso de Poisson sabemos que esta probabilidad sólo dep

s de las cadenas de Markov de parámetro disc

ende del instante t y no del estado anterior del sistema. Por lo tanto el proceso de Poisson es también una cadena de Markov discreta, infinita (numerable) y de parámetro continuo. Análogamente, el proceso de Poisson de muerte pura (sólo las partidas) es una cadena de Markov discreta, finita, de parámetro continuo.

En consecuencia, dado que las propiedadereto se pueden extender a las de parámetro continuo, la teoría de estas cadenas se puede

utilizar para deducir los modelos para colas poissonianas. 5

5 No analizaremos estas aplicaciones dado que el objetivo es estudiar los procesos de decisión en cadenas de Markov.

Procesos de Decisión Markovianos. 2006 R. Morán. 11

Page 12: Procesos de Markov

2.8. Caso de aplicación 6

Los estudios hidrológicos de un pequeño río indican que su caudal varía entre 3,3 y 8,3 m3/seg., durante el año, en el lugar en que se proyecta construir un embalse para suministro de agua para riego a través de un sistema de canales. En consecuencia el aporte semanal de agua al embalse variará entre 2 y 5 hectómetros cúbicos (Hm3). Sobre la base de los registros de los últimos 10 años se ha determinado la distribución de probabilidades del aporte semanal que se indica en la siguiente tabla:

Aporte semanal [Hm3] 2 3 4 5

Probabilidad 0,3 0,4 0,2 0,1

La capacidad proyectada del embalse es de 4 Hm3, con el objetivo de suministrar 2 Hm3 para riego y 1 Hm3 para abastecimiento aguas abajo como mínimo obligatorio. Este último objetivo tiene prioridad absoluta: si la cantidad disponible por semana (aporte más embalse) no alcanza, se disminuye la cantidad destinada a riego. Por otra parte si el embalse se llena se libera todo el excedente aguas abajo. Por razones de seguridad el embalse no deberá tener nunca menos de 1 Hm3.

La salida del sistema (riego más abastecimiento aguas abajo) deberá mantenerse tan próxima a 3 Hm3 como sea posible, sin entregar menos de 1 Hm3 ni almacenar más de 4 Hm3; es decir la operación del embalse es controlada. Se quiere determinar el comportamiento a largo plazo del embalse.

Evidentemente el aporte semanal es una variable continua que se ha discretizado para poder tratar el problema como una cadena de Markov finita. Las variables a considerar son las siguientes:

Etapa: n = El comienzo de la semana n (n = 1, 2, … ).

Estado: xn = Cantidad de agua en el embalse al comienzo de cada semana n.

Aportes: fn = Cantidad de agua aportada por el río en la semana n (se supondrá concentrada al comienzo de la semana).

Control: un = Salida total en la semana n (se supone concentrada al comienzo de la semana).

La ecuación de transición de estados es entonces:

nnnn ufxx −+=+1

Evidentemente en cada etapa los estados posibles son: xn = 1, 2, 3, 4.

Para calcular las probabilidades de transición de estados debemos analizar las distintas situaciones posibles para cada estado inicial. La tabla siguiente muestra los resultados:

Si xn = 1 resulta: Si xn = 2 resulta:

fn un xn+1 p1k fn un xn+1 p2k

5 3 3 p13 = 0,1 5 3 4 p24 = 0,1

4 3 2 p12 = 0,2 4 3 3 p23 = 0,2

3 3 1 0,4 3 3 2 p22 = 0,4

2 2 1 0,3 2 3 1 p21 = 0,3

p11 = 0,7

12

6 Adaptado de H. G. Daellenbach, et al., Introdu ción a Técnicas de Investigación de Operaciones, México: CECSA, 1986, pp. 379-388.

c

Procesos de Decisión Markovianos. 2006 R. Morán.

Page 13: Procesos de Markov

Si xn = 3 resulta: Si xn = 4 resulta:

fn un xn+1 p3k fn un xn+1 p4k

5 4 4 0,1 5 5 4 0,1

4 3 4 0,2 4 4 4 0,2

3 3 3 p33 = 0,4 3 3 4 0,4

2 3 2 p32 = 0,3 2 3 3 p43 = 0,3

p34 = 0,3p44 = 0,7

Luego la matriz de probabilidades de transición de estados y el diagrama de transiciones son los siguientes:

0,7

0,1

0,4

0,1

0,3

0,3

0,3

0,2

0,3

0,2

1 2

3 4

0,70,4

=

7,03,0003,04,03,001,02,04,03,0

01,02,07,0

P

El proceso es evidentemente ergódico por cuanto la matriz P tiene una columna sin ceros. Podemos entonces calcular las probabilidades estacionarias utilizando (29):

=

−−

1000

11113,014,02,01,0

03,014,02,0003,017,0

4

3

2

1

wwww

de donde se obtiene

33,062,020,020,0 4321

))==== wwww

Las probabilidades estacionarias indican, en el largo plazo, la proporción del tiempo que el sistema estará, en promedio, en un determinado estado. Por ejemplo, a largo plazo el 26,7% de las semanas el embalse tendrá 3 Hm3. Por otra parte como estas probabilidades son los límites de las probabilidades de transición en m etapas, cuando m → ∞; también indican la probabilidad de pasar, en el largo plazo, a un determinado estado cualquiera sea el estado inicial. Por ejemplo, la probabilidad de pasar a tener 3 Hm3 en el largo plazo, desde cualquier estado actual, es 26,7%.

Procesos de Decisión Markovianos. 2006 R. Morán.

13
Page 14: Procesos de Markov

3. MODELOS DE DECISIÓN MARKOVIANOS

3.1. Cadenas de Markov con valores asociados a las transiciones

Sea una CMF homogénea ergódica 7 con N estados y matriz de transición P

=

NNN

N

pp

ppP

L

MM

L

1

111

(31)

Sea rjk el valor asociado a la transición (por ejemplo, un costo o una utilidad) desde el estado j al estado k, independiente de n (es decir del tiempo). Definamos entonces la matriz R

=

NNN

N

rr

rrR

L

MM

L

1

111

(32)

para representar a todos estos valores. El valor rjk se tendrá cuando ocurra la transición desde j en una etapa cualquiera hasta k en la etapa siguiente, lo que sucederá con una probabilidad pjk; luego rjk ocurrirá con probabilidad pjk y por lo tanto puede ser considerado el valor de una variable aleatoria. Más precisamente, los valores de la j-ésima fila de R constituyen los valores de una variable aleatoria cuyas probabilidades están dadas por la j-ésima fila de P.

Supongamos ahora que queremos calcular el costo o beneficio esperado de la evolución a largo plazo del sistema. Puesto que estamos en el caso de horizonte infinito, no podemos proceder como en Programación Dinámica en ambiente aleatorio, con el cálculo de los valores esperados “hacia atrás”. Para determinar una ecuación de recurrencia que nos permita calcular el valor esperado del costo o beneficio acumulado hasta una etapa n cualquiera, definiremos a n como el número de etapas que faltan para llegar al final. Luego, haciendo n → ∞, podremos obtener el comportamiento asintótico del proceso.

N

1

kj yi(n|k) yk(n-1)

pjk , rjk

Etapa 0Etapa n-1Etapa n

yj(n)

Supongamos que conocemos el valor esperado acumulado cuando el proceso se encuentra en el estado k y faltan n–1 etapas para llegar al final, supuesto finito, que indicaremos yk(n–1). Consideremos ahora el proceso en el estado j de la etapa n. La transición hasta el estado k de la etapa n–1 ocurrirá con probabilidad pjk y con un valor asociado rjk, luego el valor esperado acumulado en el estado j de la etapa n, para esa transición, será

7 En todo lo que sigue nos limitaremos a cadenas de Markov ergódicas.

Procesos de Decisión Markovianos. 2006 R. Morán. 14

Page 15: Procesos de Markov

)]1([)|( −+= nyrpkny kjkjkj (33)

Considerando todos los estados posibles en la etapa n–1 a los que puede evolucionar el sistema, el valor esperado acumulado en el estado j de la etapa n, para j = 1, 2, … , N, es (ver figura)

∑∑∑∑====

−+=−+=−+=N

kkjkj

N

kkjk

N

kjkjk

N

kkjkjkj nypvnyprpnyrpny

1111)1()1()]1([)( (34)

con n = 1, 2, 3, … , y donde vj es el valor esperado de una transición simple

NjrpvN

kjkjkj ,,2,1,

1L== ∑

=

(35)

Indicando los vectores

=

=

NN v

vv

ny

nyny MM

11

)(

)()(

(36)

el valor esperado acumulado cuando el número de etapas que faltan considerar es n, se puede escribir en forma matricial

L,2,1,)1()( =−+= nnyPvny (37)

Esta ecuación de recurrencia permite calcular el valor esperado acumulado del proceso a largo plazo, comenzando con valores arbitrarios yj(0) = 0, ∀j, y haciendo n → ∞, supuesto que el proceso se estabilice. Interesan entonces las condiciones de estabilidad independientes del estado inicial del proceso.

3.2. Propiedades. Sea W el vector de la distribución límite de probabilidades de la cadena, luego también la

distribución de estado estacionario: W = WP.

En el largo plazo (n → ∞), el proceso tiene una probabilidad wi (independiente del estado inicial) de estar en el estado i, y vi es el valor esperado de una transición desde el estado i hasta la etapa siguiente. Luego el valor esperado de esa transición es wivi, y el valor esperado total de la transición en una etapa es

vWvwVN

iii ==∑

=1

(38)

independiente del tiempo y del estado inicial. La ergodicidad de la cadena asegura la unicidad de V.

En estado estable, el valor esperado acumulado a largo plazo para n etapas será entonces

vnWnV = (39)

Por otra parte el valor esperado acumulado en la etapa n está dado por (37). Entonces, considerando n suficientemente grande (n → ∞), la diferencia entre (37) y (39):

nVnyy −= )( (40)

Procesos de Decisión Markovianos. 2006 R. Morán. 15

Page 16: Procesos de Markov

representa el efecto transitorio del estado inicial sobre el valor esperado y es independiente del tiempo. Para un estado j en la etapa n será

nVnyy jj −= )( (41)

donde yj es un valor independiente del tiempo y sólo depende del estado inicial y del estado j (j = 1, 2, … , N). Finalmente el valor esperado acumulado en el estado j en la etapa n se puede expresar como

jjj ynWvynVny +=+=)( (42)

Esta ecuación establece que, en general, el valor esperado en el largo plazo está compuesto por dos partes, una de estado estable, nV, que resulta del comportamiento asintótico cuando n → ∞, y otra transitoria, yj, que depende sólo de las condiciones iniciales y del particular estado j.

De (42) se deduce inmediatamente que, para todo j,

cte.)()1()()1( ==+−++=−+ VyVnyVnnyny jjjj (43)

es decir, para n suficientemente grande, la diferencia entre dos valores esperados sucesivos, para un mismo estado, es constante. Análogamente, para todo j ≠ i,

cte.)()()( =−=+−+=− ijijij yyyVnyVnnyny

(44)

es decir, la diferencia entre los valores esperados en la misma etapa, para distintos estados, es constante, pues yj e yi son independientes del tiempo.

Dado que el valor esperado acumulado crece permanentemente, el valor relativo de ambas constantes, con respecto al valor acumulado, decrece al crecer n y por lo tanto para n → ∞, los valores esperados acumulados tienden a ser iguales, independientemente del estado.

Ejemplo 5. Consideremos las ventas semanales de un producto de consumo masivo, las que pueden ser desde excelentes hasta prácticamente nulas. A los efectos de mantener este ejemplo muy simple, consideraremos sólo dos estados posibles de las ventas al finalizar cada semana: 1- Excelentes, 2- Malas.

En estas condiciones se sabe, por datos históricos y por investigación del mercado, que si al finalizar una semana las ventas fueron excelentes hay una probabilidad del 40% de que en la semana siguiente sean malas, mientras que si fueron malas hay una probabilidad del 50% de que sigan malas. Se tiene entonces la siguiente situación:

=

5,05,04,06,0

P 2 0,60,4

0,510,5

También se conocen las utilidades semanales que se obtienen en cada uno de estos casos. Si las ventas son excelentes y siguen siendo excelentes, es cuando la ganancia es máxima; si son excelentes y terminan malas o si son malas y pasan a excelentes, el rendimiento es menor; si son malas y siguen malas se tienen pérdidas. Supongamos que, en una apropiada unidad

monetaria, esta información es la indicada en la siguiente matriz: .

=34

510R

Se quiere determinar el valor esperado acumulado de la utilidad en el largo plazo, suponiendo que el comportamiento de los consumidores se mantenga estable.

Procesos de Decisión Markovianos. 2006 R. Morán. 16

Page 17: Procesos de Markov

Las etapas serán los fines de cada semana y es evidente que el sistema es una CMF ergódica. El valor esperado en una transición simple, v, es

=−×+×=+==×+×=+=

5,0)3(5,045,0854,0106,0

222221212

121211111

rprpvrprpv

Entonces se puede calcular el valor esperado acumulado hasta la etapa n con la (37). Comenzando con y1(0) = y2(0) = 0 se obtiene

n )1()1()( 21211111 −+−+= nypnypvny )1()1()( 22212122 −+−+= nypnypvny

1 804,006,08 =×+×+ 5,005,005,05,0 =×+×+

2 135,04,086,08 =×+×+ 75,45,05,085,05,0 =×+×+

3 70,1775,44,0136,08 =×+×+ 375,975,45,0135,05,0 =×+×+

4 37,22375,94,070,176,08 =×+×+ 0375,14375,95,070,175,05,0 =×+×+

5 037,270375,144,037,226,08 =×+×+ 70375,180375,145,037,225,05,0 =×+×+

6 7037,3170375,184,0037,276,08 =×+×+ 37038,2370375,185,0037,275,05,0 =×+×+

7 … …

Se observa que los resultados verifican las propiedades (43) y (44). Los valores esperados tienden a una diferencia constante igual a 4,666… entre etapas para un mismo estado inicial, y a una diferencia constante igual a 8,333… entre valores en una misma etapa. Como al crecer n los valores esperados acumulados van creciendo y las diferencias se mantienen constantes, las diferencias relativas a los valores esperados irán decreciendo (tendiendo a cero).

4. PROCESOS DE DECISIÓN Supongamos ahora que en cada estado, en cada etapa, tuviésemos la posibilidad de decidir

entre varias alternativas para la transición siguiente. Estas alternativas consisten en decisiones que alteran las probabilidades de transición. Supongamos que tenemos S alternativas distintas en cada momento, luego si estamos en el estado j, en el instante n, elegir una alternativa para la transición siguiente es elegir una matriz de transición entre S posibles matrices. Estas matrices las indicaremos P(s), con s = 1, 2, … , S. Para cada matriz P(s) se tendrá la correspondiente matriz de valores R(s), pues al cambiar las probabilidades también pueden cambiar los costos o utilidades asociados a ellas.

Una política establece, para cada estado en que se encuentre el sistema en cada etapa, la decisión a tomar. Llamemos uj(n) a la decisión tomada en el estado j en el instante n, luego si uj(n) = s significa que hemos optado por la alternativa s. Entonces para todos los estados en una etapa podemos definir el vector

=

)(

)()(

1

nu

nunu

N

M

(45)

cuyos elementos componentes uj(n) indican la decisión a tomar en cada estado j en la etapa n. Cada vector u(n) es una política.

Una política se llama estacionaria si, siempre que el sistema está en un determinado

Procesos de Decisión Markovianos. 2006 R. Morán. 17

Page 18: Procesos de Markov

estado, se toma la misma decisión. Esto es, la decisión que se toma en cada etapa depende sólo del estado del sistema.

Una política óptima, que indicaremos u*(n), establece la decisión que optimiza el valor esperado para cada estado en la etapa n. A distintos estados les pueden corresponder diferentes decisiones óptimas y éstas pueden no ser únicas.

Interesa entonces determinar la sucesión de decisiones u*(n) que optimicen el valor esperado acumulado en el largo plazo. Como veremos, si el proceso es ergódico las decisiones convergen a una única decisión óptima estacionaria, es decir u*(n) → u* para n → ∞. En este caso se dice que el proceso converge en el espacio de las políticas, es decir que en estado estable, para n suficientemente grande, la política óptima es siempre la misma. Esto significa por lo tanto que, en el largo plazo, para cada estado del sistema la decisión óptima a tomar es siempre la misma, aunque a diferentes estados les pueden corresponder decisiones óptimas distintas.

Cabe señalar que hablamos de política y no de estrategia porque, a diferencia de la Programación Dinámica en ambiente aleatorio, debido a la convergencia en política, en el largo plazo las decisiones óptimas quedarán definidas para todas las etapas desde el principio.

A continuación trataremos métodos para realizar esta optimización.

4.1. Método de iteración de valores Consideremos nuevamente la ecuación de recurrencia (34). Como ahora las pjk dependen

de la decisión adoptada las indicaremos para expresar la alternativa elegida, resultando para la ecuación de recurrencia, para n = 1, 2, 3, … ,

)(sjkp

∑∑∑∑====

−+=−+=−+=N

kk

sjk

sj

N

kk

sjk

N

k

sjk

sjk

N

kk

sjk

sjk

sj nypvnyprpnyrpny

1

)()(

1

)(

1

)()(

1

)()()( )1()1()]1([)(

(46)

donde hemos indicado con v el valor esperado de una transición simple: )(sj

NjrpvN

k

sjk

sjk

sj ,,2,1,

1

)()()( L== ∑=

(47)

Indicando con v(s) al vector de estos valores esperados y con P(s) a la matriz de las , podemos escribir en forma matricial

)(sjkp

L,2,1,)1()( )()()( =−+= nnyPvny sss

(48)

Para determinar una ecuación de recurrencia que nos permita encontrar la estrategia óptima podemos hacer lo siguiente. Supongamos que hemos determinado Vk(n–1), el valor óptimo en el estado k en la etapa n–1; entonces aplicando la alternativa s el valor esperado acumulado hasta la etapa n será

LL ,2,1,,,2,1,)1()(1

)()()( ==−+= ∑=

nNjnVpvnyN

kk

sjk

sj

sj

(49)

y el valor óptimo del valor esperado se obtiene (caso de maximización), aceptando la validez del principio de optimización de Bellman en el caso aleatorio, como

{ } LL ,2,1,,,2,1,)1(.max)(.max)(1

)()()( ==

−+== ∑=

nNjnVpvnynVN

kk

sjk

sjs

sjsj

(50)

Procesos de Decisión Markovianos. 2006 R. Morán. 18

Page 19: Procesos de Markov

que es la ecuación de recurrencia que resuelve el problema en el largo plazo, comenzando con valores arbitrarios Vj(0) = 0, ∀j, y haciendo n → ∞ (recordemos que n es el número de etapas que faltan hasta el final).

En cada etapa determinaremos el valor de s que produce el óptimo, es decir la decisión óptima, con lo que obtendremos la política óptima.

Se demuestra que, en el largo plazo (n → ∞), la política óptima consiste en aplicar siempre al mismo estado la misma decisión. Esto es, converge en el espacio de las políticas. 8

Factor de descuento Como los problemas que estamos tratando son de horizonte infinito, el valor esperado

óptimo dado por (50) tiende a ser infinitamente grande conforme n crece, lo que no es de valor práctico. Por lo tanto, para realizar un enfoque más realista del problema es fundamental compensar las diferencias de valor monetario debidas al tiempo, considerando el valor presente de los valores esperados. Se debe incluir por lo tanto un factor de descuento 0 < β < 1 (igual que en Programación Dinámica) para considerar en cada etapa el valor presente del valor esperado. La ecuación de recurrencia (50) pasa a ser ahora

{ } LL ,2,1,,,1,)1(.max)(.max)(1

)()()( ==

−+== ∑=

nNjnVpvnynVN

kk

sjk

sjs

sjsj β

(51)

Entonces cuando el proceso evoluciona hasta infinito, al descontarse con β < 1, los valores futuros tienden asintóticamente a cero; luego el valor presente del valor esperado debe tender a un valor constante y no crecer indefinidamente. En efecto, se demuestra que, para n → ∞, resulta Vj(n) = Vj, independiente de n: 9

NjVpvVN

kk

sjk

sjsj ,,1,.max

1

)()( L=

+= ∑=

β

(52)

Obsérvese que para cada estado hay un límite independiente del tiempo. La inclusión del factor de descuento puede dar una política óptima distinta de la que se obtendría sin él.

Ejemplo 6. Retomemos el ejemplo 5. Según sea el estado de las ventas al finalizar cada semana se pueden tomar distintas decisiones pero, para mantener otra vez el ejemplo muy simple, supondremos sólo dos decisiones posibles cualquiera sea el estado: A- Dejar las cosas como están, B- Hacer publicidad.

En estas condiciones las políticas son las siguientes:10

Política 1. Dejar las cosas como están, cualquiera sea el estado.

Este caso es el considerado en el ejemplo 5, por lo tanto las matrices a tomar en cuenta

son: y , que ahora indicaremos con el superíndice 1 para

identificar la política.

=

5,05,04,06,0)1(P

=34

510)1(R

8 Cf., por ejemplo, R. E. Bellman y S. E. Dreyfus, Applied Dynamic Programming, Princeton, N. J.: Princeton University Press, 1962, pp. 301-302. 9 Cf., por ejemplo, G. Hadley, Nonlinear and Dynamic Programming, Reading, Mass.: Addison-Wesley, 1964, p. 457. 10 Es importante observar que estas no son todas las políticas estacionarias. Es una simplificación al solo efecto de mostrar la mecánica del cálculo. Como comentaremos luego, para realizar el análisis correcto para determinar la política óptima se deben considerar todas las posibles políticas estacionarias.

Procesos de Decisión Markovianos. 2006 R. Morán. 19

Page 20: Procesos de Markov

Política 2. Hacer publicidad, cualquiera sea el estado.

En este caso evidentemente aumentarán las probabilidades de permanecer y de pasar al estado 1, y disminuirán la de permanecer y de pasar al estado 2. A su vez las utilidades también cambiarán dado que por un lado aumentarán las ventas, pero por otro se tiene el costo de la publicidad. Supongamos entonces que se han determinado los siguientes valores:

y .

=

3,07,01,09,0)2(P

=73

38)2(R

El objetivo es determinar la política óptima en el largo plazo, es decir considerando un número infinito de semanas. No consideraremos factor de descuento.

Es evidente que para cualquiera de las políticas el sistema es una CMF ergódica. Los valores esperados en una transición simple son:

=−×+×=+==×+×=+=

5,0)3(5,045,0854,0106,0

)1(22

)1(22

)1(21

)1(21

)1(2

)1(12

)1(12

)1(11

)1(11

)1(1

rprpvrprpv

=−×+×=+==×+×=+=

0)7(3,037,05,731,089,0

)2(22

)2(22

)2(21

)2(21

)2(2

)2(12

)2(12

)2(11

)2(11

)2(1

rprpvrprpv

El cálculo aplicando la ecuación de recurrencia (50), y comenzando con los valores iniciales: , da 0)0()0()0()0( )2(

2)1(

2)2(

1)1(

1 ==== yyyy

n )()1(1 ny )()2(

1 ny { })(11 .max)( s

synV = u1 )()1(

2 ny )()2(2 ny { })(

22 .max)( s

synV = u2

1 8,00 7,50 8,00 1 0,50 0 0,50 1

2 13,00 14,75 14,75 2 4,75 5,75 5,75 2

3 19,15 21,35 21,35 2 10,75 12,05 12,05 2

4 25,63 27,92 27,92 2 17,20 18,56 18,56 2

5 … … … … … … … …

Se comprueba que el proceso converge a una política permanente, que en este caso es la 2. Además el valor esperado acumulado crece indefinidamente y el incremento del valor esperado en cada etapa tiende a un valor constante 6,5625. Esto último es consecuencia de considerar valores sin descuento. Si se incluye un factor de descuento es fácil verificar que el valor esperado acumulado tiende a un valor constante, mientras que el incremento por etapa tiende a cero. Por ejemplo, para β = 0,8 los valores esperados convergen a V1 = 33,928571 y V2 = 25 (ejercicio).

Observación. En realidad con dos estados y dos alternativas posibles las políticas estacionarias a considerar son cuatro, que indicaremos 1, 2, 3 y 4, y son las que se muestran a continuación: POLÍTICAS

ESTADOS 1 2 3 4

Ventas Excelentes Dejar las cosas como están

Dejar las cosas como están Hacer publicidad Hacer publicidad

Ventas Malas Dejar las cosas como están Hacer publicidad Dejar las cosas como

están Hacer publicidad

Procesos de Decisión Markovianos. 2006 R. Morán. 20

Page 21: Procesos de Markov

Las dos alternativas consideradas en el ejemplo son sólo las políticas 1 y 4.

Las matrices asociadas con las cuatro políticas se obtienen fácilmente de las dos alternativas consideradas. En efecto, por ejemplo para la política 2 las primeras filas de las matrices P2 y R2 deben ser las mismas de P1 y R1, mientras que las segundas filas deben ser las de P4 y R4. Análogamente para la política 3. Las matrices son entonces las siguientes:

Política 1 Política 2 Política 3 Política 4 Matriz P1 Matriz R1 Matriz P2 Matriz R2 Matriz P3 Matriz R3 Matriz P4 Matriz R4

0,6 0,4 10 5 0,6 0,4 10 5 0,9 0,1 8 3 0,9 0,1 8 3

0,5 0,5 4 -3 0,7 0,3 3 -7 0,5 0,5 4 -3 0,7 0,3 3 -7

Si se resuelve el ejemplo considerando las cuatro políticas (ejercicio), se encuentra que la política óptima es la 4 (en este caso particular coincide con la solución hallada).

Se debe recordar a este respecto que la política óptima puede ser distinta para diferentes estados en una misma etapa. La consideración de sólo dos alternativas, coincidentes con las políticas 1 y 4, tiene el problema que si resultara óptimo aplicar una alternativa en un estado y la otra en el otro estado (como la política 2, por ejemplo) se trataría de una política no considerada. Es muy importante plantear todas las políticas estacionarias posibles desde el principio.

Cabe observar que si bien en este ejemplo la convergencia es muy rápida, en otros casos puede llegar a ser muy lenta y por lo tanto requerir un gran volumen de cálculo.

El método de iteración de valores es la aplicación del principio de optimización de Bellman (en esencia es Programación Dinámica con espacio de estados estocástico discreto). Para una cadena de Markov finita ergódica el método converge a la política óptima para n → ∞, es decir no converge en un número finito de iteraciones y además la convergencia no es monótona. En la práctica esto significa que el método convergirá para n suficientemente grande, pero no hay una técnica que permita saber cuál es el valor de n adecuado para lograr una buena aproximación, y no es suficiente que dos políticas sucesivas sean iguales para detener el cálculo. Se debe observar numéricamente la evolución del proceso para decidir cuándo detener el cálculo. Este problema es la gran desventaja del método.

El método de iteración de políticas, que veremos luego, converge en forma monótona en un número finito de pasos.

4.2. Valor óptimo promedio por período

Si el proceso es ergódico, como estamos suponiendo, el valor esperado total en cada etapa, para n muy grande y para matrices P y R dadas, está expresado por (38) y es independiente del tiempo. Luego, si consideramos matrices alternativas P(s) y R(s) el valor esperado para cada alternativa estará dado por

)()(

1

)()()( ssN

i

si

si

s vWvwV ==∑=

(53)

y entonces el valor óptimo buscado será

{ } { )()(

1

)()()(* .max.max.max ss

s

N

i

si

sis

s

svWvwVV =

== ∑=

}

(54)

El valor de s que produce el óptimo determina la política óptima. V* es el valor óptimo promedio por etapa, sin descuento, en condiciones estacionarias en el largo plazo.

Procesos de Decisión Markovianos. 2006 R. Morán. 21

Page 22: Procesos de Markov

Ejemplo 7. Consideremos nuevamente el ejemplo 6. Para él resulta

Política 1 Política 2 )1(

1v )1(2v )1(

1w )1(2w )1(V )2(

1v )2(2v )2(

1w )2(2w )2(V

8 0,5 0,5556 0,4444 4,6667 7,5 0 0,875 0,125 6,5625

La política óptima es la 2, con un valor esperado promedio por etapa de 6,5625. Este valor es el que se había obtenido como incremento constante del valor esperado en el largo plazo en la optimización sin descuento.

Este método puede ser de utilidad en casos en los que se sabe que el proceso está en condiciones estacionarias en el largo plazo y, dentro de él, se quiere considerar un cierto número de etapas (pocas) para ver el efecto de la política óptima en ese corto horizonte (dentro del largo plazo), en las que se puede considerar despreciable el efecto del descuento.

Es importante destacar que este método considera explícitamente la totalidad de las alternativas, es decir es de enumeración completa. Para cada una se debe calcular el vector W(s), lo que requiere resolver un sistema de ecuaciones. Si la cantidad de estados y de alternativas de decisión en cada estado es grande, el volumen de cálculo es importante.

El método más eficiente es el siguiente.

4.3. Método de iteración de políticas 11

Es un método iterativo que consta de dos fases: una de determinación del valor de V, y otra de mejora de la política. Hay una diferencia muy importante entre el método sin factor de descuento y el método con descuento, por lo tanto los veremos por separado.

4.3.1. Método de iteración de políticas sin descuento

Consideremos la ecuación de recurrencia (34) y reemplacemos en ella la (42). Para j = 1, 2,…, N, resulta

∑∑∑

∑∑

===

==

+−+=+−+=

=+−+=−+=+

N

kkjkj

N

kkjk

N

kjkj

N

kkjkj

N

kkjkjj

ypVnvyppVnv

yVnpvnypvyVn

111

11

)1()1(

])1[()1(

(55)

de donde, considerando el primero y el último de los miembros, se obtiene

NjyypvV j

N

kkjkj ,,2,1,

1L=−+= ∑

=

(56)

que son N ecuaciones con N +1 incógnitas: y1, y2, … , yk, … , yN, y V.

Queremos optimizar V. Como hay más incógnitas que ecuaciones aplicaremos un método iterativo, comenzando por una política arbitraria s que genere un valor V(s) de V, y luego se buscará una política que mejore el valor V(s). El cálculo se detiene cuando dos políticas sucesivas sean idénticas. El método tiene entonces dos fases: el cálculo del valor V y la mejora de la política.

11 R. A. Howard, Dynamic Programming and Markov Processes, Cambridge, Mass.: MIT Press, 1960.

Procesos de Decisión Markovianos. 2006 R. Morán. 22

Page 23: Procesos de Markov

Fase 1. Determinación del valor de V. Se elige arbitrariamente una política s, lo que significa elegir las matices P(s) y R(s), luego

el sistema (56) toma la forma

V Njyypv sj

N

k

sk

sjk

sj

s ,,2,1,)(

1

)()()()( L=−+= ∑=

(57)

que se resuelve haciendo arbitrariamente , en las incógnitas: V . 0)( =sNy )(

1)(

1)( ,,, s

Nss yy −L

Fase 2. Mejora de la política. Para cada estado j se determina la alternativa que produzca

NjyypvV sj

N

k

sk

tjk

tjt

t

t,,2,1,.max.max )(

1

)()()()( L=

−+= ∑=

(58)

donde los valores de son los obtenidos en el paso anterior. Los valores de t que dan el máximo para cada estado constituyen una nueva política s´. Si esta nueva política es idéntica a la anterior es la óptima; en caso contrario se vuelve a la fase 1 con la política s´ y se repite el proceso.

)(sky

Dado que en la (58) no depende de las alternativas t que se consideren, a los efectos de determinar el valor de t que produce el óptimo en cada estado, se puede tomar directamente

)(sjy

NjypvN

k

sk

tjk

tjt

,,2,1,.max1

)()()( L=

+∑=

(59)

Dado que la cadena es finita, si el número alternativas de decisión en cada estado es finito, el número de políticas estacionarias es también finito. Observemos entonces que: en la fase 1 la (57) da una solución única para cada política; por la fase 2 cada nueva política es al menos tan buena como la anterior; y si una política se repite en forma consecutiva el algoritmo termina. Por lo tanto el método convergirá a la solución óptima en un número finito de iteraciones.

Notemos además que la ecuación de recurrencia (34) de donde partimos da el incremento de valor esperado por etapa, luego la utilización de (57) y (59) conducirán al valor óptimo de ese incremento.

Ejemplo 8. Consideremos nuevamente el ejemplo 6.

Al solo efecto de ver de manera sencilla el método de cálculo volveremos a considerar sólo dos políticas y sin factor de descuento. Sin embargo es importante recordar una vez más que se deben plantear todas las políticas estacionarias, porque la política óptima puede ser distinta para diferentes estados en una misma etapa. También conviene recordar que en los problemas de horizonte infinito se debe aplicar un factor de descuento para considerar el valor presente del valor esperado.

Veamos entonces el cálculo con este ejemplo simplificado.

Elegimos como política inicial, por ejemplo, la 1. Es decir: y

.

=

5,05,04,06,0)1(P

=34

510)1(R

Procesos de Decisión Markovianos. 2006 R. Morán. 23

Page 24: Procesos de Markov

1) Cálculo del valor esperado. Utilizando la ecuación (57).

Cálculo de los )1(jv

=−×+×=+==×+×=+=

5,0)3(5,045,0854,0106,0

)1(22

)1(22

)1(21

)1(21

)1(2

)1(12

)1(12

)1(11

)1(11

)1(1

rprpvrprpv

Cálculo de V )1(2

)1(1

)1( ,, yy

=+−=−+

=+−−=+−−

5,05,05,084,04,0

5,05,05,084,06,0

)1(2

)1(1

)1(

)1(2

)1(1

)1(

)1(2

)1(2

)1(1

)1(

)1(1

)1(2

)1(1

)1(

yyVyyV

yyyVyyyV

de donde, haciendo , se obtiene 0)1(2 =y

0,333,8,666,4 )1(2

)1(1

)1( === yyV))

2) Mejora de la política. Utilizando (59).

Cálculo de los )2(jv

=−×+×=+==×+×=+=

0)7(3,037,05,731,089,0

)2(22

)2(22

)2(21

)2(21

)2(2

)2(12

)2(12

)2(11

)2(11

)2(1

rprpvrprpv

Determinación del valor óptimo.

j )(2

)1(2

)(1

)1(1

)1( sj

sjj ypypv ++ )(

2)2(

2)(

1)2(

1)2( s

js

jj ypypv ++ Valor óptimo

Política óptima

1 1304,033,86,08 =×+×+)

1501,033,89,05,7 =×+×+)

15 2

2 66,405,033,85,05,0))

=×+×+ 383,503,033,87,00))

=×+×+ 5,833… 2

La decisión resultante es u , es decir tanto si estamos en el estado 1 como en el 2, la

política es la alternativa 2. Dado que difiere de la política anterior debemos iterar el procedimiento.

=

22

1ª iteración.

1) Cálculo del valor esperado.

Cálculo de los . )2(jv

Son los mismos valores hallados en la etapa anterior: 05,7 )2(2

)2(1 == vv

Cálculo de V )2(2

)2(1

)2( ,, yy

=+−=−+

=+−−=+−−

07,07,05,71,01,0

03,07,05,71,09,0

)2(2

)2(1

)2(

)2(2

)2(1

)2(

)2(2

)2(2

)2(1

)2(

)2(1

)2(2

)2(1

)2(

yyVyyV

yyyVyyyV

Procesos de Decisión Markovianos. 2006 R. Morán. 24

Page 25: Procesos de Markov

de donde, haciendo , se obtiene 0)2(2 =y

0,375,9,5625,6 )2(2

)2(1

)2( === yyV

2) Mejora de la política.

Cálculo de los . )1(jv

Son los mismos valores hallados en la etapa anterior: 5,08 )1(2

)1(1 == vv

Determinación del valor óptimo.

j )(2

)1(2

)(1

)1(1

)1( sj

sjj ypypv ++ )(

2)2(

2)(

1)2(

1)2( s

js

jj ypypv ++ Valor óptimo

Política óptima

1 625,1304,0375,96,08 =×+×+ 9375,1501,0375,99,05,7 =×+×+ 15,9375 2

2 1875,505,0375,95,05,0 =×+×+ 5625,603,0375,97,00 =×+×+ 6,5625 2

La decisión resultante es , idéntica a la anterior, luego es la óptima. El valor

óptimo de V es 6,5625 (el anterior era 4,66…). Es el incremento de valor esperado por etapa en el largo plazo sin descuento.

=

22

u

4.3.2. Método de iteración de políticas con descuento Ya hemos visto que en los problemas de horizonte infinito se debe aplicar un factor de

descuento para considerar el valor presente del valor esperado. Para el método de iteración de políticas partamos nuevamente de la ecuación de recurrencia (51)

LL ,2,1,,,1,)1(.max)(1

)()( ==

−+= ∑=

nNjnVpvnVN

kk

sjk

sjsj β

(60)

que sabemos converge a un límite Vj independiente de n, para n → ∞, dado por (52)

NjVpvVN

kk

sjk

sjsj ,,1,.max

1

)()( L=

+= ∑=

β

(61)

El método entonces se puede plantear como sigue:

Fase 1. Determinación del valor de V.

Se elige arbitrariamente una política s, lo que significa elegir las matices P(s) y R(s), y se resuelve el sistema de N ecuaciones

V NjVpvN

k

sk

sjk

sj

sj ,,1,

1

)()()()( L=+= ∑=

β

(62)

en las incógnitas: V . )()(1 ,, s

Ns VL

Fase 2. Mejora de la política. Para cada estado j se determina la alternativa que produzca

NjVpvN

k

sk

tjk

tjt

,,2,1,.max1

)()()( L=

+ ∑=

β

(63)

Procesos de Decisión Markovianos. 2006 R. Morán. 25

Page 26: Procesos de Markov

donde los valores de V son los obtenidos en el paso anterior. Los valores de t que dan el máximo para cada estado constituyen una nueva política s´. Si esta nueva política es idéntica a la anterior es la óptima; en caso contrario se vuelve a la fase 1 con la política s´ y se repite el proceso.

)(sk

En estas condiciones se demuestra que, para una cadena de Markov finita (número finito de estados y de decisiones) ergódica, cada nueva política (es decir, cada iteración del método) da un valor esperado V(s) que es mejor, o a lo sumo igual, que el anterior y por lo tanto el método converge en un número finito de iteraciones. El óptimo se alcanza cuando dos iteraciones sucesivas dan la misma política. 12

En las aplicaciones la convergencia se logra en un número relativamente pequeño de iteraciones y mientras mejor sea la elección de la política inicial más rápida será convergencia. Esta es la gran ventaja del método. Aunque su desventaja es que en cada iteración hay que resolver un sistema de ecuaciones lineales, es el método más eficiente.

Si se resuelve el ejemplo 8 utilizando (62) y (63), con un factor de descuento β = 0,8 y empleando como política inicial la 1, el algoritmo converge en una iteración a la política óptima (la 2) y a los valores esperados óptimos (con descuento): V1 = 33,928571 y V2 = 25 (ejercicio).

4.4. Ejercicio Consideremos nuevamente el caso de aplicación 2.8. Supongamos que el sistema tiene los

siguientes ingresos (en unidades monetarias apropiadas) provenientes de la explotación del agua para riego y del lago para recreación.

Ingreso por suministro de agua para riego: 5 UM, salvo si no se cumple el objetivo de entregar 2 Hm3 (que sucede sólo si, estando en el estado 1, el aporte es de 2, con probabilidad 0,3), en cuyo caso no hay ingreso sino que se paga una multa de 3 UM.

Ingreso por explotación del lago para recreación: depende del nivel del lago, es decir del estado del sistema, según la siguiente tabla:

Nivel del embalse al comienzo de la semana [Hm3] 1 2 3 4

Ingresos por servicios de recreación [UM] 0 1 6 2

Además se paga una multa de 5 UM por riesgo de inundación si la cantidad liberada aguas abajo supera los 2 Hm3 (que sólo sucede si, estando en el estado 4, hay un aporte de 5, con probabilidad 0,1).

a) Calcular el ingreso total semanal esperado a largo plazo sin descuento. Adoptar un factor de descuento apropiado y calcular el valor esperado total a largo plazo (valores límites).

b) Para reducir el riesgo de inundación se considera la siguiente política alternativa: Siempre que el estado del embalse al comienzo de una semana sea el máximo de 4 Hm3, liberar 2 Hm3 aguas abajo (cualquiera sea el aporte de la semana). Determinar la política óptima entre la actual y esta alternativa.

c) Considerar el nivel máximo del embalse como una variable de decisión y encontrar el valor que maximice el ingreso total semanal esperado en el largo plazo.

12 Cf., por ejemplo, G. Hadley, op. cit., pp. 458-459.

Procesos de Decisión Markovianos. 2006 R. Morán. 26

Page 27: Procesos de Markov

5. BIBLIOGRAFÍA 1. Bellman, Richard E. y Stuart E. Dreyfus, Applied Dynamic Programming, Princeton,

NJ: Princeton University Press, 1962.

2. Bronson, Richard, Investigación de Operaciones, México: McGraw-Hill, 1986.

3. Daellenbach, Hans G.; John A. George y Donald C. McNickle, Introducción a Técnicas de Investigación de Operaciones, México: C.E.C.S.A., 1987.

4. Gordon, Patrick, Cadenas de Markov y sus Aplicaciones, Barcelona: Editorial Hispano Europea, 1967.

5. Hadley, George, Nonlinear and Dynamic Programming, Reading, Mass.: Addison-Wesley, 1964.

6. Hillier, Frederick S. y Gerald J. Lieberman, Investigación de Operaciones, 7ª ed. (c/CD), México: McGraw-Hill Interamericana S. A., 2002.

7. Howard, R. A., Dynamic Programming and Markov Processes, Cambridge, Mass.: MIT Press, 1960.

8. Taha, Hamdy. A., Investigación de Operaciones, 5ª ed., México: Ediciones Alfaomega S. A., 1995.

Procesos de Decisión Markovianos. 2006 R. Morán. 27