Problemas de Control Optimo

download Problemas de Control Optimo

of 28

Transcript of Problemas de Control Optimo

1. DEFINICIN DEL PROBLEMA DE CONTROL PTIMO Sistema determinstico si las(tforman una sucesin de constantes con valores conocidos; Sistema incierto si se sabe que las(tson constantes con valores en algn conjunto dado, pero no se conoce el valor particular de cada(t.En todo caso (incluyendo los modelos a tiempo continuo que veremos a continuacin), el conjunto de donde toman sus valores las variable xt se llama el espacio de estados del PCOy lo denotaremos por X. Par fijar las ideas supondremos que X es un subconjunto cerrado dedpara algn entero d 1.(Mas generalmente, basta suponer que X es un espacio de Borel, es decir, un subconjunto de Borel de un espacio mtrico separable y completoSistemas a tiempo contino: Caso determinstico:Xt =F(t , Xt , At ) para 0tT , (1.1)con T y condicin inicial dada x0 = x. Caso estocstico: este caso admite una gran diversidad de modelos. El ms estudiado es el de una ecuacin diferencial estocsticadxt=F (t , X t , at) dt +(t , xt , at) dWt , 0t T , xt=x , (1.2)con T , y Wt es un proceso de Wiener. El estado inicial x0 puede ser determinstico o estocstico. Otros modelos estocsticos a tiempo continuo son las cadenas de Markov, los procesos de Lvy, los procesos hbridos (e.g., el sistema (1.2) pero, adems, con una componente de saltos),...Definicin 1.1: Estrategias admisibles. Una estrategia de control, digamosn = at, generalmente se especifica imponiendo restricciones(a) en las acciones de control at directamente, y/o(b) en la informacin que puede o debe usar el controlador en cada tiempo t. Por ejemplo, en (a), n cas muy comn es pediratA( xt) t ,(1.3)donde A(x) es el conjunto de acciones factibles cuando el estado es x.Con respecto a (b), un caso muy general es el de una estrategia no-anticipante, tambin conocida como estrategia con memoria (memory strategy), en la que, en cada tiempo t, la accin at depende de "toda la historia del proceso hasta el tiempo t. Por ejemplo, en un PCO a tiempo discreto tenemosat=g(t , T0,., xt, a0., at 1) ,donde g es una funcin dada. El otro extremo es cuando g depende de t nicamente,es decir,at=g(t ) t , (1.4)en cuyo caso se dice que es una estrategia de lazo abierto (open loop). Si g depende slo de t y xt, es decir,at=g(t , xt) t (1.5)decimos que es una estrategia de retroalimentacin (feedback), tambin llamada estrategia de lazo cerrado (closed loop) o estrategia markoviana. Si adems g no depende de t, i.e.at=g( xt) t ,(1.6)entonces es una estrategia markoviana estacionaria.Las estrategias mencionadas se dice que son determinsticas, y generalmente son "suficientes" para estudiar problemas de control. Sin embargo, en algunos problemas de control con restricciones o en problemas de juegos es indispensable usar estrategias aleatorizadas, tambin conocidas como estrategias mixtas o controles relajados (relaxed controls), en las que cada accin de control at es una variable aleatoria con una distribucin de probabilidad t concentrada en el conjuntoA( xt) en (1.3), lo cual denotamos comoatt(.) .(1.7)Ms explcitamente, t( B) :=Prob(atB) para BA( xt). En algunos casos, la distribucin t depende no slo del tiempo t sino tambin del estado xt . En este caso escribimosatt(./ xt) t.(1.8)Las estrategias en (1.7) y (1.8) son la versin aleatorizada (o "relajada") de las estrategias de lazo abierto y de lazo cerrado en (1.4) y (1.5), respectivamente.Para cada estado x X, el conjunto de acciones factibles A( x)en (1.3) es un subconjunto cerrado de un espacio A que se llama el espacio de acciones. A menos que se especifique lo contrario, supondremos que A es un subconjunto cerrado de mpara algn m1. (Ms generalmente, basta suponer que A es un espacio de Borel.)Definicin 1.2. Restricciones adicionales. Estas restricciones pueden depender de la naturaleza del PCO. Por ejemplo, en un problema de control de poblaciones (e.g. pesqueras, epidemias, etc.) el estado xt del sistema es el tamao de la poblacin al tiempo t, y obviamente se debe pedir una condicin de no- negatividad,xt0 t.Esta misma restriccin se debe cumplir en problemas de control de recursos renovables (e.g. agua, bosques) o no-renovables (e.g. petrleo, minerales), o en problemas financieros en los que el estado es un capital. En otras situaciones se puede requerir que el estado terminal xT pertenezca a un cierto conjunto K, i.e. Xt K. Otro caso muy comn es cuando se desea optimizar una cierta funcin objetivo, digamos V0(n), sobre todas las estrategias n para las queVi(n)bi i =1,., n ,(1.9)donde las Vi( ) son funciones dadas y las bison constantes. Por ejemplo, en un problema de control de produccin, tpicamente se desea maximizar la ganancia neta V0(n)sujeta a que ciertos costos Vi(n) (e.g. costos de manufactura, de almacenamiento, de distribucin, etc.) estn acotados por arriba, como en (1.9).Definicin 1.3. La funcin objetivo o ndice de funcionamiento. Para un PCO determinstico a tiempo discreto, ejemplos tpicos de funcin objetivo son: para cada estrategia n=at y cada estado inicial x0=x ,. costo total con horizonte finito T:V (n, x):=t=0T1c( xt , at)+CT( xT) ,(1.10)donde c( x , a)es el costo por etapa, y CT( x) es el costo terminal . costo total descontado con horizonte infinito:V (n , x):=t =0tc( xt , at) ,(1.11)donde O 0 y un activo con riesgo (e.g. algn tipo de acciones) con una tasa aleatoria de inters(t0. Obviamente, pedimos que E((t)>r.La variable de estado es el capital xt de un cierto inversionista, que en cada tiempo t(t = 0,1,., T ) debe decidir cuanto consumir y cuanto invertir. Entonces las acciones de control sonat = ( ct , pt) |0, xt| 0,1 ,(1.18)dondect :=cantidad que el inversionista decide consumir,pt :=fraccin de xt ctque decide invertir en el activo con riesgo, de modo que 1 ct es la fraccin de xt ct que invertir en el activo sin riesgo.El conjunto A(t ) := | 0, x | 0,1 en (1.18) es el conjunto de "acciones factibles", como en (1.3).El modelo dinmico del sistema esXt +1 = | (1Pt)(1+r) + Pt (t( xt ct) t =0,1,.(1.19)con condicin inicial x0 = > 0. Una funcin objetivo tipica es una "utilidad de consumo"V (n, x) := Exn|T=0TotU (ct) (1.20)donde T , o (0,1)es el factor de descuento, y U(c)es una funcin de utilidad. El PCO consiste en maximizar la funcin en (1.20) sobre todas las estrategiasn = atcon at como en (1.17), bajo la "restriccin" (1.19).Tiempo continuo. En este caso el precio b(t ) del activo sin riesgo (el bono, digamos) varia de acuerdo a una ecuacin diferencial ordinariadb(t ) = rb(t ) dt.con r > 0, mientras que el precio s(t) del activo con riesgo (el "stock") est dado por una ecuacin diferencial estocsticads(t ) = s(t )| mdt + cdw(t ) ,donde m > ryc0son constantes, yo( )es un proceso de Wiener estndar. Las acciones de control a(t ) = (C(t ) , p(t ))tienen la misma interpretacin que en (1.18). El modelo de sistema, en lugar de (1.19), ahora resulta ser la ecuacin diferencial estocstica.dx(t ) = (1 p(t )) x(t )rdt + p(t ) x (t )| mdt +cdw(t ) cd (t ) dt(1.21)con x(0) = x > 0. Los tres trminos en el lado derecho de (1.21) corresponden, respectivamente, a la ganancia por el capital invertido en el bono, la ganancia por la inversin en el stock, y la disminucin del capital debida al consumo.Por ltimo, la funcin objetivo que se desea optimizar es de nuevo como en (1.20), pero en "tiempo continuo", i.e.V (n, x) := Exn|0TejtU( c(t )) dt ,(1.22)dondej > 0es el factor de descuento.Ntese que en (1.19) necesariamente se tiene xt 0para todo t, si x0 = x > 0 , mientras que en (1.21) la condicin de no-negatividad no es evidente (por las propiedades del proceso w( )); se debe imponer la condicional adicional x(t ) 0 . Otra forma de asegurar la condicin de no-negatividad consiste en sustituir el tiempo terminal Ten (1.22) por el tiempo aleatoriot := minT , t0dondet0 := inf t 0 /x(t ) = 0es el primer tiempo en el que el procesox( )llega a cero.Las aplicaciones del control ptimo a problemas de finanzas se iniciaron con los trabajos de Samuelson (1969) y Merton (1969) para problemas a tiempo discreto y tiempo continuo, respectivamente. Actualmente, dichas aplicaciones sonmaterial estndar; ver e.g. Fieming y Rishel (1975), Fieming y Soner (1992), Sethi y Thompson (2000), Karatzas y Shreve (1998), Zariphopoulou (2002).Procesos de MarkovPara motivar la definicin de "proceso de Markov", considrese la ecuacin diferencial ordinaria, en n,x(t ) = F( x(t )) t 0,con x(0) = x0(1.23)(La funcin Fpodra depender del tiempo t.) Bajo ciertas hiptesis sobre F, esta ecuacin tiene una solucin nicax( s) = x0 + 0sF ( x(r)) dr s 0.Adems, para t s 0tenemosx(t ) = x0 + stF ( x(r )) dr.(1.24)Interpretando a scomo el "tiempo presente" y a t > scomo el "tiempo futuro", la ecuacin (1.24) dice que el estado presente x( s)determina el futuro x(t ); o bien, que dado el estado presente x( s), el futuro x(t )es independiente delpasado x( r), para r s. Por este motivo se dice que (1.24) es una condicin de causalidad (el presente determina el futuro); tambin se dice que el sistema determinstico x(.) no tiene memoria o que satisface la condicin de Markov (tambin llamada propiedad de Markov).Para procesos estocsticos la condicin de Markov se expresa de manera similar a (1.24). Por ejemplo, si x. = xt , t 0es un proceso estocstico a tiempo continuo, con valores en algn espacio de estados X, se dice que x.satisface la condicin de Markov o que x.es un proceso de Markov si para todo conjunto BXy tiempos t s 0se tieneP( xt B /xr 0 r s) = P( xt B /X s). (1.25)En particular, comparando esta expresin con (1.24) vemos que el sistema determinstico x(.) es un proceso de Markov. Los procesos de Markov incluyen las soluciones de ecuaciones diferenciales estocsticasdxt = F ( xt) dt + c( xt) dWt ,(1.26)bajo ciertas hiptesis sobre los coeficientes Fyc, los cuales pueden depender tambin del tiempo t, no solo del estado xt (vea (1.2)). Otros ejemplos son las cadenas de Markov (cuyo espacio de estados es un conjunto numerable), los procesos de Levy, ...Para un proceso estocstico a tiempo discreto, x. = xt, t = 0,1,.con espacio de estados X, la propiedad de Markov se puede escribir como:P( xt +1 B /x0,., xt) = P( xt +1 B /xt)(1.27)para todo t = 0,1,.y BC. Esta es una probabilidad de transicin en un paso, de ta t + 1, pero se puede demostrar que es equivalente a una condicin en kpasos, de ta t + k, para k = 1,2,.Un proceso de Markov a tiempo discreto tambin se conoce como cadena de Markov.En muchsimas aplicaciones, una cadena de Markov x. = xt, t = 0,1,.se define mediante una ecuacin de diferenciasxt +1 = F( xt, (t) t = , 1,.; x0 dado ,(1.28)donde(tes una sucesin de variables aleatorias independientes, con valores en algn conjunto S, e independientes del estado inicial x0,yF : X S -X es una funcin dada. Por ejemplo, un proceso muy comn es el proceso autoregresivo de primer orden definido porxt +1 = G( xt) + (t ,(1.29)tambin conocido como proceso con "ruido aditivo". Un caso especial son los sistemas linealesXt +1 = I xt + (tcon X = S = nyIuna matriz cuadrada de orden n.Procesos de control markovianos: tiempo discretoSea x. = xt , t = 0,1,.un proceso controlado con valores es un espacio X. Por analoga con la propiedad de Markov (1.27), se dice que x.es un proceso de control markoviano (PCM) si para cualquier estrategian = at, t = 0,1,.y cualquier t = 0,1,.,la distribucin de x.en el tiempo t +1, dada toda la "historia del proceso hasta el tiempo t" depende slo del estado y la accin en el tiempo t, es decirProb( xt+1 B /x0, a0,., xt , at) = Prob( xt +1 b /Xt, at):= Q( B/ X t, at)(1.30)para todo B X. La funcin Qen (1.31), i.e.Q( B/ x , a) := Prob( xt+1 B /X t = x , at = a)(1.31)se llama la ley de transicin del PCM.Por ejemplo, supngase que tenemos variables aleatorias i.i.d. como en (1.28),(tindependientes de x0. Para cualquier estrategia dadan = at, definimos el proceso x.n= xtcomoxt +1 = G( xt , at ,(t) t = 0,1,.; x0 dado ,(1.32)donde G : X A S -Xes una funcin dada (compare con (1.28)). Entonces x.es un PCM y su ley de transicin Qse puede calcular mediante la distribucin comn de las vv.aa.(t. Ntese tambin que sines una estrategia markoviana (por ejemplo como en (1.5) (1.6)), entonces x.es una cadena de Markov. En efecto, si at = g( xt)para todo t = 0,1,.,entonces (1.32) resultaxt +1 = G( xt , g( xt) ,(t) t = 0,1,.,(1.33)de modo que x.es precisamente de la forma (1.28).Observe que el sistema lineal (1.7) y el modelo de inversin y consumo (1.19) son ambos PCMs, porque son de la forma (1.32).Un hecho muy importante es que un PCM se puede describir de manera concisa mediante un modelo de control (MC) markovianoMC:= ( X , A, Q , c) ,(1.34)donde Xes el espacio de estados del PCM, A es el conjunto de acciones, Qes la ley de transicin (en (1.31)), y c : X A - es la funcin de costo por etapa que se usa para definir la funcin objetivo de inters, como en (1.10)(1.12). Algunas veces es necesario aadir componentes al modelo de control. Por ejemplo, si consideramos un costo terminal CT( x)como es (1.12), quizs convendra reescribir (1.34) comoMC = ( X , A, Q , c , CT).Si adems hay restricciones en los controles como en (1.3), entonces escribiramosMC = ( X , A, A( x)/ x X ,Q , c , Ct) .En fin, el modelo de control markoviano se puede adaptar a cada problema particular que se est analizando.Procesos de control markovianos: tiempo continuoSea x. = xt , 0 t T un proceso controlado, el cual depende por supuesto de la estrategia particularn = at, 0 t T que se est usando. Decimos que x.es un proceso de control markoviano (PCM) a tiempo continuo si cuandones una estrategia markoviana, el proceso x.resulta ser proceso de Markov. (Esta definicin es una extensin de la idea que usamos en (2.3.4).)Un PCM a tiempo continuo tambin se puede representar mediante un modelo de control (MC) markoviano, pero el asunto es un poco ms complicado que a tiempo discreto porque, en lugar de la ley de transicin Qen (1.34), debemos especificar el generador infinitesimal La(a A)del PCM, es decir, en lugar de (1.34) ahora tenemosMC = ( X , A, La, c) ,(1.35)donde Laes un operador definido sobre algn conjunto adecuado de funciones.Por ejemplo, el sistema determinstico (2.2) es un PCM porque sin = ates una estrategia markoviana, digamos at = g(t , xt), entonces (2.2) se reduce a una ecuacin diferencial ordinariaxt = F (t , xt , g (t , xt)) G(t , xt).En este caso el generador infinitesimal asociado a (2.2) es el operadorLav( x) := F (t , x , a) vx(1.36)definido para cierta subfamilia de funciones v( x)de clase C1.Anlogamente, la ecuacin diferencial estocstica (1.2) tambin define un PCM - bajo hiptesis adecuadas sobre F (t , x , a) , c(t , x , a)y at- y el generador Laresulta serLav( x) := F (t , x , a) vx + 12 Tr| d ( t , x , a)V xx , (1.37)donde D := cc' , vxxes la matriz hessiana de v, y Tr (b) := 2ibiies la traza deuna matriz B = (bij). Explcitamente,Tr( D vxx) = 2ij (2k cikckj) vxixj(1.38)cuando el coeficientecen (1.2) es una matriz, digamosc = (cij). Por supuesto, en el caso escalar (1.38) se reduce a c22v / x2.Nota bibliogrfica. Para problemas de control a tiempo discreto el lector puede consultar (por ejemplo): Arkin y Evstigneev (1987), Bertsekas (1987, 2000), HernndezLerma y Lasserre (1996, 1999), Stokey y Lucas (1989). Para problemas a tiempo continuo: Fieming y Rishel (1975), Fieming y Soner (1992), HernndezLerma (1994), Sethi y Thompson (2000), Yong y Zhou (1999).2. EL PRINCIPIO DEL MXIMOHay varias tcnicas generales para estudiar PCOs como son el anlisis convexo y la programacin lineal (usualmente en espacios vectoriales de dimensin infinita). Sin embargo, por razones computacionales, en la mayora de las aplicaciones las tcnicas ms usadas son el principio del mximo (que algunos autores llaman el principio de Pontryagin) y la programacin dinmica. En esta seccin veremos brevemente la primera de estas tcnicas; la segunda se estudia en la siguiente seccin.Para simplificar la exposicin slo consideraremos problemas determinsticos con horizonte finito, a tiempo discreto y a tiempo continuo. Al final de la seccin se mencionan algunas referencias sobre problemas estocsticos.Problemas a tiempo discreto.Considrese el PCO determinstico con espacio de estados X = n, espacio de acciones A = m, y modelo dinmicoxt +1 = F(t , xt , at) T = 0,1, ., T 1(2.1)con estado inicial xo = x. La funcin objetivo que se desea minimizar es el costo totalV (n , x) =t=0T1L(t , xt , at) + C ( xr) ,(2.2) sobre el conjunto de estrategiasn = at.A grandes rasgos, la idea del principio del mximo consiste en usar el mtodo de multiplicadores de Lagrange para minimizar (2.2) sujeto a la "restriccin" (2.1). Para este fin, primero expresamos (2.1) en la formaxt +1 F(t , xt , at) = 0 t = 0,1,.,T 1.Despus introducimos "multiplicadores de Lagrange" p0, p1, ., pTen n, a los que llamaremos vectores adjuntos (tambin llamados vectores de co-estado), y definimos el "lagrangiano"V (n, x , p.) := V (n, X ) + t=0T1Pt+1| xt+1 F (t , xt , at) ,(2.3)donde p. = p0,., pT. Por lo tanto, sustituyendo (3.2) en (3.3) y usando el hamiltoniano, definido para cada t = 0,1,., T 1comoH (t , xt , at , pt +1) := pt +1 F(t , xt , at) L(t , xt , at) ,(2.4)un poco de lgebra elemental nos permite reescribir (2.3) comoV (n, x , p.) = t =0T1| pt xt H(t , xt, at , pt+1) + c( xT) + pT xT p0 x0.Finalmente, bajo la siguiente hiptesis y usando resultados de optimizacin no- lineal se obtiene el Teorema 3.2 (cuya demostracin se puede ver en Haikin (1966), Tabak y Kuo (1971) o Sethi y Thompson (2000)).Hiptesis 2.1.(a) Para cada t = 0,1,., T 1, las funciones de costo L(t , x , a)y C( x)son de clase C1en xy a;(b) Para cada t = 0,1,., T 1y a A,la funcin F (t , x , a)es de clase C1enx ;(c) Para cada t = 0,1,., T 1y x n, el conjuntoF(t , x , a) : a Aes convexo.Teorema 2.2. (El principio del mximo - caso determinstico, tiempo discreto). Suponga que se cumple la Hiptesis 2.1. Supngase tambin que existe una estrategia ptima a.= at, t = 0,., T 1para el PCO (2.1)-(2.2), y sea x.= xt, t = 0,., T 1la trayectoria correspondiente que se obtiene de (2.1) con estado inicial x0= x0. Entonces existe un conjuntop. = p0,., pT de vectores adjuntos que satisfacen la ecuacin adjuntapt = Hx(t , xt, at, pt +1) t = 0,., T1,(2.5)i.e.pt = Fx(t , xt, at) pt +1 Lx(t , xt, at) ,con la condicin terminalPT = Cx( xt) ,(2.6)y la maximizacin del hamiltoniano:H (t , xt, at, pt +1) = maxaA H (t , xt, a , pt+1)(2.7)para t = 0,., T 1.El nombre "principio del mximo" para el Teorema 2.2 viene precisamente de la condicin (2.7).Nota 2.3. El Teorema 3.2 da condiciones necesarias de optimalidad, a saber, la existencia de la sucesin p.de vectores adjuntos que satisfacen (2.5), (2.6) y (2.7).Bajo hiptesis adecuadas estas condiciones tambin son suficientes. De hecho, si tales condiciones se satisfacen, entonces la bsqueda de un "par ptimo"(a., x.)se reduce a resolver un problema con valores de frontera que consiste de(a) las ecuaciones (2.1) y (2.5), que tambin se conocen como las ecuaciones cannicas del PCO;(b) las condiciones de frontera (3.6) y x0= x0; y(c) la maximizacin del hamiltoniano, es decir, encontrar a.tal queH (t , xt, a , pt +1) = maxaA H(t , xt, a , pt +1).Este procedimiento slo asegura, en general, la existencia de estrategias ptimas de lazo abierto (ver (1.4)). En contraste, el mtodo de programacin dinmica que veremos en la siguiente seccin necesariamente da estrategias markovianas (como en (1.5)).Ejemplo 2.4: Sistema LQ determinstico a tiempo discreto. Considrese elproblema de encontrar una estrategia de control que minimize la funcin de costoV (n, x) = 12t =0T1(Q xt2+ Rat2) + 12 S xT2,(2.8)conn = at, sujeta axt +1 = o xt + at t = 0,1, .,T 1;x0 = x.(2.9)Las constantes Qy Sen (2.8) son no-negativas y Res positiva, mientras que los coeficientesoyen (2.9) son distintos de cero. El espacio de estados y el de acciones son X = A = (Exactamente el mismo anlisis que presentamos a continuacin se puede extender a un problema vectorial conX = ny A = m,en cuyo caso los coeficientes en (2.8) y (2.9) son matrices de dimensiones adecuadas. Adems, dichos coeficientes pueden variar con el parmetro de tiempo: (Qt , Rt , ST , t.)Comparando (2.8)-(2.9) con (2.1)-(2.2) vemos que el hamiltoniano en (2.4) resultaH (t , xt , at , pt +1) = (o xt + at) pt +1 12(Q xt2+ Rat2).Luego, comoH x = oPt +1 xty Ha = Pt+1 Rat ,el problema con valores de frontera mencionado en la Nota 2.3 resulta:(a) Ecuaciones cannicas: para t = 0,1,., T 1,xt +1 = o xt + at ,Pt = o pt+1 Qat.(2.10)(b) Condiciones de frontera: x0 = x , pT = S xT .(c) Maximizacin del hamiltoniano: de la igualdad Ha = 0obtenemos.at = R1Pt +1 t = 0,., T 1.(2.11)Como la segunda derivada parcial Haa = Res negativa, se puede demostrar que los controles en (2.11) dan una estrategia ptima, aunque por supuesto an falta calcular los vectores adjuntos pt Con este fin, sustituimos (2.11) en (2.10):xt +1 = o xt + R12pt+1, pt = oPt +1 Q xt(2.12)y combinando estas ecuaciones vemos que necesariamente ptes de la formapt = Kt xt t = 0, ., T ,(2.13)donde K0,., ktson constantes. En efecto, la condicin de frontera pT = S xTimplica que KT = S. Asimismo, de la segunda ecuacin en (2.12) tenemospT1 = oPT Q xT1y usando la primera ecuacin en (2.12) podemos escribir pten funcin de xT1. En general, para obtener ktprocedemos como sigue.Sustituyendo (2.13) en (2.12) obtenemosPt = | o2RKt +1/ ( R 2Kt+1) Q xtDe la primera de estas ecuaciones despejamos xt +1y sustituimos su valor en la segunda ecuacin. As se obtiene quePt = | o2RKt +1/ ( R 2Kt+1) Q xty comparando con (2.13) vemos que las constantes Ktsatisfacen queKt = o2RK t+1/( R 2Kt +1) Q t = 0,1,., T 1,(2.14)con condicin terminal KT = S bajo la hiptesis de que S R/ 2. La ecuacin (3.14) es un caso especial de la llamada ecuacin de Riccati y se resuelve "hacia atrs": empezando con KT = S, se calculan kT1, KT2,., K0.Conociendo el valor de los vectores adjuntos ptpodemos determinar los controles ptimos y la correspondiente trayectoria y la funcin de costo mnimo. Por ejemplo, sustituyendo (3.13) en (3.11) obtenemosat = R1Kt+1xt+1= R1 Kt +1(o xt + at)[por (2.9)]y despejando atobtenemos los controles ptimos:at= Gt xt t = 0,., T 1,con Gt := o Kt +1/( R 2Kt+1)..Problemas a tiempo continuo.Sea A| 0, T el conjunto de todas las funciones medibles a( ) : | 0, T -A. El conjunto A| 0, T es esencialmente la familia de las estrategias de lazo abierto definidas sobre el intervalo| 0,T .Ahora consideraremos el PCO que consiste en minimizar el costoJ (a( )) := 0TL(t , x(t ) , a(t )) dt + C( x(T ))(2.15)sobre todas las estrategias a( ) A| 0, T , sujetas a que x(t ) = f (t , x(t ) , a(t )) 0 t T ,x(0) = x0.(2.16)Supondremos que el espacio de estados y el conjunto de acciones sonX = ny A = m.Por supuesto, para que (2.8) y (2.9) estn bien definidas se requieren hiptesis adecuadas de medibilidad, de Lipschitz, etc., que se pueden ver en, por ejemplo, los libros de Fleming y Rishel (1975) o de Yong y Zhou (1999). Un tratamiento un tanto informal del principio del mximo, pero con un buen nmero de aplicaciones, se puede ver en Sethi y Thompson (2000). Aqu slo enunciaremos el resultado principal, que requiere la siguiente notacin y terminologa.Si a(.) es una funcin en A| 0, T y x( )es la correspondiente solucin de (3.9) se dice que( x( ) , a( ))es un par admisible. Adems, si a ( )es una estrategia ptima y x ( )es la solucin de (3.9), decimos que( x ( ) , a ( )) es un par ptimo. Dado un par admisible( x( ) , a( ))y una funcin P( ) : | 0, T - n, que llamaremos una (funcin o) variable adjunta, definimos el hamiltonianoH (t , x(t ) , a(t ) , p(t )) :=p(t )F(t , X (t ) , a(t )) L(t , x(t ) , a(t )) .(2.17)(Compare esta definicin con (2.4).) Con esta notacin, el anlogo de las condiciones necesarias (2.5)(2.7) resulta como sigue.Teorema 2.5. (El principio del mximo - caso determinstico, tiempo continuo). Supngase que existe un par ptimo para el PCO (2.8)-(2.9). Entonces, bajo ciertas hiptesis sobre las funciones F (t , x , a) , L(t , x , a) y C( x), existe una variable adjunta P( ) : | 0, T - nque satisface la ecuacin adjunta p(t ) = H x(t , x (t ) , a (t ) , p(t ))= F x(t , x (t ) , a (t ) , p(t )) + Lx(t , x (t ) , a (t ) , p(t ))(2.18)con condicin terminalP(T ) = Cx( x (T )) ,(2.19)y la maximizacin del hamiltoniano:H (t , x (t ) , a (t ) , p(t )) = maxaA H(t , x (t ) , a (t ) , p(t )).(2.20)Las ecuaciones (2.11) y (2.12) se cumplen "para casi todo" t |0, T ..La Nota 2.3 (para problemas a tiempo discreto) tambin es vlida en el caso continuo, con algunos cambios obvios de notacin.Ejemplo 2.6: un problema de control de inventario-produccin. Considrese un problema de control cuyos componentes son, en cada tiempo0 t T :: la variable de estado x(t ) :=el nivel de inventario la variable de control a(t ) :=la tasa de produccin la variable exgena s (t ) :=la tasa de ventas.Adems, hay dos valores de referencia, un nivel de inventario de seguridad i y un nivel eficiente de produccinEl nivel de inventario van-a de acuerdo a la ecuacin diferencial x(t ) = a(t ) s(t ) para t 0,x(0) = x0.(2.21)Las estrategias de control son funciones medibles a(t ), no-negativas. El PCO consiste en encontrar una estrategia que minimiza la funcin objetivo. x(t ) = a(t ) s(t ) para t 0,x(0) = x0.(2.22) donde x = x(t )y a = a(t ) ;h > 0 es el costo de mantenimiento y c > 0el costo de produccin. La interpretacin de (3.22) es que el controlador desea mantener el nivel de inventario x( )y la tasa de produccin a( )lo ms cerca posible de los valores de referencia x y a, respectivamente. (A problemas de este tipo se les llama problemas de seguimiento o de rastreo, porque el estado y los controles deben seguir o rastrear lo ms cerca posible a los valores x , a.)Comparando (2.21)(2.22) con (2.15)(2.16) vemos que el hamiltoniano (en (2.17)) resulta serH (t , x(t ) , a(t ) , P(t )) = p(t ) (a(t ) s(t )) 12 | h ( x(t ) x)2+ c (a a)2 .Luego, comoH x = h ( x(t ) x)y Ha = p(t ) c codt (a(t ) a) ,obtenemos el siguiente problema con valores de frontera:(a) Las ecuaciones cannicas x(t ) = a(t ) s(t ) ,(2.23) p(t ) = h ( x(t ) x);(2.24)(b) las condiciones de frontera: x(0) = x0, p(T ) = 0 ;(c) maximizacin del hamiltoniano; haciendo Ha = 0vemos quea(t ) = p(t )/ c + a.(2.25)Como Haa = c0, la funcin a( )en (2.23) es en efecto la estrategia ptima del problema (2.21)(2.22), pero an falta calcular la variable adjuntap( ).Conesto en mente, sustituimos (2.25) en (2.23) para obtener x(t ) = P(t )/ c + a s(t ) ,x(0) = x0.(2.26)Para resolver las ecuaciones (2.24) y (2.26), primero derivamos (2.26) y as obtenemos una ecuacin con p, es decir,x(t ) = p(t )/ c s (t ).Ahora sustituimos (2.24) en esta ltima ecuacin para obtener x(t ) = o2( x(t ) x) s(t ) ,con o := . h/ c ;equivalentemente x(t ) = o2x(t ) = o2x s(t ).(2.27)La solucin general de esta ecuacin es de la forma x(t ) = o2x(t ) = o2x s(t ).(2.28)donde Q(t )es cualquier solucin particular de (2.27). (La funcin Qse puede determinar si se conoce la forma explcita de s(t ).) Como en (3.28) hay slouna condicin inicial, para determinar las constantes a1, a2, sustituimos (2.28) en (2.26) y esto da que la variable adjunta p(t )satisface:p(t ) = c(oa1eot+oa2eot+ Q(t ) S (t ) a) ,(2.29) con condicin terminal p(T ) = 0. Las ecuaciones (2.28) y (2.29), con sus respectivas condiciones de frontera, dan un sistema de dos ecuaciones algebraicas que permiten determinar los valores de a1, a2. Habiendo determinado estos valores se obtiene la forma explcita del control ptimo en (2.25). (Ntese que no impusimos la condicin a(t ) 0;si la tasa de produccin a(t )es negativa, significa que debemos eliminar o desechar inventario.) El caso estocstico.Para sistemas estocsticos a tiempo continuo, y salvo contadas excepciones, el principio del mximo se ha desarrollado principalmente para ecuaciones diferenciales estocsticas, como en (2.3). Una buena referencia para este caso, con una extensa bibliografa, es el libro de Yong y Zhou (1999). Una extensin del principio del mximo ha permitido a Josa-Fombellida y Rincn-Zapatero (2005) proponer un nuevo enfoque para problemas de control estocstico. Un enfoque similar ha sido estudiado por Bourdache-Siguerdidjane y Fliess (1987) para problemas determinsticos y por Rincn-Zapatero (2004) y Rincn-Zapatero et al. (1998) para juegos diferenciales.Curiosamente, para sistemas estocsticos a tiempo discreto hay poqusimas referencias, entre las que cabe mencionar el libro de Arkin y Evstigneev (1983).3 Programacin dinmicaComo se mencion en la Nota 2.3, para encontrar una estrategia ptima el principio del mximo se reduce esencialmente a resolver un problema con valores de frontera. Esto requiere determinar una estrategia ptima simultneamente con las otras variables (la trayectoria y los vectores adjuntos) en el problema. Un enfoque alternativo consiste en descomponer el PCO en "etapas", cada una correspondiente a un subproblema con una sola variable, de modo que el PCO se resuelve en forma secuencial, por etapas. Esta es la idea del mtodo de programacin dinmica que veremos en esta seccin. Primero consideraremos PCOs a tiempo discreto y despus a tiempo continuo.La programacin dinmica fue introducida por Richard Bellman en la dcada de los aos 1950 vea el libro de Bellman (1956), por ejemplo.Problemas a tiempo discreto.Consideraremos de nuevo el PCO determinstico en (1.1)-(1.2) pero por conveniencia notacional escribiremos las variables xty at como x(t )y a(t ), respectivamente. As pues, tenemos el modelo dinmicox(t +1) = F (t , x(t ) , a(t )) t = 0,., T 1,x(0) = x0,(3.1)con funcin objetivoV (n , X ) := t =0T1L(t , x(t ) , a(t )) + C ( x(T )) ,(3.2)donden = a(t ). El espacio de estados es X = ny el de acciones de control es un conjunto cerrado A m.La programacin dinmica se basa en el siguiente "principio de optimalidad" que introdujo Bellman, y cuya demostracin es evidente.Lema 3.1. (El principio de optimalidad) Sea a ( )=a (0) ,., a (T 1)una estrategia ptima para el problema (3.1)-(3.2), y seax ( )=x ( 0) ,., x (T ) trayectoria correspondiente; en particular,x (0) = x0. . Entonces para cualquier tiempo s 0,., T1, la estrategia "truncada" a (t )para s t T1, es la estrategia ptima que lleva el sistema (4.1) del punto x ( s)al punto x (T ).Para ver como se usa el Lema 4.1, consideremos el PCO (4.1)(4.2) pero slodel tiempo s en adelante (con 0 s T 1), con estado "inicial" x( s) = x, es decir, seaV (n, s , x) := t =sT1L(t , x(t ) , a(t )) + C( x(T ))(3.3)y sea v( s , x)el correspondiente costo mnimo, i.e.v( s , x) := infn V (n, s , x).(3.4)Adems, como en el tiempo terminal Tno se aplican acciones de control, definimosv(T , x) := C ( x) .(3.5)Luego, si en el Lema 3.1 interpretamos s y x (s) = xcomo el tiempo y el estado iniciales, se sigue de (3.3) y (3.4) quev( s , x) = V ( a ( ) , s , x)= t=sT1L(t , x , a + C( x ))= L( s , x , a ( s)) + V ( a ( ) , s + 1, x ( s + 1))= L( s , x , a ( s)) + v( s + 1,x ( s + 1))Por lo tanto, como x ( s+1) = F( s , x , a ( s)) = F( s , x , a ( s)), obtenemosv( s , x) = L( s , x , a ( s)) + v( s + 1, F( s , x , a (s)))(3.6)Pero, por la definicin (3.4), v( s , x)es el costo mnimo de operar el sistema del tiempo sal tiempo T, de modo queV ( s , x) L( s , x , a) + v (s + 1, F (s , x , a)) a A.(3.7)Finalmente, combinando (3.6) y (3.7) vemos quev( s , x) = minaA| L( s , x , a) + v( s + 1, F ( s , x , a)) s = 0,., T1.(3.8)y que el mnimo en el lado derecho de (3.8) se alcanza en a ( s), como en (3.6).La ecuacin (3.8) con la "condicin terminal" (3.5) se llama la ecuacin de programacin dinmica (EPD), o ecuacin de Bellman, y es la base del "algoritmo de programacin dinmica" (3.9)-(3.10) en el siguiente teoremaTeorema 3.2. (El teorema de programacin dinmica) Sean J0, J1,., JTlas funciones sobre Xdefinidas "hacia atrs"(de S = Ta s = 0)comoJT( x) := C( x) ,(3.9)y para s = T1, T2,.,0,Js( x) := mina | L( s , x , a) + Js+1( F (s , x , a)).(3.10)Suponga que para cada s = 0,1,.,T 1, existe una funcin as: X -Aque alcanza el mnimo en el lado derecho de (3.10) para todo x X. Entonces la estrategia markovianan= a0.., aT1es ptima y la funcin de valor coincide con J0, i.e.infn V (n, X ) = V (n, x) = J0( x) x X.(3.11)De hecho, para cada s = 0,., T ,Jscoincide con la funcin en (3.4)-(3.5), i.e.v( s , x) = Js( x) 0 s T ,x X(3.12)Es importante observar que (3.12) significa que algoritmo (3.9)-(3.10) da el costo ptimo (o costo mnimo) del PCO (3.1)-(3.2) con tiempo y estado inicial0sT1 y x (s)=x ,respectivamente.Consideremos ahora el sistema estocstico en el que (3.1) y (3.2) se sustituyen porx(t + 1) = F (t , x(t ) , a(t ). ((t )) t =0, .,T1,con x(0) = x ,(3.13)V (n , x) := E|t =0T1L(t , x(t ) , a(t )) + C( x(t )) ,(3.14)conn = a(t ), y las "perturbaciones"((0) ,., ((T 1)en (3.13) son variables aleatorias independientes e idnticamente distribuidas (i.i.d.) con valores en algn espacio S . Resulta entonces que, con algunos cambios adecuados, prcticamente todo lo que aparece en los prrafos anteriores sigue siendo vlido. Ms precisamente, en las expresiones en las que aparece la funcin F[a saber, (3.6)-(3.8) y (3.10)] debemos escribir F ( s , x , a , (( s))en lugar de F ( s , x , a); adems, se debe tomar la esperanza en las expresiones donde aparezcan trminos estocsticos, o sea, en el lado derecho de (3.3), (3.6)-(3.8), y (3.10). Para ms detalles, vea el Ejemplo 3.4.Nota 3.3. Una demostracin detallada del teorema de programacin dinmica en el caso estocstico a tiempo discreto aparece en HernndezLerma y Lasserre (1996), Seccin 3.2. Otras demostraciones, as como un buen nmero de ejemplos y aplicaciones, aparecen en Arkin y Evstigneev (1987), Bertsekas (1987), Le Van y Dana (2003), Luque-Vsquez et al. (1996), Stokey y Lucas (1989), ...Para ilustrar el algoritmo de programacin dinmica, a continuacin veremos una versin estocstica del sistema LQ en el Ejemplo 3.4.Ejemplo 3.4: Sistema LQ estocstico a tiempo discreto. Considere el sistema linealxt +1 = o xt + at + (t t = 0,1,.; x0 dado,con coeficienteso , distintos de cero. Las perturbaciones(t son variables aleatorias i.i.d., independientes de x0, y con media 0y varianza c2finita, i.e.E((t) = 0, c2:= E ((t2) t = 0,., T 1.(3.15)Los espacios de estados y de acciones son X = A = setr. Se desea minimizar la funcin de costov(n, x) := E|t =0T1(qxt2+ rat2) + qt xT2 x0 = x ,donde r > 0 y q ,qr 0.En este caso, la ecuacin de programacin dinmica (3.9)-(3.10) resultaJt( x) := qT x2(3.16)y para s = T 1, T 2,., 0;Js( x) := mina | qx2+ ra2+ EJs+1(o x + a + +(s) .(3.17)Esta ecuacin se resuelve "hacia atrs": sustituyendo (3.16) en (3.17) obtenemosJT1( x) = mina | qx2+ ra2+ qrE(o x + a + (T12)donde, usando (3.15),E(o x + a + (T1)2= (o x + a)2+ c2Luego,Jt1( x) = mina |(q + qTo2) x2+ ( r + qT2)a2+ 2qTo xa + qTc2 .El lado derecho de esta ecuacin se minimiza enaT1( x) = KT1x ,con GT1 := ( r + qT2)1qToy el mnimo esJT1( x) = KT1x2+ qTc2.con KT1 := (r + qT2)1qTr c2+ q.En general, es fcil ver que la estrategia ptiman=a0,., aT1est dada poras( x) = Gsx ,con Gs := (r Ks+12)1Ks+1o,(3.18)con "ganancias" Ksdadas recursivamente por KT := qT y para s = T1,., 0;Ks = (r + Ks+12)1K2+1r c2+ q.Asimismo, el costo ptimo del tiempo sen adelante, en (3.12), resultaJs( x) = Ksx2+ c2n=s+1TKnpara s = 0,., T 1.(3.19)En particular, con s = 0se obtiene el costo mnimo en (3.11). Nota. Es interesante comparar el problema LQ estocstico en el ejemplo anterior con el problema LQ determinstico en el Ejemplo 2.4: se puede ver que en ambos casos la estrategia ptima est dada por (3.18). Sin embargo, difieren en el costo mnimo; la diferencia est en que, en el caso determinstico, la varianzac2que aparece en (4.19) es cero.Para referencia futura, a continuacin veremos brevemente el caso de costo descontado con horizonte infinito. Considrese el PCO que consiste del sistema estocstico.xt +1 = F( xt, at, (t) t = 0,1,.; con x0 = x ,(3.20) con funcin objetivoV (n, x) := E|t=0otc( xt , at , (y)(3.21)en donde c( x , a , ()es la funcin de costo por etapa, yo (0,1)es el factor de descuento. Como siempre, X y Arepresentan el espacio de estados y de acciones, respectivamente. Asimismo, denotaremos por A( x)el conjunto de acciones factibles en el estado x ;; vase (1.3). El PCO (3.15)-(3.16) es estacionario en el sentido de que las funciones F ( x , a ,() y c( x , a ,()no dependen del tiempo ty, adems,(0, (1,.son variables aleatorias i.i.d. cuya distribucin de probabilidad la denotaremos porj, es decirj( B) := Prob| (0 B B S ,(3.22)donde Ses el "espacio de perturbaciones", o sea el conjunto en el que toman valores las variables(tConsidrese la funcin de valorv( x) := infn V (n, x)y la sucesin de funciones vn, definidas iterativamente como vn( x) =infaA(x)E| c( x , a ,(0) + ovn1( F ( x , a ,(0))=infaA( x)S | c( x , a , s) + ovn1( F( x , a , s)) j(ds),(4.23)para n = 1,2,.,con v0( x) 0.Con esta notacin, se tiene el siguiente resultado bajo una variedad de hiptesis (vanse las referencias en la Nota 4.3, o la seccin 8.3 en HernndezLerma y Lasserre (1999)).Teorema 3.5. Bajo hiptesis adecuadas:(a) la funcin de valor v satisface la ecuacin de programacin dinmicaV ( x) = inf aA( x)s | c( x , a , s) + ov ( F( x , a , s)) j(ds) x X.(3.24)(b) Supngase que existe una funcin g : X -Atal queg( x) A( x)y g( x)minimiza el lado derecho de (3.24) para todo X X, i.e.v( x) = s | c( x , g( x) , s) + ov( F( x , g( x) , s)) j(ds).Entonces g define una estrategia markoviana estacionaria (recurdese (1.6)) que es ptima para el PCO (3.20)-(3.22).(c) Cuando N - , vn( x) - v( x)para todo X X. (Las funciones V ndefinidas en (3.23), se llaman funciones de iteracin de valores.)La parte (c) del Teorema 3.5 se usa para aproximar la funcin v( x)o para deducir propiedades de ella.Problemas a tiempo continuoConsideremos el PCO (3.1)-(3.2) pero en tiempo continuo, es decir x(t ) = F( t , x(t ) , a(t )) t | 0, T ,x(0) = x ,(3.25)V (n , x) := 0TL(t , x(t ) , a(t )) dt + C( x(T )) ,conn = a( ).Asimismo, como en (3.3)-(3.5), para cada estado s |0, T y "estado inicial" X (s) = x ,, definimosV (n , s , x) := sTL(t , x(t ) , a(t )) dt + C( x(T ))yv( s , x) := infn V (n, s , x) para 0 s T ,v(T , x) := C( x).En este caso, el principio de optimalidad es completamente anlogo al caso de tiempo discreto (Lema 4.1), y el teorema de programacin dinmica es como sigue.Teorema 3.6 Bajo ciertas hiptesis sobre las funciones F , C , Ly el conjunto A, y suponiendo que v( s , x)es de clase C1,1(|0, T n) ,ves solucin de la ecuacin de programacin dinmicaV s+infaA| F (s , x , a)V x + L( s , x , a) = 0 ( s , x)(0,T )n,(3.26) con condicin de frontera v(T , x) = C( x). Si adems g( s , x)es una funcin que alcanza el mnimo en (3.21), entoncesa ( s) := g ( s , x( s)) s | 0,T es una estrategia ptima, i.e. v( s , x) = V (a ( ) , s , x).Para PCOs a tiempo continuo (determinsticos o estocsticos) la ecuacin de programacin dinmica, como (3.26), tambin se conoce como ecuacin deHamiltonJacobiBeliman.Usando el hamiltoniano H ( s , x , a , p)en (2.10) podemos expresar (3.26) comoV s s upaA H (a , x , a ,vx) = 0.Esto establece un vnculo entre la programacin dinmica y el principio del mximo.La demostracin del Teorema 4.6 se puede ver en, por ejemplo, Fieming y Rishel (1975), Fieming y Soner (1992), Yong y Zhou (1999). Estos libros estudian el control de ecuaciones diferenciales ordinarias (como en (3.25)) y estocsticas (como en (1.2)). Otros sistemas estocsticos a tiempo continuo incluyen las cadenas de Markov - ver, por ejemplo, Guo y Hernndez-Lerma (2003a) o Prieto-Rumeau y Hernndez-Lerma (2005a). Aunque es costumbre estudiar cada uno de estos sistemas por separado, es posible hacer estudios unificados que incluyen prcticamente cualquier tipo de proceso de control markoviano (PCM) a tiempo continuo, como en (1.35)-(1.37); ver Hernndez-Lerma (1994), Prieto-Rumeau y Hernndez-Lerma (2005a) y sus referencias, donde en particular podemos ver lo siguiente.Nota 3.7. Usando el generador infinitesimal (2.36) podemos expresar la ecuacin de programacin dinmica (3.26) comoV s+infaA| L v( s , x) + L( s , x , a) = 0 ( s , x) (0, T ) n.(3.27)De hecho, expresada de esta manera usando el generador infinitesimal del PCM la ecuacin (3.27) resulta ser la ecuacin de programacin dinmica para cualquier PCM a tiempo continuo, con horizonte finito T. Por ejemplo, si en lugar del sistema determinstico (3.25) consideramos la ecuacin diferencial estocstica (1.2), entonces el generador Laen (3.27) seria el operador en (1.37). Asimismo, si el PCM es un proceso markoviano de saltos con espacio de estados numerable y "tasas de transicin" qxy(a), entonces tomando S = 0en (3.27) el generador LaresultaLav( x) := yX qxy(a)v( y).Para ms detalles, vea las referencias mencionadas en el prrafo anterior.