Universidad de Guanajuato Fundamentos de … · Existencia de procesos estocásticos dada una...

233
Universidad de Guanajuato Fundamentos de Ecuaciones Diferenciales Estocásticas Una introducción a la teoría de procesos estocásticos con el desarrollo de la integral estocástica de It¯ o y un ejemplo de genética poblacional. T E S I S Que para obtener el título de Licenciado en Matemáticas P R E S E N T A: Guillermo Elías Martínez Dibene Director de Tesis: Dr. José Alfredo López Mimbela GUANAJUATO, GTO NOVIEMBRE 2013

Transcript of Universidad de Guanajuato Fundamentos de … · Existencia de procesos estocásticos dada una...

Universidad de Guanajuato

Fundamentos de EcuacionesDiferenciales Estocásticas

Una introducción a la teoría de procesos estocásticos con eldesarrollo de la integral estocástica de Ito y un ejemplo de

genética poblacional.

T E S I S

Que para obtener el título de

Licenciado en MatemáticasP R E S E N T A:

Guillermo Elías Martínez DibeneDirector de Tesis:

Dr. José Alfredo López Mimbela

GUANAJUATO, GTO NOVIEMBRE 2013

2

• Índice general

Prefacio III

1. Preliminares de probabilidad. 11.1. Funciones características. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. La distribución normal multidimensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Esperanza condicional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3.1. ¿Qué es la probabilidad condicional? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.2. El teorema de Radon-Nikodým. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.3. Propiedades de la probabilidad condicional; la esperanza condicional. . . . . . . . . . 151.3.4. Ejemplos de probabilidad elemental. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3.5. Propiedades de la esperanza condicional. . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.3.6. Probabilidades regulares y distribuciones condicionales. . . . . . . . . . . . . . . . . . 26

1.4. El teorema de extensión de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2. Procesos estocásticos. 292.1. Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2. Procesos estocásticos en L2 (Ω,F ,P) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2.1. Función de covarianzas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2.2. Existencia de procesos estocásticos dada una matriz de covarianzas. . . . . . . . . . 32

2.3. Distribuciones de dimensión finita. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.4. Procesos estocásticos separables, continuos y medibles. . . . . . . . . . . . . . . . . . . . . . . 352.5. Tiempos de paro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492.6. Procesos markovianos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.6.1. Probabilidades de transición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 602.6.2. Propiedades principales de las probabilidades de transición. . . . . . . . . . . . . . . . 62

2.7. Procesos estocásticos con incrementos independientes. . . . . . . . . . . . . . . . . . . . . . . 702.8. Martingalas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 742.9. Procesos fuertemente markovianos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3. Movimiento browniano. 853.1. Existencia del movimiento browniano en R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 853.2. Algunas propiedades básicas y ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 873.3. Existencia del movimiento browniano en Rn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y de existencia yunicidad. 1014.1. Definiciones y propiedades básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1024.2. Extensión a toda función en Md,m

2 [t0, T]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

I

Índice general

4.3. Propiedades de la integral estocástica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1224.4. Las integrales estocásticas como procesos estocásticos. . . . . . . . . . . . . . . . . . . . . . . 129

4.4.1. Las variaciones de un proceso estocástico. . . . . . . . . . . . . . . . . . . . . . . . . . . 1374.5. El teorema de Ito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1534.6. Ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1654.7. El teorema de existencia y unicidad con sus generalizaciones. . . . . . . . . . . . . . . . . . . 170

5. Un ejemplo de estudio. 1895.1. Un poco sobre biología de genes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

5.1.1. Genotipos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1905.1.2. Deriva genética. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1905.1.3. Mutación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1915.1.4. El modelo de pasaderas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

5.2. El simplejo y algunas propiedades básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1935.3. Solución de la ecuación diferencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

5.3.1. Notación e hipótesis sobre las funciones f y α. . . . . . . . . . . . . . . . . . . . . . . . 1945.3.2. Existencia de la solución y estacionaridad en Ln. . . . . . . . . . . . . . . . . . . . . . . 195

A. Un repaso de diferenciación en Rn. 201A.1. Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202A.2. La regla de la cadena. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204A.3. El teorema del valor medio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205A.4. Algunos isomorfismos canónicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207A.5. Derivadas de orden superior. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

A.5.1. Ejemplos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214A.5.2. Matrices hessianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

A.6. Teorema de Taylor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215A.7. Convexidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

B. Teoría de la medida 221B.1. Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221B.2. Propiedades básicas de las medidas y cargas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222B.3. Medidas de Lebesgue-Stieltjes en Rd. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223B.4. Funciones medibles, integración y teoremas de convergencia. . . . . . . . . . . . . . . . . . . 224

II

• Prefacio

El presente texto tiene por objetivo dar una introducción de los modelos estocásticos conocidoscomo Ecuaciones Diferenciales Estocásticas. Tales modelos surgen al considerar incrementos en lanaturaleza en los cuales interviene una perturbación aleatoria. Estos modelos empezaron a surgir enla década de 1940 con los trabajos de Kiyoshi Ito, en el capítulo 4 se da un poco de la historia de estostrabajos. Actualmente existen diversas ramas que utilizan a las ecuaciones diferenciales estocásticasdentro de sus aplicaciones. Aquí se estudiará, al final, una aplicación a genética poblacional y se veráun modelo simple que ha aparecido en trabajos y publicaciones de hacer relativamente poco tiempo(ve [16]).

Este trabajo ha sido escrito con la intención de presentar con cuidado el desarrollo previo relaciona-do a procesos estocásticos. En particular, se hizo un esfuerzo importante en la definición de esperanzacondicional (1.3.6); se presenta la conexión principal entre la noción clásica y la definición moderna,algo que usualmente escapa de los textos clásicos. Luego, se hace la construcción de manera detalladade la integral estocástica. Se presentan las demostraciones siempre en el caso general: Md,m

2 [t0, T]. Parahacer esto se parte de la idea de que el lector ha llevado un curso de análisis matemático de al menos elnivel de [8] y un curso de teoría de la medida del nivel [3], aunque sería deseable el nivel de [14]. Desdeesa visión, cualquier persona con estos requisitos podría tomar este texto como un curso introductorioa las ecuaciones diferenciales estocásticas o a la teoría de procesos estocásticos. Ocasionalemente sepresentan ejemplos ilustrativos, con el fin de dar un poco de geometría a la exposición.

En el capítulo 1 se dan las herramientas básicas de probabilidad que usualmente no se presentanen los cursos de teoría de la medida. Específicamente se estudian a las funciones características devectores aleatorios (o en términos de teoría de la medida, la transformada de Fourier). Estas funcionespermiten caracterizar a las funciones de distribución de los vectores aleatorios. También se define yestudian las principales propiedades y caracterizaciones de la distribución normal multidimensional. Eneste capítulo se motiva, construye y demuestra la existencia de la probabilidad condicional. Es en estemismo capítulo en donde resulta irresistible mencionar un poco sobre las probabilidades condicionalesregulares; sin embargo, como este tema se escapa de la idea del texto no se hace énfasis en él, solo semenciona la problemática que puede llegar a existir al considerar las probabilidades condicionales.

En el capítulo 2 inicia con las definiciones básicas de procesos estocásticos y los procesos de tipo L2,de varianza finita. Luego se estudian con generalidad condiciones necesarias y suficientes para que unproceso estocástico dado sea separable, continuo o medible. Para esto se definen las filtraciones y lostiempos de paro, mostrando algunos resultados de estos últimos con cierta generalidad (ve (2.5.2)). Otropedazo importante de este capítulo está dedicado al estudio de los procesos markovianos, los cualesquedan caracterizados por la independencia entre el futuro y el pasado condicionados al presente(ve (2.6.9)). En esta sección se puso cuidado en las demostraciones pues es muy conveniente paralos autores subordinarlas al teorema de inducción sin dejar en claro cómo se hacen las pruebas. Enparticular, se evitó utilizar la justificación común “debido a la propiedad markoviana”, y en vez de estose escriben las derivaciones analíticas de las igualdades entre esperanzas condicionales. Finalmente, elcapítulo concluye con un estudio breve de procesos con incrementos independientes, martingalas y los

III

Prefacio

teoremas de la propiedad de markovianidad fuerte.En el capítulo 3 se estudia el movimiento browniano, se deriva la existencia de tal proceso y sus

principales propiedades trayectoriales. Adicionalmente se calcula su variación cuadrática, dándose unacondición necesaria para convergencia casi segura y no solamente en probabilidad. Este capítulo esrealmente corto y solo sirve de base para la construcción de la integral estocástica, hecha en el capítulosiguiente.

En el capítulo 4 se da una motivación para la integral de Ito y se empieza su construcción partiendode funciones simples (o de tipo escalón) y a partir de ella se demuestra la extensión a cualquier funciónen Md,m

2 [t0, T]. Se demuestran las propiedades principales de la integral estocástica siempre teniendoen cuenta el caso general. En este capítulo se estudian las variaciones cuadráticas de una integralestocástica, demostrando con ello el teorema de Goldstein. Cabe destacar que la versión presentadaaquí generaliza a aquella presentada en [13]. También merece distinción el hecho que en [13] el autorutiliza un lema el cual está enunciado para funciones integrables pero que en la prueba utiliza la integraldel cuadrado sin hacer mención a alguna técnica de truncación. Para mantener la demostración lo másapegada a la versión original se cambian las hipótesis de este lema. También se demuestre el teorema deIto. Aquí es importante observar que el teorema fue dado en una forma vectorial tratando de mantenerun parecido con el teorema de Taylor. También se destaca que el teorema es demostrado con todageneralidad en espacios vectoriales normados de dimensión finita. Asimismo, la prueba es elemental,esto en el sentido en que no utiliza demasiada herramienta avanzada y, de hecho, practicamente solo senecesitan las ideas de convergencia en medida y teorema de Taylor para su demostración. Finalmenteel capítulo concluye con el teorema de existencia y unicidad, en una versión más general que el teoremaclásico. De nuevo, la demostración se da en un caso general y se explica la conexión de esta con elteorema de ecuaciones diferenciales ordinarias.

En el capítulo 5 se introduce un poco sobre biología de genes y se expone un ejemplo en donde seaplica la teoría previa; este ejemplo fue estudiado por Shiga y Shimizu en [16].

Finalmente, se dan dos apéndices. En el apéndice A se habla de diferenciación en espacios vectorialesreales de dimensión finita y en el apéndice B, segundo de los apéndices, es sobre teoría de la medidaen general, ambos con el fin de ser materiales de consulta a lo largo del texto.

IV

Capítulo 1

• Preliminares de probabilidad.

En este capítulo se dan los preliminares básicos de probabilidad que suelen escapar de los cursoselementales. Escencialmente son cuatro cosas; la primera de ellas es la transformada de Fourier de losvectores aleatorios y el teorema de unicidad; la segunda es la distribución normal en varias variables;en tercer puesto está la esperanza condicional general, la cual está presentada en muchos textos (porejemplo [5], [3] y [14]) pero en ninguno de los de la bibliografía hay una presentación conveniente oadecuada a este material; finalmente, está el teorema de extensión de Kolmogorov, el cual suele noser estudiado en cursos básicos. Cabe destacar que la parte más importante de este capítulo es laconstrucción de la esperanza condicional.

§ 1.1. Funciones características.

( 1.1.1 ) Sea R = (R1, . . . , Rn) un vector aleatorio. La función característica de R, también llamada la funcióncaracterística conjunta de R1, . . . , Rn, es la función M : Rn → R dada por

M(X) = EÄei〈R,X〉

ä=∫R

exp(i

n∑k=1

xkuk

)dF (u1, . . . , un),

en donde X = (x1, . . . , xn) y F es la función de distribución conjunta de R.

El teorema más importante al respecto es el de unicidad; si dos vectores poseen la misma funcióncaracterística, entonces comparten la función de distribución (esto por ningún motivo significa que seanel mismo vector). Es recomendable leer el libro de Breiman [5] para mayor entendimiento geométricoe intuitivo del tema. La referencia de Ash [3] es bastante buena para la parte abstracta y formativa dela materia.

( 1.1.2 ) Sean P1 y P2 dos medidas de probabilidad sobre B (Rp) . Si∫Rp

ei〈U,X〉dP1(X) =∫Rp

ei〈U,X〉dP2(X)

para cada U ∈ Rp, entonces P1 = P2.

Se divide la prueba en varias etapas.

1

Capítulo 1. Preliminares de probabilidad.

( 1.1.2.1 ) Supón que para cualquier f : Rp → C de soporte1 compacto se cumple que∫Rp

fdP1 =∫Rp

fdP2

entonces P1 = P2.

Se considera un rectángulo R =p∏i=1

[ai, bi], define la función

fi,n(t) =

0 si t ∈Å−∞, ai −

1n

ò∪ïbi +

1n ,∞

ã,

1 si t ∈ [ai, bi],nt + 1− nai si t ∈

ïai −

1n , ai

ò,

−nt + 1 + nbi si t ∈ïbi, bi +

1n

òEntonces, fi,n es continua y de soporte compacto. Asimismo, fi,n −−−Ïn→∞

1[ai ,bi ]. Obviamente, la función

fn =n∏i=1

fi,n es continua, de soporte compacto y fn −−−Ïn→∞1R. Luego, el teorema de convergencia domi-

nada muestra quePi(R) =

∫R

dPi = lımn→∞

∫Rp

fndPi,

para i = 1, 2. La hipótesis muestra que ∫Rp

fndP1 =∫Rp

fndP2

para n ∈ N cualquiera. En consecuencia, P1 (R) = P2 (R) . Por aditividad, P1 = P2 sobre cualquierunión finita de rectángulos disjuntos. El conjunto F0(Rp) de las uniones finitas de rectángulos disjuntoses un álgebra y la σ -álgebra generada por ella es precisamente B (Rp) . El teorema de extensión deCarathéodory-Hahn (ve (B.2.4)) muestra que P1 = P2.

( 1.1.2.2 ) Sea E = z ∈ Cp||zi| = 1 y A =

(z1, . . . , zp) 7Ïm∑

k1,...,kp=−mak1,...,kpz

k11 · · · z

kpp

. Entonces,

se cumple que E es compacto y A es un álgebra que contiene a las funciones constantes, separa puntos yf ∈ A Ñ f ∈ A. En particular, el teorema de Stone-Weierstrass muestra que CC(E) = A, aquí se utilizan losresultados y la notación de [8], teorema (7.3.1).

Que E sea compacto es consecuencia del teorema de Borel-Lebesgue, el cual establece que en Cp

un subconjunto es compacto si y solo si es cerrado y acotado. Que A sea un álgebra es verificar quees cerrado ante sumas, lo que es claro; que es cerrado ante producto, lo que también es claro y quef ∈ A, λ ∈ C Ñ λf ∈ A, lo que también es claro. Que A separa puntos significa que para cualesquierv,w ∈ E distintos existe un f ∈ A tal que f (v) 6= f (w). Ahora, como v 6= w existe un i tal que vi 6= wi,define f = pri.

1Recuerda que el soporte de una función f : U ⊂ Cp → Cq es la cerradura del conjunto de puntos z ∈ Cp tales que f (z) 6= 0.

2

1.1. Funciones características.

( 1.1.2.3 ) Si z ∈ E, existen únicos λ1, . . . , λp ∈ (−1, 1] tales que zk = eiπλk .

Lo que se deriva inmediatamente de la definición de argumento de un número complejo.

( 1.1.2.4 ) Sea g : Rp → C es continua y posee soporte compacto. Entonces g puede ser transferida a E; estoes, existe un T > 0 y una h : E → C continua tal que g(x) = 0 si x /∈ [−T, T]p y g(x) = h

(e

iπx1T , . . . , e

iπxpT

)si

x ∈ [−T, T]p.

Esto es inmediato del lema previo y de que la función de

ψ : (−T, T)p → E \ (−1, . . . ,−1) ∈ Cp

dada porψ(x1, . . . , xp) =

(e

iπx1T , . . . , e

iπxpT

)es un homeomorfismo. Ahora, para considerar los puntos en ∂[−T, T]p y (−1, . . . ,−1) ∈ Cp se utilizala continuidad de g. Observa que si x ∈ ∂[−T, T]p, g(x) = 0, por lo que todos los puntos tienen unúnico valor común, así, no hay problema en la definición de h sobre el punto (−1, . . . ,−1) y tal h existe.La continuidad de h es obvia sobre (−T, T)p por ser ψ homeomorfismo. La continuidad de h sobre(−1, . . . ,−1) se deriva de que g es continua y de que si todos xi

T → ±1, g(x1, . . . , xp) = 0.Con los lemas previos se ve que para la g dada hay una sucesión (hn)n∈N en A tal que hn ⇒ h.

Se extiende hn ψ a todo Rp de la manera obvia, preservando la periodicidad de 2T en cada entrada.Como hn ψ ⇒ h ψ se puede ver que

lımn→∞

∫Rp

hn ψdPi =∫Rp

h ψdPi =∫Rp

gdPi.

Finalmente, se afirma que ∫Rp

hn ψdP1 =∫Rp

hn ψdP2

pues

(hn ψ)(x1, . . . , xn) =m(n)∑

k1,...,kp=−m(n)

a(n)k1,...,kpe

iπk1x1 · · · eiπkpxp

=m(n)∑

k1,...,kp=−m(n)

a(n)k1,...,kpe

i〈π(k1,...,kp),(x1,...,xp)〉

y la hipótesis dicta que∫Rp

ei〈π(k1,...,kp),(x1,...,xp)〉dP1(x1, . . . , xp) =∫Rp

ei〈π(k1,...,kp),(x1,...,xp)〉dP2(x1, . . . , xp),

por lo que la igualdad también prevalece si ambos lados son multiplicados por la constante a(n)k1,...,kp .

Entonces, se demostró que ∫Rp

gdP1 =∫Rp

gdP2,

en donde g fue una función continua con soporte compacto. Se puede concluir que P1 = P2.

3

Capítulo 1. Preliminares de probabilidad.

Observación: esta propiedad caracteriza de manera débil a los vectores aleatorios. Es decir, si dosvectores aleatorios tienen la misma función característica, entonces tienen la misma distribución.

Corolario importante de esta relación biunívoca entre funciones características y funciones de dis-tribución es que permite dar una caracterización sencilla para vectores aleatorios independientes.

( 1.1.3 ) Una condición necesaria y suficiente para que las variables aleatorias X1, . . . , Xn, con funciones caracte-rísticas correspondientes MX1 , . . . ,MXn , sean independientes es que para cada X = (x1, . . . , xn) ∈ Rn se cumplaque

EÄei〈(X1,...,Xn),X〉

ä=

n∏i=1

MXi (xi).

Si la condición es satisfecha,

EÄei〈(X1,...,Xn),X〉

ä= E

Ñexp

Ñi

n∑j=1

xjXj

éé=

n∏j=1

E(eixjXj

).

La caracterización de la distribución mediante la función característica conduce a que

F(X1,...,Xn)(x1, . . . , xn) =n∏i=1

FXi (xi),

lo que muestra la independecia de las variables aleatorias. La necesidad de esta caracterización esevidentemente derivada de la propiedad multiplicativa de la esperanza para variables aleatorias inde-pendientes.

§ 1.2. La distribución normal multidimensional.( 1.2.1 ) El vector aleatorio R a valores en Rn es llamado vector gaussiano o se dice que tiene distribución normalmultidimensional si existe un vector b ∈ Rn y una matriz K ∈ Matn×n (R) la cual es simétrica y está definidasemipositivamente tales que la función característica de R toma la forma

M(X) = ei〈X,b〉e− 12 〈Ku,u〉.

( 1.2.2 ) Sea R un vector aleatorio en Rn. Una condición necesaria y suficiente para que R sea gaussiano es queR = WR′ + b, en donde b ∈ Rn es constante, W ∈ Matn×m (R) y R′ = (R1, . . . , Rm) sean variables aleatoriasindependientes distribuídas normalmente y centradas2.

Más aún, cuando n = m, la matriz W es ortogonal y la matriz K que aparece en la definición de vectorgaussiano (1.2.1) está dada por K = WDW t , en donde W t es la matriz transpuesta de W y

D =

Var (R′1) 0 . . . 0

0 Var (R′2) . . . 0...

.... . .

...0 0 . . . Var (R′m)

.Se verá primero la suficiencia; supón que R = WR′ + b con W ∈ Matn×m (R) , b ∈ Rn y R′ =

(R′1, . . . , R′m) son variables aleatorias normales y centradas. Entonces la función característica MR deR es

MR(X) = EÄei〈R,X〉

ä= EÄei〈WR′+b,X〉

ä= ei〈b,X〉E

Äei〈WR′,X〉

äSe necesita del siguiente lema.

2Es decir, para cada i existe un número σ2i ≥ 0 tal que Ri ∼ Norm

(0; σ2

i).

4

1.2. La distribución normal multidimensional.

( 1.2.2.1 ) Para cualquier matriz W = (wi,j ) ∈Matn×m (R) y cualesquier vectores

X = (x1, . . . , xn) ∈ Rn

yY = (y1, . . . , ym) ∈ Rm

se cumple que〈WY,X〉 =

⟨W tX,Y

⟩,

en donde W t es la matriz transpuesta de W.Esto se deduce del cálculo

〈WY,X〉 =

∞m∑j=1

w1,jyj , . . . ,m∑j=1

wn,jyj , X

∫=

m∑j=1

n∑i=1

wi,jyjxi

=n∑i=1

m∑j=1

wi,jyjxi =⟨ n∑

i=1wi,1xi, . . . ,

n∑i=1

wi,mxi, Y⟩

=⟨W tX,Y

⟩.

De esto puede concluirse que

MR(X) = ei〈b,X〉E(ei〈R′,W tX〉

)= ei〈b,X〉E

Äei〈R′,Y〉

ä;Y = (y1, . . . , ym) = W tX

= ei〈b,X〉E

Ñm∏j=1

eiyjR′j

é= ei〈b,X〉

m∏j=1

EÄeiyjR

′jä.

Recuerda que N ∼ Norm(0; σ2) Ñ E

(eiNt

)= exp

Ç−σ

2

2 t2å, por lo que E

ÄeiyjR

′jä

= e−12Var(R′j)y2

j . En

consecuencia,

MR(X) = ei〈b,X〉 exp

Ñ−1

2

m∑j=1

Var(R′j)y2j

é= ei〈b,X〉− 1

2 〈DY,Y〉.

Por construcción, Y = W tX, por lo tanto, 〈DY,Y〉 =⟨DW tX,W tX

⟩=⟨WDW tX,X

⟩y con definir

K = WDW t se obtiene queMR(X) = ei〈b,X〉− 1

2 〈KX,X〉.Para concluir esta parte (ve (1.2.1)) todavía queda demostrar que K es simétrica y está definida semi-positivamente. Que K sea simétrica es inmediato de su definición pues D = D′ y W ′′ = W. Que K estédefinida semipositivamente se obtiene de que

〈KX,X〉 = 〈DY,Y〉 =m∑j=1

Var(R′j)y2j ≥ 0.

Por lo tanto, la condición es suficiente.Ahora será visto que la condición es necesaria. Como K ∈Matn×n (R) es simétrica existe una matriz

ortogonal W ∈ Matn×n (R) tal que W tKW = D = diag(λ1, . . . , λn). Como K está definida semipositiva-mente cada λi ≥ 0. Define entonces R′ = W t(R − b). Entonces

EÄei〈R′,X〉

ä=

n∏k=1

e−λk2 x

2k ;X = (x1, . . . , xn),

5

Capítulo 1. Preliminares de probabilidad.

lo cual puede ser verificado por un cálculo directo. En virtud de (1.1.3) se concluye que las variablesR′1, . . . , R′n son independientes y que R′i tiene distribución normal centrada y varianza λi. Como W esortogonal, es invertible y su inversa es W t , entonces R = WR′ + b.

( 1.2.3 ) Sea R un vector gaussiano en Rn tal que su función característica MR toma la forma

MR(U) = ei〈b,U〉− 12 〈Ku,u〉,

en donde b ∈ Rn es constante y K = (ki,j ). Entonces E (R) = b y Cov(Ri;Rj

)= ki,j .

Pues por ser R una transformación afín del vector R′, el cual tiene todos sus momentos finitos, seve que E (R) = WE (R′) + b = b. Por otro lado, al pensar a R como una matriz de tamaño m × 1 seconcluye que (

Cov(Ri;Rj

) )i,j=1,...,n = E

((R − b)(R − b)t

)= E

(WR′(R′tW t)

)= E

(WR′R′tW t) = WE

(R′R′t

)W t = WDW t = K,

en donde D es como en (1.2.2).

( 1.2.4 ) Sea R un vector gaussiano como en (1.2.1) con representación R = WR′ + b, con W una matrizortogonal.

1. Si K es no singular (es invertible), entonces las variables aleatorias R∗j Rj−bj son linealmente independientes;

esto es, sin∑j=1

ajR∗j = 0 P−c.d., entonces aj = 0, j = 1, . . . , n. En este caso R tiene densidad dada por

f (X) = (2π)− n2 (detK)− 1

2 expÅ−1

2⟨K−1(X − b), X − b

⟩ã.

2. Si K es singular (no es invertible), entonces las variables aleatorias R∗j son linealmente dependientes. SiR∗1, . . . , R∗r es un conjunto linealmente independiente máximo de R∗1, . . . , R∗n, entonces (R1, . . . , Rr)tiene densidad como en el insico previo con K reemplazada por Kr = (ki,j )i,j=1,...,r . Además, R∗r+1, . . . , R∗npueden ser expresados, P−c.d., como una combinación lineal de R∗1, . . . , R∗r.

Se demostrará cada inciso separadamente.

1. Como K es no singular y K = WDW t debe suceder que VarÄR′jä> 0; entonces R′ tiene densidad

f ′(y1, . . . , yn) =n∏k=1

f ′k(y),

en donde f ′k es la densidad de R′k. Como R′k ∼ Norm (0; λk) se ve que

f ′k(yk) = 1√2πλk

expÇ− y2

k2λk

å,

con lo cual

f ′(y1, . . . , yn) = (2π)− n2 (λ1 · · · λn)−

12 e−

12 〈D−1Y,Y〉 = (2π)− n

2 (detD)− 12 e−

12 〈D−1Y,Y〉.

Si se pone TY = WY+b, entonces DT (Y ) = W y |det DT (Y ) | = |detW | = 1, por la ortogonalidadde W. El teorema de cambio de variable muestra entonces que si X = TY, entonces

f (X) = f ′(Y )|det DT (Y ) | = f ′(Y ) = (2π)− n2 (detD)− 1

2 e−12 〈D−1Y,Y〉.

6

1.2. La distribución normal multidimensional.

Como K = W tDW se ve que detK = detD y como Y = W t(X − b) se obtiene que

f (X) = (2π)− n2 (detK)− 1

2 e−12 〈D−1W t (X−b),W t (X−b)〉

= (2π)− n2 (detK)− 1

2 e−12 〈WD−1W t (X−b),X−b〉,

que es la densidad afirmada. Por otro lado, si se tiene una combinación lineal del cero P−c.d.,n∑k=1

akR∗k = 0, entonces

0 = E

Ñ∣∣∣∣∣ n∑k=1

akR∗k

∣∣∣∣∣2é

=n∑i=1

n∑j=1

aiajE(R∗iR∗j

)=

n∑i=1

n∑j=1

aiajCov(R∗i ;R∗j

)=

n∑i=1

n∑j=1

aiajKi,j

= 〈KA,A〉 , A = (a1, . . . , an).

Pero K está definida positivamente, entonces a menos que A = 0 se cumple que 〈KA,A〉 > 0. Porlo tanto, A = 0 y esto concluye el inciso.

2. Si K es singular, entonces como K es equivalente a D existe una entrada en la diagonal de D quees nula. En consecuencia existe un vector A = (a1, . . . , an) 6= 0 tal que 〈KA,A〉 = 0. Pero entonces

E

Ñ∣∣∣∣∣ n∑k=1

akR∗k

∣∣∣∣∣2é

= 0

yn∑k=1

akR∗k = 0 P−c.d., que prueba la dependencia lineal de las R∗i . El resto de las afirmaciones

son consecuencia directa del inciso anterior.

Esto concluye esta proposición.

( 1.2.5 ) Sea R = (R1, . . . , Rn) un vector gaussiano. Entonces

1. para cada σ ∈ Sn se tiene que Rσ =(Rσ (1), . . . , Rσ (n)

)es también gaussiano;

2. para 1 ≤m ≤ n, el vector R = (R1, . . . , Rm) también es gaussiano;

3. para cualquier A ∈Matm×n (R) , el vector S = AR también es gaussiano.

4. para cualesquira constantes a1, . . . , an se tiene quen∑i=1

aiRi es gaussiano.

5. Adicionalmente, si las variables R1, . . . , Rn son incorrelacionadas3, entonces son independientes.

Los primeros cuatro incisos son consecuencia de (1.2.2). Por ejemplo, para demostrar el primerinciso se considera a Ei como el vector columna cuyas entradas son cero salvo la i-ésima que valeuno. Luego, se define la matriz A =

[Eσ (1), . . . , Eσ (n)] , entonces Rσ = AR. Los incisos siguientes, salvo

el último son análogos.3Recuerde que dos variables aleatorias X y Y se denominan incorrelacionadas si Cov (X;Y ) = 0.

7

Capítulo 1. Preliminares de probabilidad.

Se demostrará a continuación el último inciso. Si alguna Var(Rj)

= 0, entonces Rj es constante conprobabilidad uno, en consecuencia es independiente de todas las otras variables aleatorias y pueden sereliminadas. Luego, será supuesto que cada Var

(Rj)> 0. Entonces la matriz K de (1.2.1) toma la forma

K = diag(Var (R1) , . . . ,Var (Rn)),

por lo tanto, K−1 existe y toma la forma K−1 = diagÅ 1Var (R1)

, . . . , 1Var (Rn)

ã, con lo que (R1, . . . , Rn)

tiene densidad (ve (1.2.4))

f (x1, . . . , xn) = (2π)− n2

exp(−1

2

n∑k=1

xk − bkVar (Rk)

)√

Var (R1) · · ·Var (Rn)=

n∏k=1

fk(xk),

en donde fk es la densidad de la distribución Norm (0;Var (Rk)) . Por lo tanto, al ser la densidad conjuntael producto de las densidades marginales se puede concluir que las variables R1, . . . , Rn son normalese independientes.

§ 1.3. Esperanza condicional.Más adelante se definirán procesos que satisfacen la llamada propiedad markoviana. Esto procesos

pueden entenderse como movimientos de particulas en el espacio que para predecir a dónde se dirijenno se necesita saber cómo han llegado al punto inicial. Será necesario recordar las definiciones deprobabilidad condicional y esperanza condicional antes de dar la definición de markovianidad.

z ¿Qué es la probabilidad condicional?Sea (Ω,F ,P) un espacio de probabilidad dado. La definición elemental de probabilidad condicional

de un evento A ∈ F dada la condición B ∈ F está dada por la fórmula

P (A|B) = P (A ∩ B)P (B)

siempre que P (B) > 0. El caso P (B) = 0 suele no estudiarse en cursos elementales y en los avanzadossiempre existe un carente de intuición. Ahora se tratará de dar un poco de intuición.

La fórmula anterior puede ser pensada de la siguiente manera. Partiendo del espacio de probabilidadoriginal y dado B ∈ F con P (B) > 0 se quiere definir un nuevo espacio de probabilidad (B,FB,PB) elcual tenga la propiedad de representar al espacio original restringido al evento B.

Por ejemplo, considera el experimento aleatorio de lanzar tres monedas al aire cuyos resultadospueden ser águila o sol. Entonces, si se pone B como el evento «salieron dos soles en los tres lanza-mientos», la probabilidad de que la otra moneda dé como resultado águila se debe calcular, suponiendohipótesis de equiprobabilidad en el espacio original, como el número de resultados que tienen dos solesy un águila (hay tres tales resultados) y divir este número entre el número de resultados posibles quetienen dos águilas (hay cuatro posibles tales resultados), en consecuencia, se encuentra que la proba-bilidad buscada es 3

4 . Esto muestra que la probabilidad condicional restringe el espacio a considerar aúnicamente aquellos eventos de la forma A ∩ B.

Para definir el espacio (B,FB,PB) se observa que si se pone FB = A ∩ B|A ∈ F y PB (A) = P (A)P (B)

,

para A ∈ FB, entonces (B,FB,PB) es un espacio de probabilidad y este espacio es aquel que cumple el

8

1.3. Esperanza condicional.

cometido buscado. Ahora bien, ¿qué relación guardan PB y P? Simplemente observa que si A′ ∈ FB,entonces A′ = A ∩ B para algún A ∈ F , por lo que

PB(A′)

= P (A ∩ B)P (B)

,

que conduce a la fórmula clásica.Es natural querer extender la definición de probabilidad condicional dado un evento a probabilidad

condicional dada una variable aleatoria. Por ejemplo, si X es una variable aleatoria tal que P (X = x) >0, entonces se puede poner

P (A|X = x) = P (A ∩ X = x)P (X = x)

.

La desventaja de esta definición es obvia, ¿qué hacer en el caso P (X = x) = 0? Por ejemplo, cualquiervariable aleatoria continua satisface que la probabilidad de cualquier valor puntual es cero. Existe unmodo, el cual se aleja un poco de la idea de «subespacio de medida». La idea es utilizar la derivada deRadon-Nikodým. Una motivación para este camino puede ser intentar definir

P (A|X = x) = lımh↓0

P (A,X ∈ (x − h, x + h])P (X ∈ (x − h, x + h])

que es un cociente de Newton, pero en lugar de tomar función de incrementos a la identidad en eldenominador se considera la distribucion de X. En consecuencia, P (A|X = x) debería ser la derivadade la función x 7Ï P (A,X ≤ x) respecto de la distribución de X. Esto es exactamente lo que dice elteorema de Radon-Nikodým.

z El teorema de Radon-Nikodým.Ahora se demostrará el teorema de Radon-Nikodým y luego se definirán las probabilidades condi-

cionales para el caso general.( 1.3.1 ) Dado un espacio medible (Ω,F ) y µ una medida en él, cualquier carga (o medida signada) λ se llamaabosultamente continua respecto de µ si A ∈ F , µ(A) = 0Ñ λ(A) = 0; esto será denotado por λ µ.

La continuidad abosulta de una medida respecto de otra tiene su nombre justificado en la siguienteafirmación.( 1.3.2 ) Para que una finita medida ν sea absolutamente continua respecto de otra medida µ es necesario ysuficiente que para cada ε > 0 existe un δ > 0 tal que si A ∈ F es tal que µ(A) < δ entonces ν(A) < ε.

La suficiencia es obvia, pues dado A ∈ F con µ(A) = 0, entonces para ε > 0 dado define δ = 0, asíµ(A) = 0 < δ, en consecuencia, ν(A) < ε. Como ε > 0 fue arbitrario, se concluye que ν(A) = 0; es decir,ν µ.

Se demuestra ahora la necesidad. Supón que la condición no es satisfecha, entonces existe un ε > 0

tal que para cada n ∈ N existe un An ∈ F con µ(An) <12n pero ν(An) ≥ ε. Define Fk =

∞⋃n=k

An, entonces

(Fk)k∈N es una familia decreciente de subconjunto medibles, por lo que

µ( ∞⋂k=1

Fk

)≤ µ(Fk) ≤ lım

k→∞

∞∑n=k

12n = lım

k→∞

12k = 0

y

ν( ∞⋂k=1

Fk

)= lım

k→∞ν(Fk) ≥ lım inf

k→∞ν(Ak) ≥ ε;

con lo que ν 6 µ.

9

Capítulo 1. Preliminares de probabilidad.

( 1.3.3 ) Dados un espacio medible (Ω,F ), λ una carga o medida con signo, µ una medida σ-finita tales que λes absolutamente continua respecto de µ, entonces existe una «derivada», en el sentido de Radon-Nikodým, de

λ respecto de µ, que será denotada pordλdµ , la cual satisface la «propiedad de Radon-Nikodým»

λ(A) =∫A

dλ =∫A

dλdµdµ;

la derivadadλdµ es una función

(F ,B

(R))-medible y es única µ−c.d.; el «teorema de Radon-Nikodým».

La prueba se divide en varias etapas. Sin embargo, para empezar, nota que la unicidad es inmediatade la monotonía de la integral.

( 1.3.3.1 ) Existen conjuntos C,D ∈ F tales que

λ(C) = ınfA∈F

λ(A),

yλ(D) = sup

A∈Fλ(A).

Si λ(A) =∞ para algún A ∈ F se pone D = A, por lo que se supondrá que supA∈F

λ(A) <∞.

Sea (An)n∈N una sucesión en F tal que lımn→∞

λ(An) = supA∈F

λ(A) y sea A =∞⋃n=1

An. Para cada n ∈ N

existe una partición (An,m)m=1,...,2n en donde cada An,m toma la forma A∗1 ∩ . . .∩A∗n en donde cada A∗i oes Ai o es A \Ai; en efecto, que tales conjuntos sean disjuntos es obvio, y que cubren A se sigue de quesi x ∈ A entonces x ∈ Ai o x ∈ A \Ai. Para cualquier n ∈ N se considera la familia (An,m)m|λ(An,m)≥0 y Bnla unión de esta familia. Si la familia es vacía, es decir, si λ(An,m) < 0 para cada m, entonces se defineBn = ∅. De que los conjuntos An,m son disjuntos se deriva que

λ(An) ≤ λ(Bn).

Ahora, nota quer⋃

k=nBk es la unión de la familia (An,m)m|λ(An,m)≥0 y conjuntos E disjuntos a ellos con

λ(E) > 0. Luego,

λ(An) ≤ λ(Bn) ≤ λ( r⋃k=n

Bk

)−−−Ïr→∞

λ( ∞⋃k=n

Bk

).

Si D = lım supn→∞

Bn, se sigue que

lımn→∞

∞⋃k=n

Bk = D.

Por monotonía, pues 0 ≤ λ( ∞⋃k=1

Bk

)<∞, se deriva que

lımn→∞

λ( ∞⋃k=n

Bk

)= λ(D).

10

1.3. Esperanza condicional.

Así, se obtiene que,

supA∈F

λ(A) = lımn→∞

λ(An) ≤ lımn→∞

λ( ∞⋃k=n

Bk

)= λ(D).

Por ende, se concluye queλ(D) = sup

A∈Fλ(A).

Aplicando este argumento a la carga −λ se encuentra a C.

( 1.3.3.2 ) Define λ+, λ− : F → [0,∞] por

λ+(A) = supλ(B)|B ∈ F , B ⊂ A

yλ−(A) = − ınfλ(B)|B ∈ F , B ⊂ A,

tanto λ+ como λ− son medidas sobre F y, además, λ = λ+ − λ−; el «teorema de descomposición de Jordán-Hahn».

De la definición de carga −∞,+∞ 6⊂ λ(F ), por lo que se puede suponer que −∞ /∈ λ(F ). Dellema previo se deriva la existencia de un D ∈ F tal que

λ(D) = ınfA∈F

λ(A).

Como λ(∅) = 0 se ve que λ(D) ≤ 0. Se afirma que λ(A∩D) ≤ 0 y λ(A ∩ D

)≥ 0 para cualquier A ∈ F .

Como λ(D) es finito, también λ(A ∩D) y λ(A ∩D

), así que

λ(A ∩D

)= λ(D)− λ(A ∩D).

De la minimalidad de D se obtiene que λ(A ∩D) ≤ 0. Si λ(A ∩ D

)< 0,

λ(D ∪

(A ∩ D

))= λ(D) + λ

(A ∩ D

)< λ(D),

una contradicción a la minimalidad de D. Ahora se demostrará que

λ+(A) = λ(A ∩ D

)y que

λ−(A) = −λ(A ∩D),el lema quedará demostrado con esto.

Sea B ∈ F tal que B ⊂ A. Entonces,

λ(B) = λ(B ∩D) + λ(B ∩ D

)≤ λ

(B ∩ D

)≤

(B ∩ D

)+((A \ B) ∩ D

)=(A ∩ D

).

Por lo tanto,λ+(A) ≤ λ

(A ∩ D

)≤ λ+(A),

lo que es inmediato de la definición de λ+. Similarmente

λ(B) = λ(B ∩D) + λ(B ∩ D

)≥ λ(B ∩D)

≥ λ(B ∩D) + λ((A \ B) ∩D) = λ(A ∩D)

y, de nuevo, la definición de λ− muestra que λ−(A) = −λ(A ∩D).

11

Capítulo 1. Preliminares de probabilidad.

( 1.3.3.3 ) Hay un D ∈ F tal que λ(A ∩ D) ≤ 0 y λ(A ∩ D

)≥ 0 para A ∈ F cualquiera. Más aún,

cualquier E ∈ F el cual satisfaga que λ(A ∩ E) ≤ 0 y λ(A ∩ E

)≥ 0 para cualquier A ∈ F cumple que

λ+(A) = λ(A ∩ E

)y λ−(A) = −λ(A ∩ E).

Lo único que no ha sido demostrado aún es la afirmación sobre E. Pero si tal E existe se repitepalabra por palabra la parte de la demostración del lema previo en la que se probó lo análogo para D.

( 1.3.3.4 ) El teorema de Radon-Nikodým se cumple cuando λ y µ son medidas finitas.

Se aplicará una prueba clásica del estilo de teoría de la medida. Se definirá un conjunto de funcionesH que sea “bueno” y se intentará tomar el supremo sobre H . Se define

H =

f : (Ω,F )→(R,B

(R)) ∣∣∣∣∣f ≥ 0,

∫Ω

fdµ <∞ y λ(A) ≥∫A

fdµ

;

como H es un conjunto de funciones y no de números, para tomar su supremo se necesitan dos cosas,un orden en H y el Lema de Zorn. El orden de H se define como

f ≤H g ⇔ f ≤ gµ−c.d.

Considera ahora C ⊂H una cadena; es decir, C es un subconjunto de H totalmente ordenado respecto

a ≤H . Considera ahora el “supremo” de C ; es decir, sea s = sup

∫Ω

fdµ∣∣∣∣∣f ∈ C

. Existe una sucesión

(fn)n∈N definida en C tal quelımn→∞

∫Ω

fndµ = s.

Se puede suponer que la sucesión de integrales es creciente; sin embargo, esto implica que la sucesiónde funciones es creciente. En efecto, se sabe que

∫Ω

fndµ ≤∫Ω

fn+1dµ y, por la ordenación total en C ,

se debe cumplir que fn ≤ fn+1 o fn+1 ≤ fn. En el segundo caso, se tiene que∫Ω

fn+1dµ ≤∫Ω

fndµ y,

por darse la otra desigualdad también, se cumple que fn = fn+1 µ−c.d., o bien, fn ≤H fn+1. Sea ahoraf = lım

n→∞fn, el cual existe µ−c.d. por monotonía; en el conjunto excepcional se pone f = 0. Entonces,

para cualquier A ∈ F ∫A

fdµ = lımn→∞

∫A

fndµ = s ≤ λ(A) <∞,

en consecuencia, f ∈H .Sea h ∈H y supón que h ≥ f µ−c.d.,∫

Ω

hdµ ≥∫Ω

fdµ = s

y así ∫Ω

hdµ =∫Ω

fdµ

por lo que h = f µ−c.d..

12

1.3. Esperanza condicional.

Entonces, como cada cadena de H está acotada superiormente por un elemento de H el Lema deZorn muestra que hay una g ∈H el cual es máximo; es decir, para cualquier f ∈H , g ≥ f µ−c.d.. Sedemostrará que

λ(A) =∫A

gdµ.

Para este efecto se define la función λ1(A) = λ(A)−∫A

gdµ. Es claro que λ1 µ y que λ1 es una medida

finita. Si λ1 6= 0 entonces λ1(Ω) > 0 y existe un k > 0 tal que

µ(Ω)− kλ(Ω) < 0.

Se utiliza un lema previo para ver la existencia de un D ∈ F el cual cumple que si A ∈ F ,

µ(A ∩D)− kλ1(A ∩D) ≤ 0

yµ(A ∩ D

)− kλ

(A ∩ D

)≥ 0.

Se afirma que µ(D) > 0. Si µ(D) = 0, λ1(D) = 0 por continuidad absoluta. Así

0 ≤ µ(D)− kλ1

(D)

= µ(Ω)− kλ1(Ω) < 0,

lo que es una contradicción. Sea ahora h = 1k1D; si A ∈ F∫

A

hdµ = 1kµ(A ∩D) ≤ λ1(A ∩D) ≤ λ1(A) = λ(A)−

∫A

gdµ.

Entonces, ∫A

(h + g)dµ ≤ λ(A),

por lo que h+ g ∈H . También h+ g > g sobre D y µ(D) > 0, por lo que g no es el máximo de H , loque es una contradicción. Así pues, λ1 = 0 y el resultado queda demostrado.

( 1.3.3.5 ) El teorema de Radon-Nikodým vale cuando µ es una medida finita y λ es una medida σ-finita.

Pues en este caso existe una partición medible (An)n∈N de Ω tal que λ(An) < ∞. Se define λn(A) =λ(A∩An), entonces cada λn es una medida finita y abosultamente continua respecto de µ. El lema previomuestra que existe una función µ-integrale gn tal que

λn(A) =∫A

gndµ.

Observa que λ =∞∑n=1

λn. Define g =∞∑n=1

gn, por convergencia monótona

λ(A) =∞∑n=1

λn(A) =∞∑n=1

∫A

gndµ =∫A

gdµ

y así el teorema queda demostrado para este caso.

13

Capítulo 1. Preliminares de probabilidad.

( 1.3.3.6 ) El teorema de Radon-Nikodým vale cuando µ es una medida finita y λ es una medida arbitraria.

Se define el conjunto K de los elementos C ∈ F tales que λ∣∣∣FC

es σ -finita, aquí se utiliza la notación

FC = A ∩C|A ∈ F,

la que es una σ -álgebra contenida en F , por lo que la restricción de λ a ella está definida. Es obvioque ∅ ∈ K por lo que K 6= ∅. Sea s = supµ(A)|A ∈ K y sea (Cn)n∈N una sucesión en K tal que

µ(Cn) → s. Si C =∞⋃n=1

Cn entonces, por monotonía, s ≥ µ(C)µ(Cn) → s, así µ(C) = s. Nota que C ∈ K

por la definición de K .En virtud del lema previo hay una g ′ : (C,FC)→

(R,B

(R))

tal que

λ(A ∩C) =∫

A∩C

g ′dµ,A ∈ F .

Sea A ∈ F cualquiera; si µ(A ∩ C

)> 0 entonces λ

(A ∩ C

)=∞ pues de lo contrario C∪

(A ∩ C

)∈ K

y asís ≥ µ

(C ∪

(A ∩ C

))= µ(C) + µ

(A ∩ C

)> µ(C) = s,

lo que es una contradicción; si µ(A ∩ C

)= 0, λ

(A ∩ C

)= 0 por continuidad absoluta.

En los dos casos previos presentados se ve que

λ(A ∩ C

)=∫

A∩C

∞dµ.

Se sigue queλ(A) = λ

(A ∩ C

)+ λ(A ∩C) =

∫A

gdµ,

en donde g queda definida porg∣∣∣C

= g ′∣∣∣C, g∣∣∣C

=∞.

Así, también queda demostrado este caso.

( 1.3.3.7 ) El teorema de Radon-Nikodým vale en el caso en que µ es una medida σ-finita y λ es una mediaarbitraria.

Sea (An)n∈N una partición medible de Ω con µ(An) <∞. El lema previo muestra que para cada n ∈ Nexiste una función gn : (Ω,FAn )→

(R,B

(R))

tal que

λ(A ∩ An) =∫

A∩An

gndµ =∫A

gn1Andµ

para cualquier A ∈ F . Así

λ(A) =∞∑n=1

λ(A ∩ An) =∞∑n=1

∫A

gn1Andµ,

por ser las gn1An funciones no negativas el teorema de convergencia monótona muestra que

λ(A) =∫A

∞∑n=1

gn1Andµ,

14

1.3. Esperanza condicional.

lo cual concluye la demostración del lema.Finalmente, se puede demostrar el caso general; este es cuando µ es σ -finita y λ es carga. Entonces

se puede escribir λ = λ+−λ− y alguna de ellas es finita, por ejemplo λ−. Entonces, existen dos funcioesg1, g2 : (Ω,F )→

(R,B

(R))

tales que

λ+(A) =∫A

g1dµ

yλ−(A) =

∫A

g2dµ.

Como λ− es finita, g2 la prueba correspondiente a ambas medidas finitas muestra que tal función esµ-integrable. Así,

λ(A) =∫A

(g1 − g2)dµ,

lo que concluye el teorema. Con este teorema ya es posible dar una definición de probabilidad condicional.

( 1.3.4 ) Sea X una variable aleatoria definida sobre el espacio de probabilidad (Ω,F ,P). Sea A ∈ F cualquiera. Lafunción B 7Ï P (A,X ∈ B) de B (R) a [0, 1] es una medida ν sobre el espacio (R,B (R)). La función B 7Ï P (X ∈ B)de B (R) a [0, 1] es otra medida µ sobre (R,B (R)); se cumple que ν µ; la derivada dνdµ será llamada probabilidad

condicional de A dada la variable aleatoria X. A esta derivada se le denotarápor

dνdµ = P (A|X) .

Observación: recuerde que P (A|X) es cualquier función(B (R) ,B

(R))

-medible tal que

∀B ∈ B (R) , P (A,X ∈ B) =∫B

P (A|X)dµ.

En particular, P (A|X) : R → R, en consecuencia, se escribirá P (A|X = x) en lugar de P (A|X) (x). Esimportante destacar que µ es la función de distribución de X, típicamente denotada como FX.

z Propiedades de la probabilidad condicional; la esperanza condicional.La probabilidad condicional satisface, esencialmente, las mismas propiedades que la probabilidad

clásica.

( 1.3.5 ) Sea (Ω,F ,P) un espacio de probabilidad y X una variable aleatoria ahí. Entonces

1. P (Ω|X) = 1 FX−c.d.;

2. para cualquier A ∈ F , P(A|X

)= 1− P (A|X) FX−c.d.;

3. para cualquier sucesión (An)n∈N en F cuyos elementos son ajenos a pares se cumple que

P

( ∞⋃n=1

An

∣∣∣∣∣X)

=∞∑n=1

P (An|X)FX−c.d..

15

Capítulo 1. Preliminares de probabilidad.

Se debe verificar la propiedad de Radon-Nikodým en cada caso; la unicidad mostrará que la igualdadafirmada es cierta. Sea B ∈ B (R) cualquiera. Entonces

1. P (Ω, X ∈ B) = P (X ∈ B) =∫R

1BdFX =∫B

dFX ;

2. P(A,X ∈ B

)= P (X ∈ B)− P (A,X ∈ B) =

∫B

(1− P (A|X)

)dFX ;

3. P

( ∞⋃n=1

An, X ∈ B)

=∞∑n=1

P (An, X ∈ B) =∞∑n=1

∫B

P (An|X)dFX ;

que concluye el teorema. Se extiende ahora la definición de probabilidad condicional a la de esperanza condicional de una

variable aleatoria Y dada otra variable aleatoria X. El modo para definirla es seguir una idea paralelaa la de la probabilidad condicional. Define la función λ : B (R)→ R por

λ(B) =∫

X∈B

YdP;

entonces λ es una carga si E (Y ) <∞, lo cual se sigue al escribir Y = Y+−Y− y utilizar que B 7Ï∫B

XdP es

una medida para X no negativa. Define también µ : B (R)→ [0, 1] por µ(B) = P (X ∈ B) , en consecuencia,λ µ.

( 1.3.6 ) Se define la esperanza condicional de la variable aleatoria Y, la cual tiene esperanza finita, dada la

variable aleatoria X como la derivada de Radon-Nikodýmdλdµ , donde µ y λ son como en el párrafo anterior.

Observación: por notación, se escribe E (Y |X) para denotar a esta función. Al igual que con la pro-babilidad condicional, E (Y |X) : R→ R es cualquier función tal que

∀B ∈ B (R) , E(Y1X∈B

)=∫B

E (Y |X = x)dµ(x);

observa que se escribirá E (Y |X = x) en lugar de E (Y |X) (x). Aquí también, µ = FX.

( 1.3.7 ) Sea (Ω,F ,P) un espacio de probabilidad y A ∈ F . Entonces, para cualquier variable aleatoria X secumple que P (A|X) = E (1A|X) FX−c.d..

Pues si B ∈ B (R) , entonces

P (A,X ∈ B) = E(1A∩X∈B

)= E

(1A1X∈B

).

Por lo tanto, P (A|X) = E (1A|X) FX−c.d.. En particular, basta estudiar a la esperanza condicional para obtener las propiedades de la probabi-

lidad condicional.Observa que la esperanza condicional E (Y |X) ha sido definida como una variable aleatoria R→ R,

cambiando el espacio original (Ω,F ,P) por el espacio (R,B (R) , FX). A veces es necesario trabajar

16

1.3. Esperanza condicional.

directamente sobre el espacio (Ω,F ,P), en lugar de (R,B (R) , FX). ¿Cómo definir la esperanza condi-cional de tal forma que coincida con la ya definida? Observa que, en virtud del teorema de cambio devariable ∫

B

f (x)dFX(x) =∫

X∈B

f (X(ω))dP(ω).

Aplicando esto a la esperanza condicional∫B

E (Y |X = x)dFX(x) =∫

X∈B

E (Y |X(ω))dP(ω).

( 1.3.8 ) Sea (Ω,F ,P) un espacio de probabilidad dado, Y una variable aleatoria con esperanza finita y X cualquiervariable aleatoria. Sea φ : R→ R la esperanza condicional de Y dado X. Se define la esperanza condicional sobreel espacio original, como la función φ(X).

Observación: esta definición más general de esperanza condicional implica unicidad respecto de P;si φ y ψ son dos versiones de la esperanza condicional, entonces coinciden FX−c.d., luego φ(X) = ψ(X)P−c.d..

z Ejemplos de probabilidad elemental.( 1.3.9 ) Sea X una variable aleatoria que toma sus valores en un conjunto enumerable (xn)n∈N y tiene masapositiva en cada punto de este conjunto. Entonces

P (A|X = xn) = P (A ∩ X = xn)P (X = xn)

;

es decir, la función de probabilidad condicional evaluada en xn tiene por valor la probabilidad condicional intuitivadefinida al inicio de la sección.

Sea g : R→ R dada por

g(x) =

0 si P (X = x) = 0;P (A ∩ X = x)

P (X = x)si P (X = x) > 0.

Se hace la afirmación que para todo B ∈ B (R) se cumple que

P (A,X ∈ B) =∫B

g(x)dFX(x);

en efecto, pues efectivamente se cumple que∫B

g(x)dFX(x) =∑

n|xn∈Bg(xn)P (X = xn) =

∑n|xn∈B

P (A,X = xn) = P (A,X ∈ B) .

Que conluye lo afirmado.

17

Capítulo 1. Preliminares de probabilidad.

Observación: el ejemplo previo muestra que la definición general de esperanza condicional en reali-dad es una generalización de la clásica y, en consecuencia, puede ser interpretada intuitivamente de lamisma manera.

( 1.3.10 ) Dos variables aleatorias X y Y, definidas sobre el mismo espacio de probabilidad, se dice que tienenuna densidad conjunta si la distribución de probabilidad conjunta FX,Y : B

(R2)→ [0, 1] definida por FX,Y (A) =

P ((X,Y ) ∈ A) es absolutamente continua respecto de la medida de Lebesgue. A la derivada de Radon-Nikodýmde FX,Y respecto de la medida de Lebesgue (ve (1.3.3)) se le llama densidad conjunta de (X,Y ).

( 1.3.11 ) Supón que X y Y son dos variables aleatorias que tienen densidad conjunta. Sea fX,Y una de talesdensidades conjuntas. Entonces, X también tiene densidad; sea fX una densidad de X; en este caso se cumple que

P (Y ∈ A|X = x) =∫A

fX,Y (x, y)fX(x) 1fX (x)>0dy FX−c.d..

En consecuencia, si E (Y ) <∞, entonces

E (Y |X = x) =∫R

y fX,Y (x, y)fX(x) 1fX (x)>0dy FX−c.d..

Para empezar define fX(x) =∫R

fX,Y (x, y)dy, entonces

P (X ∈ B) = P (X ∈ B,Y ∈ R) =∫

B×R

fX,Y (x, y)d(x, y)

=∫B

∫R

fX,Y (x, y)dydx =∫B

fX(x)dx.

Define ahora

g(x) =

0 si fX(x) = 0∫A

fX,Y (x, y)fX(x) dy si fX(x) 6= 0

entonces, para B ∈ B (R) se cumple que

P (Y ∈ A,X ∈ B) =∫

B×A

fX,Y (x, y)d(x, y) =∫B

∫A

fX,Y (x, y)dydx.

Observa que 0 ≤∫A

fX,Y (x, y)dy ≤∫R

fX,Y (x, y)dy = fX(x), entonces

P (Y ∈ A,X ∈ B) =∫B

∫A

fX,Y (x, y)dy1fX (x)>0(x)dx

=∫B

∫A

fX,Y (x, y)fX(x) 1fX (x)>0(x)dyfX(x)dx

=∫B

g(x)dFX(x)

18

1.3. Esperanza condicional.

lo cual muestra que P (Y ∈ A|X = x) =∫A

fX,Y (x, y)fX(x) 1fX (x)>0dy FX−c.d..

Para demostrar que E (Y |X = x) es la expresión afirmada se demotrará que para cualquier B ∈ B (R)se cumple que

E(Y1X∈B

)=∫B

∫R

y fX,Y (x, y)fX(x) 1fX (x)>0dyfX(x)dx.

De nuevo, el teorema de Tonelli muestra que,∫B

∫R

y fX,Y (x, y)fX(x) 1fX (x)>0dyfX(x)dx =

∫B

∫R

yfX,Y (x, y)dydx

=∫

B×R

ydFX,Y (x, y) =∫R2

1B(x)ydFX,Y (x, y)

= E(Y1X∈B

),

que conclye lo afirmado.

Observación: aquí se construyeron expresiones explícitas para la esperanza condicional y probabili-dad condicional cuando la variables variables involucradas tienen densidad conjunta.

( 1.3.12 ) Supón que X y Y son dos variables aleatorias con función de densidad conjunta dada por f (x, y) =λ2e−λx1(0,∞)(x − y)1(0,∞)(y), entonces E (X|Y ) = YeλY .

Observa que la densidad de Y viene dada por

fY (y) =∫R

f (x, y)dx =∞∫y

λ2e−λxdx = λe−λy

si y > 0 y fY (y) = 0 para y ≤ 0. En consecuencia,

E (X|Y = y) =∞∫

0

y λ2e−λxλe−λy dx = yeλy

∞∫0

λe−λxdx = yeλy ,

de donde, E (X|Y ) = YeλY .

Observación: nota que X|Y = y, para y > 0, es una variable aleatoria con distribución exponencialde parámetro y > 0.

z Propiedades de la esperanza condicional.( 1.3.13 ) Sean X y Y dos variables aleatorias sobre el mismo espacio de probabilidad (Ω,F ,P) tales quelas σ-álgebras que generan coinciden. Entonces para cualquier variable aleatoria integrable Z se concluye queE (Z|X) = E (Z|Y ) P−c.d..

Pues, por definición, E (Z|X) es cualquier variable aleatoria tal que

∀B ∈ B (R) , E(Z1X∈B

)=∫B

E (Z|X = x)dFX(x).

19

Capítulo 1. Preliminares de probabilidad.

La σ -álgebra generada por X, Σ(X), es el conjunto de preimágenes de borelianos. Entonces, la esperanzacondicional, vista como función de Ω a R es cualquier función (Σ(X),B (R))-medible tal que

∀A ∈ Σ(X), E (Z1A) =∫A

E (Z|X(ω))dP(ω).

Como Σ(X) = Σ(Y ) se obtiene lo afirmado.

Observación: recuerda que una variable aleatoria Z es (Σ(X),B (R))-medible si y solo si existe unafunción (F ,B (R))-medible φ tal que Z = φ(X). Entonces, la esperanza condicional depende únicamentede la información aleatoria que posee la variable aleatoria condicionante y no depende de esta enningún otro modo. Luego, la esperanza condicional es función de la σ -álgebra Σ(X) más que de lavariable aleatoria X. Partiendo del punto de vista que cualquier generalización es buena, la siguientedefinición resulta natural.

( 1.3.14 ) Sea (Ω,F ,P) un espacio de probabilidad y G ⊂ F una σ-álgebra. Para cualquier Y ∈ L (Ω,F , P) sedefine la esperanza condicional de Y dada G como cualquier variable aleatoria, E (Y |G ) , en L

(Ω,G ,P

∣∣∣G

)tal

que

∀A ∈ G ,E (Y1A) =∫A

E (Y |G )dP.

Observación: la existencia se deriva del teorema de Radon-Nikodým pues P∣∣∣G P.

Las siguientes resumen las propiedades principales de la esperanza condicional.

( 1.3.15 ) Sea (Ω,F ,P) un espacio de probabilidad y H ⊂ G ⊂ F una σ-álgebra. Entonces para cualesquiervariables aleatorias X,Y ∈ L (Ω,F ,P) y cualquier λ ∈ R se cumplen las siguientes igualdades P−c.d.,

1. E (E (X|G )) = E (X) ; el «teorema fundamental» de la esperanza condicional;

2. E (X + λY |G ) = E (X|G ) + λE (Y |G ) ;

3. si X es (G ,B (R))-medible, entonces E (X|G ) = X;

4. E (λ|G ) = λ;

5. E (X|∅,Ω) = E (X) ;

6. si X ≥ 0, entonces E (X|G ) ≥ 0;

7. si X ≥ Y, entonces E (X|G ) ≥ E (Y |G ) ; la «monotonía» de la esperanza condicional;

8. |E (X|G ) | ≤ E (|X||G ) ;

9. si Σ(X) es independiente4 de G , entonces E (X|G ) = E (X) ;

10. si X es (G ,B (R))-medible y XY es integrable, entonces E (XY |G ) = XE (Y |G ) ; es decir, dada informaciónque contiene a toda la información de X, entonces X se comporta como una constante.

11. E (E (X|H ) |G ) = E (E (X|G ) |H ) = E (X|H ) ; la «propiedad de torre» de la esperanza condicional.

Además, si (Xn)n∈N es una sucesión de variables aleatorias, entonces

4Recuerde que dos σ -álgebras X y Y se llaman independientes si ∀(A,B) ∈X × Y se cumple que P (A ∩ B) = P (A)P (B) .

20

1.3. Esperanza condicional.

12. si 0 ≤ Xn ↑ X, entonces E (Xn|G ) ↑ E (X|G ) ; el «teorema de convergencia monotona» de la esperanzacondicional

13. si Xn ↓ X, entonces E (Xn|G ) ↓ E (X|G ) ;

14. si (Xn)n∈N son no negativas e integrables, entonces

E(lım infn→∞

Xn∣∣∣G) ≤ lım inf

n→∞E (Xn|G ) ;

el «lema de Fatou» para la esperanza condicional;

15. si para todo n ∈ N, Xn ≤ Y, entonces

lım supn→∞

Xn∣∣∣Gã ≥ lım sup

n→∞E (Xn|G ) ;

16. si para todo n ∈ N, |Xn| ≤ |Y | y Xn → X P−c.d., entonces

E (Xn|G )→ E (X|G )P−c.d.;

el «teorema de convergencia dominada» de Lebesgue para esperanza condicional.

También, valen las siguientes desigualdades P−c.d.,

17. si φ : R→ R es convexa, entoncesφ(E (X|G )) ≤ E (φ(X)|G ) ;

la «desigualdad de Jensen» para esperanza condicional;

18. si p > 1, y |X|p, |Y |p son integrables, entonces

‖E (X + Y |G )‖p ≤ ‖E (Y |G )‖p + ‖E (X|G )‖p ;

la «desigualdad de Minkowski» para esperanza condicional;

19. si |X|p es integrable con p ≥ 1, entonces

‖E (X|G )‖p ≤ ‖X‖p ;

20. si p ∈ [1,∞) y q > 1 son tales que1p + 1

q = 1 y |X|p, |Y |q son integrables, entonces |E (XY |G ) | ≤

E (|XY ||G ) ≤ p√E (|X|p|G ) q

√E (|Y |q |G ); la «desigualdad de Hölder» para la esperanza condicional;

21. si |X|p es integrable para p > 1 y 1 ≤ r ≤ p,

r»E (|X|r |G ) ≤ p

»E (|X|p|G );

la «desigualdad de Lyapunov» para la esperanza condicional.

Se verá cada una de estas propiedades de manera individual.

( 1.3.15.1 ) E (E (X|G )) = E (X) .

Se deriva de la definición al tomar A = Ω.

( 1.3.15.2 ) E (X + λY |G ) = E (X|G ) + λE (Y |G ) .

21

Capítulo 1. Preliminares de probabilidad.

Se deriva de la linealidad de la integral, pues para A ∈ F ,∫A

E (X + λY |G )dP = E ((X + λY )1A) = E (X1A) + λE (Y1A)

=∫A

E (X|G ) + λE (Y |G )dP.

( 1.3.15.3 ) Si X es (G ,B (R))-medible, entonces E (X|G ) = X.

Como X está en L (Ω,F ,P) , entonces X ∈ L(Ω,G ,P

∣∣∣G

).

( 1.3.15.4 ) E (λ|G ) = λ.

Pues λ es medible respecto de G .

( 1.3.15.5 ) E (X|∅,Ω) = E (X) .

Pues si A ∈ ∅,Ω, entonces∫A

Y = 0 ó E (Y ) , según A = ∅ ó Ω.

( 1.3.15.6 ) Si X ≥ 0, entonces E (X|G ) ≥ 0.

Pues para cualquier A ∈ G se cumple que∫A

E (X|G )dP =∫A

XdP ≥ 0,

la arbitrariedad de A muestra el resultado.

( 1.3.15.7 ) Si X ≥ Y, entonces E (X|G ) ≥ E (Y |G ) .

Basta considerar la propiedad previa, la linealidad y la variable aleatoria X − Y.

( 1.3.15.8 ) |E (X|G ) | ≤ E (|X||G ) .

Pues|E (X|G ) | = |E (X+|G )− E (X−|G )| ≤ |E (X+|G ) + E (X−|G )| = E (|X||G ) .

( 1.3.15.9 ) Si Σ(X) es independiente de G , entonces E (X|G ) = X.

Pues para cualquier A ∈ G se cumple que

E (X1A) = E (X)P (A) =∫A

E (X)dP.

( 1.3.15.10 ) Si X es (G ,B (R))-medible y XY es integrable, entonces E (XY |G ) = XE (Y |G ) .

Se supone primero que X toma la forma 1A para A ∈ G , entonces para B ∈ G ,

E (XY1B) =∫A∩B

E (Y |G )dP =∫B

1AE (Y |G )dP.

En virtud de las propiedades de convergencia (que serán demostradas a continuación) se concluye queaplica el método usual. En consecuencia, la propieddad vale para cualquier X que sea (G ,B (R))-medible.

22

1.3. Esperanza condicional.

( 1.3.15.11 ) E (E (X|H ) |G ) = E (E (X|G ) |H ) = E (X|H ) ;

Como H ⊂ G se verifica que E (X|H ) es una función (G ,B (R))-medible, en consecuencia

E (E (X|H ) |G ) = E (X|H )E (1|G ) = E (X|H ) .

La otra igualdad surge al notar que si A ∈H entonces AG , por ende∫A

E (E (X|G ) |H )dP =∫A

E (X|G )dP =∫A

XdP =∫A

E (X|H )dP,

que concluye lo afirmado.

( 1.3.15.12 ) Si Xn ↑ X, entonces E (Xn|G ) ↑ E (X|G ) .

Basta usar el teorema de convergencia monótona dos veces. Para A ∈ G ,∫A

E (X|G )dP =∫A

XdP = lımn→∞

∫A

XndP = lımn→∞

∫A

E (Xn|G )dP =∫A

lımn→∞

E (Xn|G )dP;

la igualdad es consecuencia de la unicidad respecto de la medida P.

( 1.3.15.13 ) Si Xn ↓ X, entonces E (Xn|G ) ↓ E (X|G ) .

Considera la sucesión 0 ≤ X1 − Xn ↑ X1 − X; aplicando la propiedad previa y la linealidad de laesperanza condicional se obtiene el resultado.

( 1.3.15.14 ) Si (Xn)n∈N son no negativas e integrables, entonces

E(lım infn→∞

Xn∣∣∣G) ≤ lım inf

n→∞E (Xn|G ) .

Define Zn = ınfk≥n

Xn = mınXn, Zn+1, entonces Zn → lım infn→∞

Xn P−c.d. y por la monotonía seconcluye que

E (Xn|G ) ≥ E (Zn|G ) ↑ E(lım infn→∞

Xn∣∣∣G) ,

que concluye lo afirmado.

( 1.3.15.15 ) Si para todo n ∈ N, Xn ≤ Y, entonces

lım supn→∞

Xn∣∣∣Gã ≥ lım sup

n→∞E (Xn|G ) .

Nota que Zn = Y − Xn ≥ 0, por lo que vale la propiedad previa, entonces

E (Y |G )− lım supn→∞

E (Xn|G ) = lım infn→∞

E (Zn|G ) ≥ E(lım infn→∞

Zn∣∣∣G) = E

ÅY − lım sup

n→∞Xn∣∣∣Gã ,

tras usar linealidad se concluye lo afirmado.

( 1.3.15.16 ) Si para todo n ∈ N, |Xn| ≤ |Y | y Xn → X P−c.d., entonces

E (Xn|G )→ E (X|G )P−c.d..

23

Capítulo 1. Preliminares de probabilidad.

Pues se cumple que

E(lım infn→∞

Xn∣∣∣G) ≤ lım inf

n→∞E (Xn|G ) ≤ lım sup

n→∞E (Xn|G ) ≤ E

Ålım supn→∞

Xn∣∣∣Gã ,

que concluye la demostración del teorema de convergencia dominada.

( 1.3.15.17 ) Si φ : R→ R es convexa, entonces

φ(E (X|G )) ≤ E (φ(X)|G ) .

Pues por ser φ convexa en cada punto de su dominio existe una recta de soporte; es decir, paratodo t0 ∈ R existe un λt0 tal que si t ∈ R, entonces

φ(t0) + λt0 (t − t0) ≤ φ(t).

De hecho, λt0 puede ser la derivada por la derecha de φ en (t0); es decir

λ(t0) = λt0 = lımh↓0

φ(t0 + h)− φ(t0)h .

Entonces, λ es creciente. Luego, se tiene una función

(s, t) 7Ï φ(t)− φ(s)− λ(s)(t − s) ≥ 0.

Al evaluar en (E (X|G ) , X) se encuentra que

φ(X)− φ(E (X|G ))− λ(E (X|G ))(X − E (X|G )) ≥ 0.

Supón que E (X|G ) es acotada, entonces la continuidad de φ muestra que φ(E (X|G )) es acotada y lamonotonía de λ muestra que λ(E (X|G )) está acotada. En consecuencia, todos los términos están acotadosy son integrables. Luego, se puede considerar la esperanza condicional dada G de la expresión anterior.Usando la monotonía de la esperanza condicional se concluye que

E (φ(X)|G )− E (φ(E (X|G ))− λ(E (X|G ))(X − E (X|G ))|G ) ≥ 0;

como λ(E (X|G )) y E (X|G ) son (G ,B (R))-medibles, se pueden tratar como unas constantes, luego

E (λ(E (X|G ))(X + E (X|G ))|G ) = λ(E (X|G ))(E (X|G )− E (X|G )) = 0.

Por lo tanto,E (φ(X)|G ) ≥ φ(E (X|G ))

que es lo que se quería demostrar.Supón ahora que E (X|G ) es no necesariamente acotada, define Xn = X1|E(X|G )|≤n, por el caso

previoE (φ(Xn)|G ) ≥ φ(E (Xn|G )) = φ(1|E(X|G )|≤nE (X|G ))→ φ(E (X|G )).

Resta ver que lım supn→∞

E (φ(Xn)|G ) ≤ E (φ(X)|G ) . Por convexidad

E (φ(Xn)|G ) ≤ 1|E(X|G )|≤nE (φ(X)|G ) + 1|E(X|G )|>nφ(0)→ E (φ(X)|G ) .

( 1.3.15.18 ) Si p > 1, y |X|p, |Y |p son integrables, entonces

‖E (X + Y |G )‖p ≤ ‖E (Y |G )‖p + ‖E (X|G )‖p .

24

1.3. Esperanza condicional.

Pues de la desigualdad de Minkowski se deriva que

‖E (X + Y |G )‖p = ‖E (X|G ) + E (Y |G )‖p ≤ ‖E (Y |G )‖p + ‖E (X|G )‖p .

( 1.3.15.19 ) Si |X|p es integrable con p ≥ 1, entonces

‖E (X|G )‖p ≤ ‖X‖p .

Pues la función t 7Ï |t|p es convexa, entonces, según la desigualdad de Jensen

E (|E (X|G ) |p) ≤ E (E (|X|p|G )) = E (|X|p) ,

con tomar la raíz p-ésima se concluye este resultado.

( 1.3.15.20 ) Si p ∈ [1,∞) y q > 1 son tales que1p + 1

q = 1 y |X|p, |Y |q son integrables, entonces |E (XY |G ) | ≤

E (|XY ||G ) ≤ p√

E (|X|p|G ) q√E (|Y |q |G ).

Par la convexidad de la función − log se ve que si x, y ≥ 0,

− logÅxpp + yq

q

ã≤ −

Å logxpp + logyq

q

ã= −(logx + log y) = − log(xy),

cambiando el signo y aplicando la funcipon exponencial se deriva que

xy ≤ xpp + yq

q .

Sea ω ∈ Ω cualquiera y considera x = |X|p√E (|X|p|G )

y y = |Y |q√E (|Y |q |G )

. La desigualdad previa muestraque

|XY |p√E (|X|p|G ) q

√E (|Y |q |G )

≤ |X|pE (|X|p|G )p + |Y |q

E (|Y |q |G )q .

Considera ahora la esperanza condicional respecto de G de las variables aleatorias previas y utiliza lapropiedad de monotonía para concluir que

|XY |p√E (|X|p|G ) q

√E (|Y |q |G )

∣∣∣∣∣Gå≤ EÇ

|X|pE (|X|p|G )p

∣∣∣∣∣Gå

+ EÇ

|Y |qE (|Y |q |G )q

∣∣∣∣∣Gå.

Utiliza ahora el hecho que E (Z|G ) es (G ,B (R))-medible para concluir que

|X|pE (|X|p|G )p

∣∣∣∣∣Gå

+ EÇ

|Y |qE (|Y |q |G )q

∣∣∣∣∣Gå

= E (|X|p|G )E (|X|p|G )p + E (|Y |q |G )

E (|Y |q |G )q = 1

y que

|XY |p√E (|X|p|G ) q

√E (|Y |q |G )

∣∣∣∣∣Gå

= E (|XY ||G )p√E (|X|p|G ) q

√E (|Y |q |G )

.

Despejando se obtiene la desigualdad afirmada.

( 1.3.15.21 ) Si |X|p es integrable para p > 1 y 1 ≤ r ≤ p,

E (|X|r |G ) ≤ p»E (|X|p|G ).

Utiliza la desigualdad de Hölder, en lugar de X se pone |X|p, Y = 1 y los índices son pr y p

p − r . Estoconduce directamente a la desigualdad de Lyapunov.

25

Capítulo 1. Preliminares de probabilidad.

z Probabilidades regulares y distribuciones condicionales.Dado un espacio de probabilidad (Ω,F ,P), G ⊂ F una σ -álgebra y un vector aleatorio X : Ω → Rd

puede ser definida una función p : Ω×B(Rd)→ R por5

p(ω,B) = P (X ∈ B|G ) (ω).

Entonces, para B fijo se cumple ω 7Ï p(ω,B) es(G ,B

(Rd))-medible y su A ∈ G , entonces∫

A

p(ω,B)dP(ω) =∫A

P (X ∈ B|G )dP =∫A

1X∈BdP = P (A,X ∈ B) .

Además, para casi todo ω fijo B 7Ï p(ω,B) se comporta como una probabilidad en B(Rd) ; se observa

queP(X ∈ Rd|G

)= E

(1X∈Rd

∣∣∣G) = 1;

si A ∈ B(Rd) , entonces 1X∈A = 1X∈Ω − 1X∈A, por lo que

P(X ∈ A

∣∣G ) = 1− P (X ∈ A|G ) ;

finalmente, para la σ -aditividad se obverva que

1ßX∈

∞⋃n=1

An

™ =∞∑n=1

1X∈An,

por lo que, en virtud del teorema de convergencia monótona,

P

(X ∈

∞⋃n=1

An∣∣∣∣G)

=∞∑n=1

P (X ∈ An|G ) ,

que es la propiedad de σ -aditividad.

Observación: parece razonable esperar que para cada ω fijo la función B 7Ï P (X ∈ B|G ) (ω) sea unadistribución de probabilidad. Esto no necesariamente ocurre pues P (X ∈ B|G ) es en realidad una clasede equivalencia de variables aleatorias. Entonces, para cada familia de eventos disjuntos A = (An)n∈Nhay un conjunto de probabilidad cero NA tal que si ω ∈ NA entonces

P

(X ∈

∞⋃n=1

An∣∣∣∣G)

(ω) 6=∞∑n=1

P (X ∈ An|G ) (ω).

El problema surge al notar que el conjunto de las familias A de sucesiones en F de eventos disjutospuede no ser contable, en ese caso la unión de todos los NA podría ni siquiera ser evento. En conse-cuencia, se buscan condiciones para que las probabilidades condiciones satisfagan cierta regularidad.

( 1.3.16 ) Dado un espacio de probabilidad (Ω,F ,P), G ⊂ F una σ-álgebra, un espacio medible (S,S ) y unelemento aleatorio X : Ω → S se dirá que X posee una distribución condicional regular dada G si existe unaversión de la función p : Ω×S → R definida como

p(ω,B) = P (X ∈ B|G ) (ω)

en la que para cada ω ∈ Ω fijo la fución B 7Ï P (X ∈ B|G ) (ω) es una probabilidad.5Recuerde que la probabilidad condicional es un caso particular de la esperanza condicional, se define P (Y ∈ A|G ) =

E(1Y∈A|G

).

26

1.3. Esperanza condicional.

El siguiente teorema se aleja de la idea de este trabajo por lo que queda enunciado sin demostración.

( 1.3.17 ) Sea (Ω,F ,P) un espacio de probabilidad (S,S ) un espacio medible, en donde S es un espacio métrico,separable y completo y S = B (S) . Cada elemento aleatorio X : (Ω,F ) → (S,S ) posee una distribucióncondicional regular dada G .

Observación: cuando G es la σ -álgebra Σ(Y ), entonces existe una función q tal que

p(ω,B) = q(Y (ω), B).

Al igual que antes, se escribiráq(y,B) = P (X ∈ B|Y = y) .

( 1.3.18 ) Con las hipótesis de (1.3.16), para g(X) ∈ L (Ω,F ,P) se cumple que

E (g(X)|G ) (ω) =∫Rd

g(x)p(ω, dx).

Se empieza considerando la función g(X) = 1X∈B, entonces E (g(X)|G ) = P (X ∈ B|G ) . Si A ∈ G ,entonces ∫

A

∫Rd

g(x)p(ω, dx)dP(ω) =∫A

∫B

p(ω, dx)dP(ω)

=∫A

p(ω,B)dP(ω) = P (A,X ∈ B) ;

es decir, E (g(X)|G ) (ω) =∫Rd

g(x)p(ω, dx). Usando el método usual se concluye el resultado deseado.

( 1.3.19 ) Con las hipótesis de (1.3.16) se cumple que para g(X) ∈ L (Ω,F ,P)

E (g(X)|Y = y) =∫Rd

g(x)q(y, dx) =∫Rd

g(x)dFX(x|Y = y),

en donde la última igualdad es definición.

De nuevo, usando el método usual basta demostrar esto cuando g(X) = 1X∈B, entonces

E (g(X)|Y = y) = q(y,B) =∫B

q(y, dx) =∫Rd

g(x)q(y, dx),

que demuestra lo afirmado.

( 1.3.20 ) Se cumple que P (X ∈ B) =∫Rd

P (X ∈ B|Y = y)dFY (y), en donde FY es la función de distribución de

Y.En acuerdo con (1.3.15) y (1.3.19) se concluye que

P (X ∈ B) = E (P (X ∈ B|Y )) =∫Rd

P (X ∈ B|Y = y)dFY (y),

que era lo afirmado.

27

Capítulo 1. Preliminares de probabilidad.

( 1.3.21 ) Supón que X es un vector aleatorio en Rd y que Y es un vector aleatoriu en Rp y supón que (X,Y )tiene densidad f : Rd × Rp → R; es decir, la medida de probabilidad B 7Ï P ((X,Y ) ∈ B) de B

(Rd) ⊗B (Rp)

a [0, 1] es absolutamente continua respecto de la medida de Lebesgue. Entoces, Y posee densidad fY : Rp → Ry para cada y ∈ Rp para la cual fY (y) > 0, la función B 7Ï P (X ∈ B|Y = y) para B ∈ B

(Rd) posee densidad

dada por

P (X ∈ B|Y = y) =

∫B

f (x, y)dx

fY (y) .

Se procede igual que en (1.3.11); es trivial verificar que y 7Ï fY (y) =∫Rd

f (x, y)dx es densidad de Y,

pues basta aplicar el teorema de Tonelli

P (Y ∈ B) =∫

Rd×B

f (x, y)d(x, y) =∫B

∫Rd

f (x, y)dxdy.

Ahora bien, para verificar que P (X ∈ B|Y = y) =

∫B

f (x, y)dx

fY (y) se mostrará que para todo A ∈ B (Rp) secumple que

P (X ∈ B,Y ∈ A) =∫A

∫B

f (x, y)dx

fY (y) dFY (y).

Por tener FY densidad fY se cumple que dFY (y) = fY (y)dy, en consecuencia

∫A

∫B

f (x, y)dx

fY (y) dFY (y) =∫A

∫B

f (x, y)dx

fY (y) fY (y)dy =∫A

∫B

f (x, y)dxdy = P (X ∈ B,Y ∈ A) .

En donde los casos que pudieran tomar alguna forma indeterminada se manejan de la manera obvia.

§ 1.4. El teorema de extensión de KolmogorovEl teorema de extensión de Kolmogorov es la herramienta principal a la hora de demostrar “exis-

tencias” de espacios de probabilidad. Para demostrar el teorema se necesitan algunos términos que acontinuación se definen.( 1.4.1 ) Sea T un conjunto no vacío tal que para cada t ∈ T el conjunto Ωt es un espacio métrico completo yseparable, y que Ft = B (Ωt) . Supón que para cada V ⊂ T finito y no vacío, V = t1, . . . , tn está dada unamedida PV , definida en FV = Ft1 ⊗ . . .⊗Ftn , de probabilidad; supón además que (PV )V⊂T es finito es consistente;esto es

U ⊂ V,U 6= ∅Ñ prU (PV ) = PU ,en donde prU es la proyección a U. Entonces, existe una única medida de probabilidad P sobre F =

⊗t∈T

Ft tal

que prV (P) = PV , para cada V ⊂ T finito y no vacío; el «teorema de extensión de Kolmogorov».

28

Capítulo 2

• Procesos estocásticos.

Intuitivamente, un proceso estocástico es el desarrollo aleatorio, a través del tiempo, de observacio-nes de ciertas cantidades. Por ejemplo, la posición de una partícula de polen sobre la superficie de unlíquido. En lo que resta será denotado por B (E) a la σ -álgebra del espacio topológico E. Asimismo, RN

denotará al espacio de las sucesiones reales.

§ 2.1. Definiciones básicas.Se recordará a continuación un poco de terminología de teoría de la medida y probabilidad.

( 2.1.1 ) Un espacio medible (S,S ) es un conjunto no vacío S con una σ-álgebra S de subconjunto de S. Unespacio de probabilidad es un espacio medible (Ω,F ) con una medida P tal que P (Ω) = 1.

( 2.1.2 ) Sea (Ω,F ,P) un espacio de probabilidad dado y (S,S ) un espacio medible. Cualquier función X : Ω→ Stal que A ∈ S Ñ X−1(A) ∈ F será llamada una función medible. Si (S,S ) = (R,B (R)), X será llamado unavariable aleatoria. Si (S,S ) = (Rn,B (Rn)), X es un vector aleatorio. Cuando (S,S ) =

(RN,B

(RN)) se dirá

que X es una sucesión aleatoria. Cuando (S,S ) =(R,B

(R))

se dirá que X es una variable aleatoria extendida.Cuando una función X : Ω → S sea medible se escribirá X : (Ω,F ) → (S,S ) o bien, será dicho que X es

una función (F ,S )-medible.

( 2.1.3 ) Una condición necesaria y suficiente para que X sea un vector aleatorio en Rn es que existan n variablesaleatorias X1, . . . , Xn tales que X = (X1, . . . , Xn). Una condición necesaria y suficiente para que X sea unasucesión aleatoria es que para cada n ∈ N la proyección prn(X) = Xn sea variable aleatoria.

La necesidad es obvia pues la función pri : Rn → R dada por pri(x1, . . . , xn) = xi es continua, así quees medible, en consecuencia, Xi = pri(X) es variable aleatoria. La suficiencia es similar, pues el mapeoΠi(t) = tei de R a Rn es medible, así que

X = (Π1(X1), . . . ,Πn(Xn))

es una función medible, es decir, es un vector aleatorio. La misma demostración aplica pues las pri yΠi son medibles en B

(RN) .

( 2.1.4 ) Sea T un conjunto cualquiera no vacío. Cualquier función Λ : T → Y se llamará una familia de elementosde Y con conjunto de índices T ; se escribirá Λ = (λt)t∈T y Λ(t) = λt . Dado un espacio de probabilidad (Ω,F ,P)y un espacio medible (S,S ); un proceso estocástico definido sobre (Ω,F ,P) con espacio de estados (S,S ) yconjunto de índices T es una familia X = (Xt)t∈T con Xt : (Ω,F )→ (S,S ).

29

Capítulo 2. Procesos estocásticos.

( 2.1.5 ) Sea ST el conjunto de las funciones T → S y S T la σ-álgebra en ST generada por los «rectángulos»:

S T = Σ

Ñ∞⋃n=1

⋃(t1,...,tn)∈Tn

⋃B1,...,Bn∈S

ω ∈ ST

∣∣(ω(t1), . . . , ω(tn)) ∈ B1 × · · · × Bné

;

una condición necesaria y suficiente para que la familia (Xt)t∈T de funciones Ω → S sea un proceso estocásticoes que la función X : Ω → ST dada por X(ω)(t) = Xt(ω) sea (F ,S T )-medible. Por esta razón, a los procesosestocásticos también se les llama «procesos medibles».

Se supone primero que X es una función (F ,S T )-medible, entonces Xt = prt(X), y prt es medible.Luego, Xt es medible por ser composición de mapeos medibles. Recíprocamente, se supone que cadaXt es medible. Para verificar que X es medible bastará ver que si R es un rectángulo en S T , entoncesX ∈ R es un evento de F . Para esto nota que existe un n ∈ N y tiempos (t1, . . . , tn) ∈ Tn y conjuntosmedibles B1 × . . .× Bn ∈ S n tales que

R =ω ∈ ST

∣∣(ω(t1), . . . , ω(tn)) ∈ B1 × . . .× Bn.

En consecuencia,

X ∈ R = Xt1 ∈ B1, . . . , Xtn ∈ Bn =n⋂i=1Xti ∈ Bi.

Si Ai = Xti ∈ Bi, Ai ∈ F , así quen⋂i=1

Ai ∈ F, mostrando con esto que X es medible.

§ 2.2. Procesos estocásticos en L2 (Ω,F ,P) .Dado un espacio de probabilidad (Ω,F ,P) se define

Lp (Ω,F ,P) =

X : (Ω,F )→ (R,B (R))∣∣∣∣∣∫Ω

|X|pdP <∞

.

Asimismo, se puede verificar que Lp (Ω,F ,P) es un espacio seminormado con seminorma asociada

‖X‖p = p

Ã∫Ω

|X|pdP.

Luego, al hacer cociente con las funciones que son iguales en casi todas partes se obtiene un espacionormado Lp(Ω,F ,P) el cual resulta ser espacio banachiano para todo p ≥ 1 y espacio hilbertiano parap = 2. En el caso p = 2 el producto escalar asociado es

〈[X], [Y ]〉 =∫Ω

X(ω)Y (ω)dP(ω),

en donde X ∈ [X] y Y ∈ [Y ] son cualesquier representantes de sus clases de equivalencia. Para evitarhablar de representates y clases de equivalencia se restringirá a dar los enunciados para funciones enLp (Ω,F ,P) . En el caso de las variables aleatorias se escribe

E (X) =∫Ω

X(ω)dP (ω) .

30

2.2. Procesos estocásticos en L2 (Ω,F ,P) .

A veces se tiene un espacio medible (Ω,F ) y una familia de medidas en él: (µ(t))t∈T ; es decir, paracualquier t ∈ T la función B 7Ï µ(t, B) con B ∈ F es una medida. En este caso se escribirá∫

Ω

f (ω)µ(t, dω)

para indicar que se considera la integral de f respecto de la medida µ(t).( 2.2.1 ) Un proceso estocástico X definido sobre (Ω,F ,P) con espacio de estados R y conjunto de índices T sellama proceso de tipo L2 si para todo t ∈ T se cumple que E

(X2t)<∞.

Observación: aún cuando X sea de tipo L2 es muy factible que

supt∈T

E(X2t)

=∞.

Como ejemplo de un proceso de tipo L2 considera (sin(tX))t∈[0,1] para cualquier variable aleatoria X.

z Función de covarianzas.Con recordar que L2 (Ω,F ,P) es un espacio semihilbertiano resulta natural estudiar su producto

interior.( 2.2.2 ) Sea (Xt)t∈T un proceso de tipo L2. La función de covarianzas del proceso se define por K : T ×T → Rpor

K(s, t) = Cov (Xs;St) = E ((Xs − E (Xs))(Xt − E (Xt))) .

Observaciones:1. la función K es simétrica; es decir, para cualquier (s, t) ∈ T2 se cumple que K(s, t) = K(t, s);

2. en términos del producto escalar, para cualquier (s, t) ∈ T2 se tiene que

K(s, t) = 〈Xs − E (Xs) , Xt − E (Xt)〉 ;

3. para cada t ∈ T, K(t, t) = Var (Xt) .

4. todo proceso de tipo L2 tiene matriz de covarianzas pues, en virtud de la desigualdad de Cauchy-Schwartz

|K(s, t)|2 ≤ K(s, s)K(t, t) <∞.

( 2.2.3 ) Un proceso (Xt)t∈T de tipo L2, en donde T ⊂ R es un intervalo, se llama débilmente estacionariosi existe un m ∈ R tal que para todo t ∈ T, E (Xt) = m, y, además, K(s, t) = K(s + h, t + h) para cada(s, t) ∈ T × T y cada h ∈ R para el cual (s + h, t + h) ∈ T × T.

Observación: si T = [0,∞), entonces que (Xt)t∈T sea débilmente estacionario implica que K(s, t) solodepende de |s− t|, pues por simetría se puede suponer s > t y entonces K(s, t) = K(s− t, 0) = K(|s− t|).( 2.2.4 ) Un proceso de tipo L2 cuyo conjunto de índices T ⊂ R es un intervalo, se llama fuertemente estacionariosi las distribuciones conjuntas

Ft1,...,tn (x1, . . . , xn) = P (Xt1 ≤ x1, . . . Xtn ≤ xn)

para cada n ∈ N, cada (t1, . . . , tn) ∈ Tn con t1 < . . . < tn y para cada h ∈ R tal que (t1 + h, . . . , tn + h) ∈ Tn,tienen la propiedad de que

Ft1,...,tn = Ft1+h,...,tn+h.

31

Capítulo 2. Procesos estocásticos.

( 2.2.5 ) Todo proceso de tipo L2 que sea fuertemente estacionario es débilmente estacionario.

En efecto, sean s < t con s, t ∈ T y define h = t−s. Entonces Fs = Fs+h = Ft , luego, E (Xs) = E (Xt) .Sea m el valor común de las esperanzas. Observa que

K(s, t) = 〈Xs −m,Xt −m〉 = 〈Xs, Xt〉 −m2.

Por otro lado, para s, t ∈ T y h ∈ R tal que s + h, t + h ∈ T, se tiene que

E (XsXt) =∫R

xydFs,t(x, y) =∫R

xydFs+h,t+h(x, y) = E (Xs+hXt+h) .

Esto muestra que K(s, t) = K(s + h, t + h).

z Existencia de procesos estocásticos dada una matriz de covarianzas.Se considerará ahora el problema de determinar la existencia de un proceso de tipo L2 dada una

función K : T2 → R que se comporte como una función de covarianzas. Es decir, dada una K quesatisfaga la tesis de la siguiente propiedad.( 2.2.6 ) Sea (Xt)t∈T un proceso de tipo L2. Entonces su función de covarianzas es simétrica y está definidasemipositivamente; esto es, si K es la función de covarianzas, entonces para cada (s, t) ∈ T2 se cumple queK(s, t) = K(t, s) y para cada (t1, . . . , tn) ∈ Tn se cumple que la matriz Kt1,...,tn = (K(ti, tj ))i,j=1,...,n está definidasemipositivamente.

Ya había sido observado que K es simétrica, se verá ahora que está definida semipositivamente. Paraesto considere n tiempos arbitrarios (t1, . . . , tn) ∈ Tn, entonces para X = (x1, . . . , xn) ∈ Rn, se cumpleque

〈Kt1,...,tnX,X〉 =n∑i=1

n∑j=1

K(ti, tj )xixj

=n∑i=1

n∑j=1

E((Xti − E (Xti ))

(Xtj − E

(Xtj)))

xixj

= E

Ñn∑i=1

n∑j=1

xi(Xti − E (Xti ))xj(Xtj − E

(Xtj))é

= E

Ñ( n∑i=1

xi[Xti − E (Xti )

])2é≥ 0.

Que es lo que se quería demostrar. Entonces, dada K : T×T → R que sea simétrica y definida semipositivamente, ¿existe algún proceso

de tipo L2 que tenga como función de covarianzas a K? La respuesta se encuentra en la siguienteproposición.( 2.2.7 ) Sea T un conjunto totalmente ordenado1 y no vacío. Dada K : T × T → R simétrica y definida

1Es decir, existe una relación (un conjunto de pares ordenados) r de T que satisface lo siguiente:1. es transitiva; esto es (s, t) ∈ r, (t, p) ∈ r Ñ (s, p) ∈ r;2. cualesquier dos elementos se pueden comparar; es decir, para todo par (s, t) ∈ T2 con s 6= t exactamente uno y solo uno

de los siguiente pertenece a r, o (s, t) o (t, s);3. ningún elemento es más grande que sí mismo; esto es, para cada t ∈ T, (t, t) /∈ r.

Evidentemente esto generaliza la relación (x, y) ∈ R|x < y. Por analogía, siempre se escribirá t < s para indicar que (t, s) ∈ r.

32

2.3. Distribuciones de dimensión finita.

semipositivamente existe un proceso de tipo L2 cuya función de covarianzas es K.

La demostración queda completamente subordinada al teorema de extensión de Kolmogorov (1.4.1).Define, para t1 < . . . < tn el vector (Xt1 , . . . , Xtn ) como gaussiano cuya matriz de covarianzas es[K(ti, tj )]i,j=1,...,n. Entonces se satisfacen las condiciones del teorema de extensión de Kolmogorov yen consecuencia existe el proceso.

Observaciones:

1. El proceso generado en la propiedad previa se denomida proceso de tipo gaussiano; esto es,para cada n ∈ N y cada (t1, . . . , tn) ∈ Tn se toene que (Xt1 , . . . , Xtn ) es un vector gaussiano.

2. Evidentemente no cabe esperar unicidad determinada por las matrices de covarianzas. De hecho,dada cualquier matriz de covarianza existe un proceso gaussiano con matriz de covarianzas la dada.Equivalentemente, dado un proceso estocástico de tipo L2 existe otro proceso de tipo gaussianocon la misma matriz de covarianzas.

3. Para un proceso gaussiano, la función de covarianzas determina completamente las distribucionesde dimensión finita (ve (2.3.1)).

4. Si (Xt)t∈T tiene función de covarianzas K y f : T → R, entonces (Xt + f (t))t∈T también tiene funciónde covarianzas K.

§ 2.3. Distribuciones de dimensión finita.Un proceso estocástico es una función medible (2.1.5), sin embargo, es difícil trabajar sobre el espacio

(ST ,S T ) y en consecuencia se estudiarán todas las distribuciones de dimensión finita que son generadaspor el proceso.

( 2.3.1 ) Sea X = (Xt)t∈T un proceso estocástico a valores en el espacio medible (S,S ), en donde el conjuntode índices T es cualquier subcojunto totalmente ordenado. Dado un n ∈ N y t1 < . . . < tn se define

µXt1,...,tn : S × . . .×S︸ ︷︷ ︸n veces

→ [0, 1]

dada porµXt1,...,tn (B1, . . . , Bn) = P (Xt1 ∈ B1, . . . , Xtn ∈ Bn) .

La familiaĵXt1,...,tn

än∈N,t1<...<tn

se llama familia de distribuciones de dimensión finita de X.

Observación: la función µXt1,...,tn tiene por dominio al producto cartesiano S × . . . ×S = S n y no ala σ -álgebra producto S ⊗ . . .⊗S .

( 2.3.2 ) Sean X = (Xt)t∈T y Y = (Yt)t∈T dos procesos estocásticos con espacio de estados (S,S ), definidos,posiblemente, sobre distintos espacios de probabilidad y con mismo conjunto de índices T, en donde T es unconjunto totalmente ordenado. Se dirá que los procesos son iguales en distribución si sus familias de distribucionesde dimensión finita coinciden. Esto es, si para cada n ∈ N y para cada t1 < . . . < tn se cumple que

µXt1,...,tn = µYt1,...,tn .

Esto será denotado por XD= Y.

33

Capítulo 2. Procesos estocásticos.

( 2.3.3 ) Sean (Ω,F ,P) un espacio de probabilidad dado y (S,S ) un espacio medible dado. Dados dos procesosestocásticos (Yt)t∈T y (Xt)t∈T definidos sobre el espacio de probabilidad y a valores en el espacio medible seránllamados modificación o variación uno del otro si para cada t ∈ T se cumple que P (Xt = Yt) = 1. Si se cumplela propiedad más fuerte

P (∀t ∈ T,Xt = Yt) = 1,

se dirá que X y Y son indistinguibles o que poseen las mismas trayectorias.

( 2.3.4 ) Sean X = (Xt)t∈T y Y = (Yt)t∈T variaciones uno del otro con espacio de estados (S,S ). Si T es

totalmente ordenado entonces XD= Y.

Pues si n ∈ N y t1 < . . . < tn están dados, para cualesquier B1, . . . , Bn ∈ S se cumple que

µXt1,...,tn (B1, . . . , Bn) = P (Xt1 ∈ B1, . . . , Xtn ∈ Bn)= P (Xt1 ∈ B1, . . . , Xtn ∈ Bn, Xt1 = Yt1 , . . . , Xtn = Ytn )= P (Yt1 ∈ B1, . . . , Ytn ∈ Bn, Xt1 = Yt1 , . . . , Xtn = Ytn )= P (Yt1 ∈ B1, . . . , Ytn ∈ Bn)= µYt1,...,tn (B1, . . . , Bn)

que demuestra lo afirmado.

( 2.3.5 ) Sea X = (Xt)t∈T un proceso estocástico, con T totalmente ordenado, a valores en (S,S ). SeaĵXt1,...,tn

än∈N,t1<...<tn

la familia de distribuciones de dimension finita de X. Entonces, si 1 ≤ i1 < . . . < im ≤ ncon m < n, se verifica que

µXti1 ,...,tim (B1, . . . , Bm) = µXt1,...,tn (C1, . . . , Cn),

en donde Ci = S si i /∈ i1, . . . , im y Ci = Bij si i = ij ; esto es, se cumple la condición de consistencia delteorema de extensión de Kolmogorov (ve (1.4.1)). Entonces existe un espacio de probabilidad (Ω,F ,P) tal quepara cada n ∈ N y para cada t1 < . . . < tn y B1, . . . , Bn ∈ S se cumple que

µXt1,...,tn (B1, . . . , Bn) = P (Xt1 ∈ B1, . . . , Xtn ∈ Bn) .

El sistema (Ω,F ,P, X) será llamado versión canónica de X.

Observación: el teorema de extensión de Kolmogorov define Ω = ST las funciones de T a S; definea F como en (2.1.5) la σ -álgebra generada por los cilindros; y define X(t, ω) = ω(t).

( 2.3.6 ) Sea X = (Xt)t∈T un proceso estocástico sobre Ω. La función fXω : T → R dada por fXω (t) = X(t, ω) serádenominada la trayectoria del proceso X definida por ω.

A continuación se mostrará que ni la probabilidad P ni la familia de distribuciones de dimensionfinita están relacionadas con las trayectorias del proceso.

( 2.3.7 ) Sea λ la medida de Lebesgue sobre ([0, 1],B ([0, 1])). Sea X(t, ω) = 0 para todo t y todo ω y seaY (t, ω) = 0 si t 6= ω y Y (t, ω) = 1 si t = ω. Entonces X y Y son variaciones uno del otro (en particular, tienenla misma familia de distribuciones de dimension finita, (2.3.4)) y sin embargo

λÇ

supt∈[0,1]

Xt <12

å6= λÇ

supt∈[0,1]

Yt <12

å.

34

2.4. Procesos estocásticos separables, continuos y medibles.

Puesλ(Xt = Yt) = λω ∈ [0, 1]|ω 6= t = 1

y por otro lado

λÇ

supt∈[0,1]

Xt <12

å= 1

mientras que

λÇ

supt∈[0,1]

Yt <12

å= 0.

Que concluye el ejemplo.

Observación: esta falta de dependencia entre la medida del espacio, la familia de distribuciones dedimensión finita y las trayectorias deriva del hecho que la probabilidad es σ -aditiva y la σ -álgebra escerrada por operaciones contables de conjuntos. Por otro lado, las trayectorias dependen de un tiempocontinuo. Conviene entonces estudiar únicamente procesos cuyas trayectorias satisfagan condicionesadicionales.

§ 2.4. Procesos estocásticos separables, continuos y medibles.( 2.4.1 ) Sea T un espacio topológico y (S,S ) un espacio medible. Se dice que un proceso estocástico X = (Xt)t∈T ,definido sobre (Ω,F ,P) a valores en (S,S ), es separable si existe un conjunto contable2 T0 ⊂ T, al cual se lellamará un conjunto separante, tal que T0 es denso en T, y si existe un conjunto nulo A ∈ F , o sea P (A) = 0, talque si ω /∈ A y t ∈ T, entonces existe una sucesión (tn)n∈N definida en T0 tal que tn → t y X(tn, ω)→ X(t, ω).Al conjunto A se le llama despreciable.

Observación: la sucesión (tn)n∈N depende de ω y, de hecho, puede suceder que existan otras suce-siones (rn)n∈N y (sn)n∈N en T0 con rn → t y sn → t para las cuales (X(rn, ω)) no converja y (X(sn, ω))converja a algo diferente de X(t, ω).

( 2.4.2 ) Sea (Xt)t∈T un proceso estocástico definido sobre (Ω,F ,P) a valores en el espacio métrico compactoS con σ-álgebra S = B (S) . Supón que T es un espacio métrico separable; una condición necesaria y suficientepara que X sea separable es que exista un conjunto T0 ⊂ T que sea contable y denso en T y que exista unconjunto A ∈ F con P (A) = 0 de tal forma que si ω /∈ A, C ⊂ S es cerrado e I ⊂ T es abierto, entonces(

t ∈ T0 ∩ I Ñ X(t, ω) ∈ C)Ñ(t ∈ I Ñ X(t, ω) ∈ C

).

Se verá primero la necesidad; se supone que (Xt)t∈T es un proceso estocástico separable. Sea T0un conjunto separante y A un conjunto despreciable. Sean ω /∈ A, C ⊂ S cerrado e I ⊂ T abierto cont ∈ T0 ∩ I Ñ X(t, ω) ∈ C. Sea t ∈ I cualquiera, como I ⊂ T es abierto existe un r > 0 para el cualB (t; r) ⊂ I, de la definición de proceso separable (ve (2.4.1)) se concluye que existe una sucesión (tn)n∈Ncon valores en T0 de tal forma que tn → t y X(tn, ω)→ X(t, ω). Para cierto n0 ∈ N se debe cumplir quen ≥ n0 Ñ tn ∈ B (t; r) ; en consecuencia n ≥ n0 Ñ tn ∈ T0 ∩ I. Como por suposición X(tn, ω) ∈ C y C escerrado X(t, ω) ∈ C, que conluye la necesidad.

Ahora se demostrará la suficiencia. Se procede por contradicción, supón entonces que T0 es contabley denso en T, que A es un conjunto medible de probilidad cero y que (Xt)t∈T no es separable; se divideel resto de la prueba en varios pasos para aclarar la demostración.

2Recuerde que un conjunto X se dice contable si card (X) ≤ card (N) ; es decir, o es finito existe una biyección entre X y N.

35

Capítulo 2. Procesos estocásticos.

( 2.4.2.1 ) Existe un ω /∈ A y un t ∈ T de tal forma que para cualquier sucesión (tn)n∈N con valores en T0 parala cual tn → t se cumple que X(tn, ω) 6→ X(t, ω).

Se obtiene inmediatamente al negar la definición (2.4.1).

( 2.4.2.2 ) Existen r > 0 y ε > 0 de tal forma que

t ′ ∈ B (t; r) ∩ T0 Ñ d(X(t, ω), X(t ′, ω)) ≥ ε

Supón que no, entonces para todo 1n > 0 existe un t ′n ∈ B

Åt; 1n

ã∩T0 para el cual d(X(t, ω), X(t ′, ω)) ≤

1n . Entonces, (t ′n)n∈N está definida en T0, t ′n → t y X(t ′n, ω)→ X(t, ω), lo cual contradice el lema previo.

( 2.4.2.3 ) Sea C = x ∈ S|d(x,X(t, ω)) ≥ ε. Entonces C es cerrado.

Considera la función φ(x) = d(x,X(t, ω)), entonces, con usar la desigualdad triangular, se observade inmediato que

|φ(x)− φ(y)| = |d(x,X(t, ω))− d(y,X(t, ω))| ≤ d(x, y),

por lo que φ es continua. Luego, se observa que C = φ−1([ε,∞)) que es la preimagen de un cerrado.

( 2.4.2.4 ) El C anterior contradice la hipótesis.

Pues B (t; r) es un abierto de T y se cumple que X(t ′, ω) ∈ C para todo t ′ ∈ B (t; r)∩T0, en consecuenciade debe cumplir que X(t ′, ω) ∈ C para todo t ′ ∈ B (t; r) . En particular, al escoger t ′ = t se ve queX(t, ω) ∈ C, o sea d(X(t, ω), X(t, ω)) ≥ ε > 0 lo que es una contradicción. Esto concluye el teorema.

( 2.4.3 ) Si (Xt)t∈T es un proceso estocástico separable a valores en el espacio métrico compacto (S,B (S)) y Tes un espacio métrico separable, entonces para cada f : S → S continua se cumple que (f (Xt))t∈T es separable.

Se utiliza (2.4.2); existe T0 ⊂ T el cual es contable y denso en T, y A ∈ F con probabilidad cero talesque si ω /∈ A, C ⊂ S es cerrado, I ⊂ T es abierto y t ∈ T0∩ I Ñ X(t, ω) ∈ C entonces t ∈ I Ñ X(t, ω) ∈ K.

Supón entonces que para estos T0, A, C e I se cumple que t ∈ T0 ∩ I Ñ f (X(t, ω)) ∈ C, entoncesX(t, ω) ∈ f−1(C), en donde C es cerrado. Como consecuencia de (2.4.2) se concluye que X(t, ω) ∈ f−1(C)para cualquier t ∈ I ; equivalentemente f (X(t, ω)) ∈ C para cualquier t ∈ I. Por lo tanto, con usar (2.4.2)se concluye que (f (Xt))t∈T se separable.

( 2.4.4 ) Si X = (Xt)t∈T es un proceso estocástico a valores en el espacio métrico compacto (S,B (S)) y T es unespacio métrico separable, entonces una condición suficiente para que X sea separable es que exista un A ∈ Fcon P (A) = 0 tal que para todo ω /∈ A se cumpla que la trayectoria de X definida por ω, ve (2.3.6), sea continua.En particular, el conjunto separante puede ser cualquier subconjunto denso y contable de T.

Como T es espacio métrico separable existe un conjunto T0 el cual es contable y denso en T. Seat ∈ T y (tn)n∈N definida en T0 para la cual tn → t. Por continuidad, si ω /∈ A, entonces X(tn, ω)→ X(t, ω)y (Xt)t∈T es separable (ve (2.4.1)). Como T0 fue arbitrario se concluye lo afirmado.

( 2.4.5 ) Sea (Xt)t∈T un proceso estocástico a valores reales que es separable, continuo en probabilidad3 y conT un espacio métrico separable. Entonces, cualquier conjunto denso y contable T0 ⊂ T puede ser usado comoconjunto separante.

3Esto es, ∀ε > 0, lımt→t0

P(d(Xt , Xt0 ) > ε

)= 0.

36

2.4. Procesos estocásticos separables, continuos y medibles.

Sea T1 un conjunto separante y A un conjunto despreciable. Sea T0 ⊂ T cualquier conjunto contabley denso en T. Supón que t ∈ T y sea (tn)n∈N una sucesión definida en T0 con tn → t; en acuerdo con lahipótesis, para cualquier ε > 0 dado

lımn→∞

P (d(Xtn , Xt) > ε) = 0.

Se afirma que existe una subsucesión Xtσ (n) tal que Xtσ (n) → Xt P−c.d.; para verificar esto se utilizará ellema de Borel-Cantelli. Sea m ∈ N dado, se cumple que

lımn→∞

PÅd(Xtn , Xt) >

1m

ã= 0,

por lo que hay un mínimo σ (n) ∈ N tal que si k ≥ σ (n) entonces PÅd(Xtk , Xt) >

1m

ã≤ 1

2n . Se define el

conjunto Bn(m) =ßd(Xtσ (n) , Xt

)> 1m

™, así se obtiene que

P (Bn(m)) ≤ 12n .

Por lo tanto, PÅ

lım supn→∞

Bn(m)ã

= 0, nota que

lım supn→∞

Bn(m) =∞⋂n=1

∞⋃k=n

Bk(m) = B(m).

Define B =∞⋃m=1

B(m) =∞⋃m=1

∞⋂n=1

∞⋃k=n

Bk(m), es claro que P (B) = 0 y que si ω ∈ B entonces lımn→∞

Xtσ (n) (ω) =

Xt(ω).Sea At ∈ F con P (At) = 0 y tal que

ω /∈ At Ñ Xtσ (n) (ω)→ Xt(ω).

Sea B = A∪⋃t∈T1

At , entonces P (B) = 0 por ser T1 contable. Sea ω /∈ B y t0 ∈ T, hay una sucesión (t ′n)n∈N

definida en T1 para la cual t ′n → t0 y X(t ′n, ω)→ X(t0, ω).

( 2.4.5.1 ) Para cada t ′n existe un t ′′n ∈ T0 con d(t ′n, t ′′n) <1n y d(X(t ′n, ω), X(t ′′n, ω)) < 1

n .

En efecto, se demostró que existe una sucesión(tσ (k)

)k∈N definida en T0 y tal que tσ (k) → t ′n y

Xtσ (k) (ω)→ Xt ′n (ω) siempre que ω /∈ At ′n . Luego, para el ω dado existe un m1(ω) ∈ N para el cual

m ≥m1(ω)Ñ d(X(tσ (m), ω), X(t ′n, ω)) < 1n .

Como tσ (m) → t ′n existe un m2(ω) ∈ N tal que

m ≥m2(ω)Ñ d(tσ (m), t ′n) <1n .

Sea t ′′n = tσ (maxm1(ω),m2(ω)), entonces t ′′n satisface lo afirmado.Dada esta sucesión (t ′′n)n∈N se observa que

d(t0, t ′′n) ≤ d(t0, t ′n) + d(t ′n, t ′′n)→ 0,

por lo que t ′′n → t0. Análogamente, X(t ′′n, ω) → X(t, ω). Luego, T0 es conjunto separante con conjuntodespreciable B.

37

Capítulo 2. Procesos estocásticos.

( 2.4.6 ) Sea (Xt)t∈T un proceso estocástico separable a valores reales en el espacio métrico compacto (S,B (S))con conjunto separante T0, en donde T es un espacio métrico separable y conjunto despreciable A. Si ω /∈ A yt0 ∈ T es un punto de acumulación de T y lım

t→t0,t∈T0X(t, ω) existe, entonces lım

t→t0,t∈TX(t, ω) existe y los dos límites

coinciden.

Supón que lımt→t0,t∈T

X(t, ω) no existe, entonces existe un ε > 0 y dos sucesiones (tn)n∈N y (t ′n)n∈Ndefinidas en T tales que ambas convergen a t0 y d(X(tn, ω), X(t ′n, ω)) > ε.

( 2.4.6.1 ) Para cada n ∈ N existen un y u′n en T0 tales que

d(tn, un) <1n y d(X(tn, ω), X(un, ω)) < 1

n ,

y también

d(t ′n, u′n) <1n y d(X(t ′n, ω), X(u′n, ω)) < 1

n .

Se demostrará la existencia de (un)n∈N únicamente, la otra existencia es idéntica. Como T0 esseparante existe una sucesión (sm)m∈N definida en T0 tal que sm → tn y Xsm (ω) → Xtn (ω). Enton-ces, para el número 1

n > 0 existe dos números m1 y m2 tales que m ≥ m1 Ñ d(sm, tn) <1n y

m ≥m2 Ñ d(X(tn, ω), X(sm, ω)) < 1n ; define simplemente un = smaxm1,m2.

Se observa entonces qued(un, t0) ≤ d(t0, tn) + d(tn, un)→ 0

y mismo para u′n. Además

ε < d(X(tn, ω), X(t ′n, ω))≤ d(X(un, ω), X(tn, ω)) + d(X(un, ω), X(u′n, ω)) + d(X(t ′n, ω), X(u′n, ω))

≤ d(X(un, ω), X(u′n, ω)) + 2n .

Como lımt→t0,t∈T0

X(t, ω) existe, se tiene que

d(X(un, ω), X(u′n, ω))→ 0.

En consecuencia, para todo n grande d(X(un, ω), X(u′n, ω)) < ε2 , por lo que para todo n grande

0 < ε2 ≤

2n

lo que es absurdo. Por lo tanto, lımt→t0,t∈T

X(t, ω) existe; que los límites coinciden es consecuencia inmediatade que T0 es denso.

( 2.4.7 ) Se dice que el proceso estocástico (Xt)t∈T , en donde T es un espacio topológico, a valores en el espaciotopológico S con σ-álgebra B (S) , tiene trayectorias continuas (ve (2.3.6)) si

P(ω ∈ Ω|fXω es continua

)= 1.

( 2.4.8 ) Sea (Xt)t∈[a,b] real y separable. Supón que para algunos reales r, c y ε > 0 y todo h > 0 suficientementepequeño se tiene que

∀t ∈ [a, b],E (|Xt+h − Xt |r) ≤ ch1+ε.Entonces, X tiene trayectorias continuas sobre [a, b].

38

2.4. Procesos estocásticos separables, continuos y medibles.

Con considerar Yt = Xa+(b−a)t puede ser supuesto4 que a = 0 y b = 1.Nota que

E (|Xt+h − Xt |r) =∫Ω

|Xt+h − Xt |rdP

=∫

|Xt+h−Xt |≤hk

|Xt+h − Xt |rdP +∫

|Xt+h−Xt |>hk

|Xt+h − Xt |rdP

≥∫

|Xt+h−Xt |>hk

|Xt+h − Xt |rdP ≥ hrkP(|Xt+h − Xt | > hk

),

en consecuencia,P(|Xt+h − Xt | > hk

)≤ h−rkE (|Xt+h − Xt |r) ≤ ch1+ε−rk.

Se escoge k de tal forma que ε− rk > 0, entonces ch1+ε−rk → 0 cuando h→ 0. Es decir, el proceso escontinuo en probabilidad.

En virtud de (2.4.5) se concluye que se puede tomar como conjunto separante de (Xt)t∈[0,1] a

T0 =ß j

2n∣∣∣n ∈ N, j = 0, 1, . . . , 2n

™;

los «racionales diádicos». Observa que

max1≤j≤2n

∣∣∣∣X Å j2n

ã− XÅ j − 1

2n

ã∣∣∣∣ > 12nk

ã= P

Ñ2n⋃j=1

ß∣∣∣∣X Å j2n

ã− XÅ j − 1

2n

ã∣∣∣∣ > 12nk

™é,

además, ya se demostró que

P

Ñ2n⋃j=1

ß∣∣∣∣X Å j2n

ã− XÅ j − 1

2n

ã∣∣∣∣ > 12nk

™é≤ c2−n(1+ε−rk),

por lo que

max1≤j≤2n

∣∣∣∣X Å j2n

ã− XÅ j − 1

2n

ã∣∣∣∣ > 12nk

ã≤

2n∑j=1

c2−n(1+ε−rk) = c2−n(ε−rk),

Como ε − rk > 0, la suma sobre todo n ∈ N es convergente y por el lema de Borel-Cantelli hay unconjunto B de probabilidad cero tal que ω /∈ B implica que existe un Nω ∈ N para el cual

n ≥ Nω Ñ∣∣∣∣X Å j

2n , ωã− XÅ j − 1

2n , ωã∣∣∣∣ ≤ 1

2nk .

Sea ω /∈ B y s ∈ï j2n ,

j − 12n

ãun racional diádico. Entonces existen a1, . . . , am ∈ 0, 1 tales que s =

j2−n +m∑l=1

al2−(n+l). Define b0 = j2−n, bm = s y bi = j2−n +i∑l=1

al2−(n+l), entonces

|X (s, ω)− X (j2−n, ω)| ≤m∑i=1|X (bi, ω)− X (bi−1, ω)| .

4Pues es claro que una condición necesaria y suficiente para que las trayectorias de Y sean continuas es que las de X tambiénlo sean. Lo cual queda demostrado con observar que t 7Ï a + (b − a)t de [0, 1] a [a, b] es continua.

39

Capítulo 2. Procesos estocásticos.

Observa que [bi−1, bi) = ∅ si ai = 0 y toma la forma[l2−(n+i+1), (l + 1)2−(n+i+1)) si ai = 1. Entonces,

como |bi − bi−1| ∈ß

0, 12n+i+1

™se concluye que

|X (s, ω)− X (j2−n, ω)| ≤m∑i=1

12(n+i+1)k ≤

12(n+1)k

∞∑i=0

12ik ≤M2−nk,

para la constate M =∞∑i=0

12ik = 2k

2k − 1 > 1.

Sea δ > 0 dado y sea N1 el mínimo natural tal que M2−nk < δ3 para cada n ≥ N1. Como M > 1 se

cumple que 2−nk < δ3 para cualquier n ≥ N1. Si t1, t2 ∈ T0 son tales que t1 < t2 y t2−t1 < mın2−N1 , 2−Nω,

entonces a lo más un racional diádico de rango n = maxN1, Nω puede estár entre t1 y t2. Sea j2−n elracional diádico más grande anterior a t1, entonces en el caso en que t1 < t2 < (j + 1)2−n se pone

|X(t1, ω)− X(t2, ω)| ≤∣∣∣∣X(t1, ω)− X

Å j2n , ω

ã∣∣∣∣+ ∣∣∣∣X Å j2n , ω

ã− X(t2, ω)

∣∣∣∣y en el caso t1 ≤ (j + 1)2−n ≤ t2 se pone∣∣∣∣X Å j

2n , ωã− X(t2, ω)

∣∣∣∣ ≤ ∣∣∣∣X Å j2n , ω

ã− XÅ j + 1

2n , ωã∣∣∣∣+ ∣∣∣∣X Å j + 1

2n , ωã− X(t2, ω)

∣∣∣∣ ,en cualquier caso se concluye que |X(t1, ω)− X(t2, ω)| < δ.

En el párrafo previo se mostró que cada trayectoria para ω /∈ B es uniformemente continua sobreT0. Como T0 es denso en T = [0, 1] y T es compacto, existe un única extensión continua de cadatrayectoria de T0 a T. Sea fXω la extension continua de la trayectoria fXω

∣∣∣T0. Resta ver que fXω = fXω para

casi toda ω ∈ Ω. En virtud de (2.4.6) para cualquier t ∈ T y cualquier ω /∈ B se cumple que fXω (t) = fXω (t),que es lo que se quería demostrar.

( 2.4.9 ) Sea (Xt)t∈T un proceso estocástico con espacio de estados (S,B (S)), en donde S es un espacio métricocompacto y T es un espacio métrico separable. Entonces hay un conjunto contable T0 ⊂ T tal que para cualquiert ∈ T hay un conjunto At ∈ F de probabilidad cero los cuales satisfacen

ω /∈ At Ñ X(t, ω) ∈ X(t ′, ω)|t ′ ∈ T0.

La demostración será hecha en varios pasos consecutivos.

( 2.4.9.1 ) Para cada n ∈ N existe una cantidad finita de puntos sn1 , . . . , snin ∈ S tales que si s ∈ S entonces

existe un sni el cual cumple que d(s, sni ) < 1n ; el conjunto S es «paracompacto».

En efecto, se considera la cubierta abierta (Bs)s∈S en donde Bs = BÅs; 1n

ã, entonces un número

finito de estos abiertos cubren S concluyendo la afirmación.

( 2.4.9.2 ) Para la familia (snj )n∈N,j=1,...,in se definen los abiertos Bnj = BÅsnj ; 1

n

ã; todo abierto es unión de

algunos elementos de la familia (Bnj )n∈N,j=1,...,in .

40

2.4. Procesos estocásticos separables, continuos y medibles.

En efecto, si U ⊂ S es abierto, entonces para cada x ∈ U existe un n ∈ N con x ∈ BÅx; 1n

ã⊂ U y

existe s2nj ∈ S con x ∈ B2n

j , entonces si y ∈ B2nj se ve que

d(x, y) ≤ d(x, s2n

j)

+ d(y, s2n

j)< 1n ,

por lo que B2nj ⊂ B

Åx; 1n

ã. Luego, se ha mostrado que

x ∈ B2nj ⊂ B

Åx; 1n

ã⊂ U,

basta tomar la unión de las bolas B2nj tales que x ∈ B2n

j .( 2.4.9.3 ) Existe una sucesión (Kn)n∈N de subconjuntos compacto de S tales que cada conjunto compacto de Ses intersección de algunos de los conjuntos de la sucesión.

Como la familia (Bnj )n∈N,j=1,...,in es una unión numerable de familias finitas se sigue que es enume-rable, por ejemplo (Vn)n∈N. Sea ahora K ⊂ S compacto. Por la compacidad de S esto equivale a queK sea cerrado; es decir, K es abierto, por lo que K es unión de algunos Vn; equivalentemente K esintersección de algunos Vn y cada Vn es compacto.

( 2.4.9.4 ) Sea n ∈ N dado y define

λn = ınft1,...,tr∈Tr=1,2,...

P (Xt1 ∈ Kn, . . . , Xtr ∈ Kn) ;

existe una sucesión (rk, tk1 , . . . , tkrk )k∈N tal que

PÄXtk1 ∈ Kn, . . . , Xtkrk ∈ Kn

ä−Ïkλn.

Lo que es consecuencia inmediata de que el ínfimo de un conjunto es o un punto aislado o un puntode acumulación.

( 2.4.9.5 ) Sea Tn,1 = t11 , . . . , t1r1 y define, inductivamente, Tn,k = tk1 , . . . , tkrk ∪ Tn,k−1. Pon

Sn,k = ω ∈ Ω|∀t ∈ Tn,k, Xt(ω) ∈ Kn,

entonces P

( ∞⋂k=1

Sn,k

)= λn. En consecuencia, si Tn =

∞⋃k=1

Tn,k, se concluye que

λn = P (ω ∈ Ω|∀t ∈ Tn, Xt(ω) ∈ Kn) .

En efecto, por definición de Sn,k se conluye que la familia (Sn,k)k∈N es decreciente, por lo que

P

( ∞⋂k=1

Sn,k

)= lım

k→∞P (Sn,k) ≤ lım

k→∞PÄXtk1 ∈ Kn, . . . , Xtkrk ∈ Kn

ä= λn.

Pero por ser λn el ínfimo se concluye que P (Sn,k) ≥ λn para todo k ∈ N, por tanto P

( ∞⋂k=1

Sn,k

)≥ λn.

Ahora bien,

ω ∈ Ω|∀t ∈ Tn, Xt(ω) ∈ Kn =∞⋂k=1

Sn,k,

que concluye la afirmación.

41

Capítulo 2. Procesos estocásticos.

( 2.4.9.6 ) Sea t ∈ T cualquiera y sea

An(t) = ω ∈ Ω|X(t, ω) /∈ Kn y ∀t ′ ∈ Tn, X(t ′, ω) ∈ Kn.

Entonces P (An(t)) = 0.

En efecto, si no,

λn = P(∀t ′ ∈ Tn, Xt ′ ∈ Kn

)= P

(∀t ′ ∈ Tn, Xt ′ ∈ Kn ∩ Xt ∈ Kn

)+ P

(∀t ′ ∈ Tn, Xt ′ ∈ Kn ∩ Xt /∈ Kn

)> P

(∀t ′ ∈ Tn, Xt ′ ∈ Kn ∩ Xt ∈ Kn

)≥ λn

lo que es una contradicción.Observa que por la definición de An(t), si ω /∈ An(t), entonces

∀t ′ ∈ Tn, X(t ′, ω) ∈ Kn Ñ X(t, ω) ∈ Kn.

( 2.4.9.7 ) Sean At =∞⋃n=1

An(t) y T0 =∞⋃n=1

Tn. Entonces para cualquier conjunto cerrado C ⊂ S

ω /∈ At , t ′ ∈ T0, X(t ′, ω) ∈ C Ñ X(t, ω) ∈ C.

Como C es compacto existe una sucesión (Knj )j∈N tal que C =∞⋂j=1Knj . Entonces, si ω /∈ At y X(t ′, ω) ∈

C para todo t ′ ∈ T0, entonces ω /∈ Anj y X(t ′, ω) ∈ Knj para todo t ′ ∈ T0, en consecuencia (ve el puntoprevio) X(t, ω) ∈ Knj . Con lo cual, queda demostrado lo afirmado.

Finalmente, para ω /∈ At define C = X(t ′, ω)|t ′ ∈ T0, entonces X(t ′, ω) ∈ C para todo t ′ ∈ T0, por loque X(t, ω) ∈ C, que es exactamente lo que se quería demostrar.

( 2.4.10 ) Sea (Xt)t∈T un proceso estocástico a valores en (S,B (S)) en donde T es un espacio métrico separabley S es un espacio métrico compacto. Entonces, una condición necesaria y suficiente para que (Xt)t∈T sea separablees que exista un conjunto A de probabilidad cero y un conjunto denso y contable T0 ⊂ T tales que si ω /∈ A

(t, X(t, ω))|t ∈ T ∩ I ⊂ (t ′, X(t ′, ω)|t ′ ∈ T0 ∩ I,

para todo abierto I ⊂ T.

Se verá que la condición es necesaria. Sea T0 un conjunto separante y A un conjunto despreciable.Sea I ⊂ T un conjunto abierto y t ∈ T con t /∈ T0 (si T = T0 no hay nada que demostrar). Si ω /∈ A, sepuede encontrar una sucesión de puntos tn ∈ T0 ∩ I5 con tn → t y X(tn, ω)→ X(t, ω). Por lo tanto,

(tn, X(tn, ω))→ (t, X(t, ω)),

en consecuencia (t, X(t, ω)) ∈ (t ′, X(t ′, ω)|t ′ ∈ T0 ∩ I.Ahora será demostrada la suficiencia. Sea C ⊂ S cerrado e I ⊂ T un abierto. Supón que ω /∈ A y

X(t ′, ω) ∈ K para todo t ′ ∈ T0 ∩ I. Entonces,

(t, X(t, ω))|t ∈ T ∩ I ⊂ (t ′, X(t ′, ω)|t ′ ∈ T0 ∩ I ⊂ I ×C = I ×C = I ×C,

por lo que X(t, ω) ∈ K para todo t ∈ I. En virtud de (2.4.2) se concluye que (Xt)t∈T es separable.

5Recuerda que existe una bola B con t ∈ B ⊂ I.

42

2.4. Procesos estocásticos separables, continuos y medibles.

( 2.4.11 ) Sea (Xt)t∈T un proceso estocástico con espacio de estados (S,B (S)), en donde S es espacio métricocompacto y T es un espacio métrico separable. Entonces (Xt)t∈T tiene una modificación separable estándar; estoes, existe un (Yt)t∈T proceso estocástico separable tal que P (Xt = Yt) = 1 para toda t ∈ T ; el «teorema deseparabilidad».

Como T es un espacio métrico separable existe una sucesión (tn)n∈N tal que tn|n ∈ N es densoen T. Sea Bnr = B (tn; r) para r > 0 y considera la familia B = (Bnr )n∈N,r∈(0,∞)∩Q. Sea J algún elementode esta última familia y considera el proceso (Xt)t∈T∩J , entonces según (2.4.9) hay un conjunto contableTJ ⊂ T ∩ J y una familia (AJ (t))t∈T∩J de conjuntos medibles de probabilidad cero tales que

ω /∈ AJ (t)Ñ X(t, ω) ∈ X(t ′, ω)|t ′ ∈ TJ

Define At =⋃JAJ (t) y T ′0 =

⋃JTJ , observa que At es medible por ser la unión contable de conjuntos

medibles y que T ′0 es contable pues es una unión contable de conjuntos contables. Define finalmenteT0 = tn|n ∈ N ∪ T ′0; entonces T0 es contable.

Ahora, si t ∈ T ∩ J y ω /∈ At , entonces ω /∈ AJ (t) por lo que

X(t, ω) ∈ X(t ′, ω)|t ′ ∈ TJ ⊂ X(t ′, ω)|t ′ ∈ T0 ∩ J = K(J, ω).

Ahora si t ∈ T y ω /∈ At , se cumple que X(t, ω) ∈ K(J, ω) para cualquier J en la familia B y cualquiert ∈ J, y, por consiguiente

X(t, ω) ∈⋂J|t∈J

K(J, ω) = K(t, ω).

Observa que K(t, ω) es cerrado pues cada K(J, ω) lo es.Define ahora (Yt)t∈T como sigue. Si ω /∈ At define Yt(ω) = Xt(ω). Si ω ∈ At , sea Y (t, ω) cualquier

punto de K(t, ω), tal elección puede ser hecha en virtud del axioma de elección. Pon A =⋃t∈T0

At , dado

que P (At) = 0 para todo t ∈ T se concluye que (Yt)t∈T es una variación de (Xt)t∈T .Se ve ahora que (Yt)t∈T es separable. Sea ω /∈ A y t ∈ T. Entonces hay un conjunto abierto I en T y

una bola J de la familia B tal que J ⊂ I y t ∈ T ∩ J. Observa que si ω /∈ At , entonces

Y (t, ω) = X(t, ω) ∈ K(J, ω) = X(t ′, ω)|t ′ ∈ T0 ∩ J⊂ X(t ′, ω)|t ′ ∈ T0 ∩ I = Y (t ′, ω)|t ′ ∈ T0 ∩ I

pues al ser ω /∈ A se cumple que ω /∈ At ′ para t ′ ∈ T0. Si ω ∈ At , entonces

Y (t, ω) ∈ K(t, ω) ⊂ K(J, ω) = Y (t ′, ω)|t ′ ∈ T0 ∩ J ⊂ Y (t ′, ω)|t ′ ∈ T0 ∩ I.

Considera entonces (t, Y (t, ω))t∈I , en donde ω /∈ A, entonces al ser que

Y (t, ω) ∈ Y (t ′, ω)|t ′ ∈ T0 ∩ J

existe una sucesión (sn)n∈N definida ahí tal que sn → Y (t, ω). De nuevo, el axioma de elección permiteelegir una sucesión

ÄtJnä

definida en T0 ∩ J tal que YÄtJn, ω

ä→ Y (t, ω). Se considera tn = tJnn , en donde

Jn es una bola de radio a lo más 12n para la cual t ∈ Jn. Observa que si cn es un centro6 de J, entonces

d(tn, t) ≤ d(tn, cn) + d(cn, t) <1n ,

6Aquí no se utilizó la expresión incorrecta “...si cn es el centro...” pues existen ciertos espacios métricos en donde las bolastienen infinitos puntos distintos que son su centro.

43

Capítulo 2. Procesos estocásticos.

por lo que tn → t. Luego,(tn, Y (tn, ω))→ (t, Y (t, ω))

y tn ∈ T0 ∩ I. Esto es(t, Y (t, ω))|t ∈ I ⊂ (t, Y (t, ω))|t ∈ T0 ∩ I,

y, según (2.4.10), (Yt)t∈T es separable.

( 2.4.12 ) Sea (Xt)t∈T un proceso estocástico definido sobre (Ω,F ,P) y a valores en (S,S ), en donde T es unespacio topológico. Se dirá que el proceso es un proceso medible si la función X es (B (T)⊗F ,S )-medible.

( 2.4.13 ) Sean (Ω,F ) un espacio medible y T un espacio topológico totalmente ordenado; cualquier familia deσ-algebras (Ft)t∈T se llama una filtración en F si para cada t ∈ T se cumple que Ft ⊂ F y si para cada s < t

con s, t ∈ T se cumple que Fs ⊂ Ft . Cuando T = [0,∞) se define F∞ = Σ(⋃t≥0

F

).

Si en (Ω,F ) hay una medida de probabilidad P, se dirá que la filtración es completa respecto de P, es«P-completa», si para cada t ∈ T se cumple que

A ∈ Ft ,P (A) = 0Ñ ∀B ⊂ A,B ∈ Ft .

Observación: no necesariamente se cumple que F∞ = F ; sin embargo, siempre F∞ ⊂ F . Cuandola filtración sea P-completa y P (A) = 0, por monotonía de la medida P, cualquier B ⊂ A también tieneprobabilidad cero.

( 2.4.14 ) Se dice que el proceso estocástico (Xt)t∈T a valores en (S,S ) está adaptado a la filtración (Ft)t∈T sipara cada t ∈ T se cumple que Xt es (Ft ,S )-medible.

( 2.4.15 ) Sea X = (Xt)t∈T un proceso estocástico sobre el espacio de probabilidad (Ω,F ,P) y tal que estáadaptado a la filtración (Ft)t∈T la cual es P-completa; si Y = (Yt)t∈T es una variación de X, entonces Y tambiénestá adaptado a la filtración.

Supón que el proceso está definido sobre (Ω,F ) a valores en (S,S ), entonces para t ∈ T y A ∈ Sse cumple que

Xt ∈ A =(Xt ∈ A ∩ Xt = Yt

)∪(Xt ∈ A ∩ Xt 6= Yt

)=

(Yt ∈ A ∩ Xt = Yt

)∪(Xt ∈ A ∩ Xt 6= Yt

),

y como P (Xt 6= Yt) = 0 se ve que Yt ∈ A ∩ Xt 6= Yt ∈ Ft y, así,

Yt ∈ A ∩ Xt = Yt ∈ Ft .

Finalmente, como

Yt ∈ A =(Yt ∈ A ∩ Xt = Yt

)∪(Yt ∈ A ∩ Xt 6= Yt

)y Yt ∈ A ∩ Xt 6= Yt ∈ Ft , se concluye que Yt ∈ A ∈ Ft .

( 2.4.16 ) Sea T un espacio topológico totalmente ordenado. Para cada t ∈ T se denotará por Tt = s ∈ T|s =t o bien s < t. Se dice que el proceso estocástico (Xt)t∈T , a valores en (S,S ), es progresivamente mediblerespecto de la filtración (Ft)t∈T si para cada t ∈ T la función X

∣∣∣Tt

: Tt ×Ω→ S dada por X∣∣∣Tt

(s, ω) = X(s, ω)es (B (Tt)⊗Ft ,S )-medible.

44

2.4. Procesos estocásticos separables, continuos y medibles.

( 2.4.17 ) Supón que (Xt)t≥0 es un proceso estocástico sobre el espacio de probabilidad (Ω,F ,P) a valores en(S,S ), con S métrico y S = B (S) , el cual es progresivamente medible respecto de la filtración (Ft)t≥0, entonceses medible.

Pues al ser Ft ⊂ F para cada t ≥ 0 se concluye que X∣∣∣[0,t]

es (B ([0, t]) ⊗ F ,S )-medible. Como

X = lımn→∞

X∣∣∣[0,n]

puntualmente, se concluye que X es medible.

( 2.4.18 ) Sea I ⊂ R un intervalo y (Xt)t∈I un proceso estocástico a valores en(R,B

(R)). Si∫I

E (|Xt |)dt <∞,

entonces las trayectorias (ve (2.3.6)) de (Xt)t∈I son integrables P−c.d..

Esto es inmediato del teorema de Tonelli, pues∫I

E (|Xt |)dt =∫I

∫Ω

|X(t, ω)|dP(ω)dt =∫Ω

∫I

|fXω (t)|dtdP(ω),

por lo que∫I

|fXω | será finita para casi toda ω ∈ Ω.

( 2.4.19 ) Sea (Xt)t∈T un proceso estocástico a valores en (R,B (R)) adapatado a la filtración (Ft)t≥0. Si elproceso es continuo en probabilidad, entonces hay una variación (Yt)t≥0 de él, la cual también está adapatada a(Ft)t≥0 y la cual es progresivamente medible y separable; el «teorema de medibilidad progresiva».

Conviene recordar la siguiente propiedad

( 2.4.19.1 ) Si g : [0,∞) → [0,∞) es creciente, semiaditiva superiormente7, con g(0) = 0 y g(x) > 0 parax > 0, entonces d(x, y) = g(|x − y|) es una distancia en R.

En efecto, que d(x, y) ≥ 0 y d(x, y) = 0 ⇔ x = y es consecuencia directa de las hipótesis sobreg. Que d(x, y) = d(y, x) sea cierto es consecuencia inmediata de la definición de d. Resta probar ladesigualdad triangular. Nota que |x − y| ≤ |x − z|+ |y − z|, por lo que al ser g creciente y semiaditivase obtiene que

d(x, y) ≤ d(x, z) + d(z, y),

que concluye lo afirmado.Otra propiedad no trivial, pero muy sencilla de verificar, es que las métricas en R inducen semimé-

tricas en el espacio de las variables aleatorias sobre cierto espacio de probabilidad fijo.

( 2.4.19.2 ) Sea d una distancia en R. Entonces ρ(X,Y ) = E (d(X,Y )) es una semimétrica sobre el espacio delas variables aleatorias de (Ω,F ,P).

Pues ρ(X,Y ) = 0 ⇔(d(X,Y ) = 0 P−c.d.

), por ser d ≥ 0. El resto es evidente de las propiedades de

d.Una propiedad importate de esta semimétrica ρ(X,Y ) = E (g(|X − Y |)) , cuando g es continua en el

origen y está acotada, es que caracteriza la convergencia en probabilidad. Se supone entonces que g escontinua en el origen y que está acotada.

( 2.4.19.3 ) Una condición necesaria y suficiente para que la sucesión de variables aleatorias (Xn)n∈N converja enprobabilidad a la variable aleatoria X es que ρ(Xn, X)→ 0.

7Una función f : V → R se dice semiaditiva superiormente si f (x + y) ≤ f (x) + f (y), en donde V es un espacio vectorial.

45

Capítulo 2. Procesos estocásticos.

Sea N una cota de g, entonces

ρ(Xn, X) =∫

|Xn−X|>ε

g(|Xn − X|)dP +∫

|Xn−X|≤ε

g(|Xn − X|)dP

≤ NP (|Xn − X| > ε) + g(ε)P (|Xn − X| ≤ ε)≤ NP (|Xn − X| > ε) + g(ε).

Al hacer n → ∞ se obtiene que 0 ≤ lım infn→∞

ρ(Xn, X) ≤ lım supn→∞

ρ(Xn, X) ≤ g(ε), y con utilizar que g es

continua en el origen con g(0) = 0 se ve que al hacer ε ↓ 0 el límite lımn→∞

ρ(Xn, X) = 0 es cierto.Recíprocamente,

P (|Xn − X| > ε) =∫

|Xn−X|>ε

dP ≤∫

g(|Xn−X|)>g(ε)

dP

≤∫Ω

g(|Xn − X|)g(ε) dP = ρ(Xn, X)

g(ε) ,

que con hacer n→∞ se obtiene que XnP−Ï X.

( 2.4.19.4 ) SeaM el espacio métrico de las clases de equivalencia al identificar variables aleatorias que coincidenen casi todo punto y cuya distancia asociada es ρ. Para que el proceso estocástico (Xt)t≥0 sea continuo enprobabilidad es necesario y suficiente que la función t 7Ï Xt de [0,∞) a M sea continua.

Lo cual es evidente de la definición de continuidad en probabilidad.

( 2.4.19.5 ) La función g(t) = mın1, t satisface ser continua en el origen, con g(0) = 0 y g(t) > 0 para t > 0,creciente, semiaditiva superiormente y acotada. En consecuencia, ρ(X,Y ) = E (mın1, |X − Y |) es una métricaen M.

Todas las propiedades son sencillas de verificiar, por ejemplo, se verá la semiaditividad superior.Nota que g(s+t) = 1 si s+t ≥ 1, en consecuencia g(s+t) ≤ g(s)+g(t) y que g(s+t) = s+t = g(s)+g(t)si s + t < 1. El resto de las propiedades son igual de sencillas de verificar.

Ahora bien, dado que el conjunto [0, n] es compacto, la función t 7Ï Xt es uniformemente continua;por consiguiente hay un δn < 2−n tal que si t, t ′ ∈ [0, n] satisfacen que |t − t ′| < δn entonces ρ(Xt , Xt ′ ) ≤2−n. Sea ahora πn =

Ät(n)iäi=0,...,an

una partición de [0, n] y define la «norma» de πn por

‖πn‖ = max1≤i≤an

∣∣∣t(n)i − t

(n)i−1

∣∣∣ .Se escoge πn con ‖πn‖ ≤ δn y tal que πn es subfamilia de πn+1. Define

Xn(t) =®XÄt(n)j−1

äsi t ∈

ît(n)j−1, t

(n)jä, j = 1, 2, . . . , an;

X(n) si t ≥ n.

( 2.4.19.6 ) Para cada n ∈ N y para cada 0 ≤ t < n se cumple que ρ(Xn(t), Xn+1(t)) ≤ 2−n.

Pues si 0 ≤ t < n entonces existen j y k tales que

t ∈ît(n)j−1, t

(n)jä∩ît(n+1)k−1 , t(n+1)

kä,

46

2.4. Procesos estocásticos separables, continuos y medibles.

basta observar que∣∣∣t(n)j−1 − t

(n+1)k−1

∣∣∣ < δn8. Luego, se obtiene que

ρ(Xn(t), Xn+1(t)) = ρÄXÄt(n)j−1

ä, XÄt(n+1)k−1

ää≤ 2−n.

( 2.4.19.7 ) Para t ≥ 0 la sucesión (Xn(t))n≥1 converge P−c.d..

En efecto, observa que para t < n

P(‖Xn(t)− Xn+1(t)‖ ≥ n−2) = P

(mın1, |Xn(t)− Xn+1(t)| ≥ n−2)

≤ n2ρ(Xn(t), Xn+1(t))(desigualdad de Chebyshev)

≤ n2

2n .

En consecuencia, para t < n se cumple que∞∑k=1

P(|Xk(t)− Xk+1(t)| ≥ k−2) =

( n∑k=1

+∞∑

k=n+1

)P(|Xk(t)− Xk+1(t)| ≥ k−2)

≤n∑k=1

P(|Xk(t)− Xk+1(t)| ≥ k−2)+

∞∑k=n+1

k2

2k .

La serieÇk2

2k

åk∈N

es convergente9, por lo que la suma de cualquier cola de ella también es convergente.

En consecuencia, el lema de Borel-Cantelli afirma que

P(|Xk(t)− Xk+1(t)| ≥ k−2, i.o.

)= 0,

en donde i.o. se lee “sea infinitamente ocurrente”. Por lo tanto, hay un Ct ∈ F tal que P (Ct) = 0 y siω ∈ Ct , existeexiste un N(ω) ∈ N tal que k ≥ N(ω) Ñ |Xk(t, ω) − Xk+1(t, ω)| < 1

k2 . Por lo tanto, paraω ∈ Ct la sucesión (Xk(t, ω))k∈N es de Cauchy; en efecto, si n, p ∈ N, entonces

|Xn(t, ω)− Xn+p(t, ω)| ≤p∑k=1|Xn+k(t, ω)− Xn+k−1(t, ω)|

≤p∑k=1

1(n + k − 1)2 ≤

∞∑k=0

1(n + k)2 =

∞∑k=n

1k2

que es la cola de la serieÅ 1k2

ãk∈N

. Como tal serie converge su cola tiende a cero conforme n→∞, en

consecuencia, los términos Xn(t, ω) y Xn+p(t, ω) están arbitrariamente cercanos para n suficientemente8Esta desigualdad es inmediata de lo siguiente; hay dos casos posibles; en el primer caso se cumple que t(n)

j−1 ≤ t(n+1)k−1 , entonces

t(n+1)k−1 ≤ t(n)

j pues los dos intervalos se cortan; en el segundo caso t(n+1)k−1 < t(n)

j−1 y entonces t(n)j−1 ≤ t(n+1)

k ; en cualquiera de estoscasos |t(n)

j−1 − t(n+1)k−1 | ≤ maxδn, δn+1 = δn .

9Basta aplicar el criterio del cociente (ve [1] sección 8.14 pág. 193). Entonces

lımk→∞

(k + 1)2

2k+1

k2

2k

= lımk→∞

(k + 1)2

2k2 = 12 < 1,

que demuestra lo afirmado.

47

Capítulo 2. Procesos estocásticos.

grande sin importar p; la sucesión es de Cauchy. Entonces, para casi toda ω ∈ Ω la sucesión (Xn(t, ω))n∈Nconverge10.

( 2.4.19.8 ) Sobre [0, t]×Ω la función Xn es(B ([0, t])⊗Ft ,B

(R))-medible.

De la definición de Xn se observa que para (s, ω) ∈ [0,∞)×Ω

Xn(s, ω) =an∑j=1

XÄt(n)j−1, ω

ä1[t(n)

j−1,t(n)j

)×Ω(s, ω) + X(n,ω)1[n,∞)×Ω(s, ω).

Al restringir s ∈ [0, t] se concluye que

Xn(s, ω) =an∑j=1

XÄt(n)j−1, ω

ä1[t(n)

j−1,t(n)j

)×Ω(s, ω)

Observa que [a, b) ⊂ [0, t] Ñ [a, b)×Ω ∈ B ([0, 1])⊗Ft . Por ende, cualquier función de [a, b)×Ω a Rde la forma (s, ω) 7Ï c1[a,b)×Ω(s, ω) para c constante es

(B ([0, t])⊗Ft ,B

(R))

-medible. Nota que

(s, ω) 7ÏÄt(n)j , ω

äes B ([0, t])⊗Ft -medible

y queω 7Ï X

Ät(n)j , ω

äes Ft(n)

j-medible.

Como Ft(n)j⊂ Ft , se ve que

(s, ω) 7Ï XÄt(n)j , ω

äes (B ([0, t])⊗Ft ,B

(R))-medible.

Que concluye lo afirmado.Finalmente, define el proceso Y (t, ω) = lım sup

n→∞Xn(t, ω) para (t, ω) ∈ [0,∞) × Ω. Entonces (Yt)t≥0 es

una modificación estándar de (Xt)t≥0 la cual es progresivamente medible y separable. Resta ver cadauno de estos tres puntos.

Primero se mostrará que (Yt)t≥0 es variación de (Xt)t≥0. Si t(n)j−1 ≤ t < t(n)

j entonces t(n)j−1 → t y así

Xn(t) = XÄt(n)j−1

ä P−Ï X(t). Como ya se había visto que Xn(t) → Y (t) P−c.d., se puede concluir queP (Xt = Yt) = 1.

Ahora se verá que (Yt)t≥0 es progresivamente medible. Esto es inmediato de que Yt es el límitesuperior de funciones que son

(B ([0, t])⊗Ft ,B

(R))

-medibles.Por último, (Yt)t≥0 es separable. Define T0 =

¶t(n)j∣∣n ∈ N, j = 1, . . . , an

©; recuerda que

Y (s, ω) = lım supn→∞

X(s, ω);

considera para s fijo y n > s, j(s) ∈ 1, . . . , an el único elemento tal que s ∈ît(n)j(s)−1, t

(n)j(s)

ä, entonces

Xn(s, ω) = XÄt(n)j(s)−1, ω

ä.

De la definición de Y (s, ω) se deriva la existencia de una subsucesión(Xσ (n)(s, ω)

)k∈N con Xσ (n)(s, ω)→

Y (s, ω). PeroXσ (n)(s, ω) = X

Ät(σ (n))j(s)−1, ω

ä= YÄt(σ (n))j(s)−1, ω

ä,

10Obviamente en R por ser R un espacio métrico completo.

48

2.5. Tiempos de paro.

en donde la última igualdad queda obviada de que si t es un elemento de la familia πn, entonces tambiénes un elemento de la familia πn+p para cualquier p ∈ N, en consecuencia de esto, si t < n, entoncesXn(t) = Xt , es decir, la sucesión se vuelve constante, concluyendo en que si t es un elemento de algúnπn entonces Yt = Xt . Como t(σ (n))

j(s)−1 → s se ve que la condición de separabilidad queda satisfecha tomandocomo conjunto despreciable al vacío.

( 2.4.20 ) Sea (Xt)t∈I un proceso estocástico definido sobre (Ω,F ,P), en donde I = [t0, T] o I = [0,∞), y elespacio de estados es un espacio métrico (S,S ); si el proceso está adaptado a la filtración (Ft)t∈I y las trayectoriasdel proceso son continuas por la derecha, entonces el proceso es progresivamente medible. Mismo resultado si lastrayectorias son continuas por la izquierda.

Por la obviedad de la simetría solo se demostrará el caso de trayectorias continuas por la derecha.Para t > 0 define hn : [0, t]→ R por hn(s) = j(s)t

n en donde j(s) es el único índice j ∈ 1, . . . , n tal que

s ∈ï (j − 1)t

n , jtn

ãy hn(t) = t. Es claro que lım

n→∞hn(s) = s y que hn(s) ≥ hn+1(s). Nota que

X(hn(s), ω) =n∑j=1

XÅ jtn , ωã1[ (j−1)t

n , jtn)×Ω(s, ω) + X(t, ω)1t×Ω(s, ω).

Por lo tanto, los mapeos (s, ω) 7Ï X(hn(s), ω) de [0, t]×Ω→ S son (B ([0, t])⊗Ft ,S )-medibles; es decir,son progresivamente medibles.

§ 2.5. Tiempos de paro.( 2.5.1 ) Sea (Ω,F ) un espacio medible y (Ft)t∈T una filtración de F . Un tiempo de paro respecto de la filtración(Ft)t∈T es una función P de Ω a T la cual es (F ,B (T))-medible y satisface la «propiedad de paro»

∀t ∈ T, P ≤ t ∈ Ft .

Un evento A ∈ F se denomina anterior al tiempo de paro P si para todo t ∈ T el evento A ∩ P < t está enFt . El conjunto FP de todos los eventos anteriores al tiempo de paro P se llama σ-álgebra de paro de P.

Observación: el nombre σ -álgebra de paro surge del hecho que FP es una σ -álgebra. Se muestra acontinuación que esto es cierto; para este efecto, habrá que verificar Ω ∈ FP , que FP es cerrado porcomplementos en Ω y que es cerrado por uniones contables. Si t ∈ T, entonces

Ω ∩ P ≤ t = P ≤ t ∈ Ft ,

por ser P tiempo de paro. Ahora, si A ∈ FP , entonces A ∈ F y en consecuencia A ∈ F ; además

(A ∩ P ≤ t) = A ∪ P ≤ t =(A ∩ P ≤ t

)∪ P ≤ t,

por lo queA ∩ P ≤ t = (A ∩ P ≤ t) \ P ≤ t ∈ Ft

pues Ft es σ -álgebra. Sea ahora (An)n∈N una sucesión en FP . Entonces( ∞⋃n=1

An

)∩ P ≤ t =

∞⋃n=1

(An ∩ P ≤ t) ∈ Ft ,

que concluye lo afirmado.

49

Capítulo 2. Procesos estocásticos.

( 2.5.2 ) Sea (Ω,F ) un espacio medible, (Ft)t∈T una filtración del espacio, en donde T es un espacio totalmenteordenado con la topología orden, y P,Q : Ω→ T dos tiempos de paro, entonces

1. mınP,Q y maxP,Q son tiempos de paro;

2. si c ∈ T, entonces ω 7Ï c es tiempo de paro;

3. si T = [0,∞], entonces P es (FP ,B (T))-medible;

4. si R : Ω→ T es (FP ,B (T))-medible y R ≥ P entonces R es tiempo de paro;

5. para cada A ∈ FQ, el conjunto A ∩ Q ≤ P ∈ FP ;

6. si Q ≤ P entonces FQ ⊂ FP ;

7. FmınP,Q = FP ∩FQ;

8. si T = [0,∞], entonces P +Q es tiempo de paro;

Se da la demostración de cada inciso.

1. Si t ∈ T, entoncesmınP,Q ≤ t = P ≤ t ∪ Q ≤ t ∈ Ft ;

análogamentemaxP,Q ≤ t = P ≤ t ∩ Q ≤ t ∈ Ft .

2. Pues c ≤ t = ∅ si c > t y c ≤ t = Ω si c ≤ t; en cualquier caso, c ≤ t ∈ Ft .

3. Como T = [0,∞] se sigue que B (T) es generado por los conjuntos de la forma (t,∞]. Nota ahoraque P es (F ,B (T))-medible; se concluye que P ≤ s ∈ F para cada s ∈ T, en consecuencia paracualquier t ∈ T,

P ≤ s ∩ P ≤ t = P ≤ mıns, t ∈ Fmıns,t ⊂ Ft ,por lo cual, P ≤ s ∈ FP y entonces, P es (FP ,B (T))-medible.

4. Se debe verificar que si t ∈ T, entonces R ≤ t ∈ Ft . Pero

R ≤ t = R ≤ t ∩ P ≤ t

pues R ≥ P. Como R es (FP ,B (T))-medible se concluye que R ≤ t ∈ FP , con lo que

R ≤ t ∩ P ≤ t ∈ Ft ,

mostrando que R es tiempo de paro.

5. Se debe mostrar que∀t ∈ T,A ∩ Q ≤ P ∩ P ≤ t ∈ Ft .

Pero

A ∩ Q ≤ P ∩ P ≤ t = A ∩ Q ≤ mınP, t ∩ P ≤ t= A ∩ Q ≤ t ∩ P ≤ t ∩ mınQ, t ≤ mınP, t.

Observa que A ∩ Q ≤ t ∈ Ft y que P ≤ t ∈ Ft , por lo cual basta ver que mınQ, t ≤mınP, t ∈ Ft . Pero si r ∈ T, entonces

mınP, t ≤ r = mınP, t ≤ mınt, r ∈ Fmınt,r ⊂ Ft ,

50

2.5. Tiempos de paro.

igualmente mınQ, t ≤ r ∈ Ft , por lo que mınP, t y mınQ, t son funciones (Ft ,B (T))-medibles. Por lo que

mınQ, t ≤ mınP, t ∈ Ft ,que es lo que se quería demostrar.

6. Si A ∈ FQ entonces, el inciso previo muestra que, A = A ∩ Q ≤ P ∈ FP .

7. Como mınP,Q ≤ P y mınP,Q ≤ Q se ve que FmınP,Q ⊂ FP ∩ FQ. Recíprocamente, seaA ∈ FP ∩FQ, entonces

A ∩ mınP,Q ≤ t = (A ∩ P ≤ t) ∪ (A ∩ Q ≤ t) ∈ Ft

por lo que FP ∩FQ ⊂ FmınP,Q.

8. Observa queP +Q > t = P > t ∪ Q > t ∪ P ≤ t,Q ≤ t, P +Q > t

yP > t, Q > t ∈ Ft .

Resta ver que P ≤ t,Q ≤ t, P +Q > t ∈ Ft . Para esto, nota que

P ≤ t,Q ≤ t, P +Q > t =⋃

0≤r<tr∈Q

r < P ≤ t,Q ≤ t,Q + r > t;

en efecto, si r < P(ω) ≤ t, Q(ω) ≤ t y Q(ω) + r > t, entonces P(ω) ≤ t, Q(ω) ≤ t y P(ω) +Q(ω) > t;recíprocamente, si P(ω) + Q(ω) > t, P(ω) ≤ t y Q(ω) ≤ t, entonces hay un racional r ∈ [0, t) talque P(ω) +Q(ω) > Q(ω) + r > t, en consecuencia P(ω) > r. Luego,

r < P ≤ t = P ≤ t \ P ≤ r ∈ Ft

yt − r < Q ≤ t = Q ≤ t \ Q ≤ t − r ∈ Ft .

Esto concluye la demostración del teorema.

Observación: el caso más importante del teorema anterior es cuando T = [0,∞) o T = [0,∞] puesen este caso la topología orden coincide con la topología inducida por los subintervalos.

( 2.5.3 ) Sea (Xt)t≥0 un proceso estocástico a valores en (S,S ) definido sobre el espacio de probabilidad (Ω,F ,P)y adaptado a la filtración (Ft)t≥0 y sea T : Ω → [0,∞] un tiempo de paro, respecto de la filtración (Ft)t≥0, elcual es finito es decir, P (T =∞) = 0. Define XT : Ω→ S por ω 7Ï X(T(ω), ω) si T(ω) <∞ y cero en otro caso.Entonces

1. Si el proceso (Xt)t≥0 es medible, entonces XT es una función medible.

2. Si (Xt)t≥0 es progresivamente medible, entonces XT es (FT ,S )-medible.

Supón primero que el proceso es medible, entonces

ω 7Ïß

(0, ω) si T(ω) =∞(T(ω), ω) si T(ω) <∞

es (F ,S ⊗S )-medible, por lo que al ser X medible, se sigue que XT es una función medible.

51

Capítulo 2. Procesos estocásticos.

Supón ahora que el proceso es progresivamente medible. Se debe demostrar que B ∈ S Ñ XT ∈B ∈ FT ; es decir, debe ser mostrado que

B ∈ S Ñ ∀t ≥ 0, XT ∈ B ∩ T < t ∈ Ft .

Con observar que XT ∈ B ∩ T < t =XmınT,t ∈ B

∩ T < t se ve que basta demostrar que para

todo B ∈ S se cumple que XmınT,t ∈ B ∈ Ft ; es decir, se verificará que ω 7Ï X(mınT(ω), t, ω) es(Ft ,S )-medible. Esta función es composición de las funciones

ω 7Ï (mınT(ω), t, ω),

la cual es (Ft ,B ([0, t])⊗Ft)-medible, seguida de la función X∣∣∣[0,t]×Ω

→ S la cual es (B ([0, t])⊗Ft ,S )-medible por medibilidad progresiva. Esto concluye la demostración.

Ahora se da un criterio general para determinar si una función es un tiempo de paro.

( 2.5.4 ) Sea (S,S ) un espacio medible en donde S es un espacio métrico y S = B (S) ; supón que T ⊂ R poseeun ínfimo. Sea (Xt)t∈T un proceso estocástico tal que casi todas sus trayectorias son continuas y sea A ⊂ S unconjunto cerrado y define

TA = ınft ∈ T|Xt ∈ A ≥ ınf T ;

el «tiempo de entrada» a A, aquí se supone que ınf∅ = +∞. La función TA es un tiempo de paro respecto dela filtración natural

(FXt)t∈T .

En efecto, hay un conjunto denso y contable E ⊂ T en la topología del subespacio11. Se demostraráque

TA ≤ t =ßω∣∣∣ ınfs≤t,s∈E

d(Xs(ω), A) = 0™,

luego, de la continuidad de d se deriva su medibildad y asíßω∣∣∣ ınfs≤t,s∈E

d(Xs(ω), A) = 0™∈ FX

t .

Ahora, esta igualdad es verdadera por que si TA(ω) ≤ t entonces hay un s ≤ t el cual satisface queTA(ω) = s. Hay dos casos a considerar. En el primer caso s es un punto aislado de T. Si este es el caso,la densidad de E muestra que s ∈ E; define entonces rn = s para todo n ∈ N. En el segundo caso s esun punto de acumulación de T ; de la definición de TA se deriva la existencia de una sucesión (sn)n∈N talque lım

n→∞d(Xsn (ω), A) = 0. El hecho que s sea un punto de acumulación implica que se puede suponer

que s < sn < sn+1 para cada n ∈ N. La densidad de E muestra que existe una sucesión (rn)n∈N en Etal que sn ≤ rn ≤ sn+1. La cerradura de A y la continuidad de las trayectorias de X muestra que, paracualquier caso de s,

Xs(ω) = lımn→∞

Xrn (ω) ∈ A.

En particular0 ≤ ınf

s≤t,s∈Ed(Xs(ω), A) ≤ lım

n→∞d(Xrn (ω), A) = 0.

Recíprocamente, supón ahora que

ınfs≤t,s∈E

d(Xs(ω), A) = 0;

11Es decir, en la topología de T, la cerradura de E es T. Por ejemplo, si T =

1n∣∣n ∈ N

entonces E debe ser T y E = T ; en

particular, 0 /∈ E, cosa que no ocurre en la cerradura de E respecto a R.

52

2.5. Tiempos de paro.

hay una sucesión (rn)n∈N en E tal que

lımn→∞

d(Xrn (ω), A) = 0.

Como T posee un ínfimo y rn ≤ t se ve que rn está acotada, en consecuencia posee una subseciónconvergente a cierto r ∈ T. Obviamente r ≤ t y Xrn (ω) → Xr(ω) por la continuidad de las trayectorias.Entonces TA(ω) ≤ r ≤ t.

( 2.5.5 ) Sea (S,S ) un espacio medible en donde S es un espacio topológico y S = B (S) ; supón que T ⊂ Rposee un ínfimo. Sea E ⊂ T un conjunto contable y denso en T, respecto a la topología del subespacio. Se suponeque para cada t ∈ T hay dos sucesiones (sn)n∈N y (tn)n∈N definidas en E tales que sn ↑ t y tn ↓ t12. Sea (Xt)t∈Tun proceso estocástico tal que casi todas sus trayectorias son continuas por la derecha y sea A ⊂ S un conjuntoabierto y define

TA = ınft ∈ T|Xt ∈ A ≥ ınf T ;el «tiempo de entrada» a A, aquí se supone que ınf∅ = +∞. La función TA es un tiempo de paro respecto dela filtración

(FXt+)t∈T , en donde FX

t+ =⋂

s∈T,s>tFXs .

Se demostrará primeramente que una condición necesaria y suficiente para que TA sea un tiempode paro respecto a dicha filtración es que para cada t ∈ T se cumpla que TA < t ∈ FX

t . Para empezarnota que

TA ≤ t =⋂

s>t,s∈ETA < s;

en efecto, si TA(ω) ≤ t entonces TA(ω) < s para cualquier s > t, en particular para las s ∈ E. Recípro-camente, si TA(ω) ≤ s para cada s ∈ E con s > t entonces

TA(ω) ≤ ınfs>t,s∈E

s = t,

en donde la última igualdad es debida a la hipótesis adicional sobre E. Es claro que la igualdad reciéndemostrada prueba la suficiencia de la afirmación hecha.

Para demostrar la necesidad se demuestra, análogamente al caso previo, que

TA < t =⋃

s<t,s∈ETA ≤ s.

En consecuencia, se ha demostrado que TA es tiempo de paro si y solo si para cada t ∈ T se cumpleque TA < t ∈ FX

t . Si TA(ω) < t entonces hay un s < t tal que TA(ω) = s. De la definición de TA seve que hay una sucesión sn ↓ s tal que Xsn (ω) ∈ A. La continuidad por la derecha de las trayectorias deX muestra que Xs(ω) ∈ A. Ahora, como se supone que A es abierto, la continuidad por la derecha delas trayectorias de X muestra que hay un ε > 0 tal que r ∈ [s, s + ε) Ñ Xr(ω) ∈ A. La densidad de Emuestra que hay un r ∈ E con ω ∈ Xr ∈ A. En consecuencia,

TA < t ⊂⋃

r<t,r∈EXr ∈ A.

Obviamente, Xr ∈ A ⊂ TA < t para todo r < t. Esto demuestra que

TA < t =⋃

r<t,r∈EXr ∈ A ∈ FX

t ,

lo que concluye la prueba.

12Aunque esta condición puede parecer excesiva se verifica siempre que T sea un conjunto discreto (sin puntos de acumulación)o que T sea un intervalo abierto. Obviamente se pueden construir muchos conjuntos, aparte de los mencionados, que la satisfagan.

53

Capítulo 2. Procesos estocásticos.

§ 2.6. Procesos markovianos.Ya se mencionó que los procesos markovianos son aquellos que para predecir el futuro no necesitas

conocer el pasado, unicamente el presente.( 2.6.1 ) Sea T un conjunto no vacío y totalmente ordenado; será utilisado que t ≤ s para denotar que t < so t = s. Supón que (Xt)t∈T es un proceso estocástico definido sobre (Ω,F ,P) a valores en el espacio medible(S,S ) y supón que (Ft)t∈T es una filtración y que (Xt)t∈T está adapatado a ella. Se dirá que (Xt ,Ft)t∈T esun proceso markoviano o que (Xt)t∈T es un proceso markoviano relativo a la filtración (Ft)t∈T si satisface lapropiedad markoviana

∀B ∈ S , s, t ∈ T, s ≤ t Ñ P (Xt ∈ B|Fs) = P (Xt ∈ B|Xs) .

Observación: la propiedad markoviana establece que si se conoce toda la información contenida enla filtración (Ft)t∈T hasta el tiempo s y se quiere predecir la información para el tiempo t, entoncesbasta conocer la información generada por el proceso al instante s. Por ejemplo, considera una cubetade agua y se empieza a registrar el movimiento de una párticula de polen específica, suspendida enel líquido. Se quiere predecir el comportamiento de esta a partir de cierto momento; en esta situaciónE (Xt |Fs) correspondería a la información generada por todas las partículas de polen superficialesmientras que E (Xt |Xs) es la información generada únicamente por la particula estudiada.

Asimismo, por facilidad, cuando se diga «sea (Xt)t∈T un proceso markoviano» siempre deberá en-tenderse que la filtración a usarse es la «filtración natural»

(FXt)t∈T , en donde

FXt = Σ

(⋃s≤t

Σ(Xs)),

en donde Σ(Xs) es la σ -álgebra generada por Xs, recuerda que

Σ(Xs) = Xs ∈ B|B ∈ S .

( 2.6.2 ) Sobre las hipótesis de (2.6.1), para que (Xt)t∈T sea markoviano es condición necesaria y suficiente que sesatisfaga la siguiente propiedad, para todos s, t ∈ T con s ≤ t y para toda g : S → R que sea (S ,B (R))-medible,se cumpla que

E (g(Xt)) <∞Ñ E (g(Xt)|Fs) = E (g(Xt)|Xs) .La suficiencia es obvia, pues si B ∈ S , define g = 1B, la cual es (S ,B (R))-medible. Para la necesidad

se aplica el método usual, pues la propiedad markoviana afirma que el resultado es válido para toda gindicadora; en consecuencia, para las simples; por convergencia monótona, para las medibles y positivas;por descomposición de Jordán13, para toda g.

( 2.6.3 ) Si (Xt)t∈T es markoviano respecto de alguna filtración, entonces también lo es respecto de la filtraciónnatural.

Sea (Ft)t∈T filtración respecto a la cual (Xt)t∈T es markoviano. Ahora, una caracterización de FXt

es que es la mínima σ -álgebra que hace medible a todas las funciones Xs para s ≤ t. Observa que sis ≤ t, entonces Fs ⊂ Ft y en consecuencia Xs es (Ft ,B (R))-medible. Luego, Ft es una σ -álgebra parala cual Xs es (Ft ,B (R))-medible siempre que s ≤ t; entonces FX

t ⊂ Ft . Luego, para s ≤ t y usando lapropiedad de torre (1.3.15), P (Xt |Fs) = P (Xt |Xs) implica que

P(Xt∣∣FX

s)

= P(P (Xt |Fs)

∣∣FXs)

= P(P (Xt |Xs)

∣∣FXs)

= P (Xt |Xs) ,

que es la propiedad markoviana. 13Recuerda que si g : S → R es (S,B (R))-medible, entonces existe dos funcioes (S,B (R))-medibles, u y v, que son no negativas

y para las cuales g(x) = u(x)− v(x), a (u, v) se le llama una descomposición de Jordán de g.

54

2.6. Procesos markovianos.

( 2.6.4 ) Sea (Xt)t∈T es markoviano respecto de (Ft)t∈T . Entonces para cualquier I ⊂ T no vacío las subfamiliascorrespondientes forman un proceso markoviano.

Se considera s, t ∈ I con s ≤ t. Entonces

P (Xt |Fs) = P (Xt |Xs) ,

que es lo que se quería demostrar.

( 2.6.5 ) Sea (Xt)t∈T un proceso estocástico a valores en (S,S ). Una condición necesaria y suficiente para sea unproceso markoviano es que para cualquier colección finita t1 ≤ . . . ≤ tn de tiempo en T y para cualquier B ∈ Sse cumpla que

P (Xtn ∈ B|Xt1 , . . . , Xtn−1 ) = P (Xtn ∈ B|Xtn−1 ) .

Para demostrar la necesidad observa que

P (Xtn ∈ B|Xt1 , . . . , Xtn−1 ) = P (P (Xtn ∈ B|Ftn−1 ) |Xt1 , . . . , Xtn−1 )= P (P (Xtn ∈ B|Xtn−1 ) |Xt1 , . . . , Xtn−1 )= P (Xtn ∈ B|Xtn−1 ) .

Para la suficiencia se procederá a utilizar un método clásico. Se debe demostrar que si B ∈ S y s ≤ t,entonces P

(Xt ∈ B

∣∣FXs)

= P (Xt ∈ B|Xs) . Es decir, lo que hay que demostrar es que P(Xt ∈ B

∣∣Xs) es(FXs ,B (R)

)-medible y que

∀A ∈ FXs ,∀B ∈ S , P (A,Xt ∈ B) =

∫A

P(Xt ∈ B

∣∣Xs)dP.Que P

(Xt ∈ B

∣∣Xs) es(FXs ,B (R)

)-medible se deriva del hecho de que Σ(Xs) ⊂ FX

s . Por consiguien-te, se mostrará la igualdad de probabilidades. Define, para r1 ≤ . . . ≤ rn, la σ -álgebra, Fr1,...,rn =Σ (Xr1 , . . . , Xrn ) . Como consecuencia de la hipótesis, se sabe que para todo n ∈ N y toda colecciónr1 ≤ . . . ≤ rn ≤ s,

∀A ∈ Fr1,...,rn ,∀B ∈ S , P (A,Xt ∈ B) =∫A

P(Xt ∈ B

∣∣Xs)dP.Sea A la unión de la familia de σ -álgebras Fr1,...,rn para n ∈ N y r1 ≤ . . . ≤ rn ≤ s.

( 2.6.5.1 ) A es un sistema π14.

Pues si U,V ∈ A , entonces existen familias finitas p1 ≤ . . . ≤ pn ≤ s y q1 ≤ . . . ≤ qm ≤ scon U ∈ Fp1,...,pn y V ∈ Fq1,...,qm , entonces, sea t1, . . . , tl la ordenación creciente de los pi y los qj ,tal ordenación existe por ser ambas colecciones finitas y además l ≤ n + m pues algunos pi puedencoincider con algunos qj ; trivialmente, U ∩ V ∈ Ft1,...,tl , en consecuencia U ∩ V ∈ A .

Para continuar con la demostración, define C como el conjunto de los A ∈ FXs para los cuales

P (A,Xt ∈ B) =∫A

P (Xt ∈ B|Xs)dP.

Es evidente que C ⊂ FXs .

14Recuerde que una colección no vacía X de subconjuntos de X se llama sistema π si A,B ∈X Ñ A ∩ B ∈X .

55

Capítulo 2. Procesos estocásticos.

( 2.6.5.2 ) C es un sistema dynkiniano15.

En efecto, es obvio que Ω ∈ C pues

P (Ω, Xt ∈ B) = P (Xt ∈ B) =∫Ω

P (Xt |Xs)dP,

en virtud de la definición de probabilidad condicional (1.3.8).Por otro lado, si U,V ∈ C con V ⊂ U, entonces

P (U \ V,Xt ∈ B) = P (U,Xt ∈ B)− P (V,Xt ∈ B) =∫U

P (Xt |Xs)dP−∫V

P (Xt |Xs)dP.

Notando que si f es medible, no negativa e integrable la función FXs → [0, 1] dada por

B 7Ï∫B

fdP

es una medida finita, se sigue que∫U

P (Xt |Xs)dP−∫V

P (Xt |Xs)dP =∫U\V

P (Xt |Xs)dP,

y entonces U \ V ∈ C .Sea ahora (An)n∈N una sucesión en C tal que es creciente hacia A16. Entonces,

P

( ∞⋃n=1

An, Xt ∈ B)

= P

( ∞⋃n=1

(An ∩ Xt ∈ B))

lımn→∞

∫An

P (Xt ∈ B|Xs)dP = lımn→∞

P (An, Xt ∈ B)

de nuevo, la función µ(U) =∫U

P (Xt ∈ B|Xs)dP es una medida sobre FXs , de aquí que

lımn→∞

∫An

P (Xt ∈ B|Xs)dP = lımn→∞

µ(An) = µ( ∞⋃n=1

An

),

con lo cual A ∈ C . Por lo tanto, C es un sistema dynkiniano.El teorema de Dynkin17 muestra que

Σ(A ) ⊂ C ⊂ FXs .

15También llamado sistema λ; un conjunto X de subconjuntos de X se llama sistema dynkiniano si1. X ∈X ;2. A,B ∈X , B ⊂ AÑ B \ A ∈X ;3. An ∈X , An ↑ AÑ A ∈X .

16Recuerda que esto significa que A =∞⋃n=1

An.17El cual establece que si X1 ⊂X2 con X1 un sistema π y X2 un sistema dynkiniano, entonces Σ(X1) ⊂X2.

56

2.6. Procesos markovianos.

( 2.6.5.3 ) FXs = Σ(A ).

Lo cual se sigue de que A contiene a todos los rectángulos y que FXs es la σ -álgebra generada por

los rectángulos.Finalmente, se concluye que C = FX

s y el teorema queda demostrado.

( 2.6.6 ) Sobre la hipótesis que (Xt)t∈T sea un proceso markoviano, respecto a la filtración (Ft)t∈T , a valores en(S,S ), si s < t son dos tiempos en T y g, h : S → R son (S ,B (R))-medibles para las cuales se cumple queE (g(Xt)) <∞ y

E (g(Xt)|Fs) = h(Xs),entonces h(Xs) = E (g(Xt)|Xs) .

Calculando la esperanza condicional respecto de Xs se deriva que, en virtud de (1.3.15),

E (g(Xt)|Xs) = h(Xs),

que es lo afirmado.

( 2.6.7 ) Si (Xt ,Ft)t∈T es markoviano y A ∈ F (Xr |r ≥ t), donde se define F (Xr |r ≥ t) = Σ(⋃s≥t

Σ(Xs)),

entonces P (A|Ft) = P (A|Xt) ; es decir, nada del futuro depende de algo pasado, únicamente del presente.

Se empleará un método estándar de demostración. Sea Ft1,...,tn la σ -álgebra generada por las varia-bles aleatorias Xt1 , . . . , Xtn , en donde n ∈ N y t ≤ t1 ≤ . . . ≤ tn. Entonces, para A ∈ Ft1,...,tn , que searectángulo, existen B1, . . . , Bn ∈ S tales que A = Xt1 ∈ B1, . . . , Xtn ∈ Bn. En consecuencia, hay quedemostrar que

P (Xt1 ∈ B1, . . . , Xtn ∈ Bn|Ft) = P (Xt1 ∈ B1, . . . , Xtn ∈ Bn|Xt) .Basta ver que para cualesquier funciones g1, . . . , gn : (S,S )→

(R,B

(R))

se cumple que

E (g1(Xt1 ) · . . . · gn(Xtn )|Ft) = E (g1(Xt1 ) · . . . · gn(Xtn )|Xt) .

Se procederá por inducción, el caso n = 1 es precisamente (2.6.2). Se supone entonces que el teoremavale para cierto n ∈ N. De aquí,

E (g1(Xt1 ) · · ·gn+1(Xtn+1 )|Ft) = E (E (g1(Xt1 ) · · ·gn+1(Xtn+1 )|Ftn ) |Ft)= E (g1(Xt1 ) · · ·gn(Xtn )E (gn+1(Xtn+1 )|Ftn ) |Ft)= E (g1(Xt1 ) · · ·gn(Xtn )E (gn+1(Xtn+1 )|Ftn ) |Xt) ,

en donde el último paso es debido a la hipótesis inductiva. Luego,

E (g1(Xt1 ) · · ·gn(Xtn )E (gn+1(Xtn+1 )|Ftn ) |Xt)= E (E (g1(Xt1 ) · · ·gn+1(Xtn+1 )|Ftn ) |Xt)= E (g1(Xt1 ) · · ·gn+1(Xtn+1 )|Xt) ,

que es lo que se quería demostrar. Ahora, como la igualdad

E (g1(Xt1 ) · . . . · gn(Xtn )|Ft) = E (g1(Xt1 ) · . . . · gn(Xtn )|Xt)

vale para cualesquier funciones medibles g1, . . . , gn, también vale para cualquier función medible g :Sn → R, en donde a Sn se le asigna la σ -álgebra producto; esto es, para cualquier g : Sn → R mediblevale que

E (g(Xt1 , . . . , Xtn )|Ft) = E (g(Xt1 , . . . , Xtn )|Xt) .

57

Capítulo 2. Procesos estocásticos.

Para ver esto, se nota que dada una tal función g, existe una sucesión de funcionesÄg (m)

1 , . . . , g (m)näm∈N

tales que cada g (m)i es

(S ,B

(R))

-medible yÄg (m)

1 (s1), . . . , g (m)n (sn)

ä↑ g(s1, . . . , sn)

para cualquier (s1, . . . , sn) ∈ Sn. El teorema de convergencia monótona muestra que

P ((Xt1 , . . . , Xtn ) ∈ B|Ft) = P ((Xt1 , . . . , Xtn ) ∈ B|Xt)

para cualquier B ∈ Ft1,...,tn .Al igual que en (2.6.5) se define A como la unión de la familia de σ -álgebras Ft1,...,tn para t ≤ t1 ≤

. . . ≤ tn, entonces A es un sistema π; en efecto, si A,B ∈ A entonces hay dos familias de índices(t1, . . . , tn) y (s1, . . . , sm) tales que A ∈ Ft1,...,tn y B ∈ Fs1,...,sm , por ende, se considera un refinamiento(r1, . . . , rl) de los puntos (ti) y (sj ), esto deriva inmediatamente en que A,B ∈ Fr1,...,rl y por ser estaúltima una σ -álgebra contenida en A se ve que A ∩ B ∈ A . Asimismo, se verifica que la σ -álgebragenerada por A es precisamente F (Xr |r ≥ t), por la definición de rectángulo.

Sea ahora C el conjunto de los subconjuntos de F (Xr |r ≥ t) para los cuales P (A|Ft) = P (A|Xt) .Entonces, se verificará que C es un sistema dynkiniano. Es obvio que Ω ∈ C pues Ω es un rectángulo.Si U,V ∈ C con V ⊂ U, entonces

P (U \ V |Ft) = P (U|Ft)− P (V |Ft) = P (U|Xt)− P (V |Xt) = P (U \ V |Xt)

y si (An) es una sucesión en C la cual es creciente a A, entonces

P

( ∞⋃n=1

An

∣∣∣∣∣Ft

)= lım

n→∞P (An|Ft) = lım

n→∞P (An|Xt) = P

( ∞⋃n=1

An

∣∣∣∣∣Xt),

que muestra lo afirmado.Finalmente, el teorema de Dynkin muestra que

F (Xr |r ≥ t) ⊂ C ⊂ F (Xr |r ≥ t),

lo cual concluye el teorema.

( 2.6.8 ) Sea (Ω,F ,P) un espacio de probabilidad y sean G , H y K σ-álgebras de Ω contenidas en F . Lassiguientes afirmaciones son equivalentes

1. para cada A ∈ G y cada B ∈H , P (A ∩ B|K ) = P (A|K )P (B|K ) ;

2. para cada A ∈ G , P (A|Σ(H ∪K )) = P (A|K ) .

Cuando alguna de estas dos propiedades ocurra será dicho que G y H son condicionalmente independientes dadala σ-álgebra K .

Nota que de las propiedades de la esperanza condicional (1.3.15) se concluye que,

P (A|K )P (B|K ) = E (1A|K )E (1B|K ) = E (1BE (1A|K ) |K ) .

Luego, si la segunda afirmación vale, entonces

E (1BE (1A|K ) |K ) = E (1BE (1A|Σ(H ∪K )) |K )= E (E (1B1A|Σ(H ∪K )) |K )= E (E (1A∩B|K ) |K ) = P (A ∩ B|K ) ,

58

2.6. Procesos markovianos.

donde se usó la propiedad de torre en la tercera igualdad.Recíprocamente, supón que la primera afirmación es verdadera. Observa que se debe demostrar

que∀C ∈ Σ(H ∪K ),P (A ∩C) =

∫C

P (A|K )dP,

en donde A ∈ G está fijo. Se define A como la unión de todos los conjuntos de la forma B ∩ C conB ∈H y C ∈ K . Un resultado básico de teoría de la medida da por conclusión que Σ(H ∪K ) = Σ(A ).Es evidente que A es un sistema π. Será visto ahora que si D = B ∩C ∈ A , entonces

P (A ∩D) =∫D

P (A|H )dP.

Esto se sigue de las siguientes manipulaciones

P (A ∩D) = P (A ∩ B ∩C) , B ∈H , C ∈ K ,

=∫C

P (A ∩ B|K )dP, ve (1.3.8)

=∫C

E (1A|K )E (1B|K )dP

=∫C

1BE (1A|K )P =∫D

P (A|K )dP.

Sea ahora C el conjunto de los C ∈ Σ(H ∪K ) tales que

P (A ∩C) =∫C

P (A|H )dP.

Ya se demostró que A ⊂ C . Además, resulta que C es un sistema dynkiniano; en efecto,

1. que Ω ∈ C se deriva de que Ω ∈ A ⊂ C ;

2. si U,V ∈ C y U ⊂ V entonces

P (A ∩ (V \U)) = P(A ∩ V ∩ U

)= P

(A ∩ V ∩

(A ∪ U

))= P (A ∩ V \ (A ∩U)) = P (A ∩ V )− P (A ∩U)

=∫V

P (A|H )dP−∫U

P (A|H )dP =∫V\U

P (A|H )dP,

por lo que V \U ∈ C ;

3. si (Cn)n∈N es una sucesión creciente en C y C = lımn→∞

Cn entonces

P (A ∩C) = lımn→∞

P (A ∩Cn) = lımn→∞

∫Cn

P (A|H )dP =∫C

P (A|H )dP,

que concluye la demostración de que C es un sistema dynkiniano.

59

Capítulo 2. Procesos estocásticos.

Luego, el teorema de Dynkin muestra que

Σ(H ∪K ) ⊂ C ⊂ Σ(H ∪K ),

que muestra el teorema.

( 2.6.9 ) Una condición necesaria y suficiente para que el proceso estocástico (Xt ,Ft)t∈T sea markoviano esque F (Xs|s ≥ t) y Ft sean condicionalmente independientes dada Xt ; de nuevo, el futuro y el pasado sonindependientes dado el presente.

Supón primero que (Xt ,Ft)t∈T es markoviano, entonces según (2.6.8), para cada A ∈ F (Xr |r ≥ t)

P (A|Σ(Ft ∪Σ(Xt))) = P (A|Ft) = P (A|Xt) ,

que muestra la necesidad.Para la suficiencia, se escoge B ∈ S y s ≤ t, entonces

P (Xt ∈ B|Fs) = P (Xt ∈ B|Σ(Fs ∪Σ(Xs))) = P (Xt ∈ B|Xs) ,

por independencia condicional. Luego, (Xt ,Ft)t∈T es markoviano.

z Probabilidades de transición.En lo que sigue se considerará un proceso (Xt)t∈[t0,T] que sea markoviano sobre el espacio de pro-

babilidad (Ω,F ,P) y a valores en el espacio medible(Rd,B

(Rd)) . Correspondiente a la probabili-

dad condicional P (Xt ∈ B|Xs) existe una distribucion condicional p(s,Xs, t, B), ve (1.3.16). Si se escribep(s, x, t, B), se entenderá que s, t ∈ [t0, T] con s ≤ t, x ∈ Rd y B ∈ B

(Rd) . Esta función posee las

siguientes propiedades:

1. para t0 ≤ s ≤ t ≤ T y B ∈ B(Rd) fijos, con probabilidad uno

p(s,Xs, t, B) = P (Xt ∈ B|Xs) ;

2. para t0 ≤ s ≤ t ≤ T y x ∈ Rd fijos, B 7Ï p(s, x, t, B) se comporta como una probabilidad sobreB(Rd) ;

3. para s ≤ t y B ∈ B(Rd) fijos, x 7Ï p(s, x, t, B) es

(F ,B

(Rd))-medible;

4. para t0 ≤ s ≤ t ≤ T, B ∈ B(Rd) y x ∈ Rd, con la posible exepción de un subconjunto N ⊂ Rd tal

que P (Xs ∈ N) = 0, se cumple la llamada «ecuación de Chapman-Kolmogorov»

p(s, x, t, B) =∫Rd

p(u, y, t, B)p(s, x, u, dy).

Observaciones:

1. Las probabilidades de transición pueden ser intrerpretadas como sigue, p(s, x, t, B) es la probabili-dad que si al tiempo s el proceso se ecuentre en el estado x entonces al tiempo t el proceso acabeen el boreliano B. Salvo las ecuaciones de Chapman-Kolmogorov, el resto de las propiedades yafue demostrada.

60

2.6. Procesos markovianos.

2. Las ecuaciones de Chapman-Kolmogorov son consecuencia de la propiedad markoviana y de(1.3.15)

p(s,Xs, t, B) = P (Xt ∈ B|Xs)= P

(Xt ∈ B

∣∣FXs), propiedad de markoviana

= E(P(Xt ∈ B

∣∣FXu) ∣∣FX

s), para cualquier u ≤ s, ve (1.3.15)

= E(P (Xt ∈ B|Xu)

∣∣FXs), propiedad markoviana

= E(p(u,Xu, t, B)

∣∣FXs), definicion de p

= E(p(u,Xu, t, B)

∣∣Xs) , propiedad markoviana

=∫Rd

p(u, y, t, B)p(s,Xs, u, dy), ve (1.3.19).

3. Las ecuaciones de Chapman-Kolmogorov tienen una interpretación geométrica intuitiva: el factorp(u, y, t, B) es la probabilidad de las trayectorias que iniciando su recorrido al tiempo u en el es-tado y acaban al tiempo t en el boreliano B; el factor p(s, x, u, dy) puede ser intepretado como laprobabilidad de las trayectorias que inician al tiempo s en el estado x y que al tiempo u acaban enel estado “infinitesimal” dy; en consecuencia, p(u, y, t, B)p(s,Xs, u, dy) es la “probabilidad infinite-simal” de las trayectorias que iniciando en s se encuentran en Xs y que al tiempo t teminan en Bcon la propiedad que al tiempo u pasan por dy. Sumar todas estas “probabilidades infinitesimales”da como resultado la probabilidad de empezando al tiempo s en el estado Xs el proceso acabe altiempo t en B.

4. La función p puede ser escogida de tal forma que para cada s ∈ [t0, T] y cada B ∈ B(Rd) se

cumpla que p(s, x, s, B) = 1B(x). Esto se sigue del hecho que

p(s,Xs, s, B) = P (Xs ∈ B|Xs) = 1B(Xs).

5. En lugar de escribir p(s, x, t, B) se escribirá P (Xt ∈ B|Xs = x) , observa que esta notación es con-sistente con la utilizada anteriormente y que P (Xt ∈ B|Xs = x) está bien definido aún cuandoP (Xs = x) = 0.

( 2.6.10 ) Sea (S,S ) un espacio medible y T un conjunto totalmente ordenado. Una función

p :(s, x, t, B)|(s, t) ∈ T2, s ≤ t, x ∈ S,B ∈ S

→ R

que satisfaga

1. para s ≤ t y x ∈ S fijos, B 7Ï p(s, x, t, B) es una probabilidad sobre S ;

2. para s ≤ t y B ∈ S fijos, x 7Ï p(s, x, t, B) es (S ,B (R))-medible;

3. para s ≤ u ≤ t, B ∈ S y x ∈ S

p(s, x, t, B) =∫S

p(u, y, t, B)p(s, x, u, dy).

será llamada probabilidad de transición markoviana (ve (2.6.14))

61

Capítulo 2. Procesos estocásticos.

Observación: en virtud de (1.3.17) si S es un espacio métrico, separable y completo y si S = B (S) ,entonces dado un proceso estocástico (Xt)t∈T a valores en S, existe, para cada s, t ∈ T con s ≤ t existeuna distribución condicional regular de Xt . Tal distribución se denotará por

B 7Ï p(s,Xs, t, B) = P (Xt ∈ B|Xs) .

Siguiendo las observaciones de (1.3.6) se escribirá

p(s, x, t, B) = P (Xt ∈ B|Xs = x) ,

la cual está definida aún en los casos P (Xs = x) = 0. En particular, ha sido demostrado el siguienteteorema.

( 2.6.11 ) Sea T un conjunto totalmente ordenado y S un espacio métrico, separable y completo, se considera enS la σ-álgebra S = B (S) . Si (Xt)t∈T es un proceso markoviano a valores en S, entonces existe una probabilidadde transición markoviana asociada a él. Es decir, existe una función p(s, x, t, B) tal que p satisface (2.6.10) y

P (Xt ∈ B|Xs = x) = p(s, x, t, B).

z Propiedades principales de las probabilidades de transición.( 2.6.12 ) Sea (Xt)t∈[t0,T] un proceso markoviano sobre (Ω,F ,P) a valores en

(Rd,B

(Rd)) con p su probabilidad

de transicion. Para cualesquier funciones g, h, k que sean(F ,B

(Rd))-medibles y para cualesquier tiempos

t0 ≤ s ≤ u ≤ t ≤ T y A,B ∈ B(Rd) se cumple que

P (g(Xt) ∈ B,h(Xu) ∈ A|k(Xs)) =∫A

p(u,h(y), t, g−1(B))p(s,Xs, u, dy);

la «ecuación generalizada de Chapman-Kolmogorov».

Nota que cuando A = Rd y g = h = k = IRd se regresa a la ecuación de Chapman-Kolmogorovusual, luego esta ecuación es una generalización. Ahora bien, se procede igual que en la demostraciónde la ecuación de Chapman-Kolmogorov,

P (g(Xt) ∈ B,h(Xu) ∈ A|k(Xs)) = P (g(Xt) ∈ B,h(Xu) ∈ A|Xs) , ve (1.3.13)= P

(g(Xt) ∈ B,h(Xu) ∈ A

∣∣FXs), ve (2.6.9)

= E(P(g(Xt) ∈ B,h(Xu) ∈ A

∣∣FXu) ∣∣FX

s), ve (1.3.15)

= E(1A(h(Xu))P

(Xt ∈ g−1(B)

∣∣FXu) ∣∣FX

s), ve (1.3.15)

= E(1A(h(Xu))P

(Xt ∈ g−1(B)|Xu

) ∣∣FXs), ve (2.6.1)

= E(1A(h(Xu))P

(Xt ∈ g−1(B)|h(Xu)

) ∣∣FXs), ve (1.3.13)

= E(1A(h(Xu))p(u,h(Xu), t, g−1(B))

∣∣FXs), definición de p

= E(1A(h(Xu))p(u,h(Xu), t, g−1(B))|Xs

), ve (2.6.9)

=∫Rd

1A(h(y))p(u,h(y), t, g−1(B))p(s,Xs, u, dy), ve (1.3.19)

=∫A

p(u,h(y), t, g−1(B))p(s,Xs, u, dy)

que es lo que se quería demostrar. La siguiente propiedad da una fórmula explícita de la probabilidad de los rectángulos del proceso X

visto como una función aleatoria a valores en(Rd)[t0,T] .

62

2.6. Procesos markovianos.

( 2.6.13 ) Sea T un conjunto totalmente ordenado y S un espacio métrico, separable y completo con σ-álgebraasociada S = B (S) . Si (Xt)t∈T es un proceso markoviano con p su probabilidad de transición y si Pt0 es ladistribución de Xt0 , es decir

Pt0 (A) = P (Xt0 ∈ A) ,

entonces para cada n ∈ N, t1 < . . . < tn y B1, . . . , Bn ∈ S se cumple que

P (Xt1 ∈ B1, . . . , Xtn ∈ Bn)=∫Rd

∫B1

· · ·∫Bn

p(tn−1, xn−1, tn, dxn) · . . . · p(t0, x0, t1, dx1)Pt0 (dx0) ;

en particular

P (Xt ∈ B) =∫Rd

p(t0, x, t, B)Pt0 (dx) .

Observación: antes fue mencionado ya el uso de esta notación. Aquí la expresión∫S

f (y)p(s, x, t, dy)

significa que la función f está siendo integrada respecto a la medida B 7Ï p(s, x, t, B).Para facilitar la demostración, se escribirá únicamente al caso n = 2; las modificaciones para el caso

general resultarán evidentes. Entonces, basta notar que

P (Xt1 ∈ A1, Xt2 ∈ A2) = E (1A1 (Xt1 )1A2 (Xt2 ))= E (E (1A1 (Xt1 )1A2 (Xt2 )|Xt0 )) , ve (1.3.15)= E (E (E (1A1 (Xt1 )1A2 (Xt2 )|Xt0 , Xt1 ) |Xt0 )) , ve (1.3.15)= E (E (1A1 (Xt1 )E (1A2 (Xt2 )|Xt0 , Xt1 ) |Xt0 )) , ve (1.3.15)= E (E (1A1 (Xt1 )E (1A2 (Xt2 )|Xt1 ) |Xt0 )) , ve (2.6.5)

ahora se escriben las integrales correspondientes. Antes, se necesita un resultado preliminar.

( 2.6.13.1 ) Sea g : (S,S )→ (R,B (R)) cualquier función. Para s ≤ t se cumple que si E (|g(Xt)|) <∞ entonces

E (g(Xt)|Xs = xs) =∫S

g(xt)p(s, xs, t, dxt).

En efecto, con apelar al método usual bastará dar la demostración en el caso g = 1A, en dondeA ∈ S . Pero,

E (1A(Xt)|Xs = xs) = P (Xt ∈ A|Xs = xs) = p(s, xs, t, A) =∫S

1A(xt)p(s, xs, t, dxt),

lo cual concluye la afirmación.

63

Capítulo 2. Procesos estocásticos.

Luego, aplicando este resultado a lo obtenido anteriormente se concluye que

P (Xt1 ∈ A1, Xt2 ∈ A2) = E (E (1A1 (Xt1 )E (1A2 (Xt2 )|Xt1 ) |Xt0 ))=∫S

E (1A1 (Xt1 )E (1A2 (Xt2 )|Xt1 ) |Xt0 = x0)Pt0 (dx0)

=∫S

E (g(Xt1 )|Xt0 = x0)Pt0 (dx0) =∫S

∫S

g(x1)p(t0, x0, t1, dx1)Pt0 (dx0)

=∫S

∫S

1A1 (x1)E (1A2 (Xt2 )|Xt1 = x1)p(t0, x0, t1, dx1)Pt0 (dx0)

=∫S

∫A1

E (1A2 (Xt2 )|Xt1 = x1)p(t0, x0, t1, dx1)Pt0 (dx0)

=∫S

∫A1

P (Xt2 ∈ A2|Xt1 = x1)p(t0, x0, t1, dx1)Pt0 (dx0)

=∫S

∫A1

p(t1, x1, t2, A2)p(t0, x0, t1, dx1)Pt0 (dx0) .

La fórmula general se obtiene del mismo modo. Es destacable que ya se demostró que a todo proceso markoviano le correspone una probabilidad

de transición markoviana; el teorema previo permite conducir al revés. Se demostrará que dada unaprobabilidad de transición markoviana existe un proceso markoviano asociado a esta.

( 2.6.14 ) Sea T un conjunto totalmente ordenado y S un espacio métrico, separable y completo con σ-álgebraasociada S = B (S) y considera p una probabilidad de transición markoviana (ve (2.6.10)) ahí. Entonces,para cada «distribución inicial» Pt0 definida sobre S existe un espacio de probabilidad (Ω,F ,P) y un procesomarkoviano (Xt)t∈T ahí a valores en S tal que posee probabilidad de transición p y Xt0 tiene distribución Pt0 .

Se utilizará el teorema de extensión de Kolmogorov (1.4.1); naturalmente se define

Ω = ST =ω∣∣ω es función de T a S

,

F = S T , la mínima σ -álgebra que contiene a los cilindros de ΩX de T ×Ω a S por X(t, ω) = Xt(ω) = ω(t), la «proyección» de ω al t-ésimo eje.

Así mismo, se tiene que definir una familia de distribuciones de dimensión finita. Con observar (2.6.13)es irresistible proponer, para n ∈ N y t1 < . . . < tn en T dado, las funciones

µt1,...,tn :n⊗i=1

S → [0, 1]

tal que si A1, . . . , An ∈ S , entonces

µt1,...,tn (A1 × . . .× An) =∫Rd

∫A1

· · ·∫An

p(tn−1, xn−1, tn, dxn)p(tn−2, xn−2, tn−1, dxn−1)

· . . . · p(t0, x0, t1, dx1)Pt0 (dx0) .

El teorema de extensión de Carathéodory-Hahn muestra que cada µt1,...,tn queda completamente definidacon conocer su expresión en los rectángulos. Luego, ha sido definida una familia

(µt1,...,tn )n∈N,t0≤t1<...<tn≤T

de distribuciones de dimensión finita.

64

2.6. Procesos markovianos.

( 2.6.14.1 ) La familia (µt1,...,tn )n∈N,t0≤t1<...<tn≤T constituye una familia consistente de probabilidades (ve (1.4.1)).

Es suficiente ver que

µt1,...,tn (A1 × Ak−1 × S × Ak+1 × . . .× An) = µt1,...,tk−1,tk+1,...,tn (A1 × Ak−1 × Ak+1 × . . .× An).

Para empezar, nota que∫S

p(tk, xk, tk+1, xk+1)p(tk−1, xk−1, tx , dxk) = p(tk−1, xk−1, tk+1, xk+1),

lo cual es consecuencia de las ecuaciones de Chapman-Kolmogorov. Además, el único factor que tie-ne a xk como «variable integradora» es p(tk, xk, tk+1, dxk+1)p(tk−1, xk−1, tk, dxk). El teorema de Fubini,utilizado reiteradamente, muestra que

µt1,...,tn (A1 × . . .× S × . . .× An)=∫S

∫A1

. . .∫

Ak−1

∫Ak+1

. . .∫

An−1

p(tn−1, xn−1, tn, An) · . . . · p(t0, x0, t1, dx1)Pt0 (dx0)

= µt1,...,tk−1,tk+1,...,tn (A1 × Ak−1 × Ak+1 × . . .× An),

con lo cual puede ser concluido que la familia es consistente.Como consecuencia inmediata del teorema de extensión de Kolmogorov se deduce la existencia de

una probabilidad P sobre ST que extiende a las distribuciones de dimensión finita. En particular,

P (Xt0 ∈ A) = µt0 (A) =∫S

p(t0, x0, t0, A)Pt0 (dx0) =∫S

1A(x0)Pt0 (dx0) = Pt0 (A) .

( 2.6.14.2 ) Para cada s ≤ t y cada A ∈ S se cumple que

p(s,Xs, t, A) = P (Xt ∈ A|Xs) .

Evidentemente p(s,Xs, t, A) es (Σ(Xs),B (R))-medible (ve (2.6.10)). Bastará ver que para cada B ∈ Sse cumple que

P (Xs ∈ A,Xt ∈ B) =∫A

p(s, xs, t, B)dµs(xs).

Pero,

P (Xs ∈ A,Xt ∈ B) = µs,t(A× B), definición de P

=∫S

∫A

p(s, xs, t, B)p(t0, x0, s, dxs)Pt0 (dx0) , definición de µs,t

=∫A

∫S

p(s, xs, t, B)p(t0, x0, s, dxs)Pt0 (dx0) , teorema de Fubini.

En consecuencia, con recordar la definición de densidad, basta ver que

µs(A) =∫A

∫S

p(t0, x0, s, dxs)Pt0 (dx0) .

Lo cual es consecuencia directa del teorema de Fubini y la definición de µs.

65

Capítulo 2. Procesos estocásticos.

( 2.6.14.3 ) El proceso estocástico X es markoviano; es decir, si t0 ≤ s ≤ t ≤ T, entonces

P(Xt ∈ A

∣∣FXs)

= P (Xt ∈ A|Xs) .

Bastará demostrar que P(Xt ∈ A

∣∣FXs)

= p(s,Xs, t, A). De la definición de p (ve (2.6.10)), la funciónp(s,Xs, t, A) es (Σ(Xs),B (R))-medible. Entonces, bastará demostrar que para cada D ∈ FX

s se cumpleque ∫

D

p(s,Xs, t, A)dP =∫D

1A(Xt)dP.

Como las funciones a integrar son no negativas se concluye que

D 7Ï∫D

p(s,Xs, t, A)dP

y queD 7Ï

∫D

1A(Xt)dP.

son medidas sobre FXs ; en acuerdo con el teorema de extensión de Carathéodory-Hahn, bastará ver

que la igualdad se da para todo D que sea un rectángulo, ya que los rectángulos generan a FXs . Entonces,

se supondrá que D adquiere la forma

D = ω ∈ Ω|X(t1, ω) ∈ B1, . . . , X(tn, ω) ∈ Bn,

en donde n ∈ N y t1 ≤ . . . ≤ tn = s y B1, . . . , Bn ∈ S . Entonces∫D

1A(Xt)dP = P (D,Xt ∈ A) = P (Xt1 ∈ B1, . . . , Xtn+1 ∈ Bn+1) , tn+1 = t, Bn+1 = A.

Con utilizar (2.6.13) se observa que

P (Xt1 ∈ B1, . . . , Xtn+1 ∈ Bn+1) =∫S

∫B1

· · ·∫Bn

f (xn)p(tn−1, xn−1, tn, dxn)

· . . . · p(t0, x0, t1, dx1)Pt0 (dx0) ;

en donde f (xn) = p(tn, xn, tn+1, Bn+1). Para esta misma f se concluye que∫D

p(s,Xs, t, A)dP =∫D

f (Xtn )dP =∫Ω

1B1 (Xt1 ) · · ·1Bn (Xtn )f (Xtn )dP.

Por lo tanto, basta ver que para cada f : (S,S )→ (R,B (§)) se cumple la igualdad∫Ω

1B1 (Xt1 ) · · ·1Bn (Xtn )f (Xtn )dP

=∫S

∫B1

· · ·∫Bn

f (xn)p(tn−1, xn−1, tn, dxn) · . . . · Pt0 (dx0) .

Con apelar al método usual bastará ver que esta igualdad se da siempre que f = 1E con E ∈ S . Eneste caso se comprueba fácilmente que∫

Ω

1B1 (Xt1 ) · · ·1Bn (Xtn )1E(Xtn )dP = P (Xt1 ∈ B1, . . . , Xtn ∈ Bn ∩ E) .

66

2.6. Procesos markovianos.

La otra igualdad es más complicada,∫D

p(s,Xs, t, A)dP =∫S

∫B1

· · ·∫Bn

1E(xn)p(tn−1, xn−1, tn, dxn) · . . . · Pt0 (dx0)

=∫S

∫B1

· · ·∫

Bn−1

∫Bn∩E

p(tn−1, xn−1, tn, dxn) · . . . · Pt0 (dx0)

=∫S

∫B1

· · ·∫

Bn−1

p(tn−1, xn−1, tn, Bn ∩ E) · . . . · Pt0 (dx0)

= µt1,...,tn (B1 × . . .× (Bn ∩ E))= P (Xt1 ∈ B1, . . . , Xtn ∈ Bn ∩ E) .

Por lo tanto, se demostró queP(Xt ∈ A

∣∣FXs)

= P (Xt ∈ A|Xs) ;

con lo cual, (Xt)t∈T es markoviano.

Escolio: para cada x ∈ Rd sea πx la medida de probabilidad concentrada en x; es decir, πx : S → R estal que πx(A) = 1 si x ∈ A y πx(A) = 0 si x /∈ A. Supón que p denota una probabilidad de transición, endonde el conjunto de índices es [0,∞). Se denotará por

(Ω,F 0

∞,Px,0)

al espacio de probabilidad sobreel cual está construido el proceso (Xt)t≥0 en la propiedad previa (2.6.14) en el que se toma Px,0 = πx yse denota por Ex,0 a la esperanza correspondiente.

Se define F st = Σ

Ñ ⋃r∈[s,t]

Σ(Xr)

é, para s, t ∈ [0,∞), entonces F 0

∞ es la mínima σ -álgebra que

contiene a todas las F st . Además, X : S[0,∞) → S es tal que para cada t > 0 fijo la función

ω 7Ï X(t, ω) = Xt(ω) = ω(t)

es (F st ,S )-medible para todo 0 ≤ s ≤ t.

Entonces se cumple que para cualesquier x ∈ S y s ∈ [0,∞) existe una medida Px,s : F s∞ → [0, 1] tal

quePx,s (Xs = x) = 1

yPx,s (Xt+h ∈ A|F s

t ) = p(t, Xt , t + h,A).

Esta construcción recibe un nombre especial.

( 2.6.15 ) Considera una probabilidad de transición p con conjunto de índices [0,∞), define el espacio medible(Ω,F ), en donde Ω = S[0,∞) y la σ-álgbera F es F 0

∞. Define la familia de σ-álgebras (F st )0≤s≤t<∞; la función

X(t, ω) = ω(t); y la familia de probabilidades (Px,s)x∈S,0≤s≤t<∞; al conjuntoΩ,F 0

∞, (F st )0≤s≤t<∞, (Px,s)x∈S,0≤s≤t<∞, X

se le denomina el modelo kolmogoroviano o versión canónica del proceso markoviano en el espacio S con proba-bilidad de transición p que inicia en x al tiempo s.

67

Capítulo 2. Procesos estocásticos.

Observación: en el modelo kolmogoroviano la propiedad de markov es

Px,s (Xt+h ∈ A|F st ) = p(t, Xt , t + h,A).

De esto se deriva, usando las ecuaciones de Chapman-Kolmogorov, que

Ex,s(1A(Xt+h)

∣∣F st)

=∫S

p(t + h, y, t + h,A)p(t, Xt , t + h, dy) =∫S

1A(y)p(t, Xt , t + h, dy).

En consecuenciaEx,s

(f (Xt+h)

∣∣F st)

=∫S

f (y)p(t, Xt , t + h, dy)

para cualquier f que sea una función indicadora. Luego, aplica el método usual y, en consecuencia, laigualdad es cierta para cualquier función f : (S,S )→ (R,B (R)); es decir, se cumple que

Ex,s (|f (Xt+h)|) <∞Ñ Ex,s(f (Xt+h)

∣∣F st)

=∫S

f (y)p(t, Xt , t + h, dy) = EXt ,t (f (Xt+h)) .

Asimismo, se verifica que para cada n ∈ N, cada n tiempos 0 ≤ t1 < . . . < tn y cada D ∈n⊗i=1

S se

cumple quePx,s ((Xt1 , . . . , Xtn ) ∈ D)) =

∫D

p(tn−1, yn−1, tn, dyn) · . . . · p(s, x, t1, dx1).

Verificar esta fórmula ya es trivial con lo demostrado hasta este momento, debido a que la función

D 7Ï∫D

p(tn−1, yn−1, tn, dyn) · . . . · p(s, x, t1, dx1)

es una medida sobren⊗i=1

S , la cual coincide con

Px,s ((Xt1 , . . . , Xtn ) ∈ D))

cuando D es un rectángulo; el teorema de Carathéodory-Hahn muestra entonces que coinciden sobre

todon⊗i=1

S , que es lo que se quería demostrar.

( 2.6.16 ) Sea(Ω,F 0

∞, (F st )0≤s≤t<∞, (Px,s)x∈S,0≤s≤t<∞, X

)el modelo kolmogoroviano del proceso markoviano

en el espacio S con probabilidad de transición p. Para cada B ∈ F (Xr |r ≥ t) se cumple que

Px,s (B|F st ) = Px,s (B|Xt) .

Empieza considerando dos tiempos 0 < h1 < h2, y dos funciones f1, f2 : S → R que sean (S ,B (R))-medibles. Entonces

Ex,s(f1(Xt+h1 )f2(Xt+h2 )

∣∣F st)

= Ex,s(Ex,s

(f1(Xt+h1 )f2(Xt+h2 )

∣∣F st+h1

) ∣∣F st)

= Ex,s(f1(Xt+h1 )Ex,s

(f2(Xt+h2 )

∣∣F st+h1

) ∣∣F st),

68

2.6. Procesos markovianos.

como, ve (2.6.2),

Ex,s(f2(Xt+h2 )

∣∣F st+h1

)= Ex,s (f2(Xt+h2 )|Xt+h1 ) =

∫S

f2(y2)p(t + h1, Xt+h1 , t + h2, dy2).

sustituyendo, se obtiene que

Ex,s(f1(Xt+h1 )f2(Xt+h2 )

∣∣F st)

= Ex,s

Ñf1(Xt+h1 )

∫S

f2(y2)p(t + h1, Xt+h1 , t + h2, dy2)∣∣∣∣∣F s

t

é=∫S

f1(y1)∫S

f2(y2)p(t + h1, y1, t + h2, dy2)p(t, Xt , t + h1, dy1)

=∫S

∫S

f2(y2)p(t + h1, y1, t + h2, dy2)f1(y1)p(t, Xt , t + h1, dy1).

Esta misma fórmula vale para cualquier n ∈ N, cualesquier f1, . . . , fn : (S,S ) → (R,B (R)) y 0 < h1 <. . . < hn. Lo cual se verifica al igual que antes aplicando inducción en n. En efecto, define ti = t + hi,con h0 = 0 y para i = 0, . . . , n. Entonces, imitando el caso previo,

Ex,s(f1(Xt1 ) · · · fn(Xtn )

∣∣F st)

= Ex,s

Ñf1(Xt1 ) · · · fn−1(Xtn−1 )

∫S

fn(yn)p(tn−1, Xtn−1 , tn, dyn)∣∣∣∣∣F s

t

é.

El resto es aplicar la hipótesis inductiva para obtener

Ex,s(f1(Xt1 ) · · · fn(Xtn )

∣∣F st)

=∫S

· · ·∫S

fn(yn)p(tn−1, yn−1, tn, dyn) · . . . · f1(y1)p(t0, Xt0 , t1, dy1).

Se recuerda que si D ∈n⊗i=1

S , entonces la función f (x) = 1D(x) puede ser aproximada por una

sucesiónÄf (m)1 (x1) · · · f (m)

n (xn)äm∈N

de funciones, en donde f (m)i : (S,S )→ (R,B (R)) y son tales que

f (m)1 (x1) · · · f (m)

n (xn) ≤ f (x1, . . . , xn)

para cualquier (x1, . . . , xn) ∈ S × . . .× S y cualquier m ∈ N. Por el teorema de convergencia dominadade Lebesgue, aplicado dos veces,

Ex,s(f (Xt1 , . . . , Xtn )

∣∣F st)

= lımm→∞

Ex,sÄf (m)1 (Xt1 ) · · · f (m)

n (Xtn )∣∣F s

= lımm→∞

∫S

· · ·∫S

f (m)1 (y1) · · · f (m)

n (yn)p(tn−1, yn−1, tn, dyn) · . . . · p(t0, Xt0 , t1, dy1)

=∫S

· · ·∫S

f (y1, . . . , yn)p(tn−1, yn−1, tn, dyn) · . . . · p(t0, Xt0 , t1, dy1).

69

Capítulo 2. Procesos estocásticos.

Con apelar al método usual, se deriva que si f : Sn → R es( n⊗

i=1S ,B (R)

)-medible, entonces

Ex,s(f (Xt1 , . . . , Xtn )

∣∣F st)

=∫S

· · ·∫S

f (y1, . . . , yn)p(tn−1, yn−1, tn, dyn) · . . . · p(t0, Xt0 , t1, dy1).

Considera ahora B = (Xt1 , . . . , Xtn ) ∈ D para D ∈n⊗i=1

S , entonces

Px,s(B∣∣F s

t)

=∫S

· · ·∫S

1D(y1, . . . , yn)p(tn−1, yn−1, tn, dyn) · . . . · p(t0, Xt0 , t1, dy1).

Esto muestra que Px,s(B∣∣F s

t)

es (Σ(Xt),B (R))-medible, recuerda que Xt0 = Xt .Define ahora A como la unión de la familia(

(Xt1 , . . . , Xtn ) ∈ D)n∈N,t≤t1<...<tn ,D∈

n⊗i=1

S.

Por definición de cilindro F (Xr |r ≥ t) = Σ(A ). Al igual que antes, define C como el conjunto de losB ∈ F (Xr |r ≥ t) que satisfacen lo pedido. Para concluir bastará ver que C es un sistema dynkiniano;pues es obvio que A es un sistema π. Será visto a continuación que C es un sistema dynkiniano.Evidentemente Ω ∈ C; ambas expresiones valen 1 P−c.d.; se consideran ahora U,V ∈ C con V ⊂ U,entonces

Px,s(U \ V

∣∣F st)

= Ex,s(1U − 1V

∣∣F st)

= Ex,s(1U∣∣F s

t)− Ex,s

(1V∣∣F s

t)

= Px,s(U∣∣F s

t)− Px,s

(V∣∣F s

t)

= Px,s (U|Xt)− Px,s (V |Xt) = Px,s (U \ V |Xt) ,

con lo que U \ V ∈ C . Finalmente, si (An) es una sucesión en C la cual es creciente a A, entonces

Px,s(A∣∣F s

t)

= lımn→∞

Px,s(An∣∣F s

t)

= lımn→∞

Px,s (An|Xt) = Px,s (A|Xt) ,

de aquí que A ∈ C . Por lo tanto, C es un sistema dynkiniano.

§ 2.7. Procesos estocásticos con incrementos independientes.

Muchos procesos estocásticos estudiados son generados a partir de observaciones en las que loseventos que ocurran en distintos tiempos no están relacionados.

( 2.7.1 ) Sea S un espacio normado y considera la σ-álgbera S = B (S) , supón que T es un conjunto totalmenteordeando y que (Xt)t∈T un proceso estocástico definido sobre (Ω,F ,P) a valores en (S,S ). Se dirá que el procesoposee incrementos independientes si para cada n ∈ N y cada t0 < t1 < . . . < tn se cumple que los elementosaleatorios Xt0 , Xt1 − Xt0 , . . . , Xtn − Xtn−1 son independientes.

70

2.7. Procesos estocásticos con incrementos independientes.

Observación: supón que T posee un mínimo t0. Entonces, siempre puede ser supuesto que Xt0 = 0.En efecto, si defines Yt = Xt − Xt0 , entonces Xt0 y Yt1 , Yt2 − Yt1 , . . . , Ytn − Ytn−1 son independientes paracualesquier tiempos; el teorema de Dynkin muestra entonces que Xt0 y (Yt)t≥t0 son independientes;nota que Yt0 = 0. Recíprocamente, si (Yt)t≥t0 posee incrementos independientes con Yt0 = 0 entoncescualquier elemento aleatorio Xt0 tal que sea independiente del proceso define un nuevo proceso Xt =Yt + Xt0 ; es claro que (Xt)t≥t0 también posee incrementos independientes.

( 2.7.2 ) Será dicho que un proceso estocástico (Xt)t∈[t0,T] a valores en (S,S ) posee incrementos estacionarios si

para cada s, t ∈ [t0, T] y para cada h > 0 tal que s+h, t+h ∈ [t0, T] se cumpla que Xt −XsD= Xt+h−Xs+h18.

( 2.7.3 ) Sea (Yn)n∈N una sucesión de elementos aleatorios sobre (Ω,F ,P) a valores en (S,S ), en donde S es

un espacio normado y S = B (S) . El proceso estocástico Xn =n∑i=1

Yi es markoviano respecto de la filtración

Fn = Σ(Y1, . . . , Yn).

En efecto, si A,B ∈ S , entonces

P (Xn−1 ∈ A,Yn ∈ B|Y1, . . . , Yn−1) = E (1A(Xn−1)1B(Yn)|Y1, . . . , Yn−1)= 1A(Xn−1)E (1B(Yn)|Y1, . . . , Yn−1)= 1A(Xn−1)E (1B(Yn)) , por independencia (ve (1.3.15))

por otro lado,P (Xn−1 ∈ A,Yn ∈ B|Xn−1) = E (1A(Xn−1)1B(Yn)|Xn−1)

= 1A(Xn−1)E (1B(Yn)|Xn−1)= 1A(Xn−1)E (1B(Yn)) , independencia.

Entonces, ha sido demostrado que

P (Xn−1 ∈ A,Yn ∈ B|Y1, . . . , Yn−1) = P (Xn−1 ∈ A,Yn ∈ B|Xn−1) .

Sea A la unión de todos los conjuntos de la forma A×B con A y B elementos en S entonces A esun sistema π; lo cual es obvio. Sea ahora C ⊂ S ⊗S el conjunto de los A tales que

P ((Xn−1, Yn) ∈ A|Y1, . . . , Yn−1) = P ((Xn−1, Yn) ∈ A|Xn−1) ;

ha sido demostrado que A ⊂ C . Como la σ -álgebra generada por A es S ⊗S para ver que la igualdadanterior vale para cada A ∈ S ⊗S habrá bastado ver que C es sistema dynkiniano. Esto se verificainmediatamente; que S × S ∈ C es consecuencia inmediata de que ambas expresiones valen 1 P−c.d.;se supone ahora que U,V ∈ C con V ⊂ U, entonces

P ((Xn−1, Yn) ∈ U \ V |Y1, . . . , Yn−1)= P ((Xn−1, Yn) ∈ U|Y1, . . . , Yn−1)− P ((Xn−1, Yn) ∈ V |Y1, . . . , Yn−1)= P ((Xn−1, Yn) ∈ U|Xn−1)− P ((Xn−1, Yn) ∈ V |Xn−1)= P ((Xn−1, Yn) ∈ U \ V |Xn−1) ;

con lo que U \ V ∈ C ; ahora, sea (An)n∈N una sucesión creciente a A y definida en C . El teorema deconvergencia monotóna, aplicado dos veces, muestra que

P ((Xn−1, Yn) ∈ A|Y1, . . . , Yn−1) = lımi→∞

P ((Xn−1, Yn) ∈ Ai|Y1, . . . , Yn−1)= lım

i→∞P ((Xn−1, Yn) ∈ Ai|Xn−1) = P ((Xn−1, Yn) ∈ A|Xn−1) ,

18Aquí se utiliza la notación estándar XD= Y para denotar que X y Y están igualmente distribuidas. Se hace la aclaración

que puede ocurrir que X esté definida sobre (ΩX ,FX ,PX) y Y esté definida sobre (ΩY ,FY ,PY ); sin embargo, ambas funcionesmedibles tienen que ir a (S,S ) y satisfacer que PX (X ∈ B) = PY (Y ∈ B) para cada B ∈ S .

71

Capítulo 2. Procesos estocásticos.

y, consecuentemente, A ∈ C . Con lo cual, C es sistema dynkiniano, lo que concluye la afirmación.Hasta este momento ha sido demostrado que

∀A ∈ S ⊗S ,P ((Xn−1, Yn) ∈ A|Y1, . . . , Yn−1) = P ((Xn−1, Yn) ∈ A|Xn−1) .

O, equivalentemente, que para todo A ∈ S ⊗S se cumple que

E (1A(Xn−1, Yn)|Y1, . . . , Yn) = E (1A(Xn−1, Yn)|Xn−1) .

Con utilizar el método usual se concluye que para cualquier f : (S× S,S ⊗S )→ (R,B (R)) se satisfacela igualdad siguiente

E (f (Xn−1, Yn)|Y1, . . . , Yn−1) = E (f (Xn−1, Yn)|Xn−1) .

En particular, cuando B ∈ S y se considera f (x, y) = 1B(x + y), se obtiene que

P (Xn ∈ B|Y1, . . . , Yn−1) = P (Xn ∈ B|Xn−1) ;

es decir, (Xn)n∈N es markoviano.

( 2.7.4 ) Sea (Xt)t∈T un proceso estocástico a valores en (S,S ), en donde S es un espacio normado con σ-álgebraasociada S = B (S) y T es un conjunto totalmente ordenado, el cual posee incrementos independientes. Entonces(Xt)t∈T es un proceso markoviano.

Define para t1 < . . . < tn los vectores aleatorios Yk = Xtk − Xtk−1 , entonces Xtn =n∑k=1

Ytk , en donde

las Y1, . . . , Yn son vectores independientes. Como consecuencia de (2.7.3) se obtiene que (Xt)t∈I esmarkoviano para cada I ⊂ T finito; entonces (2.6.5) muestra que (Xt)t∈T es markoviano.

A partir de ahora se utilizará el término «probabilidad de transición» para llamar a toda función que,como en (2.6.10), satisfaga las primeras dos propiedades pero no necesariamente la tercera. Esto es, pserá llamada una probabilidad de transición si para s ≤ t y x ∈ S fijos la función B 7Ï p(s, x, t, B) es unaprobabilidad sobre S y si para s ≤ t y B ∈ S son fijos, la función x 7Ï p(s, x, t, B) es (S ,B (R))-medible.

( 2.7.5 ) Supón que (S,S ) es un espacio medible con S un espacio normado y sea p(s, x, t, B) una probabilidadde transición ahí. Para s ≤ t, x ∈ S y B ∈ S , se dirá que p es espacialmente homogénea si para cada h ∈ S secumple que

p(s, x, t, B) = p(s, x + h, t, B+ h),

en donde B+ h = b + h|b ∈ B.

Observación: todo proceso estocástico (Xt)t∈T a valores en (S,S ), en donde S es un espacio métrico,separable y completo el cual tiene asociada la σ -álgebra S = B (S) , tiene asociada una probabilidad detransición; en efecto, como en el caso markoviano, basta poner p(s, x, t, B) = P (Xt ∈ B|Xs = x) .

( 2.7.6 ) Supón T es totalmente ordenado y que S es un espacio normado el cual tiene asignada σ-álgebra S =B (S) . Sea (Xt)t∈T un proceso markoviano a valores en (S,S ) el cual tiene asociada una probabilidad de transiciónp(s, x, t, B) la cual es espacialmente homogénea; en este caso, (Xt)t∈T posee incrementos independientes.

Sean n ∈ N, t0 < t1 < . . . tn elementos de T y A0, . . . , An ∈ S . Se afirma que

P (Xt0 ∈ A0, Xt1 − Xt0 ∈ A1, . . . , Xtn − Xtn−1 ∈ An)=

∫x0∈A0

∫x1−x0∈A1

· · ·∫

xn−xn−1∈An

p(tn−1, xn−1, tn, dxn) · . . . · Pt0 (dx0) ,

72

2.7. Procesos estocásticos con incrementos independientes.

en donde Pt0 (B) = P (Xt0 ∈ B) para B ∈ S . Esta fórmula puede ser demostrada de la misma maneraque (2.6.13). Al igual que antes, para mayor facilidad de la escritura se ilustra únicamente el caso n = 2,entonces

P (Xt0 ∈ A0, Xt1 − Xt0 ∈ A1, Xt2 − Xt1 ∈ A2)= E (1A0 (Xt0 )1A1 (Xt1 − Xt0 )1A2 (Xt2 − Xt1 ))= E (E (1A0 (Xt0 )1A1 (Xt1 − Xt0 )1A2 (Xt2 − Xt1 )|Xt0 )) , ve (1.3.15)= E (E (E (1A0 (Xt0 )1A1 (Xt1 − Xt0 )1A2 (Xt2 − Xt1 )|Xt0 , Xt1 ) |Xt0 )) , ve (1.3.15)= E (1A0 (Xt0 )E (1A1 (Xt1 − Xt0 )E (1A2 (Xt2 − Xt1 )|Xt0 , Xt1 ) |Xt0 )) , ve (1.3.15)= E (1A0 (Xt0 )E (1A1 (Xt1 − Xt0 )E (1A2 (Xt2 − Xt1 )|Xt1 ) |Xt0 )) , ve (2.6.9)=∫A0

E (1A1 (Xt1 − xt0 )E (1A2 (Xt2 − Xt1 )|Xt1 ) |Xt0 = x0)Pt0 (dx0) , ve (2.6.13.1)

=∫A0

EÄ1A1+xt0 (Xt1 )E (1A2 (Xt2 − Xt1 )|Xt1 ) |Xt0 = x0

äPt0 (dx0)

=∫A0

∫A1+xt0

E (1A2 (Xt2 − xt1 )|Xt1 = xt1 )p(t0, x0, t1, dx1)Pt0 (dx0) , ve (2.6.13.1)

=∫A0

∫A1+xt0

∫A2+xt1

p(t1, x1, t2, dx2)p(t0, x0, t1, dx1)Pt0 (dx0) , ve (2.6.13.1).

Observa ahora que∫xn−xn−1∈An

p(tn−1, xn−1, tn, dxn) = p(tn−1, xn−1, tn, An + xn−1) = p(tn−1, 0, tn, An),

en donde la última igualdad es consecuencia inmediata de la homogeneidad espacial. Por otro lado, seobserva que si µtn−1 es la distribución de Xtn−1 , entonces, en acuerdo con (1.3.4) y la hipótesis,

P (Xtn − Xtn−1 ∈ An) =∫Rd

P (Xtn ∈ An + xn−1|Xtn−1 = xn−1)µtn−1 (dxn−1)

=∫Rd

p(tn−1, xn−1, tn, An + xn−1)µtn−1 (dxn−1)

=∫Rd

p(tn−1, 0, tn, An)µtn−1 (dxn−1)

= p(tn−1, 0, tn, An)∫Rd

µtn−1 (dxn−1) = p(tn−1, 0, tn, An).

En consecuencia, se concluye queP (Xt0 ∈ A0, Xt1 − Xt0 ∈ A1, . . . , Xtn − Xtn−1 ∈ An)

=∫

x0∈A0

∫x1−x0∈A1

· · ·∫

xn−xn−1∈An

p(tn−1, xn−1, tn, dxn) · . . . · Pt0 (dx0)

= P (Xtn − Xtn−1 ∈ An)P (Xt0 ∈ A0, Xt1 − Xt0 ∈ A1, . . . , Xtn−1 − Xtn−2 ∈ An−1) ;

usando un proceso inductivo se llega a queP (Xt0 ∈ A0, Xt1 − Xt0 ∈ A1, . . . , Xtn − Xtn−1 ∈ An)

= P (Xt0 ∈ A0)P (Xt1 − Xt0 ∈ A1) · · ·P (Xtn − Xtn−1 ∈ An) ;el proceso tiene incrementos independientes.

73

Capítulo 2. Procesos estocásticos.

Observación: sobre estas hipótesis, se cumple que

P (Xt+h − Xh ∈ A) = p(h, 0, t + h,A).

( 2.7.7 ) Sea (Xt)t≥0 un proceso estocástico a valores en (S,S ) el cual posee probabilidad de transición p, ve(1.3.16). Será dicho que el proceso tiene incrementos estacionarios si p(h, x, t + h,B) = p(0, x, t, B), para todot, h ≥ 0.

§ 2.8. Martingalas.

( 2.8.1 ) Sea T un conjunto no vacío totalmente ordenado y (Xt)t∈T un proceso estocástico definido sobre(Ω,F ,P) a valores en

(Rd,B

(Rd)) . Sea (Ft)t∈T una filtración de F . Será dicho que (Xt)t∈T es un martingala

respecto de la filtración (Ft)t∈T si cada Xt es integrable19 y para s ≤ t se cumple que

E (Xt |Fs) = Xs P−c.d.;

si d = 1 e = es reemplazado por ≥, entonces el proceso será llamdo submartingala; en cambio, si = es reemplazadopor ≤ será una supermartingala.

Cuando sea dicho que (Xt)t∈T es una martingala (submartingala, supermartingala, y en estos casos d = 1) sinhacer referencia a la filtración deberá ser entendido que la filtración a usarse es la natural

(FXt)t∈T dada por FX

tes la mínima σ-álgebra sobre Ω que convierte en vectories aleatorios a todos los mapeos ω 7Ï Xs(ω) para s ≤ t.

Observación: resulta evidente de esta definición que una condición necesaria y suficiente para queun proceso estocástico a valores reales sea una martingala respecto de una filtración es que sea suby super martingala simultáneamente respecto a dicha filtración. Asimismo, si (Xt)t∈T es martingalarespecto de una filtración lo es también respecto de la filtración natural; la demostración es la mismaque para (2.6.3).

( 2.8.2 ) Una condición necesaria para que (Xt)t∈T sea martingala (submartingala, supermartingala, respectiva-mente) respecto de la filtración (Ft)t∈T es que para cada I ⊂ T, que sea finito y no vacío, se cumpla que (Xt)t∈Isea una martingala (submartingala, supermartingala, respectivamente).

Una condición suficiente para que (Xt)t∈T sea martingala (submartingala, supermartingala, respectivamente)respecto de la filtración natural es que para cada I ⊂ T que sea finito y no vacío se cumpla que (Xt)t∈I sea unamartingala (submartingala, supermartingala, respectivamente) respecto de la filtración natural.

La necesidad es obvia por lo que únicamente será demostrada la suficiencia. Se mostrará que

E(Xt∣∣FX

s)

= Xs P−c.d.,

en donde s ≤ t son fijos. Para r1 < . . . < rn = s define Fr1,...,rn como la σ -álgebra generada porXr1 , . . . , Xrn . Es claro que Fr1,...,rn ⊂ FX

s , entonces para A ∈ Fr1,...,rn cualquiera∫A

E(Xt |FX

s)dP =

∫A

XtdP =∫A

E (Xt |Fr1,...,rn )dP

=∫A

E (Xt |Xrn )dP =∫A

E (Xt |Xs)dP.

19Recuerda que si f = (f1, . . . , fd) : Ω→ Rd entonces f es integrable si y solo si cada fi lo es.

74

2.8. Martingalas.

Sea ahora A la unión de las σ -álgebras Fr1,...,rn con rn ≤ s; entonces Σ(A ) = FXs por las definiciones

de A y FXs , también se cumple que A es un sistema π; sea C el conjunto de los A ∈ FX

s para los cualesvale que ∫

A

E(Xt∣∣FX

s)dP =

∫A

XsdP.

Ya ha sido demostrado que A ⊂ C ; el teorema de Dynkin muestra que basta verificar que C es unsistema dynkiniano. Que Ω ∈ C se verifica trivialmente, pues Ω ∈ Fs ⊂ A . Ahora, si U,V ∈ C conV ⊂ U, entonces20 ∫

U\V

E(Xt∣∣FX

s)dP =

∫U

E(Xt∣∣FX

s)dP−

∫V

E(Xt∣∣FX

s)dP

=∫U

XsdP−∫V

XsdP =∫U\V

XsdP;

finalmente, sea (An)n∈N una sucesión en C creciente a A. El teorema de convergencia monótona paramedidas vectoriales21 muestra que∫

A

E(Xt |FX

s)dP = lım

n→∞

∫An

E(Xt |FX

s)dP = lım

n→∞

∫An

XsdP =∫A

XsdP,

de donde C es un sistema dynkiniano.

( 2.8.3 ) Si el proceso estocástico (Xt)t∈T posee incrementos independientes y es de tipo L1; es decir, E (‖Xt‖) <∞ para cualquier t ∈ T, entonces (Xt − E (Xt))t∈T es una martingala.

Si se define Yt = Xt − E (Xt) , entonces (Yt)t∈T también posee incrementos independientes, en con-secuencia, será supuesto que E (Xt) = 0 para cualquier t ∈ T. Sean entonces t0 < t1 < . . . < tn, tiemposen T. Entonces Xt0 , Xt1 − Xt0 , . . . , Xtn − Xtn−1 son variables aleatorias independientes. De aquí que,

E (Xtn+1 |Xt1 , . . . , Xtn ) = Xtn − E (Xtn+1 − Xtn |Xt1 , . . . , Xtn )= Xtn − E (Xtn+1 − Xtn ) = Xtn .

Es decir, para cada I ⊂ T finito y no vacío se obtiene que (Xt)t∈I es una martingala; el resultado esentonces consecuencia de (2.8.2).

( 2.8.4 ) Sea (Ω,F ,P) un espacio de probabilidad dado y (Ft)t∈[0,∞] una filtración en él. Supón que (Xt)t∈[0,∞]es una submartingala respecto a la filtración dada y la cual es no negativa y de tipo Lp, con p > 1. Si casi todaslas trayectorias de la submartingala son continuas entonces para cualquier [a, b] ⊂ [0,∞] se cumple que

supt∈[a,b]

Xpt

å≤Å pp − 1

ãpE(Xpb);

la «desigualdad de Martingala».

La demostración se divide en varios pasos.

20Recuerda que si X es un vector aleatorio integrable, entonces la función A 7Ï∫A

XdP de F a R es una medida vectorial; es

decir, es contablemente aditiva.21Si prefieres, utiliza que E ((X1, . . . , Xd)) = (E (X1) , . . . ,E (Xd)).

75

Capítulo 2. Procesos estocásticos.

( 2.8.4.1 ) Basta demostrar que

supt∈([a,b]∩Q)∪b

Xpt

å≤Å pp − 1

ãpE(Xpb).

En efecto, define las variables aleatorias

X∗ = supt∈[a,b]

Xpt

yY ∗ = sup

t∈([a,b]∩Q)∪bXpt ,

por continuidad de casi todas las trayectorias se ve que X∗ = Y ∗ P−c.d., entonces sus esperanzascoinciden.

( 2.8.4.2 ) Basta demostrar que si (Xi)i=1,...,n es una submartingala entonces

maxi=1,...,n

Xpi

ã≤Å pp − 1

ãpE (Xp

n) .

En efecto, considera una enumeración de [a, b)∩Q, por ejemplo (qi)i∈N. Pon An = (qi)i=1,...,n y defineBn = (tn,i)i=1,...,n+1 como tn,i = qi para i ≤ n y tn,n+1 = b. Como la desigualdad vale para cada familiafinita se ve que

maxi=1,...,n+1

Xptn,i

ã≤Å pp − 1

ãpEÄXptn,n+1

ä=Å pp − 1

ãpE(Xpb).

Nota que las funciones dentro de la esperanza forman una familia creciente respecto a n, el teoremade convergencia monótona muestra que

supt∈([a,b]∩Q)∪b

Xpt

å≤Å pp − 1

ãpE(Xpb),

lo que demuestra la afirmación.

( 2.8.4.3 ) Basta demostrar que si (Xi)i=1,...,n es una submartingala entonces para cualquier λ > 0

maxi=1,...,n

Xi > λã≤ 1λ

maxi=1,...,n

Xi>λ XndP.

Se demostrará que si X y Y son dos variables aleatorias no negativas las cuales satisfacen

P (Y > λ) ≤ 1λ

∫Y>λ

XdP

entonces también satisfacen que

E (Yp) ≤Å pp − 1

ãpE (Xp) .

Sea ψ no decreciente con ψ(0) = 0. Entonces,

E (ψ(Y )) = −∞∫

0

ψ(y)dP (Y > y) ≤∞∫

0

P (Y > y)dψ(y),

76

2.9. Procesos fuertemente markovianos.

en donde el último paso es debido a la fórmula de integración por partes (he aquí por qué se pide lano negatividad de ψ):

ψFY =∫ψdF ′Y +

∫FYdψ.

Usando la hipótesis se ve que

∞∫0

P (Y > y)dψ(y) ≤∞∫

0

∫Y>y

1yXdPdψ(y) =

∫Ω

Y (ω)∫0

Xy dψ(y)dP(ω).

Se considera ahora la función ψ(y) = yp, entonces

E (Yp) ≤∫Ω

Y (ω)∫0

Xy dψ(y)dP(ω) = p

∫Ω

Y (ω)∫0

Xyp−2dyP(ω) = pp − 1

∫Ω

XYp−1dP.

La desigualdad de Hölder prueba que

E (Yp) ≤Å pp − 1

ãE(XYp−1) ≤ Å p

p − 1

ã‖X‖p

∥∥∥Yp−1∥∥∥ p

p−1

=Å pp − 1

ã [E (Xp)

] 1p[E (Yp)

]1− 1p ,

despejando y elevando a la p-ésima potencia se obtiene la afirmación hecha.

( 2.8.4.4 ) Si (Xi)i=1,...,n es una submartingala de variables aleatorias no negativas y λ > 0, la variable aleatoriaX∗ = max

i=1,...,nXi cumple que

P (X∗ > λ) ≤∫

X∗>λ

XndP.

Supón que Λ = X∗ > λ y sea Λi definido como el subconjunto de Λ en el que Xi es la primeravariable en superar λ; esto es

Λi = X1 ≤ λ, . . . , Xi−1 ≤ λ,Xi > λ.

Se verifica que Λ queda partido por los Λi y que cada Λi ∈ Σ(X1, . . . , Xi). La propiedad de martingalaimplica que ∫

Λ

XndP =n∑i=1

∫Λi

XndP ≥n∑i=1

∫Λi

XidP ≥n∑i=1

λP (Λi) = λP (λ) .

Con esto queda demostrado el teorema, la desigualdad de martingala.

§ 2.9. Procesos fuertemente markovianos.Un proceso markoviano es aquel que condicinado a conocer el presente el futuro y el pasado son

independientes (ve (2.6.9)); en consecuencia, se espera que si (Xt)t≥0 es un proceso markoviano, entoncesYt = Xt+c también es markoviano para cualquier c ∈ R. Sobre condiciones agradables esto tambiénvale para cualquier tiempo de paro T (ve (2.5.1)).

77

Capítulo 2. Procesos estocásticos.

( 2.9.1 ) Sea X = (Xn)n∈N un proceso markoviano. Se supone que X está definido sobre (Ω,F ,P), un espacio deprobabilidad dado, y que posee espacio de estados (S,S ). Sea (Fn)n∈N una filtración en F tal que el proceso estáadaptado a ella. Asismismo, se supone que el proceso X está generado por la distribución inicial Pt0 y la probabilidadde transición markoviana (p(m,x, n,B))m=0,1,2,...;m≤n;x∈S;B∈S (ve (2.6.10)). Sea U un tiempo de paro relativo ala filtración (Fn)n∈N y sea T : Ω → N22 una función

(FU ,B

(N))-medible23 y tal que P (T <∞, T ≥ U) = 1.

Entonces, para cualquier B ∈ S se cumple que

P (XT ∈ B,T <∞|FU ) = p(U,XU , T, B) P−c.d..

Se debe demostrar que si A ∈ FU , entonces

P (XT ∈ B,T <∞, A) =∫A

p(U,XU , T, B)dP.

Entonces, para A ∈ FU dado se cumple que

P (XT ∈ B,T <∞, A) =∞∑n=0

P (Xn ∈ B,T = n,A)

=∞∑n=0

n∑m=0

P (Xn ∈ B,T = n,U = m,A) ;

al ser T una función(FU ,B

(N))

-medible se sigue que A ∩ T = n ∈ FU y, por lo tanto, A ∩ T =n ∩ U = m ∈ Fm. Consecuentemente

P (Xn ∈ B,T = n,U = m,A) =∫

A∩T=n,U=m

P (Xn ∈ B|Fm)dP,

la propiedad de markovianidad muestra que P (Xn ∈ B|Fm) = P (Xn ∈ B|Xm) , entonces,

P (Xn ∈ B,T = n,U = m,A) =∫

A∩T=n,U=m

P (Xn ∈ B|Xm)dP

=∫

A∩T=n,U=m

p(m,Xm, n, B)dP =∫

A∩T=n,U=m

p(U,XU , T, B)dP.

De aquí que,

P (XT ∈ B,T <∞, A) =∞∑n=0

n∑m=0

P (Xn ∈ B,T = n,U = m,A)

=∞∑n=0

n∑m=0

∫A∩T=n,U=m

p(U,XU , T, B)dP

=∞∑n=0

∫A∩T=n

p(U,XU , T, B)dP

=∫

A∩T<∞

p(U,XU , T, B)dP =∫A

p(U,XU , T, B)dP.

Como U y T son funciones(FU ,B

(N))

-medibles, también lo es p(U,XU , T, B) y el resultado se sigue.

22Aquí N denota a la cerradura topológica de N en la recta real extendida [−∞,∞].23Aquí FU denota a la σ -álgebra de paro generada por U, ve (2.5.1).

78

2.9. Procesos fuertemente markovianos.

( 2.9.2 ) Sea p : S ×S → [0, 1] una función tal que

1. para cada x ∈ S fijo se cumple que B→ p(x,B) es una probabilidad;

2. para cada B ∈ S fijo se cumple que x → p(x,B) es (S ,B ([0, 1]))-medible.

Se define el operador de transición asociado a p como

(Q(f ))(x) =∫S

f (y)p(x, dy),

en donde f ∈ Ac (S,R) = f : S → R|f es acotada y es (B (R) ,S )-medible.

Observación: el operador Q : Ac (S,R)→ Ac (A,R) ; por notación se escribirá Qf en lugar Q(f ) y Qf (x)en lugar de (Qf )(x). Asimismo, si (Xt)t∈[t0,T] es un proceso markoviano en (S,S ) el cual está generadopor una probabilidad de transición markoviana p(s, x, t, B), entonces se denotará por Qs,t al operadorde transición de la función (x,B) 7Ï p(s, x, t, B); es decir

Qs,tf (x) =∫S

f (u)p(s, x, t, du).

Entonces, se cumple la «propiedad de semigrupo»:

t0 ≤ r ≤ s ≤ t ≤ T Ñ Qr,sQs,t = Qr,t .

Esto es consecuencia inmediata de las ecuaciones de Chapman-Kolmogorov. En efecto, para cualquierB ∈ S ,

Qr,t1B(x) =∫S

1B(u)p(r, x, t, du) = p(r, x, t, B) =∫S

p(s, y, t, B)p(r, x, s, dy)

=∫S

Qs,t1B(y)p(r, x, s, dy) = Qr,sQs,t1B(x);

en virtud del método usual, el cual aplica por la definición de operador, se concluye lo afirmado. Enparticular, se deriva de esta demostración que

Qs,tf (x) = E (f (Xt)|Xs = x) .

( 2.9.3 ) Sea (Xt)t≥0 un proceso markoviano definido sobre (Ω,F ,P) y con espacio de estados (S,S ), en dondeS es un espacio métrico compacto y S = B (S) ; se supone que el proceso está generado por una probabilidad detransición markoviana p(s, x, t, B) y una distribución inicial P0; además, para cada ω la trayectoria (ve (2.3.6))fXw : [0,∞)→ R es continua por la derecha; se define

FXt+ =

⋂s>t

FXt

y P : Ω → [0,∞] un tiempo de paro respecto de la filtración(FXt+)t≥0 ; sea T : Ω → [0,∞] una función

(FP ,B ([0,∞]))-medible tal que P (T <∞, T ≥ P) = 1; sea C0 (S,R) el conjunto de las funciones S → R quecon continuas; asimismo, se supone que para cada f ∈ C0 (S,R) la función (s, t, x) 7Ï Qs,tf (x) es continua sobres ≤ t, x ∈ S; en particular, Qs,tf ∈ C0 (S,R) siempre que f ∈ C0 (S,R) ; entonces para cada B ∈ S se cumpleque

P (XT ∈ B,T <∞|FP) = p(P,XP , T, B).

79

Capítulo 2. Procesos estocásticos.

En virtud de (2.4.20) el proceso X es progresivamente medible; esto es, para cualquier t > 0 lafunción X

∣∣∣[0,t]

: [0, t]×Ω→ S es (B ([0, t])⊗F ,S )-medible. Según (2.5.2) la variable T es un tiempo deparo y según (2.5.3) la variable aleatoria XT : Ω→ S es (FT ,S )-medible. Define

T (n) =∞∑j=1

j2n1[ j−1

2n ,j

2n )(T) + T1∞(T)

y similarmente para P(n). Considera In =ß j

2n∣∣∣n ∈ N

™, según (2.6.4), el proceso (Xi,Fi)i∈In es un proceso

markoviano. Se afirma que T (n) y P(n) son tiempos de paro respecto de la filtración (Fi)i∈In . Por ladesigualdad P ≤ T y la propiedad (2.5.2) basta ver que P(n) es tiempo de paro respecto a dicha filtración.Ahora, ß

P(n) = j2n

™=ßP ∈ï j − 1

2n , j2nã™

=ßP < j

2n

™\ßP < j − 1

2n

™,

por la propiedad de tiempo de paro ßP < j − 1

2n

™∈ F j−1

2n⊂ F j

2n

y también ßP < j

2n

™∈ F j

2n,

por lo que ßP(n) = j

2n

™=ßP < j

2n

™\ßP < j − 1

2n

™∈ F j

2n,

mostrando que P(n) es tiempo de paro respecto a la filtración (Fi)i∈In .Nota ahora que P ≤ P(n) ≤ T (n) para cualquier n ∈ N, según (2.5.2), FP ⊂ FP(n) . De la contención

FP ⊂ FP(n) se ve que T es (FP(n) ,B ([0,∞]))-medible y de la definición de T (n) se sigue que es unafunción (FP(n) ,B ([0,∞]))-medible. Nota además que P(n) ↓ P y T (n) ↓ T.

En virtud de (2.9.1) se deriva que

PÄXT (n) ∈ B,T (n) <∞

∣∣FP(n)

ä= pÄP(n), XP(n) , T (n), B

äP−c.d.

sobre T (n) <∞ = T <∞. Esto equivale a

E(1B(XT (n) )1[0,∞)(T)

∣∣FP(n))

= PÄP(n), XP(n) , T (n), B

ä=(QP(n),T (n)1B

)(XP(n) ) P−c.d.

sobre T <∞. Por lo tanto,

E(1B(XT (n) )1[0,∞)(T)

∣∣FP(n))

= 1[0,∞)(T)(QP(n),T (n)1B

)(XP(n) ) P−c.d.

Con usar el método usual se deriva que para cualquier f ∈ Ac (S,R) se cumple que

E(f (XT (n) )1[0,∞)(T)

∣∣FP(n))

= 1[0,∞)(T)(QP(n),T (n)f

)(XP(n) ) P−c.d.

Sea A ∈ FP ⊂ FP(n) . Entonces∫A∩T<∞

f (XT (n) )dP =∫

A∩T<∞

QP(n),T (n)f (XP(n) )dP,

80

2.9. Procesos fuertemente markovianos.

lo que es consecuencia de la propiedad definitoria de la esperanza condicional. De acuerdo con lacontinuidad de f, la continuidad por la derecha de X y la continuidad de (s, t, x) 7Ï Qs,tf (x) se ve, envirtud del teorema de convergencia dominada, que∫

A∩T<∞

f (XT )dP =∫

A∩T<∞

QP,Tf (XP)dP.

Para continuar se necesita el siguiente lema, debido a Hausdorff. Aquí se prueba un caso particular,la prueba general se encuentra en [9], propiedad (12.7.8).

( 2.9.3.1 ) Sea f una función no negativa y semicontinua inferiormente sobre S; esto es,

lım infy→x

f (y) ≥ f (x).

Existe una sucesión (fn)n∈N de funciones no negativas y continuas sobre S tales que fn ↑ f.

Sea d la distancia en S y t ≥ 0, define gt(x) = ınff (z)+ td(x, z)|z ∈ S. Observa que 0 ≤ gt ≤ f puesgt(x) ≤ f (x) + td(x, x) = f (x). Ahora, sean x, y ∈ S, se ve que

f (z) + td(x, z) ≤ f (z) + t(d(x, y) + d(y, z)),

si se toma el ínfimo sobre todos los z ∈ S se puede conluir que

gt(x) ≤ gt(y) + td(x, y).

Por simetría se verifica inmediatamente que

|gt(x)− gt(y)| ≤ td(x, y),

luego, gt es uniformemente continua sobre S. Obviamente, si t1 < t2, gt1 ≤ gt2 por lo que la sucesión(gn)n∈N es creciente. Así, existe una función h tal que 0 ≤ gn ↑ h ≤ f.

Nota que aún no se ha utilizado que f sea semicontinua inferiormente, para demostrar que h = fse utilizará esta hipótesis. Sea ε > 0 dado. Para n ∈ N cualquiera se puede encontrar un zn ∈ S de talforma que

f (x) + ε ≥ gn(x) + ε > f (zn) + nd(x, zn) ≥ nd(x, zn).Dividiendo por n se ve que

d(x, zn) ≤f (x) + ε

n ,

por lo que d(x, zn)→ 0. Por la semicontinuidad inferior de f se deriva que

lım infn→∞

f (zn) ≥ f (x);

en particular f (zn) > f (x)− ε para todo n grande. Entonces

gn(x) > f (zn) + nd(x, zn)− ε ≥ f (zn)− ε ≥ f (x)− ε

para todo n grande. La arbitrariedad de ε muestra que lımn→∞

gn(x) ≥ f (x), mostrando la igualdad reque-rida.

Continuando con la prueba de (2.9.3) considera C ⊂ S un conjunto abierto, la función 1C es semicon-tinua inferiormente. Esto es claro pues si x ∈ C entonces hay un r > 0 tal que y ∈ B (x; r)Ñ 1C(y) = 1y que si x /∈ C entonces hay una sucesión xn en extC tal que xn → x, luego 1C(xn) = 0. El lema

81

Capítulo 2. Procesos estocásticos.

previo muestra que existe una sucesión de funciones continuas sobre S que crecen a 1C . El teoremade convergencia monótona, aplicado a dicha sucesión, muestra que∫

A∩T<∞

1C(XT )dP =∫

A∩T<∞

(QP,T1C)(XP)dP,

para cada C ⊂ S que sea abierto.Sea H el conjunto de las funcioes f : S → R tales que∫

A∩T<∞

f (XT )dP =∫

A∩T<∞

(QP,Tf )(XP)dP.

Ya se demostró que H 6= ∅ pues cualquier función f = 1C pertenece a H siempre que C sea unabierto en S. Ahora, sean f, g ∈H y λ ∈ R se ve que∫

A∩T<∞

QP,T (f + λg)(XP)dP =∫

A∩T<∞

∫S

(f + λg)(y)p(P,XP , T, dy)dP

=∫

A∩T<∞

∫S

f (y)p(P,XP , T, dy)dP + λ∫

A∩T<∞

∫S

g(y)p(P,XP , T, dy)dP

=∫

A∩T<∞

QP,Tf (XP)dP + λ∫

A∩T<∞

QP,Tg(XP)dP

=∫

A∩T<∞

f (XT )dP + λ∫

A∩T<∞

g(XT )dP =∫

A∩T<∞

(f + λg)(XT )dP;

H es un espacio vectorial real.Sea (fn)n∈N una sucesión definida en H de funciones no negaticas y acotada superiormente por

0 < M <∞ y fn ↑ f puntualmente, se afirma que f ∈H . Para demostrar esta afirmación basta aplicarel teorema de convergencia monótona dos veces,∫

A∩T<∞

QP,Tf (XP)dP =∫

A∩T<∞

∫S

f (y)p(P,XP , T, dy)dP

= lımn→∞

∫A∩T<∞

∫S

fn(y)p(P,XP , T, dy)dP = lımn→∞

∫A∩T<∞

QP,Tfn(XP)dP

= lımn→∞

∫A∩T<∞

fn(XT )dP =∫

A∩T<∞

f (XT )dP.

Sea B ∈ S = B (S) , se afirma que 1B ∈H . Se aplica el método usual, sea

C = B ∈ S |1B ∈H

yA = B ∈ S |B es abierto.

Ya se demostró que A ⊂ H . De la definición de topología es obvio que A es un sistema π y queB (S) = Σ(A ). Por ende, para concluir basta ver que C es un sistema dynkiniano. Obviamente S ∈ Cpor ser S un abierto. Ahora, supón que A ⊂ B y A,B ∈ C , es claro que 1B\A = 1B − 1A, y por ser H

82

2.9. Procesos fuertemente markovianos.

un espacio lineal 1B\A ∈ H . Sea (An)n∈N una sucesión en C creciente a A, entonces la sucesión (1A)consiste en funciones no negatias, acotadas por 1 y tales que 1An ↑ 1A puntualmente, en consecuencia,1A ∈ H y así A ∈ C . Esto demuestra que C es un sistema dynkiniano tal que 1B ∈ H para cualquierB ∈ S .

La función (s, t, x) 7Ï Qs,tf (x) es continua para cualquier f ∈ C0 (S,R) que esté dada. Se demostróya que si B ⊂ S es abierto, entonces 1B es el límite puntual de una sucesión creciente de funcionescontinuas. En consecuencia, (s, t, x) 7Ï Qs,t1B(x) es continua para cada B ⊂ S abierto. Esto se puedeextender a cualquier boreliano B imitando la prueba del párrado previo. Así, (s, t, x) 7Ï Qs,t1B(x) escontinua para cada B ∈ S . Luego, el método usual aplica y (s, t, x) 7Ï Qs,tf (x) es continua para cadaf ∈ Ac (S,R) . En particular, se concluye que ω 7Ï QP(ω),T(ω)f (XP(ω)) es (FP ,B (R))-medible.

Finalmente, considera B ∈ S y f = 1B, se concluye que la función

QP,Tf (XP) = p(P,XP , T, B)

es (FP ,B (R))-medible. También se sabe que∫A∩T<∞

f (XT )dP =∫

A∩T<∞

QP,Tf (XP)dP,

pero ∫A∩T<∞

f (XT )dP =∫

A∩T<∞

1B(XT )dP = P (XT ∈ B,T <∞, A)

e ∫A∩T<∞

(QP,T1B)(XT )dP =∫

A∩T<∞

p(P,XP , T, B)dP;

se concluye que cada A ∈ FP

P (XT ∈ B,T <∞, A) =∫A

1T<∞p(P,XP , T, B)dP.

La definición de probabilidad condicional conduce a la igualdad (P−c.d.)

P (XT ∈ B,T <∞) = 1T<∞p(P,XP , T, B)

que era lo afirmado.

83

Capítulo 2. Procesos estocásticos.

84

Capítulo 3

• Movimiento browniano.

El movimiento browniano tiene una rica historia la cual será mencionada brevemente a continua-ción. En el año de 1785, el botánico neerlandés Jan Ingenhusz en uno de sus trabajos describe uncomportamiento errático que tienen partículas de carbón suspendidas en alcohol. Sin embargo, él noestudia este comportamiento y fue Robert Brown (botánico escocés) en 1827 quién también nota un mo-vimiento impredecible al colocar partículas de polen sobre agua. Brown estudia este comportamientosin llegar a ninguna conclusión de qué ocasionaba el movimiento.

No fue sino hasta mayo de 1905, cuando Albert Einstein publica en la revista Annalen der Physik(Anales de físca) su legendario artículo “Über die von der molekularkinetischen Theorie der Wärmegeforderte Bewegung von in ruhenden Flüssigkeiten suspendierten Teilchen” (Sobre el movimien-to de partículas diminutas suspendidas sobre un líquido estacionario exigido por la teoría cinético-molecular del calor) en el cual da un contexto matemático-téorico, utilizando un modelo probabilístico,de este movimiento errático.

El artículo de Einstein fue publicado antes de la axiomatización de la teoría de la probabilidad. En elaño de 1933, en su monografía titulada Los fundamentos de la teoría de la probabilidad el matemáticoRuso Andréi Nikoláyevich Kolmogórov da el fundamento teórico actual de la teoría de la probabilidad.Tras el desarrollo de la teoría de la probabilidad fue Norbert Wiener quien da la definición actualde movimiento browniano como un proceso estocástico. A continuación exponenos una definiciónequivalente a la dada por Wiener.

§ 3.1. Existencia del movimiento browniano en R.

( 3.1.1 ) Un proceso estocástico B definido sobre (Ω,F ,P) a valores en R y con conjunto de índices T = [0,∞)es llamado un movimiento browniano que inicia en 0 si satisface las siguientes condiciones

1. P (B0 = 0) = 1;

2. para cada 0 ≤ s ≤ t se cumple que Bt − Bs ∼ Norm (0; t − s) ;

3. posee incrementos independientes (ve (2.7.1));

4. casi toda trayectoria es continua; esto es, P(ω ∈ Ω|fBω es continua

)= 1.

Observación: recuerda que N ∼ Norm(µ; σ2) Ñ E

(|N|k

)< ∞ para cada k ∈ N; en particular el

movimiento browniano es un proceso de tipo L2, ve (2.2.1). Luego, una manera de asegurar su existencia

85

Capítulo 3. Movimiento browniano.

es apelando a (2.2.7). Se debe determinar la matriz de covarianzas. Observa que para s < t,

Cov (Bt ;Bs) = E (BsBt) = E (Bs(Bt − Bs + Bs))= E (Bs)E (Bt − Bs) + E

(B2s)

= Var (Bs) = s.

( 3.1.2 ) Existe un proceso estocástico el cual es movimiento browniano.

Se debe proponer K : [0,∞) × [0,∞) → R por K(s, t) = mıns, t. Es obvio que K es simétrica porlo que se demuestra que está definida semipositivamente.

Se procede por inducción en el número de tiempos. Es obvio que si t ∈ [0,∞) y x ∈ R, entoncesK(t, t)x2 = tx2 ≥ 0 para cualquier x ∈ R; en consecuencia se supone que para cualesquier k ≤ ntiempos 0 < t1 < . . . < tk la matriz (K(ti, tj ))i,j=1,...,k está definida semipositivamente. Se consideranentonces 0 < t1 < . . . < tn+1 tiempos diferentes y sea K(k)

(t1,...,tk) = (K(ti, tj ))i,j=1,...,k para k = 1, . . . , n.Entonces,

K(k)(t1,...,tk) =

t1 t1 t1 . . . t1t1 t2 t2 . . . t2t1 t2 t3 . . . t3...

......

. . ....

t1 t2 t3 . . . tk

;

nota que K(k)(t1,...,tk) es la submatriz principal de orden k de K(n+1)

(t1,...,tn+1). Una caracterización para queK(n+1)

(t1,...,tn+1) esté definida semipositivamente es que los determinante de sus submatrices principales seantodos no negativos. Por inducción, bastará ver que detK(n+1)

(t1,...,tn+1) ≥ 0. Por propiedades del determinante

detK(n+1)(t1,...,tn+1) = det

t1 t1 t1 . . . t1t1 t2 t2 . . . t2t1 t2 t3 . . . t3...

......

. . ....

t1 t2 t3 . . . tn+1

= det

t1 t1 t1 . . . t10 t2 − t1 t2 − t1 . . . t2 − t10 t2 − t1 t3 − t1 . . . t3 − t1...

......

. . ....

0 t2 − t1 t3 − t1 . . . tn+1 − t1

;

de dondedetK(n+1)

(t1,...,tn+1) = t1 detK(n)(t2−t1,...,tn+1−t1)

y esta cantidad es no negativa por inducción. Luego, todos los determinantes principales de K(n+1)(t1,...,tn+1)

son no negativos, en consecuencia, K está definida semipositivamente.Según (2.2.7) existe un proceso gaussiano (Bt)t≥0 con K su función de covarianzas. Por construcción,

E (Bt) = 0 para cada t ≥ 0; además, Var (B0) = K(0, 0) = 0, en consecuencia B0 = 0 P−c.d.. Porconstrucción, para 0 ≤ t1 < . . . < tn el vector (Bt1 , . . . , Btn ) es gaussiano; en virtud de (1.2.5), parademostrar que el proceso tiene incrementos independientes bastará demostrar que posee incrementosincorrelacionados. Pero, si 0 ≤ s1 ≤ s2 ≤ s3 ≤ s4 son cualesquiera, entonces

E ((Bs2 − Bs1 )(Bs4 − Bs3 )) = Cov (Bs2 ;Bs4 )− Cov (Bs2 ;Bs3 )− Cov (Bs1 ;Bs4 ) + Cov (Bs1 ;Bs3 )= s2 − s2 − s1 + s1 = 0,

por lo que el proceso tiene incrementos incorrelacionados y, así, incrementos independientes. Restademostrar que el proceso tienen incrementos estacionarios y que casi todas las trayectorias son conti-nuas. La estacionaridad se demuestra a continuación. Que Bt+h−Bt es gaussiano se sigue de que puedeescribirse Bt+h−Bt = T(Bt+h, Bt) para T lineal de R2 a R (ve (1.2.5)). Entonces, Bt+h−Bt ∼ Norm

(µ; σ2)

86

3.2. Algunas propiedades básicas y ejemplos.

para algunos parámetros µ y σ. Nota que E (Bt+h − Bt) = 0, por lo que µ = 0. Para ver que σ2 = h secalcula la varianza, entonces

Var (Bt+h − Bt) = E((Bt+h − Bt)2

)= K(t + h, t + h)− 2K(t, t + h) +K(t, t) = h;

de aquí que σ2 = h. Finalmente, para demostrar que las trayectorias son continuas se utilizará (2.4.8).Sea a > 0 y se considera la restricción (Bt)t∈[0,a], entonces Bt+h − Bt ∼ Norm (0;h) , por lo que

E (|Bt+h − Bt |r) = EÅ∣∣∣∣Bt+h − Bt√

h

∣∣∣∣rãh r2 = ch r

2 ,

en donde c = E (|Z|r) para Z ∼ Norm (0; 1) . Para r = 3 se concluye de (2.4.8) que para casi toda ω latrayectoria fBω es continua sobre [0, a]. Sea ahora An el conjunto de los ω para los cuales fBω es continua

sobre [0, n], entonces, para cada n ∈ N, P (An) = 1; por lo tanto, P( ∞⋂n=1

An

)= 1 y si ω ∈

∞⋂n=1

An, entonces

fBω es continua sobre [0,∞).

( 3.1.3 ) En virtud de (2.4.11) existe una versión del movimiento browniano la cual es separable. Asimismo, laσ-álgebra del espacio sobre el cual está definido puede volverse P-completa (ve (2.4.13)); al proceso procesoresultante se le llamará el proceso wieneriano.

§ 3.2. Algunas propiedades básicas y ejemplos.En esta sección se considerará un proceso wieneriano y será denotado por (Bt)t≥0.

( 3.2.1 ) Para t0 > 0 fijo el procesoÄBtät≥0

definido por Bt = Bt+t0 − Bt0 es movimiento browniano.

Solo se deben verificar los axiomas de la definición (3.1.1). El único axioma que no es obvio es el deincrementos independientes. Sean t1 ≤ t2 ≤ t3 ≤ t4, entonces

Bt4 − Bt3 = Bt4+t0 − Bt0 −(Bt3+t0 − Bt0

)= Bt4+t0 − Bt3+t0

y análogamente Bt2 − Bt1 = Bt2+t0 − Bt1+t0 . Pero, (t0 + t1, t2 + t0) ∩ (t3 + t0, t4 + t0) = ∅ se concluye queÄBtät≥0

es movimiento browniano.

( 3.2.2 ) Para cualquier λ > 0 el procesoÄBtät≥0

dada por Bt = Bλt√λ

es movimiento browniano.

A diferencia de la propiedad previa, aquí las propiedades no obvias son incrementos independientesy normales. Sin embargo, la demostración para incrementos independientes es idéntica a la del casoprevio, por ende se, omitirá. Se verá unicamente que el proceso posee incrementos normales. Nota que

Bt − Bs = Bλt√λ− Bλs√

λ∼ 1√

λNorm (0; λ(t − s)) .

Con notar que N ∼ Norm(µ; σ2) Ñ λN ∼ Norm

(µ; (λσ )2

)se ve que el proceso

ÄBtät≥0

posee incre-mentos independientes.

( 3.2.3 ) El proceso wieneriano es un proceso markoviano, el cual tiene una probabilidad de transición dada por

p(s, x, t, B) = 1√2π(t − s)

∫B

expÇ− (z − x)2

2(t − s)

ådz;

en consecuencia, es un proceso con incrementos estacionarios (ve (2.7.2).

87

Capítulo 3. Movimiento browniano.

Se demostrará que p es probabilidad de transición del movimiento browniano, que p satisface (2.6.10)y (2.7.7). Entonces, se quiere probar que

p(s, x, t, B) = P (Bt ∈ B|Xs = x) ;

es decir, para cualquier A,B ∈ B (R) se cumple que

P (Xt ∈ B,Xs ∈ A) =∫A

p(s, x, t, B)dFs(x),

en donde Fs(x) = P (Bs ≤ x) , la distribución de Bs. Por ende,∫A

p(s, x, t, B)dFs(x) =∫A

p(s, x, t, B)dFs(x) =∫A

1√2π(t − s)

∫B

expÇ− (z − x)2

2(t − s)

ådzdFs(x).

Se aplica el cambio de variable y = z − x, obteniendo que∫A

p(s, x, t, B)dFs(x) = 1√2π(t − s)

∫A

∫B−x

expÇ− y2

2(t − s)

ådydFs(x).

Usando ahora que Bt − Bs ∼ Norm (0; t − s) se ve que∫A

p(s, x, t, B)dFs(x) =∫A

P (Bt − Bs ∈ B− x)dFs(x).

En virtud de la independencia de Bt − Bs con Bs se puede poner∫A

p(s, x, t, B)dFs(x) =∫A

P (Bt − Bs ∈ B− x|Bs = x)dFs(x)

=∫A

P (Bt ∈ B|Bs = x)dFs(x).

Según (2.6.13) se concluye que ∫A

p(s, x, t, B)dFs(x) = P (Bt ∈ B,Bs ∈ A) ,

lo que deriva en que p es la probabilidad de transición del proceso.Que p satisface (2.6.10) y (2.7.7) es inmediato de la definición de p. La importancia de p es que posee una densidad.

( 3.2.4 ) A la función p : [0,∞)× R→ R dada por

p(t, x) = 1√2πt

e− x22t

se le llama densidad de transición del proceso wieneriano.

( 3.2.5 ) Si a > 0, entonces PÅ

max0≤s≤t

Bs > aã

= 2P (Bt > a) ; el «principio de reflexión» del movimiento

browniano.

88

3.2. Algunas propiedades básicas y ejemplos.

Este constituye un primer ejemplo en donde la propiedad de markovianidad fuerte da una demos-tración analítica a una cuestión geométrica. Para entender la demostración se hace una argumenta-ción geométrica. Supón que T es el primer instante en donde el movimiento browniano toca la recta(x, y)|y = a. Si una trayectoria del movimiento satisface que max

0≤s≤tfBω (s) > a y que fBω (t) > a, entonces

al reflejar horizontalmente en el instante T se obtiene una trayectoria Tf tal que max 0 ≤ s ≤ tTf (s) > ay Tf (t) < a. En consecuencia, hay una biyección entre los conjuntosß

max0≤s≤t

Bs > a,Bt > a™

y ßmax0≤s≤t

Bs > a,Bt < a™

;

por ende, parece razonable esperar que tengan la misma medida; esto es,

max0≤s≤t

Bs > a,Bt > aã

= PÅ

max0≤s≤t

Bs > a,Bt < aã.

La suma de estas dos probabilidades es PÅ

max0≤s≤t

Bs > aã

pues, por continuidad de las trayectorias,P (Bt = a) = 0. Por lo tanto,

max0≤s≤t

Bs > aã

= 2PÅ

max0≤s≤t

Bs > a,Bt > aã

= 2P (Bt > a) .

Para formalizar los detalles en la prueba previa solo hay que demostrar que

max0≤s≤t

Bs > a,Bt > aã

= PÅ

max0≤s≤t

Bs > a,Bt < aã.

Se considera el espacio (S,S ) =(R,B

(R))

el cual es un espacio métrico compacto1. El proceso estágenerado por ua probabilidad inicial P0 (la cual está concentrada en 0) y una probabilidad de transiciónmarkoviana

p(u, x, v, B) = 1√2π(v − u)

∫B

expÇ− (z − x)2

2(v − u)

ådz.

Define

P(ω) =

ınfr≥0

Br(ω) > a si ınfr≥0

Br(ω) > a existe;∞ si ınf

r≥0Br(ω) > a no existe;

Define tambiénFBr+ =

⋂s>r

FBs ;

se afirma que P es un tiempo de paro respecto a la filtración(FBr+)r≥0 . Para verificar esto debe ser

demostrado que si s > r entonces P ≤ r ∈ FBs . Nota que

P ≤ r =⋃q<rq∈Q

Bq(ω) ≥ a ∈ FBr ⊂ FB

s .

1Aunque el lector pueda que conozca los “puntos infinitos” de R es realmente recomendable que lea una posible construcciónteórica de R. La mejor exposición (dentro de la bibliografía) puede encontrarla en [8].

89

Capítulo 3. Movimiento browniano.

Así quedó demostrado que P ≤ r ∈ FBr+ para todo r ≥ 0. Ahora define T = t1[0,t)(P) +∞1[t,∞](P). Es

claro que T es FP medible.Se demostrará ahora que F (u, x, v) = Qu,vf (x) =

∫R

f (y)p(u, x, v, dy) es continua sobre 0 ≤ u ≤ v <

∞ y x ∈ R. Del hecho que p posea una densidad continua se deriva la continuidad de f ; esta es unapropiedad básica de la integral de Lebesgue.

Se tienen las condiciones para utilizar el teorema (2.9.3). Sea C = (a,∞),

P (BT ∈ C,T <∞|FP) = 1T<∞p(P,BP , T,C).

Observa que si T <∞ entonces P < t y, por continuidad, BP = a, con esto en mente

1T<∞p(P,BP , T,C) = 1T<∞p(P, a, t, C)

y, por definición,

p(P, a, t, C) = 1√2π(t − P)

∫C−a

expÇ− z2

2(t − P)

ådz

= 1√2π(t − P)

∞∫0

expÇ− z2

2(t − P)

ådz = 1

2 .

Por lo tanto,P (BT ∈ C,T <∞|FP) = 1

21T<∞.

Integrando sobre Ω,P (BT ∈ C,T <∞) = 1

2P (T <∞) ,pero

BT ∈ C,T <∞ = Bt ∈ C,P < t = Bt > a,P < t,así pues

P (Bt > a,P < t) = 12P (T <∞) .

Con considerar C = (−∞, a) se obtiene que

P (Bt < a,P < t) = 12P (T <∞) .

Por lo tanto,P (Bt < a,P < t) = P (Bt > a,P < t) = P (Bt > a) .

Es claro que P (Bt = a,P < t) = 0. Ahora, observa que

max0≤s≤t

Bs > aã

= PÅ

max0≤s≤t

Bs > a,Bt > aã

+ PÅ

max0≤s≤t

Bs > a,Bt < aã

+ PÅ

max0≤s≤t

Bs > a,Bt = aã

= PÅ

max0≤s≤t

Bs > a,Bt > aã

+ PÅ

max0≤s≤t

Bs > a,Bt < aã

= P (P < t,Bt > a) + P (P < t,Bt < a) = 2P (Bt > a) ,

que concluye lo afirmado.

90

3.2. Algunas propiedades básicas y ejemplos.

( 3.2.6 ) Casi toda trayectoria es no acotada sobre [0,∞); en consecuencia, para estas trayectorias y para cadaM > 0 existe un cero de la trayectoria en [M,∞).

Basta ver que

supt≥0

Bt =∞å

= PÅ

ınft≥0

Bt = −∞ã

= 1;

en efecto, si esto es cierto, la continuidad de casi todas las trayectorias muestra que para casi toda ω fBωestá acotada sobre [0,M], por lo que no es acotada sobre [M,∞). De que no sea acotada sobre [M,∞)muestra que para casi toda ω existen r, s ∈ [M,∞) tales que fBω (r) = 1 y fBω (s) = −1, la continuidad defBω muestra la existencia del cero.

Ahora bien, si a > 0 y t ≥ 0

sups≥0

Bs > aå≥ P

Åmax0≤s≤t

Bs > 1ã

= 2P (Bt > a) (el principio de reflexión)

= 2PÇ

BtVar (Bt)

√t> a

Var (Bt)√t

å= 2P

ÇNorm (0; 1) > a

Var (Bt)√t

å= 2ñ1−Φ

Ça

Var (Bt)√t

åô,

en donde Φ es la función de distribución de una variable aleatoria normal estándar. Nota que si t →∞entonces

ΦÇ

aVar (Bt)

√t

å→ Φ(0) = 1

2 ,

por ende,

sups≥0

Bs > aå

= 1.

Luego, considerando An =®

sups≥0

Bs > n´

se ve que P (An) = 1, por lo que si A =∞⋂n=1

An, P (A) = 1, que

demuestra una de las dos igualdades requeridas. La otra igualdad es análoga.

( 3.2.7 ) Casi toda trayectoria posee un cero en [0, h]; en donde h > 0 es arbitrario.

En efecto, nota que si a > 0 entonces

max0≤s≤h

Bs ≥ 0ã≥ P

Åmax0≤s≤h

Bs > aã

= 2ñ1−Φ

Ça

Var (Bt)√t

åô−−Ïa→0

1.

Por ende, PÅ

max0≤s≤h

Bs ≥ 0ã

= 1. Análogamente PÅ

mın0≤s≤h

Bs ≤ 0ã

= 1. Finalmente, nota que

P (∃t ∈ [0, h], Bt = 0) = PÅ

max0≤s≤h

Bs ≥ 0, mın0≤s≤h

Bs ≤ 0ã

= 1,

que concluye lo afirmado.

( 3.2.8 ) Casi toda trayectoria no es diferenciable en ninguna parte; es decir, para casi toda trayectoria no existeun punto en donde exista su derivada.

91

Capítulo 3. Movimiento browniano.

Aquí se sigue una prueba debida a Dvoretski, Erdös y Kukatani. Sea

D =ω ∈ Ω

∣∣fBω es diferenciable en algún punto,

se verá que D está contenido en un conjunto de probabilidad cero (y, por ende, P (D) = 0 si el espacioes P-completo; por ejemplo, en el caso del proceso wieneriano). Sea k > 0 y define

Ak =®ω ∈ Ω

∣∣∣ lım suph↓0

|Bt+h(ω)− Bt(ω)|h < k para al menos un t ∈ [0, 1)

´,

si P (Ak) = 0 para cada k > 0 entonces P

( ∞⋂n=1

A 1n

)= 0 y así

P(ω ∈ Ω

∣∣fBω es diferenciable en algún t ∈ [0, 1))

= 0.

Luego, será claro que si se denota por

Dn =ω ∈ Ω

∣∣fBω es diferenciable en algún t ∈ [n, n + 1)

entonces P (Dn) = 0 para todo n ∈ Z. Así,

P (D) = P

(⋃n∈Z

Dn

)=∑n∈Z

P (Dn) = 0.

La demostración del teorema queda subordianada a la demostración de que P (Ak) = 0.Sea ω ∈ Ak, existe un t ∈ [0, 1) tal que

lım suph↓0

|Bt+h(ω)− Bt(ω)|h < k.

Equivalentemente

ınfδ>0

sup0<h<δ

|Bt+h(ω)− Bt(ω)|h < k.

Así, existe un δk(ω) tal que

sup0<h<δ(ω)

|Bt+h(ω)− Bt(ω)|h < k.

Nota ahora que para m ∈ N existe un jm ∈ 1, . . . ,m tal que t ∈ï jm − 1

m , jmm

ã. Se afirma que para

todo m ∈ N suficientemente grande se cumple que

1.∣∣∣∣BÅ jm + 1

m ,ωã− BÅ jmm,ω

ã∣∣∣∣ ≤ 3km ;

2.∣∣∣∣BÅ jm + 2

m ,ωã− BÅ jm + 1

m ,ωã∣∣∣∣ ≤ 5k

m ;

3.∣∣∣∣BÅ jm + 3

m ,ωã− BÅ jm + 2

m ,ωã∣∣∣∣ ≤ 7k

m ;

92

3.2. Algunas propiedades básicas y ejemplos.

Se ve la demostración de 1.; las otras dos resultarán evidentes entonces. Sea m tal que 3m < δk(ω),∣∣∣∣BÅ jm + 1

m ,ωã− BÅ jmm,ω

ã∣∣∣∣ ≤ ∣∣∣∣BÅ jm + 1m ,ω

ã− B (t, ω)

∣∣∣∣+ ∣∣∣∣BÅ jmm,ωã− B (t, ω)

∣∣∣∣=

∣∣∣∣BÅ jm + 1m ,ω

ã− B (t, ω)

∣∣∣∣Å jm + 1m − t

ã Å jm + 1m − t

ã+

∣∣∣∣BÅ jmm,ωã− B (t, ω)

∣∣∣∣Å jmm − t

ã Å jmm − t

ã,

nota quejm + 1m − t ≤ jm + 1

m − jm − 1m = 2

m < δk(ω)

y quejmm − t ≤

jmm −

jm − 1m = 1

m < δk(ω),

por ende, ∣∣∣∣BÅ jm + 1m ,ω

ã− BÅ jmm,ω

ã∣∣∣∣ ≤ 2km + k

m = 3km ;

las desigualdades 2. y 3. son análogas.Ahora define para j = 1, . . . ,m e i = 1, 2, 3,

Am,j,i = ω ∈ Ω| la desigualdad i. es satisfecha por j

De la independencia de incrementos se ve que

P(Am,j

)= P

(Am,j,1

)P(Am,j,2

)P(Am,j,3

).

Por otro lado

P (|Bs+h − Bs| < a) = PÅ |Bs+h − Bs|√

h

ã< a√

h=

a√h∫

− a√h

1√2π

e− x22 dx ≤ 2a√

2hπ.

Consecuentemente

P(Am,j

)≤

23Å3km

ãÅ5km

ãÅ7km

ãÇ…2πm

å3 = cm− 32 , c > 0 es constante.

Sea A(m) =∞⋃j=1Am,j entonces

P (A(m)) ≤m∑j=1

P(Am,j

)≤

m∑j=1

cm− 32 = cm− 1

2 .

Entonces∞∑m=1

P(A(m4)

)≤ c

∞∑n=1

1n2 <∞

93

Capítulo 3. Movimiento browniano.

y, por el lema de Borel-Cantelli,

lım supm→∞

A(m4)ã

= 0.

PeroAk ⊂ lım inf

m→∞A(m) ⊂ lım inf

m→∞A(m4) ⊂ lım sup

m→∞A(m4),

lo cual concluye la prueba.

( 3.2.9 ) Para cada h > 0, la variación2 de casi toda trayectoria sobre [0, h] es infinita.

Pues si fBω posee variació finita sobre [0, h] entonces es diferenciable en t ∈ [0, h] para casi todo t.Esto viola (3.2.8).

( 3.2.10 ) Para cada h > 0, casi todas las trayectorias no son rectificables3 sobre [0, h].

Pues una trayectoria rectificable es de variación finita, entonces es consecuencia de (3.2.9).

( 3.2.11 ) Para casi toda trayectoria no existe un subintervalo I ⊂ [0,∞), con interior no vacío, en el que seamonótona.

Pues una trayectoria monótona es diferenciable en casi todo punto, lo que viola a (3.2.8).

( 3.2.12 ) Sean t ≥ 0 y τ > 0 y πn =Ät(n)iäi=0,...,m(n)

una partición de [t, t + τ] tales que

‖πn‖ = max1≤i≤m(n)

Ät(n)i − t

(n)i−1

ä→ 0.

Entonces, Sn =m(n)∑k=1

îBÄt(n)kä− BÄt(n)k−1

äó2 L2−Ï τ y, en consecuencia, también en probabilidad.

Nota que

τ =m(n)∑k=1

Ät(n)k − t

(n)k−1

ä,

por lo tanto,

Sn − τ =m(n)∑k=1

ï¶BÄt(n)kä− BÄt(n)k−1

ä©2−Ät(n)k − t

(n)k−1

äò=

m(n)∑k=1

ï¶BÄt(n)kä− BÄt(n)k−1

ä©2− EŶBÄt(n)kä−Ät(n)k−1

ä©2ãò

;

derivado de la independencia de incrementos se ve que cada sumando es independiente de los demásy posee media cero. Entonces

E((Sn − τ)2

)=

m(n)∑k=1

EÇï¶

BÄt(n)kä− BÄt(n)k−1

ä©2−Ät(n)k − t

(n)k−1

äò2å;

2La variación de una función puede ser estudiada en [1], capitulo 6.3Curvas rectificables puede ser estudiada en [1], capitulo 6.

94

3.2. Algunas propiedades básicas y ejemplos.

observa que¶BÄt(n)kä− BÄt(n)k−1

ä©2=

ÑBÄt(n)kä− BÄt(n)k−1

ä»t(n)k − t

(n)k−1

é2 Ät(n)k − t

(n)k−1

ä∼Ät(n)k − t

(n)k−1

äNorm (0; 1) .

Por lo tanto, en la expresión anterior se obtiene que

E((Sn − τ)2

)=

m(n)∑k=1

Ät(n)k − t

(n)k−1

ä2EÄ[

Norm (0; 1)]2 − 1

ä≤ ‖πn‖ τE

Ä[Norm (0; 1)

]2 − 1ä−−−Ïn→∞

0.

Por lo tanto, Sn − τL2−Ï 0 y, al ser Sn de varianza finita, se ve que Sn

L2−Ï τ.

( 3.2.13 ) Sean t ≥ 0 y τ > 0 y πn =Ät(n)iäi=0,...,m(n)

una partición de [t, t + τ] tales que

∞∑n=1‖πn‖ =

∞∑n=1

max1≤i≤m(n)

Ät(n)i − t

(n)i−1

ä<∞.

Entonces, Sn =m(n)∑k=1

îBÄt(n)kä− BÄt(n)k−1

äó2 P−c.d.−−−Ï τ y, en consecuencia, también en probabilidad.

Primeramente nota que dado ε > 0,∞∑n=1

P (|Sn − τ| > ε) ≤∞∑n=1

E(|Sn − τ|2

)ε2 ,

en la demostración de (3.2.12) se vió que

E(|Sn − τ|2

)≤ τE

Ä[Norm (0; 1)

]2 − 1ä‖πn‖ ,

por lo que, usando la hipótesis,∞∑n=1

P (|Sn − τ| > ε) <∞.

El lema de Borel-Cantelli muestra que

P (|Sn − τ| > ε, i.o.) = 0;

para cada n ∈ N existe un An ∈ F con P (An) = 0 y tal que si ω ∈ An entonces existe un N(ω) ∈ N tal

que m ≥ N(ω)Ñ |Sm(ω)−τ| < 1n . Sea A =

∞⋃n=1

An, es claro que P (A) = 0 y que ω ∈ AÑ lımn→∞

Sn(ω) = τ.

( 3.2.14 ) Sea p la densidad de transición del proceso wieneriano, entonces

P (Bt1 ∈ A1, . . . , Btn ∈ An) =∫A1

· · ·∫An

p(tn − tn−1, xn − xn−1) · . . . · p(t1, x1)dxn · · ·dx1.

95

Capítulo 3. Movimiento browniano.

Sea q(s, x, t, B) la probabilidad de transición, entonces

q(0, 0, t, B) =∫B

p(t, x)dx,

o, equivalentemente, q(0, 0, t, dx) = p(t, x)dx (esta expresión es notación solamente, no posee significadoreal). En virtud de (2.6.13) se ve que

P (Bt1 ∈ A1, . . . , Btn ∈ An) =∫A1

· · ·∫An

q(tn−1, xn−1, tn, dxn) · . . . · q(0, 0, t1, dx1).

De la definición de q se ve que q(s, x, t, B) = q(0, 0, t − s, B− x), así que

q(tk, xk, tk+1, dxk+1) = p(tk+1 − tk, xk+1 − xk)dxk+1,

sustituyendo se encuentra la fórmula afirmada.

( 3.2.15 ) Si 0 ≤ t1 < t2 < t3, condicionado a que Bt1 = a y Bt3 = b se tiene que

Bt2 ∼ NormÅa + b − a

t3 − t1t2 − t1;

(t3 − t2)(t2 − t1)t3 − t1

ã;

el «puente browniano».

Se resuelve primero el caso t1 = 0, t3 = 1 y A = B = 0. Por facilidadd de notación t2 = t ∈ (0, 1). Ladensidad conjunta de (Bt , B1) es

f (x, y) = p(1− t, y − x)p(t, x) = 12π√t(1− t)

expÇ−1

2

ñx2

t + (y − x)21− t

ôå.

La densidad condicional de Bt dado B0 = B1 = 0 es (observa que la condicipón B0 = 0 puede serdesechada por ser P (B0 = 0) = 1)

ft(x|B1 = 0) = f (x, 0)f1(0) , ve (1.3.11)

pero f1(0) = p(1, 0) = 1√2π

y así

ft(x|B1 = 0) = 1√2πt(1− t)

exp®−1

2

ñx2

t(1− t)

ô´.

Se ve entonces que Bt |B1 = 0 ∼ Norm (0; t(1− t)) .El caso general es más difícil. Se imita el caso previo, entonces, la densidad conjunta de (Bt1 , Bt2 , Bt3 )

es

ft1,t2,t3 (x1, x2, x3) =Å 1√

ã3 exp®−1

2

ñ(x3 − x2)2t3 − t2

+ (x2 − x1)2t2 − t1

+ x21t1

ô´√

(t3 − t2)(t2 − t1)t1.

Asimismo, la densidad condicional de Bt2 dado que Bt1 = a y Bt3 = b es

ft2 (x|Bt1 = a,Bt3 = b) = ft1,t2,t3 (a, x, b)ft1,t3 (a, b) ,

96

3.2. Algunas propiedades básicas y ejemplos.

en donde ft1,t3 (x, y) = p(t3 − t1, y − x)p(t1, x). Si realiza las sustituciones y busca que la expresión tomela forma de una densidad normal (lo cual puede tomar un par de páginas de cálculos) encontrará que

ft2 (x|Bt1 = a,Bt3 = b) = 1√2πσ2

expÇ− (x − µ)2

2σ2

å,

con µ = a + b − at3 − t1

(t2 − t1) y σ2 = (t3 − t2)(t2 − t1)t3 − t1

.

( 3.2.16 ) Se define Tx = ınft ≥ 0|Bt = x, a Tx se le llama el tiempo de entrada del proceso wieneriano alestado x, ve (2.5.4), el cual demuestra que Tx es en efecto un tiempo de paro respecto a la filtración natural.

( 3.2.17 ) Para a ∈ R dado, el tiempo de entrada a a es absolutamente continuo respecto de la integral deLebesgue y su densidad viene dada por

fTa (t) = |a|√2π

t− 32 e− a2

2t ;

en particular, Ta tiene distribución gamma inversa de parámetro de forma12 y parámetro de escala

a2

2 ; además,E (Ta) =∞.

En virtud del principio de reflexión

max0≤s≤t

Bs ≥ aã

= 2P (Bt ≥ a) = 2∞∫a

1√2πt

e− x22t dx.

Obviamente Ta ≤ t =ß

max0≤s≤t

Bs ≥ a™, por lo que

P (Ta ≤ t) =…

∞∫a

1√te− x2

2t dx =…

∞∫a√t

e− x22 dx.

Derivando se encuentra que

fTa (t) =…

2π e

− a22tat− 3

2

2 = a√2π

t− 32 e− a2

2t .

Si a < 0 se considera el proceso (−Bt)t≥0 y el tiempo de parto T−a.La esperanza de Ta se calcula para a > 0 y se utiliza una aproximación. Nota que

E (Ta) =∞∫

0

tfTa (t)dt = a√2π

∞∫0

t− 12 e− a2

2t dt.

Como, cuando t →∞ se cumple que e− a22t ↑ 1 se ve que para todo t grande

t− 12 e− a2

2t > 12√t.

Luego, existe un N ∈ N tal que

E (Ta) ≥a√2π

∞∫0

12√t

=∞,

por lo que E (Ta) =∞.

97

Capítulo 3. Movimiento browniano.

( 3.2.18 ) Sean x ∈ R \ 0, y Bt = Bt + x, el «movimiento browniano que empieza en x»; la probabilidad dequeÄBtät≥0

tenga un cero en [0, a] es

PÄ∃t ∈ [0, a], Bt = 0

ä= |x|√

a∫0

u− 32 e− x2

2u du.

Se supone que x < 0, entonces

PÄ∃t ∈ [0, a], Bt = 0

ä= P

Åmax0≤s≤a

Bs ≥ 0ã

= PÅ

max0≤s≤a

Bs + x ≥ 0ã

= PÅ

max0≤s≤a

Bs ≥ −xã

= P (T−x ≤ a)

=a∫

0

fT−x (t)dt = −x√2π

a∫0

u− 32 e− x2

2u du,

y como |x| = −x la prueba queda concluida.

( 3.2.19 ) Para cualquier función g : R→ R que sea medible se cumple que para cualesquier 0 ≤ s ≤ t

E (|g(Bt+h − Bt)|) <∞Ñ E(g(Bt+h − Bt)

∣∣FBs)

= E (g(Bt+h − Bt)) .

En particular, el proceso wieneriano es martingala, el proceso(B2t − t

)t≥0 es martingala y el proceso

(euBt− u2t

2

)t≥0

es martingala.

Es inmediato de (1.3.15) y de que B posee incrementos independientes.Para ver que el proceso wieneriano es martingala nota que

E(Bt+s

∣∣FBt)

= E(Bt+s − Bt

∣∣FBt)

+ Bt = E (Bt+s − Bt) + Bt = Bt .

Para el otro proceso

E(B2t+s − (t + s)

∣∣FBt)

= E((Bt+s − Bt + Bt)2

∣∣FBt)− (t + s)

= E((Bt+s − Bt)2

)+ B2

t − (t + s)= s + B2

t − (t + s) = B2t − t,

lo que demuestra la propiedad de martingala. Para el último proceso nota que

E(euBt

)= e u2t

2 .

Luego,E(euBt− u2t

2

)= e− u2t

2 E(euBt

)= 1,

por lo que el proceso es integrable. Ahora, usando incrementos independientes es claro que

E(euBt+s

∣∣FBt)

= euBte u2s2 ,

al multiplicar la igualdad previa por e− u2(t+s)2 se obtiene que

EÅeuBt+s−

u2(t+s)2∣∣FB

t

ã= euBt− u2t

2 ,

que es la propiedad de martingala.

98

3.3. Existencia del movimiento browniano en Rn.

§ 3.3. Existencia del movimiento browniano en Rn.El movimiento browniano en varias dimensiones se obtiene de una generalización natural. Sería

agradable que sea construido de tal forma que si ((B1(t), . . . , Bm(t)))t≥0 es movimiento browniano, en-tonces cada (Bi(t))t≥0 sea movimiento browniano. Para evitar dificultades se definirá directamente deeste modo.

( 3.3.1 ) Sea Bi(t) un proceso wieneriano para i = 1, . . . ,m; se supone que si 1 ≤ i < j ≤ m, entonces Bi esindependiente de Bj . Al proceso

Wt = (B1(t), . . . , Bm(t))t≥0

será llamado proceso wieneriano en m dimensiones («m-dimensional»).

( 3.3.2 ) Todo proceso wieneriano m-dimensional es markoviano.

Pues si A1, . . . , Am ∈ B (R) entonces, para 0 ≤ s ≤ t,

P(Wt ∈ A1 × . . .× Am

∣∣FWs)

=m∏k=1

P(Bk(t) ∈ Ak

∣∣FWs)

=m∏k=1

P(Bk(t) ∈ Ak

∣∣FBks)

=m∏k=1

P(Bk(t) ∈ Ak

∣∣Bk(s)) =m∏k=1

P(Bk(t) ∈ Ak

∣∣Ws)

= P(Wt ∈ A1 × . . .× Am

∣∣Ws);

como esto vale para los rectángulos vale para todo A ∈ B (Rm) .

( 3.3.3 ) Todo proceso wieneriano m-dimensional tiene una probabilidad de transición markoviana, la cual estádada por

p(s, x, t, B) =∫B

1[2π(t − s)

]m2

exp®−‖y − x‖

2

2(t − s)

´dy.

Repita la demostración de (3.2.3), utilice (1.2.4).

99

Capítulo 3. Movimiento browniano.

100

Capítulo 4

• La integral y la diferencial estocástica; losteoremas de Goldstein, Ito, y de existencia yunicidad.

En el texto [1], se presenta la construcción de la teoría de la medida siguiendo las ideas de Daniell1.La idea de Daniell consiste en pensar a la integral como un operador lineal en un espacio de funciones.Resultaría agradable encontrar el dominio máximal de tal operador. Se parten de ciertas hipótesis y eloperador se exitende a una clase grande de funciones. Resulta que esta construcción, ideológicamenteajena a la construcción clásica de la integral de Lebesgue, conduce a la misma integral de Lebesgue. Esdestacable que la idea de Daniell, pensar a las integrales más como operadores que como “funciones quemiden” es la idea principal de este capítulo. De hecho, con esta idea se pierde una propiedad principalde la integral clásica: la monotonía (ve, por ejemplo, (4.4.2), cualquier integral estocástica construídaaquí posee media cero, aún cuando la función que se está integrando sea positiva).

Para definir la integral wieneriana, Wiener, siguió estas ideas. Más tarde, en el año de 1942, elmatemático japonés, Kiyoshi Ito, comienza la reconstrucción de los trabajos de Wiener, lo que derivoen lo que actualmente se conoce como cálculo de Ito e integración de Ito. Al principio los trabajos de Itono fueron reconocidos como lo son hoy en día; es destacable que su artículo On stochastic processes(Infinitely divisible laws of probability)2 publicado en Japanese Journals of Mathematics3 sentó lasbases actuales de la integración estocástica moderna.

Un año después, en plena segunda guerra mundial, Ito continúa sus trabajos y publica Stochasticintegral4 en Proceedings of the Imperial Academy of Tokyo5; este artículo fue escrito dos años antesde que él consiguiera su doctorado. En 1945 alcanza su doctorado y a partir de ahí concentra partede sus trabajos en el cálculo estocástico. En 1946 publica On a stochastic integral equation6; en 1948On the stochastic integral7; en 1951, es publicado su artículo [15], el cual se utilizará más adelante enla demostración del teorema de Goldstein (4.4.11). A continuación se expone, a manera resumida, laconstrucción y unas pocas motivaciones de esta integral.

1Percy John Daniell, 9 de enero de 1889 a 25 de mayo de 19462Sobre procesos estocásticos (Leyes de probabilidad infinitamente divisibles).3Articulos de matemáticas de Japón.4Integral estocástica.5Actas de la academia imperial de Tokio6Sobre una ecuación integral estocástica7Sobre la integral estocástica

101

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

§ 4.1. Definiciones y propiedades básicas.

Al igual que las ecuaciones diferenciales ordinarias (ve [7]), para poder definir una ecuación di-ferencial es necesario tener el conocimiento previo de la integral.8. En consecuencia, se construi-rá primero la «integral estocástica» y más tarde la «derivada estocástica». Entonces, se intentará

definir la integralt∫

0

g(s)dBs para una clase amplia de funciones g. Del cálulo diferencial, se sa-

be quet∫

0

g(s)g ′(s)ds = g(s)2 − g(0)22 . Parece entonces natural escoger una definición que satisfa-

gat∫

0

BsdBs = B22 − B2

02 . La integral de Riemann-Stieltjes se puede construir a partir de sumas de

riemanianas con incrementos stieljianos. Entonces, se debe verificar la convergencia de las sumas

Sn =m(n)∑i=1

Bτ(n)i

ÄB(n)ti − B

(n)ti−1

ä, en donde πn =

Ät(n)iäi=0,...,m(n)

es una partición de [0, t] y τ(n)i ∈

ît(n)i−1, t

(n)ió

es arbitrario. A diferencia de las sumas riemanianas para funciones no aleatorias, los valores de Sn noson «conocidos»; esto es, hay una aleatoriedad que impide conocer aquel ω en el que se está evaluan-do. En consecuencia, se deberán pedir hipótesis de tipo convergencia estocástica para Sn. Por ser laconvergencia en probabilidad la más “débil” de las convergencias estocásticas, fue esta la seleccionadapara usarse en integración estocástica; en resumen, se buscan los τ(n)

i de tal forma que Sn converja enprobabilidad cuando ‖πn‖ → 0, donde ‖πn‖ queda definido como max

1≤i≤m(n)

Ät(n)i − t

(n)i−1

ä.

Se puede verificar que

Sn = B2t

2 −12

m(n)∑i=1

(Bt(n)

i− Bt(n)

i−1

)2+

m(n)∑i=1

(Bτ(n)

i− Bt(n)

i−1

)2

+m(n)∑i=1

(Bt(n)

i− Bτ(n)

i

)(Bτ(n)

i− Bt(n)

i−1

),

lo cual se deriva al expandir la expresión de la derecha buscando la de la izquierda; es un cálculolargo pero simple. Se utilizará estra expresión para encontrar una convergencia en probabilidad. Paraempezar nota que, en virtud de (3.2.12),

lımn→∞

12

m(n)∑i=1

(Bt(n)

i− Bt(n)

i−1

)2→ t

2

en L2 y siempre que ‖πn‖ → 0; por lo tanto, también en probabilidad. En consecuencia, sería deseable

8Es considerablemente agradable el hecho que la “integral” y la “diferencial” se comportan como operaciones inversas. Enconsecuencia, conociendo únicamente un punto de la función, se puede obtener esta en su totalidad tomando la diferencial desu integral y recíprocamente, conociendo la diferencial de una función, se puede obtener la integral definida sobre cualquierintervalo dado. En particular, en el cálculo diferencial se puede definir la derivada a partir de integrales. Esto no es lo comúnpues una condición necesaria y suficiente para una función sea integrable en el sentido de Riemann es que su conjunto dediscontinuidades tenga medida de Lebesgue cero; el teorema fundamental del cálculo mostraría entonces que si se define laderivada a partir de la integral únicamente podría definirse algún concepto del tipo “diferenciabilidad en casi todas partes”.

102

4.1. Definiciones y propiedades básicas.

que los otros sumandos converjan a cero; esto no ocurre necesariamente. Nota que

E

Öm(n)∑i=1

(Bt(n)

i− Bτ(n)

i

)(Bτ(n)

i− Bt(n)

i−1

)2è

=m(n)∑i=1

EÅ(Bt(n)

i− Bτ(n)

i

)2 (Bτ(n)

i− Bt(n)

i−1

)2ã,

pues el proceso posee incrementos independientes. Nota que el teorema fundamental de la esperanzacondicional, ve (1.3.15), muestra que

EÅ(Bt(n)

i− Bτ(n)

i

)2 (Bτ(n)

i− Bt(n)

i−1

)2ã= EÅEÅ(Bt(n)

i− Bτ(n)

i

)2 (Bτ(n)

i− Bt(n)

i−1

)2 ∣∣∣FBτ(n)i

ãã.

Ahora, se utilizan incrementos independientes y la medibilidad de(Bτ(n)

i− Bt(n)

i−1

)2ante FB

τ(n)i

para concluirque la última expresión es igual a

EÅ(Bτ(n)

i− Bt(n)

i−1

)2EÅ(Bt(n)

i− Bτ(n)

i

)2 ∣∣∣FBτ(n)i

ãã.

Usando que Bt − Bs ∼ Norm (0; t − s) se ve que

EÅ(Bτ(n)

i− Bt(n)

i−1

)2EÅ(Bt(n)

i− Bτ(n)

i

)2ãã= EÅ(Bτ(n)

i− Bt(n)

i−1

)2 Ät(n)i − τ

(n)iäã

=Ät(n)i − τ

(n)iä Äτ(n)i − t

(n)i−1

ä.

Por lo tanto, se puede concluir que

EÅ(Bt(n)

i− Bτ(n)

i

)2 (Bτ(n)

i− Bt(n)

i−1

)2ã≤Ät(n)i − t

(n)i−1

ä‖πn‖ .

Entonces, conforme n→∞ se concluye que ‖πn‖ → 0, y asím(n)∑i=1

(Bt(n)

i− Bτ(n)

i

)(Bτ(n)

i− Bt(n)

i−1

)L2−Ï 0.

Ahora se considerará el términom(n)∑i=1

(Bτ(n)

i− Bt(n)

i−1

)2=

m(n)∑i=1

ï(Bτ(n)

i− Bt(n)

i−1

)2−Äτ(n)i − t

(n)i−1

äò+

m(n)∑i=1

Äτ(n)i − t

(n)i−1

ä.

Nota quem(n)∑i=1

Äτ(n)i − t

(n)i−1

ä= t, por lo que solo hay que ver la convergencia del primero sumando.

Usando que el proceso wieneriano tiene incrementos centrados e independientes se concluye que

E

Ñm(n)∑i=1

ï(Bτ(n)

i− Bt(n)

i−1

)2−Äτ(n)i − t

(n)i−1

äò2é=

m(n)∑i=1

EÇï(

Bτ(n)i− Bt(n)

i−1

)2−Äτ(n)i − t

(n)i−1

äò2å.

Aquí se utilizará una técnica importantísima a la hora de manejar las integrales estocásticas. Observa quelos sumandos dependen, estocásticamente, de la partición; sin embargo, se sabe que una “normalización”hará que cada sumando se convierta en una variable aleatoria con distribución Norm (0; 1) . Se aplicaráesto, nota entonces que

m(n)∑i=1

EÇï(

Bτ(n)i− Bt(n)

i−1

)2−Äτ(n)i − t

(n)i−1

äò2å=

m(n)∑i=1

Äτ(n)i − t

(n)i−1

ä2E

ÖÑ Bτ(n)i− Bt(n)

i−1»τ(n)i − t

(n)i−1

é2

− 1

2è,

103

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

en donde se nota queBτ(n)

i− Bt(n)

i−1»τ(n)i − t

(n)i−1

∼ Norm (0; 1) .

Por lo tanto, la suma anterior toma la forma

m(n)∑i=1

Ät(n)i − t

(n)i−1

ä2E(î

Norm (0; 1)2 − 1ó2)≤ E

(îNorm (0; 1)2 − 1

ó2)t ‖πn‖ ,

que converge a cero cuando n→∞. Luego, se puede afirmar que

m(n)∑i=1

ï(Bτ(n)

i− Bt(n)

i−1

)2−Äτ(n)i − t

(n)i−1

äòL2−Ï 0.

Con estas convergencias en L2 se puede concluir que

Sn −m(n)∑i=1

Äτ(n)i − t

(n)i−1

äL2−Ï B2

t − t2 .

La convergencia previa depende de manera crucual de la selección de los τ(n)i . En particular, si se

escoge τ(n)i = (1− a)t(n)

i−1 + at(n)i , con a ∈ [0, 1] cualquiera, se concluye que

m(n)∑i=1

Äτ(n)i − t

(n)i−1

ä= a

m(n)∑i=1

Ät(n)i − t

(n)i−1

ä= at,

que no depende de n, por consiguiente

SnL2−Ï B2

t2 +

Åa − 1

2

ãt.

Se concluye entonces que diferentes elecciones de a generan diferentes integrales estocásticas. Dehecho, hay escencialmente dos casos de interés; el primero de ellos es cuando a = 1

2 , así, se observaque

SnL2−Ï B2

t2 ,

lo cual es deseable, como se mencionó antes. Sin embargo, como en general

t∫0

G(s, ω)dW (s, ω)

forman un proceso estocástico respecto de t resulta preferible escoger a de tal manera que el procesogenerado sea agradable. Fue decidido que una martingala es agradable. En virtud de (3.2.19), a = 0implica que la integral generada conforma un martingala respecto del tiempo. Se verificará ahoramismo que este es el único valor para el cual la integral de arriba conforma una martingala. Poniendo

104

4.1. Definiciones y propiedades básicas.

Xt = B2t

2 +Åa − 1

2

ãt, para t ≥ 0, se observa que si 0 ≤ s ≤ t,

E(Xt∣∣FX

s)

= 12E(B2t∣∣FX

s)

+Åa − 1

2

ãt

= 12E(E(B2t∣∣FB

s) ∣∣FX

s)

+Åa − 1

2

ãt

= 12E(E(B2t − t

∣∣FBs) ∣∣FX

s)

+ at

= 12E(B2s − s

∣∣FXs)

+ at, ve (3.2.19)

= E(Xs∣∣FX

s)

+ a(t − s) = Xs + a(t − s),

por lo que,∀s ∈ [0, t], Xs + a(t − s) = Xs Ñ a = 0.

En la discusión previa se dedujo que una condición necesaria y suficiente para que el proceso límite,en L2, constituya una martingala es que los puntos de evaluación sean los extremos iniciales de lossubintervalos generados por las particiones de [0, t].

( 4.1.1 ) Sea t0 ≥ 0 fijo y (Wt)t≥t0 un proceso wieneriano m-dimensional; se supone que el proceso está definidosobre el espacio de probabilidad completo (Ω,F ,P) y que (Ft)t≥t0 es una filtración completa ahí. Será dicho quela filtración es no anticipante si satisface las siguientes propiedades

1. el proceso wieneriano está adaptado a ella (ve (2.4.14));

2. Ft es independiente de W +t = Σ (Ws −Wt |t ≤ s <∞) .

Observación: la filtración natural es la mínima filtración que es no anticipante respecto de (Wt)t≥t0 .Asimismo, cualquier variable aleatoria Y que sea independiente del proceso satisface que la filtraciónFt = Σ

(FWt ∪Σ(Y )

)es no anticipante. Mismo resultado cuando en lugar de Y se considera un proceso

(Yt)t≥t0 independiente de (Wt)t≥t0 y Ft = Σ(FWt ∪F Y

t).

( 4.1.2 ) Sea (Ω,F ,P) un espacio de probabilidad y (Wt)t∈[t0,T] un proceso wieneriano m-dimensional sobre talespacio. Sea (Ft)t∈[t0,T] una filtración no anticipante respecto del proceso wieneriano. Se dirá que una funciónG : [t0, T]×Ω→Matd×m (R) , la cual se supone

(B ([t0, T])⊗F ,B (Matd×m (R)))-medible,

es no anticipante respecto de la filtración si para cualquier t ∈ [t0, T] la función ω 7Ï G(t, ω) de Ω a Matd×m (R)es (Ft ,B (Matd×m (R)))-medible.

Es fácil ver que G : [t0, T]×Ω→Matd×m (R) es no anticipante si es medible y adaptada.

( 4.1.3 ) Sea (Ω,F ,P) un espacio de probabilidad y (Wt)t∈[t0,T] un proceso wieneriano m-dimensional sobretal espacio. Para (d,m) ∈ N2 y [t0, T] ⊂ [0,∞) se denotará por Md,m

2 [t0, T] al espacio de las funciones G :[t0, T]×Ω→Matd×m (R) tales que G es no anticipante y ‖G‖2 es integrable P−c.d..

105

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Observación: recuerda que ya había sido definida la norma de una matriz A = (ai,j ) por ‖A‖2 =∑i,ja2i,j . Por otro lado, Md,m

2 [t0, T] depende íntimamente de del proceso W ; entonces si hay dos procesos

wienerianos, por ejemplo W1 y W2, deberá usarse alguna notación del estilo Md,m2 ([t0, T];Wi) para

denotar al espacio Md,m2 [t0, T] respecto del proceso Wi. En el resto del texto no ocurrirá esta situación

y siempre se supondrá que el proceso W en Rm es fijo.

( 4.1.4 ) Una condición necesaria y suficiente para que (Gi,j ) ∈ Md,m2 [t0, T] es que Gi,j ∈ M1,1

2 [t0, T] paracualesquier i = 1, . . . , d y j = 1, . . . ,m.

Pues G es medible si y solo si cualquier Gi,j lo es, además

|Gi,j |2 ≤ ‖G‖2 ≤∑i,j|Gi,j |2,

lo cual muestra que ‖G‖2 es integrable si y solo si lo son todas las Gi,j , por haber un número finito deestas. Se concluye lo deseado.

( 4.1.5 ) Si t0 ≤ T1 ≤ T2, entonces Md,m2 [t0, T2] ⊂Md,m

2 [t0, T1].

PuesT1∫t0

‖G(s)‖ds ≤T2∫t0

‖G(s)‖ds,

las otras propiedades son obvias.

( 4.1.6 ) Se define Md,m2 =

⋂T≥t0

Md,m2 [t0, T].

( 4.1.7 ) Una condición necesaria y suficiente para que la función G : [t0, T]→ Matd×m (R) sea un elemento deMd,m

2 [t0, T] es que G ∈ L2 ([t0, T],B ([t0, T]) , λ) , en donde λ es la medida de lebesgue.

Evidentemente se define G : [t0, T] × Ω → Matd×m (R) por G(t, ω) = G(t), entonces ω 7Ï G(t, ω) esconstante; de aquí la equivalencia.

( 4.1.8 ) Sea g : [t0, T] ×Matd×m (R) → Matd×m (R) una función medible respecto de las σ-álgebras de borel.Si G : [t0, T]×Ω→Matd×m (R) es no anticipante, entonces (s, ω) 7Ï g(s,G(s, ω)) también es no anticipante.

Lo cual se deriva directamente de que la composición de funciones medibles es medible.

( 4.1.9 ) Para cualquier (d,m) ∈ N2, se cumple que Md,m2 [t0, T] es espacio vectorial; en particular, también lo es

Md,m2 .

Basta verificar que Md,m2 [t0, T] es subespacio vectorial del espacio de todas las funciones de [t0, T]×Ω

a Matd×m (R) . Lo único que no resulta claro de las definiciones es la cerradura lineal. Sean entoncesG,H ∈Md,m

2 [t0, T] y λ ∈ R, entonces

‖G + λH‖2 = tr(G + λH)(G + λH)t = ‖G‖2 + ‖H‖2 + 2λtr(GH t).

De la desigualda 2ab ≤ a2 + b2 se concluye que

tr(GH t) =d∑i=1

m∑j=1

Gi,jHi,j ≤d∑i=1

m∑j=1

ÇG2i,j +H2

i,j2

å= ‖G‖

2 + ‖H‖2

2 ;

106

4.1. Definiciones y propiedades básicas.

entonces‖G + λH‖2 ≤ (1 + λ)(‖G‖2 + ‖H‖2),

por lo que T∫

t0

‖G(s)‖2 ds <∞

T∫t0

‖H(s)‖2 ds <∞

T∫t0

‖G(s) + λH(s)‖2 ds

,

y como los conjuntos en la izquierda de la contención poseen probabilidad uno, el de la derecha también.

( 4.1.10 ) Una función G ∈Md,m2 [t0, T] se dice de tipo simple (también utilizados los términos, escalera, escalón

y escalonada) si existe una partición (ti)i=0,...,n de [t0, T] y variables aleatorias Gti−1 (ω) para i = 1, . . . , n tales que

G(s, ω) =n−1∑i=1

Gti−1 (ω)1[ti−1,ti)×Ω(s, ω) +Gtn−1 (ω)1[tn−1,tn ]×Ω(s, ω).

( 4.1.11 ) Sea G ∈Md,m2 [t0, T] una función de tipo simple, tal como en (4.1.10). Se define la integral estocástica

de G respecto del proceso wieneriano W = (Wt)t∈[t0,T] como

T∫t0

GdW =T∫

t0

G(s, ω)dWs(ω) =n∑i=1

Gti−1 (Wti −Wti−1 ).

Observación: aunque esta definición de integral estocástica utiliza una partición particular para G (ve(4.1.10)) se puede mostrar que de hecho es irrelevante cual partición se utilice. En efecto, se supone que(ti)i=0,...,n y (sj )j=0,...,m son dos particiones de [t0, T], como hay un número finito de puntos, estos puedenser ordenados de mayor a menor obteniendo con esto un refinamiento común (rl)l=0,...,p; observa quep ≤ n +m pues algunos puntos pueden repetirse. Ahora, se verificará que

p∑l=1

Grl−1 (Wrl −Wrl−1 ) =n∑i=1

Gti−1 (Wti −Wti−1 );

obviamente basta esto pues la otra igualdad se establece análogamente. Entonces, para i dado existendos número l(i) y µ(i) tales que [ti−1, ti) =

[rl(i), rl(i)+1

)∪ . . . ∪

[rl(i)+µ(i)−1, rl(i)+µ(i)

); la siguiente igualdad

es ciertamente verdadera

Wti −Wti−1 =µ(i)∑j=1

(Wrl(i)+j −Wrl(i)+j−1

).

En consecuencian∑i=1

Gti (Wti −Wti−1 ) =n∑i=1

Gti

µ(i)∑j=1

(Wrl(i)+j −Wrl(i)+j−1

)=

n∑i=1

µ(i)∑j=1

Grl(i)+j−1

(Wrl(i)+j −Wrl(i)+j−1

)=

p∑l=1

Grl−1 (Wrl −Wrl−1 )

pues G es constante sobre [ti−1, ti).

107

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

( 4.1.12 ) Sea W =ÄW (1)

t , . . . ,W (m)tät∈[t0,T]

un proceso wieneriano m-dimensional. Considera 0 ≤ t0 ≤ T,

λ ∈ R y G,G1, G2 ∈Md,m2 [t0, T] funciones simples. Entonces

1.

T∫t0

(G1(s) + λG2(s))dWs =T∫

t0

G1(s)dWs + λT∫

t0

G2(s)dWs;

2. si G = (Gi,j )i=1,...,d,j=1,...,m, entonces

T∫t0

GdW =m∑j=1

T∫t0

G1,j (s)dW (j)s

...T∫

t0

Gd,j (s)dW (j)s

, aquí W =

ÖW (1)

...W (m)

è;

3. si para s ∈ [t0, T] se denota por Gs a la función ω 7Ï G(s, ω), entonces

∀s ∈ [t0, T],E (‖Gs‖) <∞Ñ E

Ñ T∫t0

GdW

é= 0;

4. si para cualquier s ∈ [t0, T] se cumple que EÄ‖Gs‖2

ä<∞, entonces

E

Ö T∫t0

GdW

T∫t0

GdW

′è

=T∫

t0

E(GsG′s

)ds,

(se utiliza ′ para denotar a la matriz transpuesta) y, en particular,

E

Ö∥∥∥∥∥∥∥ T∫t0

GdW

∥∥∥∥∥∥∥2è

=T∫

t0

EÄ‖Gs‖2

äds.

Se demuestra cada inciso.

1. Se supone que

G1(t, ω) =n−1∑i=1

G(1)ti−1

(ω)1[ti−1,ti)×Ω(t, ω) +G(1)tn−1

(ω)1[tn−1,tn ]×Ω(t, ω)

y que

G2(t, ω) =m−1∑i=1

G(2)si−1

(ω)1[si−1,si)×Ω(t, ω) +G(2)tn−1

(ω)1[sn−1,sn ]×Ω(t, ω).

Entonces, se pueden refinar las particiones (ti)i=0,...,n y (si)i=0,...,m a una partición común; paraevitar nueva notación se supondrá que (ti)i=0,...,n ya es un refinamiento común. En consecuencia,

G1(t, ω) + λG2(t, ω) =n∑i=1

îG(1)ti−1

+ λG(2)ti−1

ó(ω)1Ii×Ω(t, ω),

108

4.1. Definiciones y propiedades básicas.

en donde Ii = [ti−1, ti) para i = 1, . . . , n − 1 e In = [tn−1, tn]; nota que G1 + λG2 es de tipo simple;en virtud de (4.1.11)

T∫t0

(G1(s) + λG2(s))dWs =n∑i=1

îG(1)ti−1

+ λG(2)ti−1

ó[Wti −Wti−1 ]

=n∑i=1

G(1)ti−1

[Wti −Wti−1 ] + λn∑i=1

G(2)ti−1

[Wti −Wti−1 ]

=T∫

t0

G1(s)dWs + λT∫

t0

G2(s)dWs,

lo cual muestra la linealidad.

2. Se recurre a la definición. Se parte de que

G(t, ω) =n−1∑i=1

Gti−1 (ω)1[ti−1,ti)×Ω(t, ω) +Gtn−1 (ω)1[tn−1,tn ]×Ω(t, ω),

en donde Gs = (Gi,j (s))i=1,...,d,j=1,...,m, para s ∈ [t0, T]. Entonces

T∫t0

G(s)dWs =n∑i=1

Gti−1 [Wti −Wti−1 ] ;

se encuentra ahora el producto matricial,

Gs [Wt −Ws] =

G1,1(s) . . . G1,m(s)...

. . ....

Gd,1(s) . . . Gd,m(s)

W (1)

t −W(1)s

...W (m)

t −W (m)s

=m∑k=1

G1,k(s)

ÄW (k)

t −W(k)sä

...Gd,k(s)

ÄW (k)

t −W(k)sä .

En virtud de que las sumas son finitas se llega a que

T∫t0

G(s)dWs =n∑i=1

m∑k=1

G1,k(s)

ÄW (k)

t −W(k)sä

...Gd,k(s)

ÄW (k)

t −W(k)sä

=m∑k=1

n∑i=1

G1,k(ti−1)ÄW (k)

ti −W(k)ti−1

ä...

n∑i=1

Gd,k(ti−1)ÄW (k)

ti −W(k)ti−1

ä .

109

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

De nuevo, (4.1.11) muestra que para cualesquier j y k

n∑i=1

Gj,k(ti−1)ÄW (k)

ti −W(k)ti−1

ä=

T∫t0

Gj,k(s)dW (k)s ,

que demuestra lo afirmado.

3. En virtud de que si X = (X1, . . . , Xn) es un vector aleatorio entonces

E (X) = (E (X1) , . . . ,E (Xn))

y del inciso previo, se puede concluir que basta demostrar que para cualesquier i ∈ 1, . . . , d y

j ∈ 1, . . . ,m se cumple que E

Ñ T∫t0

Gi,j (s)dW (j)s

é= 0. Esto es cierto, para verificarlo solo hay

que hacer un cálculo, se recuerda que Gi,j es no anticipante, en particular Gi,j (s) es independientede W (j)

t −W(j)s para cualquier t ≥ s. Con esto presente es claro que

E

Ñ T∫t0

Gi,j (s)dW (j)s

é=

n∑i=1

EÄGj,k(ti−1)

ÄW (k)

ti −W(k)ti−1

ää=

n∑i=1

E(Gj,k(ti−1)

)EÄW (k)

ti −W(k)ti−1

äy como W (k) es proceso wieneriano (ve (3.3.1)) se sigue que E

ÄW (k)

ti −W(k)ti−1

ä= 0, lo que concluye

el inciso.

4. Un cálculo elemental muestra que T∫t0

G(s)dWs

T∫t0

G(s)dWs

′ = n∑i=1

n∑j=1

Gti−1 [Wti −Wti−1 ][Wtj −Wtj−1

]′G′tj−1;

seac(i,j) = Gti−1 [Wti −Wti−1 ]

[Wtj −Wtj−1

]′G′tj−1

y se denota por c(i,j)p,q a la entrada (p, q) de c(i,j). Define también

d(i)q =

m∑p=1

Gp,q(ti−1)ÄW (p)

ti −W(p)ti−1

ä;

se sigue que d(i)q es la q-ésima fila de Gti−1 [Wti −Wti−1 ] y, en particular, c(i,j)

p,q =¨d(i)p , d(j)

q∂. Entonces

c(i,j)p,q =

m∑k=1

m∑l=1

Gp,k(ti−1)îW (k)

ti −W(k)ti−1

óGq,l(tj−1)

îW (l)

tj −W(l)tj−1

ó;

hay casos a tratar, i < j, i = j e i > j; si i < j entonces se consideran cualesquier p, q ∈ 1, . . . , dy cualesquier k, l ∈ 1, . . . ,m, luego se calcula la esperanza

EÄGp,k(ti−1)

îW (k)

ti −W(k)ti−1

óGq,l(tj−1)

îW (l)

tj −W(l)tj−1

óä= EÄGp,k(ti−1)

îW (k)

ti −W(k)ti−1

óGq,l(tj−1)

äEÄîW (l)

tj −W(l)tj−1

óä= 0,

110

4.2. Extensión a toda función en Md,m2 [t0, T].

lo que se debe a la no anticipatividad de G y los incrementos independientes o independencia entrelas entradas; si i > j, escencialmente no hay diferencia con el caso previo, los mismos argumentosaplican; si i = j, entonces el mismo argumento aplica para l 6= k, se considera entonces i = j yl = k. Luego, usando la no anticipatividad de G,

EÅGp,k(ti−1)

îW (k)

ti −W(k)ti−1

ó2Gq,k(tj−1)

ã= E

(Gp,k(ti−1)Gq,k(tj−1)

)(ti − ti−1).

Ya se demostró que

E

Ö T∫t0

G(s)dWs

T∫t0

G(s)dWs

′è

=n∑i=1

EÄc(i,i)ä

=n∑i=1

îEÄc(i,i)p,qäó

p,q=1,...,d

y que

EÄc(i,i)p,qä

=m∑k=1

E(Gp,k(ti−1)Gq,k(tj−1)

)(ti − ti−1) = E

(⟨G(p)(ti−1), G(q)(ti−1)

⟩)(ti − ti−1),

en donde G(p) es la p-ésima fila de G. Pero entonces,

n∑i=1

îEÄc(i,i)p,qäó

p,q=1,...,d=

n∑i=1

E(Gti−1G′ti−1

)(ti − ti−1) =

T∫t0

E(GsG′s

)ds,

que da el resultado. La otra igualdad resulta al aplicar el operador tr.

§ 4.2. Extensión a toda función en Md,m2 [t0, T].

( 4.2.1 ) Para cualquier función G ∈ Md,m2 [t0, T] existe una sucesión de funciones de tipo simple (Gn)n≥1 en

Md,m2 [t0, T] tal que

lımn→∞

T∫t0

‖G(s)−Gn(s)‖2 ds = 0 P−c.d..

Se da la demostración en varios pasos.

( 4.2.1.1 ) El teorema vale cuando casi todas las trayectorias de G son continuas.

Pues en este caso se define

Gn(s) = GÅt0 + k(T − t0)

n

ã;Gn(T) = Gn

Åt0 + (n − 1)(T − t0)

n

ãsiempre que s ∈

ït0 + k(T − t0)

n , t0 + (k + 1)(T − t0)n

ãy para algún k = 0, . . . , n − 1. Como [t0, T] es

compacto, para cualquier ω tal que fGω sea continua se cumple que para cualquier ε > 0 dado existe unn(ε, ω) ∈ N talque si p, q ∈ [t0, T] son tales que

|p − q| ≤ T − t0n(ε, ω)

111

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

entonces ∥∥∥fGω (p)− fGω (q)∥∥∥2≤ εT − t0

.

Por lo tanto, para n ≥ n(ε, ω) se cumple que

‖G(s, ω)−Gn(s, ω)‖2 ≤ εT − t0

y, por monotonía de la integral de Lebesgue, se llega a que

n ≥ n(ε, ω)ÑT∫

t0

‖G(s, ω)−Gn(s, ω)‖2 ds ≤ ε;

es decir,

lımn→∞

T∫t0

‖G(s)−Gn(s)‖2 ds = 0 P−c.d.,

lo cual concluye el primer lema.

( 4.2.1.2 ) El teorema vale para funciones en Md,m2 [t0, T] que sean acotadas.

Sea c ∈ [0,∞) tal que para cualesquier (s, ω) ∈ [t0, T]×Ω se cumple que ‖G(s, ω)‖ ≤ c. En este casose define

Gn(s, ω) = ns∫

t0

en(u−s)G(u,ω)du,

entonces, por monotonía de la integral de Lebesgue, se concluye que

‖Gn(s, ω)‖ ≤ ns∫

t0

en(u−s)cdu = cÄ1− e−(s−t0)

ä≤ c.

Por otro lado

‖Gn(s + h,ω)−Gn(s, ω)‖ = n

∥∥∥∥∥∥∥s+h∫t0

en(u−s−h)G(u,ω)du −s∫

t0

en(u−s)G(u,ω)du

∥∥∥∥∥∥∥≤ n

∥∥∥∥∥∥∥s∫

t0

îen(u−s−h) − en(u−s)

óG(u,ω)du

∥∥∥∥∥∥∥+ n

∥∥∥∥∥∥s+h∫s

en(u−s−h)G(u,ω)du

∥∥∥∥∥∥ ;

nota que

n

∥∥∥∥∥∥∥s∫

t0

îen(u−s−h) − en(u−s)

óG(u,ω)du

∥∥∥∥∥∥∥ ≤ cs∫

t0

nen(u−s)∣∣∣e−nh − 1

∣∣∣du;

con aplicar el teorema de convergencia dominada, respecto de h, se ve que

lımh→0

s∫t0

nen(u−s)∣∣∣e−nh − 1

∣∣∣du = 0.

112

4.2. Extensión a toda función en Md,m2 [t0, T].

Del mismo modo, ∥∥∥∥∥∥s+h∫s

en(u−s−h)G(u,ω)du

∥∥∥∥∥∥ ≤ Ch→ 0,

en donde C es una constante, que depende de c, n, t0 y T. Entonces, se puede concluir que Gn poseetrayectorias continuas. Es claro que cada Gn ∈Md,m

2 [t0, T] pues es no anticipante (ve (4.1.8)) y además

T∫t0

‖Gn(s)‖2 ds ≤ c2(T − t0).

Por otro lado, observa que

Gn(s) =s∫

t0

nen(u−s)G(u)du =n(s−t0)∫t0

e−τG(s − τ

n

)dτ

y que∞∫

0

e−τdτ = 1, por lo que

G(s) =∞∫

0

e−τG(s)dτ.

Luego,

‖Gn(s)−G(s)‖ ≤∞∫

n(s−t0)

e−τ∥∥∥G (s − τ

n

)−G(s)

∥∥∥dτ ≤ 2c∞∫

n(s−t0)

e−τdτ

y la última integral tiende a cero cuando n → ∞. Observa ahora que ‖Gn(s)−G(s)‖2 ≤ 4c2 < ∞, porlo que el teorema de convergencia acotada muestra que

lımn→∞

T∫t0

‖Gn(s)−G(s)‖2 ds = 0.

Para concluir con este caso todavía se debe encontrar una sucesión de funciones tipo simple quesatisfagan lo pedido; sin embargo, por el lema previo, existe una función de tipo simple Gn tal que

T∫t0

∥∥∥Gn(s)− Gn(s)∥∥∥2ds ≤ 1

n P−c.d..

Usando la desigualdad ‖α+ β‖2 ≤ 2(‖α‖2 + ‖β‖2), para α, β ∈ Rm, se puede concluir que

lımn→∞

T∫t0

∥∥∥Gn(s)−G(s)∥∥∥2ds ≤ 2 lım

n→∞

T∫t0

ï∥∥∥Gn(s)−Gn(s)∥∥∥2

+ ‖Gn(s)−G(s)‖2òds = 0,

lo cual concluye el lema.

113

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

( 4.2.1.3 ) El teorema vale para cualquier G ∈Md,m2 [t0, T].

Se define Gn = G1[−n,n](G), entonces Gn ∈Md,m2 [t0, T] y está acotada; por el lema previo existe una

sucesión de funcionesÄGnän∈N

en Md,m2 [t0, T] las cuales son de tipo simple y para las cuales

T∫t0

∥∥∥Gn(s)−Gn(s)∥∥∥2ds ≤ 1

n .

Nota que

0 ≤ lım supn→∞

T∫t0

‖Gn(s)−G(s)‖2 ds = lım supn→∞

T∫t0

‖G(s)‖2 1[−n,n](G(s))ds = 0

puesT∫

t0

‖G(s)‖2 ds <∞ P−c.d.. Entonces,

lımn→∞

T∫t0

∥∥∥Gn(s)−G(s)∥∥∥2ds ≤ 2 lım

n→∞

T∫t0

ï∥∥∥Gn(s)−Gn(s)∥∥∥2

+ ‖Gn(s)−G(s)‖2òds = 0,

lo que concluye la propiedad de aproximación.

( 4.2.2 ) Sea G ∈Md,m2 [t0, T] una función de tipo simple. Para cualquier N > 0 y cualquier c > 0 se cumple que

P

Ö∥∥∥∥∥∥∥ T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c

è≤ Nc2 + P

Ñ T∫t0

‖G(s)‖2 ds > N

é.

Se supone que

G(s, ω) =n−1∑i=1

Gti−1 (ω)1[ti−1,ti)×Ω(s, ω) +Gtn−1 (ω)1[tn−1,tn ]×Ω(s, ω),

en donde (ti)i=0,...,n es una partición de [t0, T]. Se define

GN (s) = G(s)1[−N,N]

Ñ ti∫t0

‖G(s)‖2 ds

ési s ∈ [ti−1, ti);

es claro que GN es un elemento de Md,m2 [t0, T] (ve (4.1.8)), entonces, es inmediato que,

n∑i=1‖GN (ti−1)‖2 (ti − ti−1) =

T∫t0

‖GN (s)‖2 ds ≤ N,

de aquí que‖GN (ti−1)‖2 ≤

Nti − ti−1

.

114

4.2. Extensión a toda función en Md,m2 [t0, T].

En virtud de (4.1.12) se sigue que

E

Ö∥∥∥∥∥∥∥ T∫t0

GN (s)dWs

∥∥∥∥∥∥∥2è

=T∫

t0

EÄ‖GN (s)‖2

äds = E

Ñ T∫t0

‖GN (s)‖2 ds

é≤ N.

Se verifica trivialmente que GN 6= G ⇔T∫

t0

‖G(s)‖2 ds > N, así que

supt0≤s≤T

‖GN (s)−G(s)‖ > 0å

= P

Ñ T∫t0

‖G(s)‖2 ds > N

é.

Finalmente∥∥∥∥∥∥∥

T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c

=

∥∥∥∥∥∥∥

T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c, supt0≤s≤T

‖GN (s)−G(s)‖ = 0

∥∥∥∥∥∥∥

T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c, supt0≤s≤T

‖GN (s)−G(s)‖ > 0

∥∥∥∥∥∥∥

T∫t0

GN (s)dWs

∥∥∥∥∥∥∥ > c

∪®

supt0≤s≤T

‖GN (s)−G(s)‖ > 0´,

por lo tanto, la desigualdad de Markov9 muestra que

P

Ö∥∥∥∥∥∥∥ T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c

è≤

E

Ö∥∥∥∥∥∥∥ T∫t0

GN (s)dWs

∥∥∥∥∥∥∥2è

c2 + P

Ñ T∫t0

‖G(s)‖2 ds > N

é,

pero ya se había demostrado que

E

Ö∥∥∥∥∥∥∥ T∫t0

GN (s)dWs

∥∥∥∥∥∥∥2è≤ N,

lo cual concluye la demostración.

9Para cualquier variable aleatoria con varianza finita X se cumple que P (|X| > c) ≤E(|X|2)

c2 . La demostración es simple, sig : [0,∞)→ R+ es no decreciente, X ≥ 0 es tal que X y g(X) son integrables,

E (g(X)) =∫Ω

g(X)dP ≥∫X≥c

g(X)dP ≥ g(c)P (X > c) ,

basta tomar g(x) = x2.

115

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

( 4.2.3 ) Sean G ∈Md,m2 [t0, T] y (Gn)n∈N una sucesión en Md,m

2 [t0, T] de funciones de tipo simple tal que

T∫t0

‖G(s)−Gn(s)‖2 dsP−Ï 0.

Entonces existe un vector aleatorio en Rd tal que la sucesión

T∫t0

Gn(s)dWs converge en probabilidad a él. Más

aún, este vector tiene la propiedad que, dada cualquier sucesión (Hn)n∈N en Md,m2 [t0, T] de funciones simples tal

queT∫

t0

‖G(s)−Hn(s)‖2 dsP−Ï 0,

entonces la sucesión

T∫t0

Hn(s)dWs también converge a él en probabilidad.

Se hará la demostración en varias etapas.

( 4.2.3.1 ) La sucesión

Ñ T∫t0

Gn(s)dWs

én∈N

es de Cauchy en probabilidad; es decir, para cualesquier ε, δ > 0

existe un N(ε, δ) ∈ N tal que

n,m ≥ N(ε, δ)Ñ P

Ö∥∥∥∥∥∥∥ T∫t0

[Gn(s)−Gm(s)]dWs

∥∥∥∥∥∥∥ > δ

è≤ ε.

Se sigue fácilmente de (4.2.2) y de la desigualdad ‖α+ β‖2 ≤ 2(‖α‖2 + ‖β‖2) pues

T∫t0

‖Gn(s)−Gm(s)‖2 ds ≤ 2T∫

t0

‖Gn(s)−G(s)‖2 ds + 2T∫

t0

‖G(s)−Gm(s)‖2 ds P−−−−−Ïn,m→∞

0

y

P

Ö∥∥∥∥∥∥∥ T∫t0

[Gn(s)−Gm(s)]dWs

∥∥∥∥∥∥∥ > δ

è≤ εδ2 + P

Ñ T∫t0

‖Gn(s)−Gm(s)‖2 > ε

é;

luego, se considera el lım supn,m→∞

de esta expresión, obteniendo que

lım supn,m→∞

P

Ö∥∥∥∥∥∥∥ T∫t0

[Gn(s)−Gm(s)]dWs

∥∥∥∥∥∥∥ > δ

è≤ εδ2 ,

como ε > 0 fue arbitrario, con tomar el ínfimo sobre todos los ε > 0 se puede concluir el lema.

116

4.2. Extensión a toda función en Md,m2 [t0, T].

( 4.2.3.2 ) Si (Xn)n∈N es una sucesión de vectores aleatorios que son de Cauchy en probabilidad, entonces existeuna vector aleatorio X tal que Xn

P−Ï X.

Como (Xn)n∈N es de Cauchy en probabilidad se cumple que para todo ε, δ > 0 existe un N ∈N tal que P (‖Xn − Xm‖ > δ) < ε siempre que n,m ≥ N. Se escoge n1 = 1 y nj > nj−1 tal que

PÅ‖Xn − Xm‖ >

12j

ã≤ 1

2j para cualesquier n,m ≥ nj , entonces la sucesión(Xnj)j∈N converge rápi-

damente en probabilidad; es decir

∞∑j=1

PÅ∥∥Xnj+1 − Xnj

∥∥ > 12j

ã<∞.

El lema de Borel-Cantelli muestra que

PÅ∥∥Xnj+1 − Xnj

∥∥ > 12j , i.o.

ã= 0,

en donde i.o. significa “sea infinitamente ocurrente”. Es decir, para casi todo ω se cumple que

∥∥Xnj+1 (ω)− Xnj (ω)∥∥ ≤ 1

2j ;

la sucesión(Xnj (ω)

)j∈N es Cauchy, lo que es inmediato de

∥∥Xnj+p (ω)− Xnj (ω)∥∥ ≤ p∑

i=1

∥∥Xnj+i (ω)− Xnj+i−1 (ω)∥∥ ≤ p∑

i=1

12j+i−1 ≤

12j

la cual tiende a cero cuando j es grande e independientemente de p. Como Rn es completo, se concluyeque existe un vector X(ω) tal que Xnj (ω)→ X(ω); es decir Xnj converge a X para casi toda ω. Para concluirse observa que

P (‖Xn − X‖ > ε) ≤ P(∥∥Xn − Xnj∥∥ > ε

)+ P

(∥∥Xnj − X∥∥ > ε),

con hacer n, j →∞ se llega al resultado deseado.De los dos lemas previos se deriva la existencia de un vector I(G) tal que

T∫t0

Gn(s)dWsP−Ï I(G).

( 4.2.3.3 ) Se da la independencia de la elección de la sucesión aproximante; es decir, para cualquier sucesión(Hn)n∈N en Md,m

2 [t0, T] de funciones simples tal que

T∫t0

‖G(s)−Hn(s)‖2 dsP−Ï 0,

se cumple que

T∫t0

Hn(s)dWsP−Ï I(G).

117

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Al igual que en el caso de números reales lo que se hace es generar una nueva sucesión (Kn)n∈N enMd,m

2 [t0, T], la cual surge al entreverar las dos sucesiones dadas. Define K2n = Hn y K2n−1 = Gn paran ∈ N. Como para cualesquier δ, ε > 0 existe un N ∈ N tal que para cualquier n ≥ N se cumple que

P

Ñ T∫t0

‖Gn(s)−G(s)‖2 ds > ε

é< δ

y

P

Ñ T∫t0

‖Hn(s)−G(s)‖2 ds > ε

é< δ

se sigue que si n ≥ 2N entonces

P

Ñ T∫t0

‖Kn(s)−G(s)‖2 ds > ε

é< δ;

esto es, debido a los primeros dos lemas, existe un elemento aleatorio I(G) tal que

T∫t0

Kn(s)dWsP−Ï I(G).

Como los límites en probabilidad son únicos y cualquier subsucesión converge al mismo límite, seconcluye el resultado de independencia.

Naturalmente el resultado previo permite definir, sin ambigüedad, lo que sería la integral estocástica.

( 4.2.4 ) Para cualquier G ∈ Md,m2 [t0, T] se define la integral estocástica de G respecto del proceso wieneriano

como cualquier vector aleatorio I(G), el cual es el límite en probabilidad de una sucesión (Gn)n∈N en Md,m2 [t0, T]

de funciones de tipo simple que cumplan

T∫t0

‖G(s)−Gn(s)‖2 dsP−Ï 0.

Se denotará

I(G) =T∫

t0

G(s)dWs =T∫

t0

GdW.

( 4.2.5 ) Para cualquier función G ∈Md,m2 [t0, T] tal que

T∫t0

EÄ‖G(s)‖2

äds <∞

existe una sucesión de funciones de tipo simple (Gn)n∈N definida enMd,m2 [t0, T] que satisfacen la misma propiedad,

118

4.2. Extensión a toda función en Md,m2 [t0, T].

para todo n natural

T∫t0

EÄ‖Gn(s)‖2

äds <∞, tales que

lımn→∞

T∫t0

EÄ‖G(s)−Gn(s)‖2

äds = 0

y

lımn→∞

T∫t0

Gn(s)dWs =T∫

t0

G(s)dWs,

en donde el último límite es en L2.

Se necesita un lema previo de análisis.

( 4.2.5.1 ) La función gN =(1[−N,N] ‖‖

)IRn +

(1[−N,N] ‖‖

)N IR

n

‖‖ , gN (X) = X si ‖X‖ ≤ N y gN (X) = N X‖X‖

si X ≥ 0, es 1-lipschitziana (ve (A.3.4)) de Rn a R.

En efecto, si x, y ∈ Rn son dos vectores tales que ‖x‖ ≥ ‖y‖ > 0, entonces para λ ∈ï‖y‖‖x‖ , 1

òse

cumple que ‖x − y‖ ≥ ‖λx − y‖ . Pues

λ ∈ï‖y‖‖x‖ , 1

òÑ 1

λ + 1 ≥ 2Ñ (1 + λ) ≥ 2λ ≥ 2‖y‖‖x‖Ñ (1− λ2) ‖x‖2 ≥ 2(1− λ) ‖x‖ ‖y‖ ≥ 2(1− λ) 〈x, y〉 ,

en donde la última desigualdad es debida a la desigualdad ed Cauchy-Schwarz. Nota también que

(1− λ2) ‖x‖2 ≥ 2(1− λ) 〈x, y〉 Ñ ‖x‖2 − 2 〈x, y〉+ ‖y‖2 ≥ λ2 ‖x‖2 − 2λ 〈x, y〉+ ‖y‖2

Ñ ‖x − y‖2 ≥ ‖λx − y‖2 .

Tomando raiz cuadrada en ambos miembros de la última desigualdad, se puede concluir que

λ ∈ï‖y‖‖x‖ , 1

òÑ ‖x − y‖ ≥ ‖λx − y‖ .

Para concluir el lema se resuelven los casos posibles. Por simetría basta verificar los tres casos quehay; en el primer caso ‖x‖ ≤ N y ‖y‖ ≤ N, entonces ‖gN (x)− gN (y)‖ = ‖x − y‖ , y el resultado esverdadero; en el segundo caso, ‖x‖ ≤ N < ‖y‖ , entonces

‖gN (x)− gN (x)‖ =∥∥∥∥x − N

‖y‖y∥∥∥∥ = N

‖y‖

∥∥∥∥‖y‖N x − y∥∥∥∥ ≤ ‖x − y‖

pues N‖y‖ ≤ 1 y ‖y‖N ∈

ï‖y‖‖x‖ , 1

ò; en el tercer caso, ‖x‖ > N y ‖y‖ > N, entonces

‖gN (x)− gN (y)‖ =∥∥∥∥ N‖x‖x −

N‖y‖y

∥∥∥∥ = N∥∥∥∥ x‖x‖ −

y‖y‖

∥∥∥∥ ,119

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

sin perder generalidad se puede suponer que ‖x‖ ≥ ‖y‖ , entonces

‖gN (x)− gN (y)‖ = N‖y‖

∥∥∥∥‖y‖‖x‖x − y∥∥∥∥ ≤ ‖x − y‖

pues N‖y‖ ≤ 1. Esto concluye la demostración del lema.

Regresando a la demostración del teorema; se deriva de (4.2.1) la existencia de una sucesiónÄGnän∈N

de funciones simples en Md,m2 [t0, T] tal que

lımn→∞

T∫t0

∥∥∥G(s)− Gn(s)∥∥∥2ds = 0,

en probabilidad; resulta evidente que

lımn→∞

T∫t0

∥∥∥gN (G(s))− gNÄGn(s)

ä∥∥∥2ds = 0,

en probabilidad. Además,

T∫t0

∥∥∥gN (G(s))− gNÄGn(s)

ä∥∥∥2ds ≤ 4N2(T − t0).

Utilizando el teorema de Tonelli y el teorema de convergencia dominada se puede concluir que

E

Ñ T∫t0

∥∥∥gN (G(s))− gNÄGn(s)

ä∥∥∥2ds

é=

T∫t0

EÅ∥∥∥gN (G(s))− gN

ÄGn(s)

ä∥∥∥2ãds −−−Ï

n→∞0.

También, es claro que ‖gN (G)−G‖ ≤ ‖G‖ y, por hipótesis,T∫

t0

EÄ‖G(s)‖2

äds < ∞ lo cual indica que

aplica el teorema de convergencia dominada respecto de la medida producto, concluyendo que

lımN→∞

E

Ñ T∫t0

‖gN (G(s))−G(s)‖2 ds

é= 0.

Se nota ahora que

T∫t0

EÅ∥∥∥G(s)− gN

ÄGn(s)

ä∥∥∥2ãds

≤ 2T∫

t0

EÄ‖G(s)− gN (G(s))‖2

äds + 2

T∫t0

EÅ∥∥∥gN ÄGn(s)

ä− gN (G(s))

∥∥∥2ãds.

120

4.2. Extensión a toda función en Md,m2 [t0, T].

Considera ε > 0 cualquiera y define n1 = N1 = 1; para k > 1 un natural cualquiera define Nk > Nk−1como el mínimo natural tal que

N ≥ Nk ÑT∫

t0

EÄ‖G(s)− gN (G(s))‖2

äds ≤ 1

4k

y para este Nk define nk como el mínimo natural mayor que nk−1 tal que

n ≥ nk ÑT∫

t0

EÅ∥∥∥gNk

ÄGn(s)

ä− gNk (G(s))

∥∥∥2ãds ≤ 1

4k .

Se considera la sucesión de funciones Gk = gNk

ÄGnkä, las cuales son funciones en Md,m

2 [t0, T] tales que

T∫t0

EÄ‖Gn(s)‖2

äds <∞

y que cumplenT∫

t0

EÄ‖G(s)−Gk(s)‖2

ä≤ 1k .

En particular, se verifica que

lımk→∞

T∫t0

‖G(s)−Gk(s)‖2 ds = 0,

en probabilidad. Luego,T∫

t0

Gn(s)dWsP−Ï

T∫t0

G(s)dWs;

para mejorar esta convergencia a L2 se nota que, en acuerdo con (4.1.12),

E

Ö∥∥∥∥∥∥∥ T∫t0

Gk(s)dWs −T∫

t0

Gl(s)dWs

∥∥∥∥∥∥∥2è

=T∫

t0

EÄ‖Gk(s)−Gl(s)‖2

äds→ 0,

y como el espacio L2 es completo, se sigue que existe I ∈ L2 tal que

lımk→∞

T∫t0

Gk(s)dWsL2= I.

Por unicidad de los límites, se concluye lo afirmado.

( 4.2.6 ) El conjunto de las G ∈Md,m2 [t0, T] tales que

T∫t0

EÄ‖G(s)‖2

äds <∞

será denotado por Md,m1 [t0, T].

121

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

§ 4.3. Propiedades de la integral estocástica.

( 4.3.1 ) Sea W =ÄW (1)

t , . . . ,W (m)tät∈[t0,T]

un proceso wieneriano m-dimensional. Considera 0 ≤ t0 ≤ T, λ ∈ R

y sean G, (Gn)n∈N una función y una sucesión en Md,m2 [t0, T] cualesquiera. Entonces

1.

T∫t0

(G1 + λG2)dW =T∫

t0

G1dW + λT∫

t0

G2dW ;

2. si G = (Gi,j )i=1,...,d,j=1,...,m, entonces

T∫t0

GdW =m∑j=1

T∫t0

G1,j (s)dW (j)s

...T∫

t0

Gd,j (s)dW (j)s

, donde W =

ÖW (1)

...W (m)

è;

3. para cualquier N > 0 y cualquier c > 0, se cumple que

P

Ö∥∥∥∥∥∥∥ T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c

è≤ Nc2 + P

Ñ T∫t0

‖G(s)‖2 ds > N

é;

4. la relaciónT∫

t0

‖G(s)−Gn(s)‖2 dsP−Ï 0

implica queT∫

t0

Gn(s)dWsP−Ï

T∫t0

G(s)dWs;

en particular, si G posee primer momento, este es cero;

5. si para cualquier s ∈ [t0, T] se cumple que EÄ‖Gs‖2

ä<∞, entonces

E

Ö T∫t0

GdW

T∫t0

GdW

′è

=T∫

t0

E(GsG′s

)ds,

y, en particular,

E

Ö∥∥∥∥∥∥∥ T∫t0

GdW

∥∥∥∥∥∥∥2è

=T∫

t0

EÄ‖Gs‖2

äds.

122

4.3. Propiedades de la integral estocástica.

Se demostrará cada inciso.

1. Aquí se considera una sucesiónÄG(n)iä

en Md,m2 [t0, T] de funciones de tipo simple tales que

lımn→∞

T∫t0

∥∥∥G(n)i (s)−Gi(s)

∥∥∥2ds = 0,

en probabilidad y para i = 1, 2. Entonces,T∫

t0

∥∥∥G1(s) + λG2(s)−G(n)1 (s)− λG(n)

2 (s)∥∥∥2ds

≤ 2T∫

t0

∥∥∥G1(s)−G(n)1 (s)

∥∥∥2+ 2|λ|2

T∫t0

∥∥∥G2(s)−G(n)2 (s)

∥∥∥2ds,

que tiende a cero en probabilidad cuando n → ∞. Por lo tanto, de la linealidad de los límites enprobabilidad y la linealidad de la integral estocástica para funciones de tipo simple (ve (4.1.12)), sederiva que

T∫t0

(G1(s) + λG2(s))dWs = lımn→∞

T∫t0

ÄG(n)

1 (s) + λG(n)2 (s)

ädWs

= lımn→∞

T∫t0

G(n)1 (s)dWs + λ

T∫t0

G(n)2 (s)dWs

= lım

n→∞

T∫t0

G(n)1 (s)dWs + lım

n→∞λ

T∫t0

G(n)2 (s)dWs

=T∫

t0

G1(s)dWs + λT∫

t0

G2(s)dWs,

en donde todos los límites previos fueron en probabilidad.

2. Se supondrá en este inciso que cada Gn =ÄG(n)i,jä

es de tipo simple y que

lımn→∞

T∫t0

‖Gn(s)−G(s)‖2 ds = 0,

en probabilidad. En virtud de (4.1.12) se concluye que, tras usar la linealidad de la convergenciaen probabilidad,

T∫t0

GsdWs = lımn→∞

T∫t0

Gn(s)dWs =m∑k=1

lımn→∞

T∫t0

G(n)1,k(s)dWs

...

lımn→∞

T∫t0

G(n)d,k(s)dWs

,

123

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

siendo los límites en probabilidad; para concluir basta ver queT∫

t0

∣∣∣G(n)i,j (s)−Gi,j (s)

∣∣∣2 = 0,

en probabilidad. Pero ‖G(s)−Gn(s)‖ ≥∣∣∣G(n)

i,j (s)−Gi,j (s)∣∣∣ , en consecuencia, si se eleva al cuadrado

ambos miembros de la desigualdad esta se mantiene.

3. Se supone para este inciso que

lımn→∞

T∫t0

‖Gn(s)−G(s)‖2 ds = 0,

en probabilidad, y que (Gn)n∈N es una sucesión de funciones simples. Sean c′ ∈ (0, c) y N ′ > N.Entonces, en virtud de (4.2.2), se puede concluir que

P

Ö∥∥∥∥∥∥∥ T∫t0

Gn(s)dWs

∥∥∥∥∥∥∥ > c′

è≤ N ′

(c′)2 + P

Ñ T∫t0

‖Gn(s)‖2 ds > N ′é.

Ahora, ∥∥∥∥∥∥∥

T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c

=

∥∥∥∥∥∥∥

T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c,

∥∥∥∥∥∥∥T∫

t0

(G(s)−Gn(s))dWs

∥∥∥∥∥∥∥ > c − c′

∥∥∥∥∥∥∥

T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c,

∥∥∥∥∥∥∥T∫

t0

(G(s)−Gn(s))dWs

∥∥∥∥∥∥∥ ≤ c − c′

y, además,∥∥∥∥∥∥∥

T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c,

∥∥∥∥∥∥∥T∫

t0

(G(s)−Gn(s))dWs

∥∥∥∥∥∥∥ ≤ c − c′ ⊂

∥∥∥∥∥∥∥

T∫t0

Gn(s)dWs

∥∥∥∥∥∥∥ > c′

y

∥∥∥∥∥∥∥T∫

t0

G(s)dWs

∥∥∥∥∥∥∥ > c,

∥∥∥∥∥∥∥T∫

t0

(G(s)−Gn(s))dWs

∥∥∥∥∥∥∥ > c − c′

∥∥∥∥∥∥∥

T∫t0

(G(s)−Gn(s))dWs

∥∥∥∥∥∥∥ > c − c′

;

de donde se deriva inmediatamente que

P

Ö∥∥∥∥∥∥∥ T∫t0

G(s)dWs

∥∥∥∥∥∥∥ > c

è≤ P

Ö∥∥∥∥∥∥∥ T∫t0

(G(s)−Gn(s))dWs

∥∥∥∥∥∥∥ > c − c′

è+ P

Ö∥∥∥∥∥∥∥ T∫t0

Gn(s)dWs

∥∥∥∥∥∥∥ > c′

è.

124

4.3. Propiedades de la integral estocástica.

Debido a la convergencia en probabilidad, el término

P

Ö∥∥∥∥∥∥∥ T∫t0

(G(s)−Gn(s))dWs

∥∥∥∥∥∥∥ > c − c′

ètiende a cero cuando n→∞. El otro término se trabaja de la siguiente manera. Observa que

P

Ö∥∥∥∥∥∥∥ T∫t0

Gn(s)dWs

∥∥∥∥∥∥∥ > c′

è≤ N ′

(c′)2 + P

Ñ T∫t0

‖Gn(s)‖2 ds > N ′é

y como N ′ > N, se da la contención de conjuntosT∫

t0

‖Gn(s)‖2 ds > N ′ ⊂

T∫

t0

‖Gn(s)‖2 ds > N

.

Entonces,

P

Ö∥∥∥∥∥∥∥ T∫t0

Gn(s)dWs

∥∥∥∥∥∥∥ > c′

è≤ N ′

(c′)2 + P

Ñ T∫t0

‖Gn(s)‖2 ds > N

é,

y tras tomar el ínfimo sobre N ′ > N se ve que solo basta manipular el término con c′. Para esto seutiliza la monotonía de la probabilidad y se considera una sucesión cn = c− 1

n , y al hacer n→∞se concluye que

P

Ö∥∥∥∥∥∥∥ T∫t0

Gn(s)dWs

∥∥∥∥∥∥∥ > c

è≤ Nc2 + P

Ñ T∫t0

‖Gn(s)‖2 ds > N

é,

que es la desigualdad deseada.

4. Se utiliza el inciso previo. Sean ε > 0 y δ > 0. Entonces

P

Ö∥∥∥∥∥∥∥ T∫t0

(Gn(s)−G(s))dWs

∥∥∥∥∥∥∥ > ε

è≤ δ + P

Ñ T∫t0

‖Gn(s)−G(s)‖2 ds > δε2

é.

Con hacer n→∞ y luego δ ↓ 0 se obtiene que

lımn→∞

P

Ö∥∥∥∥∥∥∥ T∫t0

(Gn(s)−G(s))dWs

∥∥∥∥∥∥∥ > ε

è= 0,

que es precísamente lımn→∞

T∫t0

Gn(s)dWs =T∫

t0

G(s)dWs, en probabilidad.

125

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

5. En virtud de (4.2.5) se puede suponer que Gn ∈ Md,m1 [t0, T] es de tipo simple y que la sucesión

(Gn) es tal quelımn→∞

EÄ‖Gn(s)−G(s)‖2

äds = 0

y

lımn→∞

T∫t0

Gn(s)dWs =T∫

t0

G(s)dWs

en L2. Se recuerda que si XnLp−−Ï X entonces Xn

Lq−−Ï X y E (Xn) → E (X) para cualesquier1 ≤ q ≤ p. Aplicando esto, se observa que en virtud de (4.1.12)

0 = E

Ñ T∫t0

Gn(s)dWs

é→ E

Ñ T∫t0

G(s)dWs

é.

Por otro lado,

E

Ö T∫t0

Gn(s)dWs

T∫t0

Gn(s)dWs

′è

=T∫

t0

E(Gn(s)Gn(s)′

)ds

y la convergencia en L2 muestra que

T∫t0

E(Gn(s)Gn(s)′

)ds→

T∫t0

E(G(s)G(s)′

)ds

y que

E

Ö T∫t0

Gn(s)dWs

T∫t0

Gn(s)dWs

′è

= E

Ö T∫t0

G(s)dWs

T∫t0

G(s)dWs

′è

.

Para concluir se aplica el operador tr el cual es lineal.

Esto concluye la demostración del teorema.

( 4.3.2 ) Sea G ∈Md,m2 [t0, T] tal que sus trayectorias son continuas P−c.d. (ve (2.3.6)). Para cualquier sucesión

(πn)n∈N de particiones de [t0, T], por ejemplo πn =Ät(n)iäi=0,...,m(n)

, para las cuales ‖πn‖ = max1≤i≤m(n)

Ät(n)i − t

(n)i−1

äconverge a cero, se cumple que

m(n)∑i=1

GÄt(n)i−1

ä(Wt(n)

i−Wt(n)

i−1

)P−Ï

T∫t0

G(s)dWs.

Se define Gn(s, ω) =m(n)∑k=1

GÄt(n)k−1, ω

ä1[t(n)

k−1,t(n)k

)(s). Se demostrará que

P (Gn ⇒ G) = 1,

126

4.3. Propiedades de la integral estocástica.

donde⇒ denota la convergencia uniforme. Como aquellas trayectorias deG que sean continuas tambiénson uniformemente continuas se sigue

P

Ñlımn→0

supt∈[t(n)k−1,t

(n)k

) ∣∣∣G Ät(n)k−1

ä−G(t)

∣∣∣ > 0

é= 0,

aquí cabe mencionar que supt∈[t(n)k−1,t

(n)k

) ∣∣∣G Ät(n)k−1

ä−G(t)

∣∣∣ > 0

es medible pues es igual, por continuidad, al conjunto sup

t∈[t(n)k−1,t

(n)k

)∩Q

∣∣∣G Ät(n)k−1

ä−G(t)

∣∣∣ > 0

y este último conjunto es la unión numerable de conjuntos medibles. De esto se puede concluir inme-diatamente que

lımn→∞

T∫t0

‖Gn(s)−G(s)‖2 ds = 0;

según (4.3.1)T∫

t0

Gn(s)dWsP−Ï

T∫t0

G(s)dWs

y con escribir la definición de Gn se obtiene el resultado afirmado.

( 4.3.3 ) Sea G ∈Md,m2 [t0, T] tal que la integral de ‖G‖2 es cero P−c.d.. Entonces

P

Ñ T∫t0

G(s)dWs = 0

é= 1.

En efecto, poniendo Gn = 0, resulta

lımn→∞

T∫t0

‖Gn(s)−G(s)‖2 ds = 0 P−c.d.,

por lo queT∫

t0

G(s)dWs = lımn→∞

T∫t0

Gn(s)dWs = 0,

que es lo que se tenía que demostrar.

( 4.3.4 ) Sean F,G ∈ Md,m1 [t0, T] tales que para F (t, ω) = G(t, ω) para casi toda t ∈ [t0, T] y para casi toda

ω ∈ Ω. Entonces, se cumple queT∫

t0

F (s)dWs =T∫

t0

G(s)dWs.

127

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

En este caso se deriva que para casi toda ω ∈ Ω se cumple que

T∫t0

‖F (s, ω)−G(s, ω)‖2 = 0;

esto es

P

Ñ T∫t0

‖F (s)−G(s)‖2 ds = 0

é= 1;

en virtud de (4.3.3) se concluye lo afirmado.

( 4.3.5 ) Sea W un proceso wieneriano m-dimensional. Entonces

T∫t0

W ′sdWs = ‖WT‖2 − ‖Wt0‖

2

2 − m(T − t0)2 .

En virtud de (4.3.1) se deriva que

T∫t0

W ′sdWs =

m∑k=1

T∫t0

W (k)dW (k)

=m∑k=1

ÄW (k)Tä2−ÄW (k)

t0

ä22 − T − t0

2

= ‖WT‖2 − ‖Wt0‖2

2 − m(T − t0)2 ,

lo que concluye lo afirmado.

( 4.3.6 ) Supón que G ∈Md,m2 [t0, T] no depende de ω, entonces el vector aleatorio

T∫t0

G(s)dWs se distribuye de

manera gaussiana con media cero y matriz de covarianzas

T∫t0

G(s)G(s)′ds.

En virtud de (4.1.7), G ∈ L2([t0, T],B ([t0, T]) , λ) y así G ∈Md,m1 [t0, T]. Según (4.2.5) se puede encon-

trar una sucesión (Gn)n∈N en Md,m1 [t0, T] tal que Gn

L2−Ï G. Entonces

T∫t0

Gn(s)dWsL2−Ï

T∫t0

G(s)dWs.

Por otro lado, existen particionesÄt(n)iäi=0,...,m(n)

tales que

T∫t0

Gn(s)dWs =m(n)∑i=1

Gt(n)i

(Wt(n)

i−Wt(n)

i−1

),

128

4.4. Las integrales estocásticas como procesos estocásticos.

y como Gt(n)i

es una constante en Matd×m (R) y W es un proceso wieneriano, se sigue que

T∫t0

Gn(s)dWs ∼ Norm

Ñ0;

T∫t0

Gn(s)Gn(s)′ds

éUsando la convergencia

T∫t0

Gn(s)Gn(s)′ds→T∫

t0

G(s)G(s)′ds se ve que

T∫t0

G(s)dWs ∼ Norm

Ñ0;

T∫t0

G(s)G(s)′ds

é,

que es lo que se quería demostrar.

§ 4.4. Las integrales estocásticas como procesos estocásticos.

Sea T ≥ t0 ≥ 0 fijos y A ∈ B ([t0, T]) . Entonces 1A×Ω ∈ Md,m2 [t0, T], lo cual se sigue de que para t

fijo se cumple que ω 7Ï 1A×Ω(t, ω) es constante. Ahora, como esta función es acotada, para cualquierG ∈Md,m

2 [t0, T] se cumple que G1A×Ω ∈Md,m2 [t0, T].

( 4.4.1 ) Para A ∈ B ([t0, T]) y G ∈Md,m2 [t0, T] se define

∫A

G(s)dWs =T∫

t0

G(s)1A×Ω(s)dWs.

Observación: si A,B ∈ B ([t0, T]) son ajenos entonces∫A∪B

G(s)dWs =∫A

G(s)dWs +∫B

G(s)dWs.

Se observa que para cualquier G ∈ Md,m2 [t0, T] se puede construir un proceso estocástico XG =(

XGt)t∈[t0,T] definiendo

XGt =

t∫t0

G(s)dWs =T∫

t0

G(s)1[t0,t]×Ω(s)dWs;

en particular P(XGt0 = 0

)= 1 (ve (4.4.1) y (4.3.3)), y para t0 ≤ s ≤ t ≤ T,

XGt − XG

s =t∫

s

G(s)dWs.

En virtud de (2.4.11), siempre se puede suponer que XG es separable.

129

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

( 4.4.2 ) Sea G ∈Md,m2 [t0, T] y X definido por

Xt =t∫

t0

G(s)dWs

para t0 ≤ t ≤ T. Entonces,

1. (Xt)t∈[t0,T] está adaptado a la filtración (Ft)t∈[t0,T]; ve (2.4.13), (2.4.14) y (4.1.3);

2. si G ∈ Md,m1 [t0, T], entonces (Xt)t∈[t0,T] es martingala respecto de (Ft)t∈[t0,T]; además, para cualquier

t0 ≤ s, t ≤ T se cumple que E (Xt) = 0 y

E(XtX′s

)=

mınt,s∫t0

E(G(u)G(u)′

)du,

en donde el ′ denota la matriz transpuesta; en particular,

EÄ‖Xt‖2

ä=

t∫t0

EÄ‖G(u)‖2

ädu,

y, para todo c > 0 y todos t0 ≤ a ≤ b ≤ T, se cumple que

supa≤u≤b

‖Xu − Xa‖ > cå≤

b∫a

EÄ‖G(v)‖2

äc2 dv,

y

supa≤u≤b

‖Xu − Xa‖2å≤ 4

b∫a

EÄ‖G(u)‖2

ädu;

3. casi todas las trayectorias de (Xt)t∈[t0,T] son contiuas;

4. si G ∈Md,m1 [t0, T], el proceso X tiene incrementos ortogonales; es decir, para t0 ≤ r ≤ s ≤ t ≤ u ≤ T se

cumple queE([Xu − Xt ]′[Xs − Xr]′

)= 0.

5. si G,H ∈Md,m1 [t0, T] y A,B ∈ B ([t0, T]) , entonces

E

Ñ∫A

G(s)dWs

∫B

H(s)dWs

′é =∫A∩B

E(G(u)H(u)′

)du

y, en particular,

E

Ñ t∫t0

G(s)dWs

s∫t0

H(s)dWs

′é =mınt,s∫t0

E(G(u)H(u)′

)du.

130

4.4. Las integrales estocásticas como procesos estocásticos.

Se demostratrá cada inciso.

1. En virtud de (4.2.1) existe una sucesión (Gn)n∈N de funciones de tipo simple en Md,m2 [t0, T] tales

queT∫

t0

Gn(s)dWsP−Ï

T∫t0

G(s)dWs.

Por el teorema de Riesz10, existe una subsucesión (Gnk )k∈N tal que

T∫t0

Gnk (s)dWsP−c.d.−−−Ï

T∫t0

G(s)dWs.

Considerando

X(n)t =

T∫t0

Gn(s)1[t0,t]dWs,

bastará demostrar que cada X(n) está adaptado a la filtración (Ft)t∈[t0,T]. De (4.1.11) se deriva que

X(n)t =

kn(t)−1∑i=1

Gt(n)i−1

(Wt(n)

i−Wt(n)

i−1

)+Gt(n)

kn (t)−1

ÅWt −Wt(n)

kn (t)−1

ã,

en donde kn(t) es el índice para el cual t ∈ît(n)kn(t)−1, t

(n)kn(t)

ä. De esta última expresión es claro que

X(n)t es (Ft ,B

(Rd))-medible; es decir, X(n) está adaptado a la filtración (Ft)t∈[t0,T].

2. De (4.3.1), inciso 4., se deriva que E (Xt) = 0 para t ∈ [t0, T]. Ahora, se observa que

E (Xt |Fs) = Xs ⇔ E

Ñ t∫s

G(u)dWu

∣∣∣∣∣Fs

é= 0.

Si G ∈ Md,m2 [t0, T] es independiente del tiempo se deriva, debido a la no anticipatividad, se sigue

que

E

Ñ t∫s

G(u)dWu

∣∣∣∣∣Fs

é= E (G(s)(Wt −Ws)|Fs) = E (G(s))E (Wt −Ws) = 0,

en donde la última igualdad se deriva de (1.3.15). De (1.3.15), la propiedad de linealidad, se puedeconcluir que el resultado vale para el caso en que G es de tipo simple. Para el caso general seconsidera una sucesión (Gn)n∈N de funciones en Md,m

1 [t0, T] (ve (4.2.5)) para las cuales

T∫t0

Gn(u)1[t0,s](u)dWuL2−Ï

T∫t0

G(u)1[t0,s]dWu.

10Establece que si una sucesión de funciones fn converge en medida a una función f, existe una subsucesion fnk que convergecasi seguramente a f.

131

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

De aquí y según (1.3.15) se deriva que

0 = E

Ñ t∫s

Gn(u)dWu

∣∣∣∣∣Fs

é→ E

Ñ t∫s

G(u)dWu

∣∣∣∣∣Fs

élo cual concluye la demostración de que (Xt)t∈[t0,T] es martingala respecto a (Ft)t∈[t0,T]. Ahora secalculará la matriz de covarianzas. En acuerdo con (4.3.1) se observa que

EÄ‖Xt‖2

ä=

t∫t0

EÄ‖G(s)‖2

äds <∞;

entonces, cada Xt tiene matriz de covarianzas. Ahora, si t0 ≤ s ≤ t ≤ T, entonces

E(XtX′s

)= E

((Xt − Xs)X′s + XsX′s

)= E

((Xt − Xs)X′s

)+ E

(XsX′s

),

y basta demostrar que E ((Xt − Xs)X′s) = 0. Para verificar esto se procede por aproximación, siendoobvio el resultado cuando G es una matriz que no depende del tiempo, en consecuencia vale paracualquier función de tipo simple y con utilizar (4.2.5) y (1.3.15) vale para cualquer G ∈Md,m

2 [t0, T],como había que demostrar. Las desigualdades a establecer son desigualdades de martingalas ybasta poner p = 2 en (2.8.4).

3. La demostración quedará dividida en varios lemas.

( 4.4.2.1 ) El proceso X es continuo cuando G = c1[a, b); en donde c : Ω → Matd×m (R) es medible y[a, b) ⊂ [t0, T].

En efecto, en este caso

Xt =

0 si t ≤ a,c(Wt −Wa) si t ∈ [a, b],c(Wb −Wa) si t ≥ b;

y así, casi todas las trayectorias de X son continuas (ve (3.3.1)).

( 4.4.2.2 ) El proceso X es continuo cuando G = c1[a, b], en donde c : Ω → Matd×m (R) es medible y[a, b] ⊂ [t0, T].

Pues se cumple que Xt =T∫

t0

c1[a, b)(s)dWs, y este último es continuo según el lema previo.

( 4.4.2.3 ) El proceso es continuo cuando G es cualquier función de tipo simple.

Pues en este caso G =n−1∑i=1

Gti−11[ti−1,ti) + Gtn−11[tn−1,tn ]. Para cualquier t ∈ [t0, T) existe un k(t) ∈

1, . . . , n tal que t ∈[tk(t)−1, tk(t)

). Entonces

Xt =k(t)−1∑i=1

Gti−1 (Wti −Wti−1 ) +Gtk(t)−1

(Wt −Wtk(t)−1

).

132

4.4. Las integrales estocásticas como procesos estocásticos.

De aquí se sigue que si s, t ∈ [ti−1, ti), entonces ‖Xt − Xs‖ = 0, por lo que el proceso es continuopor la derecha; resta verificar que es continuo sobre (ti−1, ti) y continuo por la izquierda en cadati para i = 1, . . . , n − 1. Basta verificar que

lımt↑ti

Xt = Xti .

Si t ∈ [ti−1, ti) entonces

‖Xti − Xt‖ = Gti−1 (Wti −Wti−1 )−Gti−1 (Wt −Wti−1 ) = Gti−1 (Wti −Wt) −−Ït↑ti

0,

lo cual muestra la continuidad de X.

( 4.4.2.4 ) El proceso X es continuo cuando G ∈Md,m1 [t0, T].

Pues en este caso se verifica la existencia de una sucesión (Gn)n∈N de funciones en Md,m1 [t0, T] (ve

(4.2.5)) tales que

lımn→∞

T∫t0

EÄ‖Gn(s)−G(s)‖2

äds = 0.

Definiendo X(n)t =

t∫t0

Gn(s)dWs, el inciso previo muestra que

supt0≤t≤T

∥∥∥Xt − X(n)t

∥∥∥ > cå≤ 1c

T∫t0

EÄ‖Gn(s)−G(s)‖2

äds.

En particular, si n1 = 1, para cualquier natural k > 1 se puede encontrar un natural mínimonk > nk−1 tal que

n ≥ nk ÑT∫

t0

EÄ‖Gn(s)−G(s)‖2

äds ≤ 1

k4

Luego,∞∑k=1

supt0≤t≤T

∥∥∥Xt − X(nk)t

∥∥∥ > 1k2

å<∞

y así, el lema de Borel-Cantelli muestra que

supt0≤t≤T

∥∥∥Xt − X(nk)t

∥∥∥ > 1k2 , i.o.

å= 0.

Entonces, para casi toda ω existe un natural k(ω) tal que

k ≥ k(ω)Ñ supt0≤t≤T

∥∥∥Xt(ω)− X(nk)t (ω)

∥∥∥ ≤ 1k2 .

De esto se puede derivar, tras pasar por una serie geométrica, que

PÄX(nk) ⇒ X

ä= 1;

como cada X(nk) es continua, también lo es X.

133

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

( 4.4.2.5 ) El teorema vale para G ∈Md,m2 [t0, T] cualquiera.

En este caso se define GN (t) = G(t)1[−N,N]

Ñ t∫t0

‖G(s)‖2 ds

é. Se sigue que

X(N)t =

t∫t0

GN (s)dWs, t0 ≤ t ≤ T,

es un proceso continuo, tal como puede concluirse del lema previo. Si

AN =

T∫

t0

‖G(s)‖2 ds ≤ N

entonces X(N)

t = Xt1AN y

1 = P

Ñ T∫t0

‖G(s)‖2 ds <∞

é= P

( ∞⋃N=1

AN

);

luego, siT∫

t0

‖G(s, ω)‖2 ds < ∞, entonces ω ∈ AN para algún N ∈ N, de donde se deduce que la

funciónfXω = fX(N)

ω

es continua. Luego, casi todas las trayectorias del proceso son continuas.

4. Se deriva de un pequeño cálculo y usando un inciso previo. De hecho,

E([Xu − Xt ][[Xs − Xr]′

)= E

(XuX′s

)− E (XuXr)− E

(XtX′s

)+ E (XtXr)

=s∫

t0

E(G(v)G(v)′

)dv −

r∫t0

E(G(v)G(v)′

)dv

−s∫

t0

E(G(v)G(v)′

)dv +

r∫t0

E(G(v)G(v)′

)dv = 0.

5. Nota que

E

Ñ∫A

dWs

∫B

H(s)dWs

′é =m∑j=1

m∑l=1

EÄG(j)H ′(l)

ä,

en donde

G(j) =

∫A

G1,j (v)dW (j)v

...∫A

Gd,j (v)dW (j)v

y H ′(l)

∫A

H1,l(v)dW (l)v

...∫A

Hd,l(v)dW (l)v

134

4.4. Las integrales estocásticas como procesos estocásticos.

( 4.4.2.6 ) Si G = (Gi,j ) y H = (Hi,j ) son elementos de Md,m2 [t0, T], y A,B ∈ B ([t0, T]) son cualesquier

dos borelianos, entonces

E

Ñ T∫t0

1AGi,j (s)dW (j)s

T∫t0

1BHk,l(s)dW (l)s

é = δj,l∫A∩B

E(Gi,j (s)Hk,l(s)

)ds,

en donde δj,l = 1 si j = l y δj,l = 0 si j 6= l.

Se consideran dos sucesionesÄG(n)i,jän∈N

yÄH (n)k,län∈N

en Md,m2 [t0, T] tales que

lımn→∞

T∫t0

∥∥∥G(n)(s)−G(s)∥∥∥2ds = 0

y

lımn→∞

T∫t0

∥∥∥H (n)(s)−H(s)∥∥∥2ds = 0,

siendo ambos límites en probabilidad. En particular,

lımn→∞

T∫t0

∥∥∥G(n)i,j (s)−Gi,j (s)

∥∥∥2ds = 0

y

lımn→∞

T∫t0

∥∥∥H (n)k,l (s)−Hk,l(s)

∥∥∥2ds = 0,

donde los límites fuero en probabilidad. Si j 6= l, entonces W (j) y W (l) son independientes y, portanto,

T∫t0

G(n)i,j (s)dW (j)

s

yT∫

t0

H (n)k,l (s)dW (l)

s

también son independientes para cualquier n ∈ N. En consecuencia, para cualesquier I, J ∈ B (R) ,

P

Ñ T∫t0

G(n)i,j (s)dW (j)

s ∈ I,T∫

t0

H (n)k,l (s)dW (l)

s ∈ J

é= P

Ñ T∫t0

G(n)i,j (s)dW (j)

s ∈ J

éP

Ñ T∫t0

H (n)k,l (s)dW (l)

s ∈ J

é.

135

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Haciendo n→∞ se observa que

P

Ñ T∫t0

Gi,j (s)dW (j)s ∈ I,

T∫t0

Hk,l(s)dW (l)s ∈ J

é= P

Ñ T∫t0

Gi,j (s)dW (j)s ∈ J

éP

Ñ T∫t0

Hk,l(s)dW (l)s ∈ J

é,

así que las integrales estocásticas correspondientes a procesos wienerianos independientes sonindependientes. Usando la propiedad multiplicativa de la esperanza de un producto de variablesindependientes y usando que la esperanza de una integral estocástica es cero, se concluye que laigualdad es verdadera cuando j 6= l.Se demuestra ahora la igualdad para el caso j = l. Se procederá por aproximaciones. Se empiezasuponiendo que Gi,j y Hk,j son indendientes del tiempo, y que A = [p, q) y B = [s, t). Entonces,

E

Ñ T∫t0

1AGi,j (v)dW (j)v

T∫t0

1BHk,j (v)dW (j)v

é= EÄGi,jÄW (j)

q −W (j)päHk,jÄW (j)

t −W (j)sää

= E(Gi,jHk,j

)EÄÄW (j)

q −W (j)pä ÄW (j)

t −W (j)sää

;

hay seis subcasos a tratar:

a) se supone q ≤ s, entonces

E(Gi,jHk,j

)EÄÄW (j)

q −W (j)pä ÄW (j)

t −W(j)sää

= E(Gi,jHk,j

)(q − q − p + p) = 0 =

∫A∩B

E(Gi,j (v)Hk,j (v)

)dv;

b) se supone p ≤ s ≤ q ≤ t, entonces

E(Gi,jHk,j

)EÄÄW (j)

q −W (j)pä ÄW (j)

t −W(j)sää

= E(Gi,jHk,j

)(q − s − p + p) = Gi,jHk,j (q − s)

=q∫s

E(Gi,j (v)Hk,j (v)

)dv =

∫A∩B

E(Gi,j (v)Hk,j (v)

)dv;

c) se supone s ≤ q ≤ q ≤ t, entonces

E(Gi,jHk,j

)EÄÄW (j)

q −W (j)pä ÄW (j)

t −W(j)sää

= E(Gi,jHk,j

)(q − s − p + s) = Gi,jHk,j (q − p)

=q∫p

E(Gi,j (v)Hk,j (v)

)dv =

∫A∩B

E(Gi,j (v)Hk,j (v)

)dv;

d) si p ≤ s ≤ t ≤ q, se procede como en el caso (c);e) si s ≤ p ≤ t ≤ q, se procede como en el caso (b);

136

4.4. Las integrales estocásticas como procesos estocásticos.

f) si t ≤ p, se procede como en el caso (a).

En consecuencia, el lema queda demostrado para el caso en que j = l y Gi,j , Hk,j son funcionesindependientes del tiempo y A, B son intervalos; por aditividad vale para cualesquier Gi,j y Hk,j quesean de tipo simple y A, B que sean intervalos; por convergencia vale para Gi,j y Hk,j cualesquieren M1,1

2 [t0, T] y A, B que sean intervalos; por el teorema de Dynkin vale para cualesquier Gi,j yHk,j en M1,1

2 [t0, T] y cualquier A ∈ B ([t0, T]) y B un intervalo; por teorema de Dynkin vale engeneral.

Esto concluye la demostración del teorema.

z Las variaciones de un proceso estocástico.Al igual que en el capítulo 6 de [1] resulta de interés estudiar las variaciones de un proceso estocástico.

Aquí se estudiará la variación cuadrática; para que los resultados expresen la mayor generalidad posiblese estudia la covariación entre dos procesos.

( 4.4.3 ) Sea X = (Xt)t∈[t0,T] un proceso estocástico a valores en S, con S un espacio normado, cuyo conjunto deíndices es [t0, T]. Si existe una variable aleatoria no negativa M tal que para cualquier partición π = (ti)i=0,...,kde [t0, T] se cumpla que

P

( k∑i=1‖Xti − Xti−1‖ ≤M

)= 1,

entonces se dirá que X tiene variación finita o bien, que X es un proceso de variación acotada.

( 4.4.4 ) Si casi todas las trayectorias de X = (Xt)t∈[t0,T] son funciones monótonas, entonces X es de variaciónacotada.

En efecto, sea ω tal que fXω es monótona. Entonces para cualquier partición π = (ti)i=0,...,k de [t0, T]se cumple que

k∑i=1

∣∣∣fXω (ti)− fXω (ti−1)∣∣∣ ≤ ∣∣∣fXω (T)− fXω (t0)

∣∣∣ = M(ω);

es decir,

P

( k∑i=1|Xti − Xti−1 | ≤M

)= 1,

lo que concluye lo afirmado.

( 4.4.5 ) Una condición necesaria y suficiente para que el proceso estocástico X = (X1, . . . , Xd) a valores en Rd

cuyo conjunto de índices es [t0, T] sea de variación acotada es que cada Xi sea de variación acotada.

Esto se deriva de que

|Xj (ti)− Xj (ti−1)| ≤ ‖X(ti)− X(ti−1)‖ ≤n∑j=1|Xj (ti)− Xj (ti−1)|,

por lo que si cada Xj es de variación acotada por Mj , entonces X está acotado por M1 + . . . +Md y siX está acotado por M, entonces cualquier Xj también.

( 4.4.6 ) Sea f : [t0, T]→ Rd. Una condición suficiente para que f sea de variación acotada es que sea diferenciabley su derivada esté acotada.

137

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

En efecto, pues si π = (ti)i=0,...,k es una partición de [t0, T] y k es cota de la derivada, el teorema delvalor medio (A.3.6) muestra que

n∑i=1‖f (ti)− f (ti−1)‖ ≤ k

n∑i=1

(ti − ti−1) = k(T − t0),

es decir, f es de variación finita.

( 4.4.7 ) Sean X y Y dos procesos estocásticos de tipo L2 (ve (2.2.1)) sobre (Ω,F ,P) a valores en Rd cuyoconjunto de índices es [t0, T]. Se define la covariación cuadrática de X con Y como

[X,Y ]([t0, T])P= lım

n→∞

m(n)∑i=1

[Xt(n)

i− Xt(n)

i−1

] [Yt(n)

i− Yt(n)

i−1

]′∈Matd×d (R) ,

en donde el límite es tomado sobre todas las sucesiones de particiones πn =Ät(n)iäi=0,...,m(n)

de [t0, T] tales que

su malla ‖πn‖ = max1≤i≤m(n)

Ät(n)i − t

(n)i−1

äconverge a cero.

Observación: en virtud de la desigualdad de Cauchy-Schwarz se obtiene que la covarianción siempreexiste para procesos de tipo L2.

( 4.4.8 ) Sea X el conjunto de los procesos estocásticos de tipo L2 sobre (Ω,F ,P) a valores en Rd y con conjuntode índices [t0, T]. Entonces X es un espacio vectorial y la covariación cuadrática es una forma bilineal ahí.

Como X es un subconjunto del espacio de todas las funciones [t0, T] × Ω → Rd para ver que esespacio vectorial solo hay que verificar que es subespacio. Es obvio que la función (t, ω) 7Ï 0 pertenecea X; también X es cerrado por combinaciones lineales; en efecto, si las funciones X,Y ∈ X, entoncestambién X + λY pues para todo t ∈ [t0, T] si Xt y Yt son vectores aleatorios, también Xt + λYt yEÄ‖Xt + λYt‖2

ä≤ EÄ[‖Xt‖+ |λ| ‖Yt‖

]2ä <∞.Sea [·, ·] : X × X → Matd×d (R) la covariación de dos procesos en X. Si X1, X2, Y1, Y2 ∈ X y λ, µ ∈ R,

entonces

[X1 + λX2, Y1 + µY2]

= lımn→∞

m(n)∑i=1

[(X1 + λX2)(ti)− (X1 + λX2)(ti−1)

][(Y1 + µY2)(ti)− (Y1 + µY2)(ti−1)

]′= lım

n→∞

m(n)∑i=1

[X1(ti)− X1(ti−1)

][Y1(ti)− Y1(ti−1)

]′+µ lım

n→∞

m(n)∑i=1

[X1(ti)− λX1(ti−1)

][Y2(ti)− Y2(ti−1)

]′+λ lım

n→∞

m(n)∑i=1

[X2(ti)− λX2(ti−1)

][Y1(ti)− Y1(ti−1)

]′+λµ lım

n→∞

m(n)∑i=1

[X2(ti)− λX2(ti−1)

][Y2(ti)− Y2(ti−1)

]′P−Ï [X1, Y1] + µ[X1, Y2] + λ[X2, Y1] + λµ[X2, Y2],

esto muestra que [·, ·] es un operador bilineal sobre X.

138

4.4. Las integrales estocásticas como procesos estocásticos.

( 4.4.9 ) Sean W (1) y W (2) dos procesos wienerianos independientes en Rd. Se cumple queîW (1),W (2)

ó([t0, T]) = 0.

Se demostrará que si πn =Ät(n)iäi=0,...,m(n)

define una sucesión de particiones de [t0, T], entonces

lımn→∞

m(n)∑i=1

ïW (1)

t(n)i−W (1)

t(n)i−1

ò ïW (2)

t(n)i−W (2)

t(n)i−1

ò′L2= 0.

Escribiendo W (i)t =

ÄW (i,1)

t , . . . ,W (i,d)tä′

(aquí ’ denota a la transpuesta) para i = 1, 2, se sigue queîW (1)

tó îW (2)

tó′

=

W (1,1)

t W (2,1)t . . . W (1,1)

t W (2,d)t

.... . .

...W (1,d)

t W (2,1)t . . . W (1,d)

t W (2,d)t

y entonces, para t0 ≤ s ≤ t ≤ T, se cumple queî

W (1)s −W (1)

tó îW (2)

s −W (2)tó′

=îW (1,p)

s W (2,q)s −W (1,p)

s W (2,q)t −W (1,p)

t W (2,q)2 +W (1,p)

t W (2,q)tóp,q=1,...,d

=îÄW (1,p)

s −W (1,p)tä ÄW (2,p)

s −W (2,p)täó

p,q=1,...,d;

es decir, la entrada (p, q) de la matrix[W (1),W (2)] ([t0, T]) es la covariación cuadrática de los dos procesos

wienerianos independientes W (1,p) y W (2,q). En consecuencia, para concluir basta restringirse al casode estos dos procesos wienerianos. Entonces, sean B1 y B2 dos procesos wienerianos independientes y(πn)n∈N la sucesión como en el enunciado. Se define

Tn =m(n)∑i=1

îB1Ät(n)iä− B1

Ät(n)i−1

äó îB2Ät(n)iä− B2

Ät(n)i−1

äó.

Es inmediato de la independencia que E (Tn) = 0 para cualquier n ∈ N. También la independenciamuestra que

E(T2n)

=m(n)∑i=1

EÅîB1Ät(n)iä− B1

Ät(n)i−1

äó2 îB2Ät(n)iä− B2

Ät(n)i−1

äó2ã=

m(n)∑i=1

EÅîB1Ät(n)iä− B1

Ät(n)i−1

äó2ãEÅîB2Ät(n)iä− B2

Ät(n)i−1

äó2ã=

m(n)∑i=1

Ät(n)i − t

(n)i−1

ä2≤ ‖πn‖ (T − t0)

que converge a cero cuando n→∞; esto concluye la demostración.

( 4.4.10 ) Sean f, g : [t0, T]→ Rd tales que f es continua y g es de variación acotada. Entonces [f, g ]([t0, T]) = 0.

139

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

En efecto, sea πn =Ät(n)iäi=0,...,m(n)

una sucesión de particiones de [t0, T] tales que

‖πn‖ = max1≤i≤m(n)

Ät(n)i − t

(n)i−1

ä→ 0.

Entonces,

0 ≤

∥∥∥∥∥∥m(n)∑i=1

[ft(n)i− ft(n)

i−1

] [gt(n)

i− gt(n)

i−1

]′∥∥∥∥∥∥ ≤m(n)∑i=1

∥∥∥ft(n)i− ft(n)

i−1

∥∥∥∥∥∥gt(n)i− gt(n)

i−1

∥∥∥≤ max

1≤i≤m(n)

∥∥∥ft(n)i− ft(n)

i−1

∥∥∥m(n)∑i=1

∥∥∥gt(n)i− gt(n)

i−1

∥∥∥≤ max

1≤i≤m(n)

∥∥∥ft(n)i− ft(n)

i−1

∥∥∥m(n)∑i=1

d∑j=1

∣∣∣gj Ät(n)iä− gj

Ät(n)i−1

ä∣∣∣ .Como g es de variación acotada cada gi también lo es (4.4.5), luego,

0 ≤ lım supn→∞

∥∥∥∥∥∥m(n)∑i=1

[ft(n)i− ft(n)

i−1

] [gt(n)

i− gt(n)

i−1

]′∥∥∥∥∥∥≤

d∑j=1

Vgj ([t0, T]) lım supn→∞

max1≤i≤m(n)

∥∥∥ft(n)i− ft(n)

i−1

∥∥∥ ,en donde Vgj ([t0, T]) denota a la variación de gj sobre [t0, T]. Para concluir basta ver que

lım supn→∞

max1≤i≤m(n)

∥∥∥ft(n)i− ft(n)

i−1

∥∥∥ = 0,

lo cual es consecuencia inmediata de que f es uniformemente continua y de que ‖πn‖ → 0.

( 4.4.11 ) Se supone que f, g ∈ Md,12 [t0, T] y que G y H son elementos de Md,m

2 [t0, T]. Para los procesosestocásticos

Xt = c +t∫

t0

f (s)ds +t∫

t0

G(s)dWs

y

Yt = d +t∫

t0

g(s)ds +t∫

t0

H(s)dWs,

en donde c, d son (Ft0 ,B (R))-medibles, se cumple que

[X,Y ]([t0, T]) =T∫

t0

G(s)H(s)′ds.

En particular,

lımn→∞

m(n)∑i=1

∥∥∥X(n)ti − Xt(n)

i−1

∥∥∥2=

T∫t0

‖G(s)‖2 ds,

en donde el límite se toma como en (4.4.7); este resultado se conoce como el «teorema de Goldstein».

140

4.4. Las integrales estocásticas como procesos estocásticos.

Este teorema generaliza a aquel presentado en [13]. Al igual que con los teoremas previos que hansido largos de demostrar, se divide la prueba para mayor legibilidad. Se supone que X =

(X(1), . . . , X(d))

y Y =(Y (1), . . . , Y (d)) , con X(i) y Y (j) procesos en R.

( 4.4.11.1 ) Basta demostrar que para cualesquier i, j = 1, . . . , d, se cumple que

lımn→∞

m(n)∑k=1

ïX(i)t(n)k− X(i)

t(n)k−1

ò ïY (j)t(n)k− Y (j)

t(n)k−1

ò=

m∑k=1

t∫t0

GikHjk.

El límite en probabilidad [X,Y ]([t0, T]) vale si y solo si vale en cualquier entrada; con realizar lasoeraciones involucradas se obtiene este resultado.

( 4.4.11.2 ) Sea B un proceso wieneriano. Entonces para cualesquier a, b ∈M1,12 [t0, T], que sean de tipo simple,

se cumple queT∫

t0

asdsT∫

t0

bsdBs =T∫

t0

att∫

t0

bsdBsdt +T∫

t0

btt∫

t0

asdsdBt .

Para demostrar la igualdad previa nota que, en virtud de (4.1.10), se tiene que existe una partición

de [t0, T] tal que a =n∑i=1

ati−11[ti−1,ti) y b =n∑i=1

bti−11[ti−1,ti). Para N ∈ N dado, sea

tNij = ti−1 + jN (ti − ti−1), j = 0, . . . , N.

Entonces,T∫

t0

asds =n∑i=1

ti∫ti−1

asds =n∑i=1

N∑j=1

tNij∫tNij−1

asds

y, análogamente,T∫

t0

bsdBs =n∑p=1

N∑q=1

tNpq∫tNpq−1

bsdBs.

Por lo tanto,

T∫t0

asdsT∫

t0

bsdBs =n∑

i,j=1

N∑p,q=1

tNij∫tNij−1

asdstNpq∫

tNpq−1

bsdBs =∑tNij >t

Npq

tNij∫tNij−1

asdstNpq∫

tNpq−1

bsdBs

+∑tNpq>tNij

tNij∫tNij−1

asdstNpq∫

tNpq−1

bsdBs +∑

i=j,p=q

tNij∫tNij−1

asdstNpq∫

tNpq−1

bsdBs;

141

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

y como las funciones son de tipo simple, se ve que si se define λN (t) = maxi,j

tNij∣∣tNij < t

, entonces

T∫t0

asdsT∫

t0

bdBs =T∫

t0

at

λN (t)∫t0

bsdBsdt +T∫

t0

bt

λN (t)∫t0

asdsdBt

+n∑i=1

ati−1bti−1

N∑j=1

(tNij − tNij−1

) ÄBtNij − BtNij−1

ä.

Se observa que

T∫t0

∣∣∣∣∣∣∣atλN (t)∫t0

bsdBs − att∫

t0

bsdBs

∣∣∣∣∣∣∣2

dt =T∫

t0

a2t

∣∣∣∣∣∣∣t∫

λN (t)

bsdBs

∣∣∣∣∣∣∣2

dt =T∫

t0

a2t b2

λN (t)(Bt − BλN (t)

)2 dt.Como a y b son procesos de tipo simple, estos toman solamente un número finito de valores respectoa su primer argumento; además, como para casi toda ω ∈ Ω la trayectoria fBω es continua, la diferencia(Bt(ω)− BλN (t)(ω)

)2 está acotada uniformemente para t ∈ [t0, T]. Luego, por el teorema de convergenciadominada (aplicada a la integral de Lebesgue), se tiene que

lımN→∞

T∫t0

∣∣∣∣∣∣∣atλN (t)∫t0

bsdBs − att∫

t0

bsdBs

∣∣∣∣∣∣∣2

dt = 0.

De acuerdo a (4.4.2), se ve queT∫

t0

at

λN (t)∫t0

bsdBsdtP−−−Ï

N→∞

T∫t0

att∫

t0

bsdBsdt.

Del mismo modo, se puede ver queT∫

t0

bt

λN (t)∫t0

asdsdBtP−−−Ï

N→∞

T∫t0

btt∫

t0

asdBt .

Para concluir resta ver que el otro término tiene límite en probabilidad igual a cero; se demostrará, dehecho, que

n∑i=1

ati−1bti−1

N∑j=1

(tNij − tNij−1

) ÄBtNij − BtNij−1

äL2−−−Ï

N→∞0.

Para ver esto, basta ver queN∑j=1

(tNij − tNij−1

) ÄBtNij − BtNij−1

äL2−−−Ï

N→∞0. Como B posee media cero e incre-

mentos independientes, se llega a que

E

Ö N∑j=1

(tNij − tNij−1

) ÄBtNij − BtNij−1

ä2è

=N∑j=1

E((tNij − tNij−1

)2 ÄBtNij − BtNij−1

ä2)=

N∑j=1

(tNij − tNij−1

)3 ,142

4.4. Las integrales estocásticas como procesos estocásticos.

pero si δNi = max1≤j≤N

(tij − tij−1), entonces,

N∑j=1

(tNij − tNij−1

)3 ≤ (δNi )2 N∑j=1

(tij − tij−1) =(δNi)2 (ti − ti−1)→ 0,

pues δNi → 0 cuando N →∞.Finalmente,

T∫t0

atdtT∫

t0

btdBt =T∫

t0

att∫

t0

bsdBsdt +T∫

t0

btt∫

t0

asdsdBt ,

que es lo que se había afirmado.

( 4.4.11.3 ) Sea B un proceso wieneriano. Entonces para cualesquier a, b ∈M1,12 [t0, T] se cumple que

T∫t0

asdsT∫

t0

bsdBs =T∫

t0

att∫

t0

bsdBsdt +T∫

t0

btt∫

t0

asdsdBt .

En el caso previo se demostró esto para funciones de tipo simple. En virtud de (4.2.1), existen dossucesiones

(a(n))

n∈N y(b(n))

n∈N tales que

T∫t0

∣∣∣a(n)t − at

∣∣∣2 dt P−c.d.−−−Ïn→∞

0

yT∫

t0

∣∣∣b(n)t − bt

∣∣∣2 dt P−c.d.−−−Ïn→∞

0.

Por el caso anterior,T∫

t0

a(n)t dt

T∫t0

b(n)(t)dBt =T∫

t0

a(n)t

t∫t0

b(n)s dBsdt +

T∫t0

b(n)t

t∫t0

a(n)s dsdBt ;

se define c(n)t =

t∫t0

b(n)s dBs, ct =

t∫t0

bsdBs, d(n)t =

t∫t0

a(n)s ds y dt =

t∫t0

asds; se puede ver que

P(ω ∈ Ω tales que

∣∣∣fa(n)

ω − faω∣∣∣ L2−Ï 0

)= 1

y que, en virtud de (4.3.1), para todo t ∈ [t0, T] se cumple que c(n)t

P−−−Ïn→∞

ct ; luego, se deduce que existensubsucesiones,

(aσ (n))

n∈N y(cτ(n))

n∈N , para las cuales

para casi toda t ∈ [t0, T] y para casi toda ω ∈ Ω, aσ (n)(t, ω)→ a(t, ω)

ypara cualquier t ∈ [t0, T] y para casi toda ω ∈ Ω, cτ(n)(t, ω)→ c(t, ω).

143

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Usando la desigualdad elemental (x + y)2 ≤ 2(x2 + y2) se llega a queT∫

t0

∣∣∣aσ (n)t cτ(n)

t − atct∣∣∣2 dt ≤ 2

T∫t0

ß∣∣∣aσ (n)t − at

∣∣∣2 ∣∣∣cτ(n)t

∣∣∣2 + |at |2∣∣∣ct − cτ(n)

t

∣∣∣2™dt.Por el teorema de Egoroff, dado δ > 0 existe un conjunto Ωδ ⊂ Ω tal que P (Ωδ) ≥ 1− δ y para ω ∈ Ωδse cumple que faσ (n)

ω y fcτ(n)ω convergen uniformemente a faω y fcω, respectivamente. Por lo tanto, si ω ∈ Ωδ,

el teorema de convergencia dominada (aplicado a las integrales de Lebesgue) muestra queT∫

t0

∣∣∣aσ (n)t cτ(n)

t − atct∣∣∣2 dt → 0.

Observando que P

( ∞⋃n=1

Ω 1n

)= 1, se concluye que

P

Ñ T∫t0

∣∣∣aσ (n)t cτ(n)

t − atct∣∣∣2 dt → 0

é= 1,

y con apelar a (4.3.1) se concluye la afirmación hecha.

( 4.4.11.4 ) Sea B un proceso wieneriano, y sean a, b ∈M1,12 [t0, T], funciones de tipo simple. Entonces

T∫t0

atdBtT∫

t0

btdBt =T∫

t0

att∫

t0

bsdBsdBt +T∫

t0

btt∫

t0

asdBsdBt +T∫

t0

atbtdt.

Se procede como antes; puede demostrarse que

T∫t0

atdBtT∫

t0

btdBt =T∫

t0

at

λN (t)∫t0

bsdBsdBt +T∫

t0

bt

λN (t)∫t0

asdBsdBt

+n∑i=1

ati−1bti−1

N∑j=1

ÄBtNij − BtNij−1

ä2.

Devido a que en virtud de (3.2.12),N∑j=1

(Btij − Btij−1 )2P−−−Ï

N→∞ti − ti−1, se concluye lo afirmado.

( 4.4.11.5 ) Sean B un proceso wieneriano y a, b ∈M1,12 [t0, T] cualesquiera. Entonces

T∫t0

atdBtT∫

t0

btdBt =T∫

t0

att∫

t0

bsdBsdBt +T∫

t0

btt∫

t0

asdBsdBt +T∫

t0

atbtdt.

Se consideran sucesiones(a(n))

n∈N y(b(n))

n∈N en M1,12 [t0, T] de tipo simple para las cuales

T∫t0

∣∣∣a(n)t − at

∣∣∣2 P-c.s.−−−Ïn→∞

0

144

4.4. Las integrales estocásticas como procesos estocásticos.

yT∫

t0

∣∣∣b(n)t − bt

∣∣∣2 P-c.s.−−−Ïn→∞

0.

Se define, de nuevo, c(n)t =

t∫t0

a(n)s dBs, ct =

t∫t0

asdBs, d(n)t =

t∫t0

b(n)s dBs y dt =

t∫t0

bsdBs, entonces, para

cualquier t ∈ [t0, T], y según (4.3.1), se cumple que

c(n)t

P−−−Ïn→∞

cty

d(n)t

P−−−Ïn→∞

dt .

Luego, existen subsucesiones que, por facilidad serán denotadas por(c(n))

n∈N y(d(n))

n∈N , para lascuales se cumple que para cualquier t ∈ [t0, T] las sucesiones de variables aleatorias

Äc(n)tän∈N

y(d(n))

n∈Nconvergen P−c.d. a ct y dt . Aplicando la misma técnica del teorema de Egoroff, se puede ver que

P

Ñ T∫t0

∣∣∣a(n)t c(n)

t − atct∣∣∣2 → 0

é= 1

y

P

Ñ T∫t0

∣∣∣b(n)t d(n)

t − btdt∣∣∣2 → 0

é= 1.

En virtud de (4.3.1), para concluir la afirmación se debe demostrar queT∫

t0

a(n)t b(n)

t dt →T∫

t0

atbtdt.

Para esto, observe que por la monotonía de la integral de Lebesgue y la desigualdad de Jensen,∣∣∣∣∣∣∣T∫

t0

Äa(n)t b(n)

t − atbtädt

∣∣∣∣∣∣∣2

T∫t0

∣∣∣a(n)t b(n)

t − atbt∣∣∣dt2

≤ (T − t0)2T∫

t0

∣∣∣a(n)t b(n)

t − atbt∣∣∣2 dt.

Usando de nuevo el teorema de Egoroff, se puede concluir que

P

Ñ T∫t0

|anbn − ab|2 → 0

é= 1,

con lo que se concluye lo afirmado.

( 4.4.11.6 ) Sean a y b en M1,12 [t0, T] respecto del proceso wieneriano

(W (1),W (2)) en R2. Entonces

T∫t0

atdW (1)t

T∫t0

btdW (2)t =

T∫t0

att∫

t0

bsdW (2)s dW (1)

t +T∫

t0

btt∫

t0

asdW (1)s dW (2)

t .

145

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Es la misma idea que en los casos previos; si a y b son de tipo simple se llega a queT∫

t0

atdW (1)t

T∫t0

btdW (2)t =

T∫t0

at

λN (t)∫t0

bsdW (2)s dW (1)

t +T∫

t0

bt

λN (t)∫t0

asdW (1)s dW (2)

t

+n∑i=1

ati−1bti−1

N∑j=1

(W (1)

tNij−W (1)

tNij−1

)(W (2)

tNij−W (2)

tNij−1

),

donde, por independencia, el tercer sumando tiende a cero en L2; el resto de la prueba es análogo alos casos previos.( 4.4.11.7 ) Supón que las igualdades

dxi = ai(t)dt +m∑k=1

bi,k(t)dW (k)t

y

dyj = cj (t)dt +m∑k=1

dj,k(t)dW (k)t

son satisfechas para i, j = 1, . . . , d, para todo t ∈ [t0, T] y P−c.d.; entonces, para 1 ≤ i, j ≤ d, t0 ≤ s ≤ t ≤ Ty para casi toda ω ∈ Ω, se tiene que

(xi(t)− xi(s))(yj (t)− yj (s))

=t∫

s

[xi(τ)− xi(s)

]cj (τ)

[yj (τ)− yj (s)

]ai(τ) +

m∑k=1

bi,k(τ)dj,k(τ)dτ

+m∑k=1

t∫s

[xi(τ)− xi(s)

]dj,k(τ) +

[yj (τ)− yj (s)

]bi,k(τ)

dW (k)

τ

Se observa que

xi(t)− xi(s) =t∫

s

ai(τ)dτ +m∑k=1

t∫s

bi,k(τ)dW (k)τ ,

y análogamente para y; por ende,(xi(t)− xi(s))(yj (t)− yj (s))

=m∑k=1

t∫s

ai(µ)dµt∫

s

dj,k(ν)dW (k)ν +

m∑k=1

m∑l=1

t∫s

bi,l(µ)dW (l)µ

t∫s

dj,k(ν)dW (k)ν

+m∑k=1

t∫s

cj (ν)dνt∫

s

bi,k(µ)dW (k)µ +

t∫s

ai(µ)dµt∫

s

cj (ν)dν.

Por los lemas previos,

m∑k=1

t∫s

ai(µ)dµt∫

s

dj,k(ν)dW (k)ν

=m∑k=1

Ñ t∫s

ai(µ)µ∫s

dj,k(ν)W (k)ν dµ +

t∫s

dj,k(ν)ν∫s

ai(µ)dµdW (k)ν

é,

146

4.4. Las integrales estocásticas como procesos estocásticos.

ym∑k=1

t∫s

cj (ν)dνt∫

s

bi,k(µ)dW (k)µ

=m∑k=1

Ñ t∫s

cj (ν)ν∫s

bi,k(µ)dW (k)µ dν +

t∫s

bi,k(µ)µ∫s

cj (ν)dνdW (k)µ

é;

por otro lado, siempre que l 6= k se cumple que

t∫s

bi,l(µ)dW (l)µ

t∫s

dj,k(ν)dW (k)ν

=t∫

s

bi,l(µ)µ∫s

dj,k(ν)dW (k)ν dW (l)

µ +t∫

s

dj,k(ν)ν∫s

bi,l(µ)dW (l)µ dW (k)

ν ,

y si k = l, entonces

t∫s

bi,k(µ)dW (k)µ

t∫s

dj,k(ν)dW (k)ν

=t∫

s

bi,k(µ)µ∫s

dj,k(ν)dW (k)ν dW (k)

µ +t∫

s

dj,k(ν)ν∫s

bi,k(µ)dW (k)µ dW (k)

ν +t∫

s

bi,kdj,k.

Asimismo,t∫

s

ai(µ)dµt∫

s

cj (ν)dν =t∫

s

ai(µ)µ∫s

cj (ν)dνdµ +t∫

s

cj (ν)ν∫s

ai(µ)dν,

la cual puede obtenerse derivando (como función de t) al miebro izquiero e integrando el resultado. Esfácil ver que

t∫s

ai(µ)µ∫s

cj (ν)dνdµ +m∑k=1

t∫s

ai(µ)µ∫s

dj,k(ν)W (k)ν dµ

=t∫

s

ai(µ)

Ñ µ∫s

cj (ν)dν +m∑k=1

µ∫s

dj,k(ν)dW (k)ν

édµ =

t∫s

[yj (µ)− yj (s)

]ai(µ)dµ

y quet∫

s

cj (ν)ν∫s

ai(µ)dµdν +m∑k=1

t∫s

cj (ν)ν∫s

bi,k(µ)dW (k)µ dν =

t∫s

[xi(ν)− xi(s)

]cj (ν)dν.

Reordenando las expresiones anteriores, basta demostrar que

m∑k=1

T∫

t0

([xi(τ)− xi(s)

]dj,k(τ) +

[yj (τ)− yj (s)

]bi,k(τ)

)dW (k)

τ +t∫

t0

bi,k(τ)dj,k(τ)dτ

147

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

coincide con la suma sobre k = 1, . . . ,m de las expresiones

m∑l=1

t∫s

bi,l(µ)dW (l)µ

t∫s

dj,k(ν)dW (k)ν +

t∫s

dj,k(ν)ν∫s

ai(µ)dµdW (k)ν +

t∫s

bi,k(µ)µ∫s

cj (ν)dνdW (k)µ .

Para esto, se observa que

m∑k=1

t∫s

[xi(τ)− xi(s)

]dj,k(τ)dW (k)

τ =m∑k=1

t∫s

Ñ τ∫s

ai(µ)dµ +m∑l=1

τ∫s

bi,l(µ)dW (l)µ

édj,k(τ)dW (k)

τ

=m∑k=1

t∫s

dj,k(τ)τ∫s

ai(µ)dµdW (k)τ +

m∑k=1

t∫s

dj,k(τ)τ∫s

bi,k(µ)dW (k)µ dW (k)

τ

+∑k 6=l

t∫s

dj,k(τ)τ∫s

bi,l(µ)dW (l)µ dW (k)

τ .

Por lo tanto,

m∑k=1

t∫s

[xi(τ)− xi(s)

]dj,k(τ)dW (k)

τ +m∑k=1

t∫s

[yj (τ)− yj (s)

]bi,k(τ)dW (k)

τ

=m∑k=1

t∫s

dj,k(τ)τ∫s

ai(µ)dµdW (k)τ +

m∑k=1

t∫s

dj,k(τ)τ∫s

bi,k(µ)dW (k)µ dW (k)

τ

+∑k 6=l

t∫s

dj,k(τ)τ∫s

bi,l(µ)dW (l)µ W (k)

τ +m∑k=1

t∫s

bi,k(τ)τ∫s

cj (ν)dνdW (k)τ

+m∑k=1

t∫s

bi,k(τ)τ∫s

dj,k(ν)dW (k)ν dW (k)

τ +∑k 6=l

t∫s

bi,k(τ)τ∫s

dj,l(ν)dW (l)ν dW (k)

τ .

Resta ver que

m∑k=1

m∑l=1

t∫s

bi,l(µ)dW (l)µ

t∫s

dj,k(ν)dW (k)ν

=m∑k=1

t∫s

dj,k(τ)τ∫s

bi,k(µ)dW (k)µ dW (k)

τ +∑k 6=l

t∫s

dj,k(τ)τ∫s

bi,l(µ)dW (l)µ W (k)

τ

+m∑k=1

t∫s

bi,k(τ)τ∫s

dj,k(ν)dW (k)ν dW (k)

τ +∑k 6=l

t∫s

bi,k(τ)τ∫s

dj,l(ν)dW (l)ν dW (k)

τ .

lo cual es consecuencia inmediata de los lemas previos junto con los cálculos anteriores.

( 4.4.11.8 ) Sean B un proceso wieneriano yÄ(G(n)(t)

)t∈[t0,T]

än∈N

una sucesión de funciones en M1,12 [t0, T] tales

que G(n)(t) converge en probabilidad a G(t) para casi toda t ∈ [t0, T]; además, se supone que existe una función

148

4.4. Las integrales estocásticas como procesos estocásticos.

φ ∈M1,12 [t0, T] tal que para casi toda t ∈ [t0, T] se cumple que P

([G(n)(t)

]2 ≤ φ2t

)= 1. Entonces

T∫t0

G(n)(t)dBtP−−−Ï

n→∞

T∫t0

G(t)dBt ;

este resultado se conoce como el «teorema de convergencia dominada» para integrales estocásticas.

Se definen las funciones R→ R siguientes

G(n,N)(t) = G(n)(t)1[−N,N](φ2s)

yGN (t) = G(t)1[−N,N]

(φ2s)

las cuales son elementos de M1,11 [t0, T]. En efecto, que son no anticipantes es directo de que G(n) y G lo

son, y, por el teorema de Tonelli,T∫

t0

EÅ∣∣∣G(n,N)(t)

∣∣∣2ãdt = E

Ñ T∫t0

îG(n)(t)

ó21[−N,N]

(φ2sds)dt

é≤ E

Ñ T∫t0

N2

é≤ N2(T − t0)

y análogamenteT∫

t0

E (GN (t)) ≤ N2(T − t0).

Entonces, observando que para casi toda t ∈ [t0, T] se cumple que11 P (G(t) ≤ φt) = 1, se ve queT∫

t0

E(îG(n,N)(t)−GN (t)

ó2)dt =

T∫t0

E(îG(n)(t)−G(t)

ó21[−N,N]

(φ2t))

≤ 4T∫

t0

E(φ2t 1[−N,N]

(φ2t))

= 4T∫

t0

E(N2) ≤ 4N2(T − t0).

Luego, por el teorema de convergencia dominada en medida (respecto a la medida producto) y (4.3.1),

E

Ö∣∣∣∣∣∣∣ T∫t0

G(n,N)(t)dBt −T∫

t0

GN (t)dBt

∣∣∣∣∣∣∣2è

=T∫

t0

E(îG(n,N)(t)−GN (t)

ó2)dt −−−Ï

n→∞0.

Se observa también que

P

Ö∣∣∣∣∣∣∣ T∫t0

G(t)dBt −T∫

t0

GN (t)dBT

∣∣∣∣∣∣∣ > 0

è≤ P

Ñ T∫t0

φ2sds ≥ N

é11Recuerda que si Xn

P−Ï X entonces existe una subsucesion de (Xn)n∈N tal que XnkP−c.d.−−−−Ï X.

149

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

y que

P

Ö∣∣∣∣∣∣∣ T∫t0

G(n)(t)dBt −T∫

t0

G(n,N)(t)dBt

∣∣∣∣∣∣∣ > 0

è≤ P

Ñ T∫t0

φ2sds ≥ N

é.

Luego,

P

Ö∣∣∣∣∣∣∣ T∫t0

G(t)dBt −T∫

t0

G(n)(t)dBt

∣∣∣∣∣∣∣ > ε

è≤ P

Ö∣∣∣∣∣∣∣ T∫t0

G(t)dBt −T∫

t0

GN (t)dBt

∣∣∣∣∣∣∣ >ε2

è+P

Ö∣∣∣∣∣∣∣ T∫t0

GN (t)dBt −T∫

t0

G(n,N)(t)dBt

∣∣∣∣∣∣∣ >ε4

è+P

Ö∣∣∣∣∣∣∣ T∫t0

G(n)(t)dBt −T∫

t0

G(n,N)(t)dBt

∣∣∣∣∣∣∣ >ε4

è≤ 2P

Ñ T∫t0

φ2sds ≥ N

é+ P

Ö∣∣∣∣∣∣∣ T∫t0

GN (t)dBt −T∫

t0

G(n,N)(t)dBt

∣∣∣∣∣∣∣ >ε4

è,

y comoT∫

t0

G(n,N)(t)dBtP−−−Ï

n→∞

T∫t0

GN (t)dBt ,

se puede concluir que cuando n→∞

P

Ö∣∣∣∣∣∣∣ T∫t0

G(t)dBt −T∫

t0

G(n)(t)dBt

∣∣∣∣∣∣∣ > ε

è≤ 2P

Ñ T∫t0

φ2sds ≥ N

é,

para cualquier N ∈ N. Con hacer N →∞ se obtiene el resultado deseado.

( 4.4.11.9 ) Vale el teorema de Goldstein (4.4.11).

En virtud de los primero lemas demostados y en virtud de (4.3.1) se puede pensar que

dX(i) = fi(t)dt +m∑k=1

Gi,k(t)dW (k)t

y

dY (j) = gj (t)dt +m∑k=1

Hj,k(t)dW (k)t ,

150

4.4. Las integrales estocásticas como procesos estocásticos.

entonces para 1 ≤ k ≤m(n) se cumple queïX(i)t(n)k− X(i)

t(n)k−1

ò ïY (j)t(n)k− Y (j)

t(n)k−1

ò=

t(n)k∫

t(n)k−1

ïX(i)τ − X

(i)t(n)k−1

ògj (τ)dτ

+t(n)k∫

t(n)k−1

ïY (j)τ − Y

(j)t(n)k−1

òfi(τ)dτ +

m∑l=1

t(n)k∫

t(n)k−1

Gi,l(τ)Hj,l(τ)dτ

+m∑l=1

t(n)k∫

t(n)k−1

ïX(i)τ − X

(i)t(n)k−1

òHj,l(τ)dW (l)

τ +m∑l=1

t(n)k∫

t(n)k−1

ïY (j)τ − Y

(j)t(n)k−1

òGi,l(τ)dW (l)

τ .

Sumando desde k = 1 hasta k = m(n) y poniendo λn(τ) = max¶t(n)i : t(n)

i < τ©, se ve que

m(n)∑k=1

ïX(i)t(n)k− X(i)

t(n)k−1

ò ïY (j)t(n)k− Y (j)

t(n)k−1

ò−

m(n)∑l=1

T∫t0

Gi,l(τ)Hj,l(τ)dτ

=T∫

t0

¶îX(i)τ − X

(i)λn(τ)

ógj (τ) +

îY (j)τ − Y

(j)λn(τ)

ófi(τ)©dτ

+m(n)∑l=1

T∫t0

¶îX(i)τ − X

(i)λn(τ)

óHj,l(τ) +

îY (j)τ − Y

(j)λn(τ)

óGi,l(τ)

©dW (l)

τ .

Usando la desigualdad de Cauchy-Schwarz, se concluye que12∣∣∣∣∣∣∣T∫

t0

îX(i)τ − X

(i)λn(τ)

ógj (τ)dτ

∣∣∣∣∣∣∣2

Ñ T∫t0

∣∣∣X(i)τ − X

(i)λn(τ)

∣∣∣2 dτéÑ T∫

t0

gj (s)2ds

é.

Como X(i) admite una diferencial estocástica, es continuo con probabilidad uno (ve (4.4.2)), por lo queel lado derecho está acotado (la cota depende de ω). El teorema de convergencia dominada implica que

P

Ñ T∫t0

îX(i)τ − X

(i)λn(τ)

ógj (τ)dτ → 0

é= 1;

análogamente

P

Ñ T∫t0

îY (j)τ − Y

(j)λn(τ)

ófi(τ)dτ → 0

é= 1;

por lo tantoT∫

t0

¶îX(i)τ − X

(i)λn(τ)

ógj (τ) +

îY (j)τ − Y

(j)λn(τ)

ófi(τ)©dτ P−c.d.−−−Ï

n→∞0.

12Es destacable que en el artículo original [13] de Goldstein se utiliza la integral de g2j pero solamente se pide que gj esté en

L1 para casi toda ω.

151

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Sea ahoraWX

n (τ; l) =îX(i)τ − X

(i)λn(τ)

óHj,l(τ)

y define del mismo modo WYn . Para completar la prueba habrá que demostrar

T∫t0

WXn (τ; l)dτ P−−−Ï

n→∞0

y queT∫

t0

WYn (τ; l)dτ P−−−Ï

n→∞0.

Por simetría solo se escribe el caso X. De nuevo, por la continuidad P−c.d. de X(i), se ve que WXn (τ; l)

converge a cero P−c.d.. Por lo tanto, usando el teorema de convergencia dominada para integralesestocásticas, bastará demostrar que existe un proceso M ∈M1,1

2 [t0, T] tal que

|Wn(τ; l)| ≤ |Mt | para casi toda t ∈ [t0, T].

DefineMX

i (t) = max¶X(i)u∣∣u ∈ [t0, t]

©.

Entonces, MXi es un proceso separable (ve (2.4.11)) y casi todas sus trayectorias son continuas, entonces

el proceso MXi es medible (ve (2.4.20) y (2.4.17)). Como MX

i (t) es función deX(i)(u)

∣∣u ∈ [t0, t]

esta esFt -medible. Sea Mt = MX

i (t)Hj,l(t), entonces M ∈M1,12 [t0, T] pues

T∫t0

M2t dt =

T∫t0

MXi (t)2Hj,l(t)2dt ≤MX

1 (T)2T∫

t0

H2j,l,

que es finita con probabilidad uno. Finalmente, es claro que |Wn(τ; l)| ≤ 2|Mt |. Esto completa la demos-tración del teorema de Goldstein.

( 4.4.12 ) Sobre las hipótesis del teorema de Goldstein (4.4.11) se cumple que si [X,X]([t0, T]) = 0, entoncesG = 0 para casi toda t ∈ [t0, T] y casi toda ω ∈ Ω. A [X,X] se le llama variación cuadrática de X.

Pues en virtud del teorema de Goldstein se cumple que

0 = lımn→∞

m(n)∑i=1

∥∥∥X(n)ti − Xt(n)

i−1

∥∥∥2 P=

T∫t0

‖G(s)‖2 ds,

que es exactamente lo afirmado ya que ‖G(s, ω)‖2 ≥ 0 para cualesquier s y ω.

( 4.4.13 ) Sean X y Y dos procesos estocásticos, definidos por integrales estocásticas, en Rd cuyo conjunto deíndices es [t0, T] y son tales que uno de ellos es de variación acotada. Entonces [X,Y ]([t0, T]) = 0.

Es inmediato de la propiedad previa y del teorema de Goldstein pues si

Xt = cX +t∫

t0

f (s)ds +t∫

t0

G(s)dWs

152

4.5. El teorema de Ito.

y

Yt = cY +t∫

t0

g(s)ds +t∫

t0

H(s)dWs

entonces, sin perder generalidad, se puede suponer que X es de variación finita, y en este caso G = 0y así

[X,Y ]([t0, T]) =T∫

t0

G(s)H(s)′ds = 0,

que es lo afirmado.

§ 4.5. El teorema de Ito.

( 4.5.1 ) Sea f : ([t0, T]×Ω,B ([t0, T])⊗F )→(Rd,B

(Rd)) una función tal que

P

Ñ T∫t0

|f (s)|ds <∞

é= 1,

y que está adaptada a (Ft)t∈[t0,T]. Dadas dos funciones G ∈ Md,m2 [t0, T] y c : (Ω,Ft0 ) →

(Rd,B

(Rd)) , se

define el proceso estocástico

Xt(ω) = c +t∫

t0

f (s, ω)ds +t∫

t0

G(s, ω)dWs(ω), t ∈ [t0, T];

se dirá que (Xt)t∈[t0,T] posee una diferencial estocástica f (t)dt +G(t)dWt y se escribirá

dXt = f (t)dt +G(t)dWt ;Xt0 = c.

Observación: como consecuencia directa se concluye que la diferencial estocástica es lineal.

( 4.5.2 ) Sea u ∈ C2 ([t0, T]× Rd,Rk)13 y Xt un proceso estocástico en Rd definido mediante la diferencialestocástica

dXt = f (t)dt +G(t)dWt ; Xt0 = c.13Aquí se utilizará la siguiente convención: si t ∈ [t0, T] es fijo, entonces la función x 7Ï u(t, x) es una función de Rd a Rk que

es diferenciable; su derivada en x es una transformación lineal de Rd a Rk y en consecuencia se identifica canónicamente conuna matriz de tamaño k × d. Se denotará a su derivada en el punto x por D2u (t, x) .

Análogamente, para x ∈ Rd fijo la función t 7Ï u(t, x) es diferenciable de [t0, T] a Rk, su derivada es un vector, que se identificacanónicamente con una matriz de tamaño k × 1, será denotada por D1u (t, x) .

Estas «derivadas parciales» de u son una generalización de (A.4.2). La principal propiedad que satisfacen es queDu (t, x) = (D1u (t, x) ,D2u (t, x));

en donde D se interpreta como la función R× Rd → Rk dada por(D1u (t, x) ,D2u (t, x))(p, q) = D1u (t, x)p + D2u (t, x)q ∈ Rk,

en donde p ∈ R y q ∈ Rd. Verificar esta igualdad es muy sencillo; se utiliza la regla de la cadena (A.2.1). En efecto, define, parat ∈ [t0, T] fijo, la función ψ(x) = (t, x). Entonces Dψ (x) = (0, IRd ), además D2u (t, x)q = D[u ψ] (x)q = Du (t, x) (0, IRd )q =Du (t, x) (0, q). Análogamente, para x ∈ Rd fijo, definiendo φ(t) = (t, x) entonces φ′(t) = (1, 0), por lo que D1u (t, x)p = D[u φ] (t)p = Du (t, x) (1, 0)p = Du (t, x) (p, 0). Por lo tanto, sumando,

D1u (t, x)p + D2u (t, x)q = Du (t, x) (p, 0) + Du (t, x) (0, q) = Du (t, x) (p, q);que muestra la igualdad afirmada.

153

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

El proceso estocástico Yt = u(t, Xt), para t ∈ [t0, T], también posee una diferencial estocástica respecto al mismoproceso wieneriano W, y se cumple que

dYt =ïD1u (t, Xt) + D2u (t, Xt) f (t) + 1

2tr(D2

2u(t, Xt)G(t)G(t)′)òdt

+ D2u (t, Xt)G(t)dWt ;

en dondetr(A1, . . . , Ak) = (tr(A1), . . . , tr(Ak))

para cualesquier matrices cuadradas A1, . . . , Ak. A la afirmación (4.5.2) se le conoce como el «teorema de Ito».

Observación: el teorema de Ito es el análogo a una regla de la cadena para integrales estocásticas.Cabe destacar que en el teorema de Ito aparecen términos que no aparecen en la regla de la cadenaclásica. Esto es debido a que la variación cuadrática del proceso wieneriano no es cero.

La demostración de este caso general no se encuentra presentado en ninguno de los textos en labibliografia; lo que se presenta en la bibliografía es la demostración del caso en donde k = d = m = 1(recuerda que el proceso wieneriano es m-dimensional); sin embargo, la demostración aquí presentadaes una adaptación de la demostración presentada en [2], la del teorema clásico de Ito (ve (4.6.5)). Serándadas varias reducciones antes.

( 4.5.2.1 ) Basta demostrar el teorema de Ito cuando f y G son funciones de tipo simple.

Sean f y G dos funciones como en el enunciado original del teorema de Ito. Entonces, supón que elteorema de Ito vale para funciones de tipo simple fn y Gn. En acuerdo con la pruebra (4.2.1) existe unasucesión (fn)n∈N, en donde cada fn : [t0, T]×Ω→ Rd es

(B ([t0, T])⊗F ,B

(Rd))-medible, cumple que

P

Ñ T∫t0

|fn(s)|ds <∞

é= 1,

es tal que fn está adaptada a (Ft)t∈[t0,T] y, además, para cualquier t ∈ [t0, T] se cumple que

fn(t)P−c.d.−−−Ï f (t),

t∫t0

fn(s)dsP→

t∫t0

f (s)ds.

Asimismo, existe una sucesión (Gn)n∈N de funciones en Md,m2 [t0, T] de funciones de tipo simple tal que

t∫t0

‖G(s)−Gn(s)‖2 dsP−c.d.−−−Ï 0, para t ∈ [t0, T].

En particular, según (4.1.12),t∫

t0

Gn(s)dWsP−Ï

t∫t0

G(s)dWs.

Se define el procesoÄX(n)tät∈[t0,T]

por

dX(n)t = fn(t)dt +Gn(t)dWt ;X(n)

t0 = c.

154

4.5. El teorema de Ito.

Obviamente, X(n)t

P−−−Ïn→∞

Xt . Ahora, sea Y (n)t = u

Ät, X(n)

; por hipótesis,

dY (n)t =

ïD1u

Ät, X(n)

+ D2uÄt, X(n)

täfn(t) + 1

2tr(D2

2uÄt, Xn)

täGn(t)Gn(t)′

)òdt

+ D2uÄt, X(n)

täGn(t)dWt ;

esto es,

Y (n)t = c +

t∫t0

ïD1u

Äs,X(n)

+ D2uÄs,X(n)

säfn(s) + 1

2tr(D2

2uÄs,Xn)

säGn(s)Gn(s)′

)òds

+t∫

t0

D2uÄs,X(n)

säGn(s)dWs.

Como u es continua y X(n)t

P−−−Ïn→∞

Xt se obtiene que

uÄt, X(n)

tä P−−−Ï

n→∞u(t, Xt),

por lo que Y (n)t

P−−−Ïn→∞

Yt . Al ser u ∈ C2 ([t0, T]× Rd,Rk) las funciones D1u, D2u y D22u son continuas.

Se deriva inmediatamente queD1u

Ät, X(n)

tä P−−−Ï

n→∞D1u (t, Xt) ,

D2uÄt, X(n)

tä P−−−Ï

n→∞D2u (t, Xt)

yD2

2uÄt, X(n)

tä P−−−Ï

n→∞D2

2u(t, Xt),

por lo cual, usando la aditividad de la convergencia en probabilidad,t∫

t0

ïD1u

Äs,X(n)

+ D2uÄs,X(n)

säfn(s) + 1

2tr(D2

2uÄs,X(n)

säGn(s)Gn(s)′

)òds

P−−−Ïn→∞

t∫t0

ïD1u (s,Xs) + D2u (s,Xs) f (s) + 1

2tr(D2

2u (s,Xs)G(s)G(s)′)òds

yt∫

t0

D2uÄs,X(n)

säGn(s)dWs

P−−−Ïn→∞

t∫t0

D2u (s,Xs)G(s)dWs.

Debido a la unicidad P−c.d. de los límites en probabilidad, se concluye que

Yt = c +t∫

t0

ïD1u (s,Xs) + D2u (s,Xs) f (s) + 1

2tr(D2

2u (s,Xs)G(s)G(s)′)òds

+t∫

t0

D2u (s,Xs)G(s)dWs;

155

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

es decir, el teorema de Ito vale en general.

( 4.5.2.2 ) Basta demostrar el teorema de Ito cuando f y G son funciones independiente del tiempo; es decir,cuando son vectores aleatorios

(Ft0 ,B

(Rd))-medibles.

En efecto, por la reducción previa basta ver que si vale para funciones independientes del tiempo,entonces también vale para funciones de tipo simple. Se consideran entonces dos funciones de tiposimple f y G. Aunque originalmente f y G podrían tener su propia partición del intervalo de tiempo (ve(4.1.10)), siempre existe un refinamiento común de estas, y según la observación posterior a la definicion(4.1.11) se puede considerar cualqueir refinamiento común. Entonces, sin perder generalidad, se suponeque

f (t, ω) =n−1∑i=1

fi(ti−1)1[ti−1,ti)×Ω(t, ω) + fn(tn−1)1[tn−1,tn ]×Ω(t, ω), t ∈ [t0, T]

y

G(t, ω) =n−1∑i=1

G(ti−1)1[ti−1,ti)×Ω(t, ω) +G(tn−1)1[tn−1,tn ]×Ω(t, ω), t ∈ [t0, T].

Como la diferencial estocástica es lineal y el teorema de Ito vale para cualquiera de los sumandos queconstituyen f y G, también vale para f y G.

( 4.5.2.3 ) El teorema de Ito vale cuando

Xt(ω) = c + f (ω)(t − t0) +G(ω)(Wt −Wt0 ),

en donde c, f y G son vectores aleatorios(Ft0 ,B

(Rd))-medibles y t ∈ [t0, T].

Sea (πn) una sucesión de particiones de [t0, t], con πn =Ät(n)iäi=0,...,m(n)

y

‖πn‖ = max1≤i≤m(n)

Ät(n)i − t

(n)i−1

ä→ 0;

al igual que antes se supone que lımn→∞

‖πn‖ = 0.Se observa que

Yt − Yt0 =m(n)∑i=1

(Yt(n)

i− Yt(n)

i−1

)

=m(n)∑i=1

[u(t(n)i , Xt(n)

i

)− u

(t(n)i−1, Xt(n)

i−1

)]

=m(n)∑i=1

[u(t(n)i−1 +

¶t(n)i − t

(n)i−1

©, Xt(n)

i

)− u

(t(n)i−1, Xt(n)

i

)]

+m(n)∑i=1

[u(t(n)i−1, Xt(n)

i−1+Xt(n)

i− Xt(n)

i−1

)− u

(t(n)i−1, Xt(n)

i−1

)].

Se utilizará el teorema de Taylor (A.6.2). Se aplica el teorema de Taylor de primer orden:

u(t(n)i−1 +

¶t(n)i − t

(n)i−1

©, Xt(n)

i

)− u

(t(n)i−1, Xt(n)

i

)= D1u

(t(n)i−1 + ξi

¶t(n)i − t

(n)i−1

©, Xt(n)

i

) Ät(n)i − t

(n)i−1

ä;

156

4.5. El teorema de Ito.

en donde ξi ∈ [0, 1] es variable aleatoria; se aplica el teorema de Taylor de segundo orden:

u(t(n)i−1, Xt(n)

i−1+Xt(n)

i− Xt(n)

i−1

)− u

(t(n)i−1, Xt(n)

i−1

)= D2u

(t(n)i−1, Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)+1

2D22u(t(n)i−1, Xt(n)

i−1+ µi

Xt(n)

i− Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)(2),

en donde µi ∈ [0, 1] es variable aletoria, aquí se utiliza la notación introducida en (A.6.2); esto es, paracada vector H ∈ RN , X(j) = (X, . . . , X)︸ ︷︷ ︸

j veces

∈ RjN .

En virtud de (4.4.2) se deriva que X posee trayectorias continuas P−c.d.. De la hipótesis se concluyeque u, D1u, D2u y D2

2u son continuas; en consecuencia, porser [t0, T] compacto, si

αn = max1≤i≤m(n)

∥∥∥D1u(t(n)i−1 + ξk

¶t(n)i − t

(n)i−1

©, Xt(n)

i

)−D1u

(t(n)i−1, Xt(n)

i

)∥∥∥y

βn = max1≤i≤m(n)

∥∥∥D22u(t(n)i−1, Xt(n)

i−1+ µk

Xt(n)

i− Xt(n)

i−1

)−D2

2u(t(n)i−1, Xt(n)

i−1

)∥∥∥ ,entonces, se ve que P (αn → 0, βn → 0) = 1.

Observa que si se piensa a(Xt(n)

i− Xt(n)

i−1

)(2)como producto de matrices, entonces, la definición de Xt

(4.5.2.3) muestra que(Xt(n)

i− Xt(n)

i−1

)(2)=(Xt(n)

i− Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)′=(f¶t(n)i − t

(n)i−1

©+G

Wt(n)

i−Wt(n)

i−1

)(f¶t(n)i − t

(n)i−1

©+G

Wt(n)

i−Wt(n)

i−1

)′= ff ′

¶t(n)i − t

(n)i−1

©2+ f

Wt(n)

i−Wt(n)

i−1

′G′¶t(n)i − t

(n)i−1

©+G

Wt(n)

i−Wt(n)

i−1

f ′¶t(n)i − t

(n)i−1

©+G

Wt(n)

i−Wt(n)

i−1

Wt(n)

i−Wt(n)

i−1

′G′.

En virtud del teorema de Goldstein (ve (4.4.11)) se concluye que

lımn→∞

m(n)∑i=1

(Xt(n)

i− Xt(n)

i−1

)(2)=

t(n)i∫

t(n)i−1

GG′ds = GG′Ät(n)i − t

(n)i−1

ä,

donde el límite es en probabilidad y las igualdades son P−c.d.. Por otro lado,

m(n)∑i=1

GWt(n)

i−Wt(n)

i−1

Wt(n)

i−Wt(n)

i−1

′G′ = G

m(n)∑i=1

Wt(n)

i−Wt(n)

i−1

Wt(n)

i−Wt(n)

i−1

′G′,usando otra vez el teorema de Goldstein se sigue que, el límite en probabilidad,

lımn→∞

m(n)∑i=1

Wt(n)

i−Wt(n)

i−1

Wt(n)

i−Wt(n)

i−1

′= G

Ät(n)i − t

(n)i−1

äIRmG′ = GG′

Ät(n)i − t

(n)i−1

ä,

157

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

y por lo tanto,

lımn→∞

m(n)∑i=1

ïff ′¶t(n)i − t

(n)i−1

©2+ f

Wt(n)

i−Wt(n)

i−1

′G′¶t(n)i − t

(n)i−1

©+G

Wt(n)

i−Wt(n)

i−1

f ′¶t(n)i − t

(n)i−1

©ò= 0,

como límite en probabilidad. Entonces, se puede concluir que

Yt − Yt0 =m(n)∑i=1

[D1u

(t(n)i−1 + ξk

¶t(n)i − t

(n)i−1

©, Xt(n)

i

)−D1u

(t(n)i−1, Xt(n)

i

)] Ät(n)i − t

(n)i−1

ä+

m(n)∑i=1

[D1u

(t(n)i−1, Xt(n)

i

) Ät(n)i − t

(n)i−1

ä+ D2u

(t(n)i−1, Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)]+1

2

m(n)∑i=1

[D2

2u(t(n)i−1, Xt(n)

i−1+ µk

Xt(n)

i− Xt(n)

i−1

)−D2

2u(t(n)i−1, Xt(n)

i−1

)](Xt(n)

i− Xt(n)

i−1

)(2)

+m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)(2).

Nota que ∥∥∥∥∥∥m(n)∑i=1

[D1u

(t(n)i−1 + ξk

¶t(n)i − t

(n)i−1

©, Xt(n)

i

)−D1u

(t(n)i−1, Xt(n)

i

)] Ät(n)i − t

(n)i−1

ä∥∥∥∥∥∥≤

m(n)∑i=1

αnÄt(n)i − t

(n)i−1

ä,

y como αn es independiente de i, y la suma es telescópica, entonces

m(n)∑i=1

αnÄt(n)i − t

(n)i−1

ä= αn(t − t0)→ 0 P-c.d..

Análogamente,∥∥∥∥∥∥m(n)∑i=1

[D2

2u(t(n)i−1, Xt(n)

i−1+ µk

Xt(n)

i− Xt(n)

i−1

)−D2

2u(t(n)i−1, Xt(n)

i−1

)](Xt(n)

i− Xt(n)

i−1

)(2)∥∥∥∥∥∥

≤m(n)∑i=1

βn∥∥∥∥(Xt(n)

i− Xt(n)

i−1

)(2)∥∥∥∥ ,

y como ‖‖ es una función continua, y(Xt(n)

i− Xt(n)

i−1

)(2) P−−−Ïn→∞

GG′Ät(n)i − t

(n)i−1

ä, se concluye que

lımn→∞

∥∥∥∥(Xt(n)i− Xt(n)

i−1

)(2)∥∥∥∥ = ‖GG′‖

Ät(n)i − t

(n)i−1

ä,

en probabilidad. Por lo tanto,

lımn→∞

m(n)∑i=1

∥∥∥∥(Xt(n)i− Xt(n)

i−1

)(2)∥∥∥∥ = ‖GG′‖ (t − t0),

158

4.5. El teorema de Ito.

en probabilidad, y así se obtiene que

lımn→∞

m(n)∑i=1

βn∥∥∥∥(Xt(n)

i− Xt(n)

i−1

)(2)∥∥∥∥ = 0,

pues P (βn → 0) = 1. De esto se puede concluir, hasta este punto, que

Yt − Yt0 = lımn→∞

(Yt − Yt0 )

= lımn→∞

m(n)∑i=1

ïD1u

(t(n)i−1, Xt(n)

i

) Ät(n)i − t

(n)i−1

ä+ D2u

(t(n)i−1, Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)+ D2

2u(t(n)i−1, Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)(2) ò,

en donde los límites son en probabilidad. En virtud de la continuidad de D1u se obtiene que

lımn→∞

m(n)∑i=1

D1u(t(n)i−1, Xt(n)

i

) Ät(n)i − t

(n)i−1

ä=

t∫t0

D1u (s,Xs)ds,

en probabilidad. ComoXt(n)

i− Xt(n)

i−1= fÄt(n)i − t

(n)i−1

ä+G

(Wt(n)

i−Wt(n)

i−1

)y en virtud de (4.3.2), se llega a que

m(n)∑i=1

D2u(t(n)i−1, Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)=

t∫t0

D2u (s,Xs)ds +∫

D2u (s,Xs)GdWs,

en probabilidad. En particular, se ha demostrado ya que

( 4.5.2.4 ) La demostración del teorema de Ito queda subordinada a la demostración de que

lımn→∞

m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)(2)=

t∫t0

tr(D2

2u(s,Xs)GG′)ds,

en probabilidad.

Ahora se procederá a dar una demostración de la igualdad previa. Para esto observa que

D22u(t(n)i−1, Xt(n)

i−1

)(Xt(n)

i− Xt(n)

i−1

)(2)= D2

2u(t(n)i−1, Xt(n)

i−1

)ff ′Ät(n)i − t

(n)i−1

ä2+D2

2u(t(n)i−1, Xt(n)

i−1

)f(Wt(n)

i−Wt(n)

i−1

)′G′Ät(n)i − t

(n)i−1

ä+D2

2u(t(n)i−1, Xt(n)

i−1

)G(Wt(n)

i−Wt(n)

i−1

)f ′Ät(n)i − t

(n)i−1

ä+D2

2u(t(n)i−1, Xt(n)

i−1

)G(Wt(n)

i−Wt(n)

i−1

)(Wt(n)

i−Wt(n)

i−1

)′G′.

Primeramente se demostrará que

lımn→∞

m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1

)ff ′Ät(n)i − t

(n)i−1

ä2= 0,

159

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

en probabilidad. Al igual que antes, utilizando la continuidad de la norma, resulta que∥∥∥∥∥∥m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1

)ff ′Ät(n)i − t

(n)i−1

ä2∥∥∥∥∥∥ ≤ ‖ff ′‖ ‖πn‖m(n)∑i=1

∥∥∥D22u(t(n)i−1, Xt(n)

i−1

)∥∥∥ Ät(n)i − t

(n)i−1

ä,

y ahora se observa que

m(n)∑i=1

∥∥∥D22u(t(n)i−1, Xt(n)

i−1

)∥∥∥ Ät(n)i − t

(n)i−1

ä P−Ït∫

t0

∥∥∥D22u(s,Xs)

∥∥∥dsy como ‖πn‖ → 0, se concluye lo afirmado.

En segundo lugar se demostrará que

lımn→∞

m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1

)f(Wt(n)

i−Wt(n)

i−1

)′G′Ät(n)i − t

(n)i−1

ä= 0,

en probabilidad. Se procede de manera análoga al argumento anterior. En este caso se observa que hayun conjunto N ∈ F tal que P (N) = 0 y si ω /∈ N, entonces t 7Ï Wt(ω) es continua (ve (3.1.1) y (3.3.1));luego, fWω es uniformemente continua sobre [t0, T]. De aquí se deriva que∥∥∥∥∥∥

m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1(ω))f (ω)

(Wt(n)

i(ω)−Wt(n)

i−1(ω))′G(ω)′

Ät(n)i − t

(n)i−1

ä∥∥∥∥∥∥=

∥∥∥∥∥∥m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1(ω))f (ω)¶fWωÄt(n)iä− fWω

Ät(n)i−1

ä©′G(ω)′

Ät(n)i − t

(n)i−1

ä∥∥∥∥∥∥≤ ‖f (ω)‖ ‖G(ω)‖

m(n)∑i=1

∥∥∥D22u(t(n)i−1, Xt(n)

i−1(ω))∥∥∥∥∥∥fWω Ät(n)

iä− fWω

Ät(n)i−1

ä∥∥∥ Ät(n)i − t

(n)i−1

ä.

Sea ahora ε > 0 dado y N(ω;ε) ∈ N suficientemente grande tal que si n ≥ N(ω;ε) entonces∥∥∥fWω Ät(n)iä− fWω

Ät(n)i−1

ä∥∥∥ < ε.

Por lo tanto, si n ≥ N(ω;ε) se cumple que∥∥∥∥∥∥m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1(ω))f (ω)

(Wt(n)

i(ω)−Wt(n)

i−1(ω))′G(ω)′

Ät(n)i − t

(n)i−1

ä∥∥∥∥∥∥≤ ε ‖f (ω)‖ ‖G(ω)‖

m(n)∑i=1

∥∥∥D22u(t(n)i−1, Xt(n)

i−1(ω))∥∥∥ Ät(n)

i − t(n)i−1

ä−−−Ïn→∞

ε ‖f (ω)‖ ‖G(ω)‖t∫

t0

∥∥∥D22u(s,Xs(ω))

∥∥∥ds.Consecuentemente, se deriva que para ω ∈ N y para todo ε > 0 se cumple que

lım supn→∞

∥∥∥∥∥∥m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1(ω))f (ω)

(Wt(n)

i(ω)−Wt(n)

i−1(ω))′G(ω)′

Ät(n)i − t

(n)i−1

ä∥∥∥∥∥∥ ≤ cε,160

4.5. El teorema de Ito.

donde c es una constante no negativa. Luego, con hacer ε ↓ 0 se cumple que para casi toda ω ∈ Ω,

lımn→∞

∥∥∥∥∥∥m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1(ω))f (ω)

(Wt(n)

i(ω)−Wt(n)

i−1(ω))′G(ω)′

Ät(n)i − t

(n)i−1

ä∥∥∥∥∥∥ = 0;

en particular, vale el límite en probabilidad.Ya se trabajaron los primeros dos de los cuatro sumandos de interés. El tercer sumando también

converge a cero:

lımn→∞

m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1

)G(Wt(n)

i−Wt(n)

i−1

)f ′Ät(n)i − t

(n)i−1

ä= 0,

en probabilidad. La demostración de esto es idéntica al caso previo.Se ha demostrado que el teorema de Ito ha quedado relegado a demostrar que

lımn→∞

m(n)∑i=1

D22u(t(n)i−1, Xt(n)

i−1

)G(Wt(n)

i−Wt(n)

i−1

)(Wt(n)

i−Wt(n)

i−1

)′G′ =

t∫t0

tr(D2

2u(s,Xs)GG′)ds,

en probabilidad. Recuerda que si u = (u1, . . . , uk), entonces D22u =

(D2

2u1, . . . ,D22uk)

(ve (A.5.3)), tambiénse definió

tr(A1, . . . , Ak) = (tr(A1), . . . , tr(Ak)),

para A1, . . . , Ak matrices cuadradas, y se recuerda también que una condición necesaria y suficientepara que una sucesión de vectores aleatorios converja en probabilidad es que cada una de sus entradasconverja en probabilidad. Con estas observaciones se concluye que no se pierde ninguna generalidaden suponer k = 1 a partir de este momento. En este caso

D22u(t, x) =

D2,2u (t, x) D3,2u (t, x) . . . Dd+1,2u (t, x)D2,3u (t, x) D3,3u (t, x) . . . Dd+1,3u (t, x)

......

. . ....

D2,d+1u (t, x) D3,d+1u (t, x) . . . Dd+1,d+1u (t, x)

,y por ser u dos veces diferenciable con continuidad para cualquier i, j ∈ 1, . . . , d, se obtiene de (A.4.8)que Di,ju (t, x) = Dj,iu (t, x) . Por notación se escribirá

∂2u∂xi∂xj

(t, x) = Di+1,j+1u (t, x) .

Tras algunos cálculos sencillos se ve que

tr(D2

2u(t, x)GG′)

=m∑r=1

d∑i=1

d∑j=1

∂2u∂xi∂xj

(t, x)Gi,rGj,r

y que para cualesquier dos tiempos t0 ≤ µ < λ ≤ T se cumple que

D22u(t, x)G(Wµ −Wλ)(Wµ −Wλ)′G′

=m∑q=1

m∑p=1

d∑i=1

d∑j=1

∂2u∂xi∂xj

(t, x)Gi,pGj,qÄW (p)

λ −W (p)µä ÄW (q)

λ −W (q)µä.

161

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Como D22u es continua, se sigue que esta derivada está acotado en cualquier subconjunto compacto de

[t0, T] × Rd. En consecuencia, es necesario eliminiar algunos valores grandes. Se aplicará una técnicaclásica, truncamiento.

Se define

INl,n(ω) =®

1 si∥∥∥Xt(n)

1(ω)∥∥∥ · . . . · ∥∥∥Xt(n)

l(ω)∥∥∥ ≤ N

0 en cualquier otro caso;

esto se hace para l = 1, . . . ,m(n). Entonces INl,n es una función de Xt(n)1, . . . , Xt(n)

m(n); de hecho

INl,n = 1[0,N]

(∥∥∥Xt(n)1

∥∥∥ · · · ∥∥∥Xt(n)l

∥∥∥)Sean p, q ∈ 1, . . . ,m con p 6= q y sean i, j ∈ 1, . . . , d cualesquiera. Define φl,n = W (p)

t(n)l−W (p)

t(n)l−1

y

ψl,n = W (q)t(n)l−W (q)

t(n)l−1, entonces de la definición del proceso wieneriano (3.3.1) y de que p 6= q se obtiene que

φζ,n y ψθ,n son independientes para cualesquier θ, ζ ∈ 1, . . . ,m(n). Por incrementos independientesdel proceso wieneriano, se obtiene que, también, φl,n y ψl,n son independientes de Xt(n)

lpara cualquier

l ∈ 1, . . . ,m(n); en particular, φl y ψl son independientes de INl,n.Sea MN = max

t0≤t≤T,‖x‖≤N

∥∥∥D22u(t, x)

∥∥∥ . Entonces

PÇ∣∣∣∣ ∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)INk,n∣∣∣∣ ≤MN

å= 1;

también E (φl,n) = E (ψl,n) = 0. Consecuentemente, usando esta desigualdad e independencia, se derivaque ∣∣∣∣∣E

Ç∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)INk,nφk,nψk,n

å∣∣∣∣∣ ≤MNE (φk,n)E (ψk,n) = 0.

Asimismo, para k < l se cumple que∣∣∣∣∣EÇ

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)INk,nφk,nψk,n

∂2u∂xi∂xj

(t(n)l−1, Xt(n)

l−1

)INl,nφl,nψl,n

å∣∣∣∣∣= M2

N |E (φk,nψk,nφl,nψl,n)| = M2N |E (φk,nφl,n)E (ψk,nψl,n)|

= M2N |E (φk,n)E (φl,n)E (ψk,n)E (ψl,n)| = 0.

Por lo tanto,

E

Öm(n)∑k=1

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)INk,nφk,nψk,n

≤M2NE

Öm(n)∑k=1

φk,nψk,n

= M2N

m(n)∑k=1

E(φ2k,nψ2

k,n)

+ 2∑

1≤k<l≤m(n)

E (φk,nψk,nφl,nψl,n)

;

ya es sabido que E (φk,nψk,nφl,nψl,n) = 0, resta calcular los otros sumandos. Para esto se nota que

E(φ2k,nψ2

k,n)

= E(φ2k,n)E(ψ2k,n)

=Ät(n)k − t

(n)k−1

ä2≤ ‖πn‖

Ät(n)k − t

(n)k−1

ä.

162

4.5. El teorema de Ito.

Se ha demostrado que

E

Öm(n)∑k=1

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)INk,nφk,nψk,n

2è≤M2

N

m(n)∑k=1‖πn‖

Ät(n)k − t

(n)k−1

ä= M2

N (t − t0) ‖πn‖ −−−Ïn→∞0;

equivalentementem(n)∑k=1

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)INk,nφk,nψk,n

L2−−−Ïn→∞

0,

y en virtud de esto, la última convergencia también vale en probabilidad. Sin embargo, lo que se debedemostrar es que

m(n)∑k=1

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)INk,nGi,pGj,qφk,nψk,n

P−−−Ïn→∞

0.

Para esto se utiliza el siguiente resultado clásico de teoria de la medida: para que una sucesión defunciones (fn)n∈N converja en µ-medida a una función f es condición necesaria y suficiente quepara cada subsucesión (fnk )k∈N exista una “subsubsucesión” (fnkj )j∈N de tal forma que fnkj

µ−c.d.−−−Ï f.Aplicando este resultado y observando que Gi,p y Gj,q son independientes de n se obtiene lo que sequería demostrar.

Sean ahora

Sn =m(n)∑k=1

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)Gi,pGj,qφk,nψk,n

y

SNn =m(n)∑k=1

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)INk,nGi,pGj,qφk,nψk,n.

EntoncesP(Sn 6= SNn

)≤ PÅ

maxt0≤s≤t

‖Xs‖ > Nã.

Se observa ahora que

maxt0≤s≤t

‖Xs‖ ≤ ‖c‖+ ‖f‖ (t − t0) + ‖G‖ maxt0≤s≤t

‖Ws −Wt0‖ ,

que es finito P−c.d., por ende, para todo δ > 0 existe un N > 0 tal que

maxt0≤s≤t

‖Xs‖ > Nã≤ δ.

Observando queP (|Sn| ≥ ε) ≤ P

(∣∣∣SNn ∣∣∣ ≥ ε)+ P(Sn 6= SNn

),

pues es obvio que no pueden ocurrir simultaneamente las siguientes dos afirmaciones |Sn| ≥ ε ySn = SNn ,

∣∣SNn ∣∣ < ε, se concluye que

P (|Sn| ≥ ε) ≤ P(∣∣∣SNn ∣∣∣ ≥ ε)+ δ.

163

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Como SNnP−Ï 0, se concluye que

lım supn→∞

P (|Sn| ≥ ε) ≤ δ.

Al haber sido δ > 0 cualquier número positivo, se concluye que

lımn→∞

P (|Sn| ≥ ε) = 0,

que, por definición, significa |Sn|P−Ï 0.

Hasta ahora se ha demostrado que de la siguiente sumam(n)∑k=1

m∑q=1

m∑p=1

d∑i=1

d∑j=1

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)Gi,pGj,q

ÅW (p)

t(n)k−W (p)

t(n)k−1

ãÅW (q)

t(n)k−W (q)

t(n)k−1

ã,

los términos para los cuales p 6= q convergen en probabilidad a cero cuando n→∞. Por lo tanto, paraconcluir la demostración del teorema de Ito resta aún demostrar que

m(n)∑k=1

m∑r=1

d∑i=1

d∑j=1

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)Gi,rGj,r

ÅW (r)

t(n)k−W (r)

t(n)k−1

ãÅW (r)

t(n)k−W (r)

t(n)k−1

ã=

m∑r=1

d∑i=1

d∑j=1

m(n)∑k=1

∂2u∂xi∂xj

(t(n)k−1, Xt(n)

k−1

)Gi,rGj,r

ÅW (r)

t(n)k−W (r)

t(n)k−1

ãÅW (r)

t(n)k−W (r)

t(n)k−1

ãP−−−Ï

n→∞

m∑r=1

d∑i=1

d∑j=1

t∫t0

∂2u∂xi∂xj

(s,Xs)Gi,rGj,rds;

como la integral es aditiva, basta demostrar el caso m = d = 1.( 4.5.2.5 ) El teorema de Ito quedará completamente demostrado si

lımn→∞

m(n)∑k=1

D22u(t(n)k−1, Xt(n)

k−1

)G1G2

(Bt(n)

k− Bt(n)

k−1

)2=

t∫t0

D22u(s,Xs)G1G2ds,

en probabilidad, en donde B es un proceso wieneriano en R y G1, G2 ∈M1,12 [t0, T].

De la definición de la integral riemaniana a partir de sumas stieltjianas se observa que la demostra-ción de esta afirmación puede quedar subordinada a demostrar

lımn→∞

m(n)∑k=1

D22u(t(n)k−1, Xt(n)

k−1

)ß(Bt(n)

k− Bt(n)

k−1

)2−Ät(n)k − t

(n)k−1

ä™= 0,

en probabilidad, pues G1 y G2 no depende de n ni del tiempo; así será hecho. Para realizar esto sedefine

εk,n =(Bt(n)

k− Bt(n)

k−1

)2−Ät(n)k − t

(n)k−1

ä,

por lo que εk,n y εl,n son independientes siempre que k 6= l; además E (εk,n) = 0 y

E(ε2k,n)

= EÅ(Bt(n)

k− Bt(n)

k−1

)4− 2Ät(n)k − t

(n)k−1

ä(Bt(n)

k− Bt(n)

k−1

)2+Ät(n)k − t

(n)k−1

ä2ã= 3

Ät(n)k − t

(n)k−1

ä2− 2Ät(n)k − t

(n)k−1

ä2+Ät(n)k − t

(n)k−1

ä2= 2

Ät(n)k − t

(n)k−1

ä2,

164

4.6. Ejemplos.

por lo tanto,

E

Öm(n)∑k=1

D22u(t(n)k−1, Xt(n)

k−1

)INk,nεk,n

=m(n)∑k=1

EÅ[

D22u(t(n)k−1, Xt(n)

k−1

)INk,n]2ε2k,n

ã+2

∑1≤k<l≤m(n)

E(

D22u(t(n)k−1, Xt(n)

k−1

)INk,nεk,nD2

2u(t(n)l−1, Xt(n)

l−1

)INl,nεl,n

)≤M2

N

m(n)∑k=1

E(ε2k,n)

+ 2M2N

∑1≤k<l≤m(n)

E (εk,nεl,n)

= 2M2N

m(n)∑k=1

Ät(n)k − t

(n)k−1

ä2≤ 2M2

N (t − t0) ‖πn‖ −−−Ïn→∞0.

Entonces, si

Υn =m(n)∑k=1

D22u(t(n)k−1, Xt(n)

k−1

)εk,n

y

ΥNn =

m(n)∑k=1

D22u(t(n)k−1, Xt(n)

k−1

)INk,nεk,n,

es inmediato que ΥNn

P−Ï 0; luego, se verifica, al igual que antes, que para todo δ > 0 existe un N > 0 talque

P (|Υn| ≥ ε) ≤ P(∣∣∣ΥN

n

∣∣∣ ≥ ε)+ δ,

en consecuencia, para todo δ > 0lım supn→∞

P (|Υn| ≥ ε) ≤ δ

y así ΥnP−−−Ï

n→∞0, que es exactamente lo que se debía demostrar para concluir.

Observación: las observaciones hechas a (A.1.3) muestran que no importa qué espacios Rd, Rk y Rm

se consideren para u; el teorema igual aplica si se utiliza, por ejemplo Matp×q (R) en lugar de Rk.

§ 4.6. Ejemplos.Aquí se exponen algunos corolarios y ejemplos entorno al teorema de Ito.

( 4.6.1 ) Para i = 1, 2 sean (Xi(t))t∈[t0,T] sendos procesos estocásticos en Rp y Rq , los cuales admiten sendasdiferenciales estocásticas

dXi(t) = fi(t)dt +Gi(t)dWi(t); Xi(t0) = ci,en donde f1(t) ∈ Rp, G1 ∈Mp,m

2 [t0, T] yW1 es un proceso wieneriano en Rm; f2(t) ∈ Rq , G2 ∈Mq,n2 [t0, T] yW2

es un proceso wieneriano en Rn, independiente14 deW1. Entonces, el proceso estocástico Xt = (X1(t), X2(t))t∈[t0,T]

14Esto significa que si W (p)1 y W (q)

2 son cualesquier entradas en W1 y W2, respectivamente, entonces W (p)1 y W (q)

2 son indepen-dientes como procesos estocásticos en R.

165

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

en Rp+q también adimite una diferencial estocástica respecto del proceso wieneriano (m + n)-dimensional,(Wt)t∈[t0,T] el cual está definido por Wt = (W1(t),W2(t))t∈[t0,T] . Tal diferencial estocástica está dada por

dXt = (f1(t), f2(t))dt + (G1(t), G2(t))dWt ; Xt0 = (c1, c2);

la última igualdad se puede escribir en forma matricial como

dXt =ïf1(t)f2(t)

òdt +

ïG1(t) 0

0 G2(t)

òdWt ; Xt0 =

ïc1c2

ò.

Es directo de la multiplicación matricial que se cumple que

t∫t0

(G1(s), G2(s))dWs =

Ñ t∫t0

G1(s)dW1(s),t∫

t0

G2(s)dW2(s)

é.

Luego,

Xt = (X1(t), X2(t))

=

Ñc1 +

t∫t0

f1(s)ds +t∫

t0

G1(s)dW1(s), c2 +t∫

t0

f2(s)ds +t∫

t0

G2(s)dW2(s)

é= (c1, c2) +

t∫t0

(f1(s), f2(s))ds +t∫

t0

(G1(s), G2(s))dWs,

es decir,dXt = (f1(t), f2(t))dt + (G1(t), G2(t))dWt ; Xt0 = (c1, c2),

que es lo que había que demostrar.

( 4.6.2 ) Considera una diferencial estocástica dXt = f (t)dt + G(t)dBt (ve (4.5.1)), en donde f (t) ∈ R2 yGt ∈Mat2×1 (R) , para la función u : [t0, T]× R2 → R dada por u(t, x, y) = xy se cumple que

du(t, Xt) = X1(t)dX2(t) + X2(t)dX1(t) +G1(t)G2(t)dt,

en donde G =ïG1G2

ò; el «teorema de integración por partes».

Observación: al igual que con el teorema de Ito, este teorema representa o equivale al teorema deintegración por partes del cálculo diferencial. Sin embargo, aquí el término anexo queda derivado dela variación cuadrática entre los dos procesos, ve la observación hecha al teorema de Ito (4.5.2).

En este caso se cumple que D1u = 0, D2u(t, x, y) = [y x] y que D22u(t, x, y) =

ï0 11 0

ò. Apelando al

teorema de Ito (ve 4.5.2) se concluye que

du(t, Xt) = [y x](f1(t), f2(t))dt + 12trï0 11 0

ò ïG2

1 (t) G1(t)G2(t)G1(t)G2(t) G2(t)2

òdt + [y x]

ïG1G2

òdWt ,

y tras realizar las operaciones se observa que

du(t, Xt) = (X2(t)f1(t) + X1(t)f2(t) +G1(t)G2(t))dt + (X2(t)G1(t) + X1(t)G2(t))dWt ;

166

4.6. Ejemplos.

como consecuencia de esto, para concluir resta ver que

X1(t)dX2(t) + X2(t)dX1(t) = (X2(t)f1(t) + X1(t)f2(t))dt + (X2(t)G1(t) + X1(t)G2(t))dWt ;

lo cual es inmediato.

( 4.6.3 ) Encuentre una diferencial estocástica de B2t para Bt proceso wieneriano.

Ya se sabe quet∫

t0

BtdBt =B2t − B2

t02 − t − t0

2 , entonces

B2t = B2

t0 +t∫

t0

ds + 2t∫

t0

BtdBt ,

en consecuenciadB2

t = dt + 2BtdBt ,que concluye el ejemplo.

( 4.6.4 ) Encuentre una diferencial estocástica de (tWt)t∈[t0,T].

En este caso, se tiene el proceso estocástico dXt = dWt ; se define la función u(t, x) = tx, entoncesD1u (t, x) = x y D2u (t, x) = t y D2

2u(t, x) = 0. Según (4.5.2),

d(tWt) = Wtdt + tdWt ,

que es la diferencial buscada.

( 4.6.5 ) Sea Xt = Wt y u : R→ R dos veces diferenciable con continuidad. Encuentre du(Xt).

Se utilizará el teorema de Ito (4.5.2); si u(t, x) = u(x), entonces D1u (t, x) = 0, D2u (t, x) = u′(x) yD2

2u(t, x) = u′′(x), entonces

du(Wt) = 12u′′(Wt)dt + u′(Wt)dWt ,

que es el «teorema de Ito clásico».

( 4.6.6 ) Sea u(x) = xn para x ∈ R. Encuentre du(Bt), en donde Bt es un proceso wieneriano.

Se apela al teorema de Ito clásico (4.6.5), entonces

du(Bt) = 12u′′(Bt)dt + u′(Bt)dBt = n(n − 1)

2 Bn−2t dt + nBn−1

t dBt ,

que es la diferencial buscada.

( 4.6.7 ) Encuentre los primeros dos momentos de

1∫0

eBtdBt .

Observa que si se define Gs = eBs entonces se pide encontrar los primeros dos momentos de X1

para el proceso Xt =t∫

0

GsdBs. Se utilizará (4.3.1) para lo cual es necesario verificar que G ∈M1,12 [0, 1]

167

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

y que para cualquier s ∈ [0, 1], E(G2s)<∞. Claramente, G es no anticipante ya que es la composición

de una función medible y del proceso wieneriano (ve (4.1.8)). Como M1,11 [0, 1] ⊂M1,1

2 [0, 1] basta probarque G ∈M1,1

1 [0, 1]. En efecto,

1∫0

E(G2s)ds =

1∫0

E(e2Bs)ds;

usando el teorema de cambio de variable y el hecho de que 2Bs ∼ Norm (0; 4s) , tras un cálculo sencillo15

se obtiene que1∫

0

E(e2Bs)ds =

1∫0

e2sds = e2 − 12 <∞,

por lo que G ∈M1,12 [0, 1]. Entonces, (4.3.1) muestra que

E

Ñ 1∫0

eBtdBt

é= 0

y

Var

Ñ 1∫0

eBtdBt

é= e2 − 1

2 ,

lo que concluye el ejemplo.

( 4.6.8 ) Sea (Xt)t∈[t0,T] un proceso estocástico a valores en Rd que admite la diferencial estocástica dXt =f (t)dt +G(t)dWt . Entonces d ‖Xt‖2 = 2trans(Xt)dXt + ‖Gt‖2 dt, en donde se utiliza trans(H) para denotar ala transpuesta de H para evitar confusión con ’, que denota a la derivada.

En efecto, la función u(x) = ‖x‖2 puede ser escrita como u(x) = 〈x, x〉 . Entonces u′(x) = 2x yu′′(x) = 2IRd , en consecuencia de (4.6.5)

d ‖Xt‖2 = u′(Xt)f (t) + 12tr(2IRdGtG′t)ds + u′(Xt)GtdWt

=[2 〈Xt , f (t)〉+ tr(GtG′t)

]dt + 2 〈Xt , Gt〉dWt

= 2trans(Xt)f (t)dt + 2trans(Xt)GtdWt + ‖Gt‖2 dt= 2trans(Xt)dXt + ‖Gt‖2 dt,

que es lo afirmado.

( 4.6.9 ) Considera el proceso estocástico real Xt = c − 12

t∫t0

G2sds +

t∫t0

GsdWs, donde G es no anticipante, a

valores reales y cuyo cuadrado es integrable. Encuentra deXt .

15Aparece una integral de la forma∫R

ceax2+bxdx, solo se debe completar el cuadrado en el exponente y utilizar que toda

densidad de una normal integra a 1.

168

4.6. Ejemplos.

Se observa quedXt = −1

2G2t dt +GtdWt .

Entonces, según (4.5.2) se concluye que

deXt =ï−1

2eXtG2

t dt + 12e

XtG2t

òdt + eXtGtdWt = eXtGtdWt .

Que concluye lo afirmado.

Observación: una ecuación diferencial ordinaria clásica del cálculo es x = x;x(0) = 1. Se sabe queesta ecuación diferencial ordinaria caracteriza a la función exponencial. En consecuencia, el procesoestocástico Yt = exp

ßBt −

12 t™

juega el papel de la función «exponencial estocástica».

( 4.6.10 ) Sean (Xt)t∈[t0,T] y (Yt)t∈[t0,T] dos procesos estocásticos con diferenciales estocásticas dXt = f (t)dt +G(t)dWt y dYt = g(t)dt + H(t)dWt . Entonces al proceso estocástico [X,Y ]t = [X,Y ]([t0, t]) se le llama elproceso de covariaciones cuadráticas entre X y Y.

Observación: si se define (dWt)(dt) = (dt)(dWt) = (dt)(dt) = 0 y (dWt)(dW ′t ) = dt, entonces

dXtdY ′t = (f (t)dt +G(t)dWt)(g(t)′dt +H(t)′dW ′t ) = G(t)H(t)′dt;

es decir, dXtdY ′t = d[X,Y ]t . Con esta convención se obtiene que para Xt y Yt diferenciales estocásticasen R, respecto del mismo proceso wieneriano Bt (ve (4.6.2)),

d[X,Y ]t = d(XtYt)− XtdYt − YtdXt ,

o, equivalentemente,d(XtYt) = XtdYt + YtdXt + d[X,Y ]t

y si X = Y,dX2

t = 2XtdXt + d[X,X]t .( 4.6.11 ) Calcule d(tBteBt ).

Se utiliza la notación multiplicativa para diferenciales, entonces

d(tBteBt

)= tBtdeBt + eBtd(tBt) + d

[tBt , eBt

].

Sea Xt = tBt y Yt = eBt . Entonces

dXt = tdBt + Btdt + d[t, Bt ] = tdBt + Btdt,

en donde la última igualdad es debido a (4.4.10); también, en virtud del teorema de Ito clásico (4.6.5),

dYt = 12e

Btdt + eBtdBt .

Por lo tanto, usando (4.4.8),d[tBt , eBt

]= d[Xt , Yt ] = teBtdt.

Finalmente,

d(tBteBt

)= tBt

Å12e

Btdt + eBtdBtã

+ eBt (tdBt + Btdt) + teBtdt

= eBtßÅ1

2 tBt + Bt + tãdt + (tBt + t)dBt

™,

lo cual concluye lo pedido.

169

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

§ 4.7. El teorema de existencia y unicidad con sus generalizaciones.En esta sección se escribirá, por conveniencia, Ft(c) = Σ(Ft ∪Σ(c)), en donde c es cualquier vector

aleatorio; en el caso en que c sea claro por el contexto y no haya peligro de confusión, se escribirá Ft ,aunque esto es un abuso notacional. Nota que si c es independiente del proceso wieneriano (Wt)t∈[t0,T],entonces Ft0 (c) es independiente del proceso.

Recuerde que una «ecuación diferencial ordinaria» es el término que se utiliza para denominar acierto tipo de problemas. El problema general es el siguiente, dada una función u : [t0, T] × Rd → Rd

tal que u es continua, encontrar una función f : [t0, T]→ Rd tal que para todo t ∈ [t0, T] se cumpla quef ′(t) = u(t, f (t)); este problema se denota por

x = u(t, x);

a la función f se le llama «solución» de la ecuación diferencial. En teoría de ecuaciones diferenciales(ve [7], página 6, teorema 1.2) ordinarias se demuestra el siguiente teorema.

( 4.7.1 ) Sea u : V → Rd, en donde V ⊂ R × Rd es abierto y u es continua; para cualquier (t0, x0) ∈ V existeun rectángulo [t0− r, t0 + r]×B (x0; r) ⊂ V para el cual existe una función f : [t0− r, t0 + r]→ B (x0; r) la cuales una «solución local» de la ecuación diferencial x = u(t, x) la cual toma el valor x0 al tiempo t0; el «teoremade existencia de Cauchy-Peano».

De hecho, en [7] se da el valor de r, el cual solo depende de f. Cuando u es solamente continuase puede demostrar la existencia de soluciones no únicas; esto es ciertamente desagradable pues no sepuede hablar de un operador Φu tal que Φu(t0, x0) sea la solución del problema. En consecuencia, sehacen esfuerzos para encontrar condiciones suficientes que deriven en unicidad de soluciones.

La demostración del siguiente teorema utiliza un método denominado como «iteraciones sucesivas».

( 4.7.2 ) Supón que R = [a, b] × B′ (x0; r) es un rectángulo cerrado en R × Rn y sea t0 = b + a2 . Supón que

existe una función k : [a, b]→ [0,∞) integrable (en el sentido de Lebesgue) y f : R→ Rn que sea k-lipschitzianay tal que para toda ψ : [a, b]→ B′ (x0; r) continua la función t 7Ï f (t, ψ(t)) es integrable sobre [a, b]. Asimismose supone que para todo t ∈ [a, b] se cumple la siguiente «restricción en el crecimiento»

‖f (t, x0)‖ ≤ k(t)(1 + ‖x0‖).

Existe un α > 0 tal que sobre [t0 − α, t0 + α] la sucesión de «aproximaciones sucesivas»

φ0(t) = x0

φ(j + 1)(t) = x0 +t∫

t0

f (s, φj (s))ds

converge uniformemente a la única solución de

x = f (t, x), x(t0) = x0.

Para entender las demostraciones aquí expuestas; los surgimientos de los argumentos aquí utilizadosy las propiedades enunciadas es recomendable leer los primeros dos capitulos del texto [7]. Si así eshecho, la conexión de lo siguiente con lo previo es obvia.

( 4.7.3 ) Sean (Wt)t∈[t0,T] un proceso wieneriano dado y definido sobre el espacio de probabilidad (Ω,F ,P), c unvector aleatorio el cual es independiente de (Wt)t∈[t0,T] f : [t0, T]× Rd → Rd y G : [t0, T]× Rd → Matd×m (R) ,

170

4.7. El teorema de existencia y unicidad con sus generalizaciones.

las cuales son medibles respecto a las σ-álgebras de Borel respectivas. Un proceso estocástico separable (Xt)t∈[t0,T]se llama solución fuerte de la ecuación diferencial estocásticaß

dXt = f (t, Xt)dt +G(t, Xt)dWt ; t ∈ [t0, T]Xt0 = c

si tal proceso satisface las siguiente propiedades

1. está adaptado a la filtraciónÄFW (c)

ät∈[t0,T]

;

2. las funciones f : [t0, T]×Ω→ Rd y G : [t0, T]×Ω→ Rd dadas por

f (t, ω) = f (t, Xt(ω));G(t, ω) = G(t, Xt(ω));

pertenecen a Md,12 [t0, T] y a Md,m

2 [t0, T], respectivamente;

3. para cualquier t ∈ [t0, T], se cumple que

P

ÑXt = c +

t∫t0

f (s,Xs)ds +t∫

t0

G(s,Xs)dWs

é= 1.

( 4.7.4 ) Toda ecuación diferencial estocástica de la formaßdYt = f (t, Yt ,Wt)dt +G(t, Yt ,Wt)dWt ; t ∈ [t0, T]Yt0 = c

puede ser reducida a una del tipo presentada en (4.7.3).

En efecto, se considera el proceso Xt =ÅYtWt

ã, entonces

dXt =ÅdYtdWt

ã=Åf (t, Yt ,Wt)dt +G(t, Yt ,Wt)dWt

dWt

ã=Åf (t, Xt)

0

ãdt +

ÅG(t, Xt)IRm

ãdWt ;

si se define f =Åf0

ãy G =

ÅGIRm

ã, entonces la ecuación dada equivale a

dXt = f (t, Xt) + G(t, Xt); t ∈ [t0, T]

con Xt0 =Åc0

ã.

( 4.7.5 ) La ecuación diferencial estocástica (4.7.3) es equivalente aXt − Xs =

t∫s

f (u,Xu)du +t∫

s

G(u,Xu), dWu;

Xt0 = c;t0 ≤ s ≤ t ≤ T.

Lo cual es obvio.

171

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

( 4.7.6 ) Si X = (Xt)t∈[t0,T] es una solución fuerte de la ecuación diferencial estocástica (4.7.3), entonces cualquiermodificación de X (ve (2.3.3)) que sea separable también es solución fuerte.

Este representa un primer ejemplo en donde se observa la importancia de la separabilidad (ve(2.4.1)). Aquí se consideran los procesos como si tomaran valores en

(R,B

(R)). En virtud de (2.4.4) y

de que casi todas las trayectorias de X son continuas (ve (4.4.2)), se obtiene que cualquier subconjuntodenso y contable de [t0, T] puede ser tomado como conjunto separante.

Sea X una modificación de X que sea separable. Entonces, existe un conjunto separante P y unconjunto despreciable A; se puede suponer que ω /∈ A Ñ fXω es continua (ve (4.4.2)). El proceso X − Xes separable con conjunto separante P y conjunto despreciable

B = A ∪⋃s∈P

¶Xs 6= Xs

©;

en efecto, si ω /∈ B, entonces ω /∈ A, así que para cualquier t ∈ [t0, T] existe una sucesión (sn)n∈N definidaen P con sn → t y Xsn (ω) → Xt(ω), por continuidad, también se cumple que Xsn (ω) → Xs(ω), lo cualdemuestra lo afirmado. Asimismo, como P es contable y cada

¶Xs 6= Xs

©∈ F se sigue que B ∈ F

y P (B) = 0. Ahora, si ω /∈ B, entonces Xs(ω) = Xs(ω), es decir, el proceso separable X − X es ceropara (s, ω) ∈ P × B. Por separabilidad, Xs(ω) = Xs(ω) para todo s ∈ [t0, T] y para todo ω ∈ B. Enconsecuencia, para casi toda ω, fXω = f Xω . De la igualdad de trayectorias se concluye inmediatamenteque

t∫t0

f (s,Xs)ds =t∫

t0

fÄs, Xs

äds.

Para concluir quet∫

t0

G(s,Xs)dWs =t∫

t0

GÄs, Xs

ädWs

se recurre a (4.3.3); de nuevo, de la igualdad de trayectorias se deriva que

t∫t0

∥∥∥G(s,Xs)−GÄs, Xs

ä∥∥∥2ds = 0 P−c.d.

Esto concluye lo afirmado.

( 4.7.7 ) Se considera la ecuación diferencial estocástica (4.7.3) en la que para cualquier t ∈ [t0, T] se cumpleque P (Gt = 0) = 1, entonces a esta ecuación se le llamará ecuación diferencial aleatoria.

Nota que una ecuación diferencial aleatoria se transforma en una ecuación diferencial ordinariapara cada ω fijo.

( 4.7.8 ) Se considera la ecuación diferencial estocástica (4.7.3) en la que f y G dependen solamente del espacioy no del tiempo, entonces a estas ecuaciones se les llamará ecuaciones diferenciales estocásticas autónomas.

( 4.7.9 ) Sean f, G dos funciones con dominio [t0, T] las cuales toman valores en Rd y Matd×m (R) , respectiva-mente. Se supone que ‖f‖ y ‖G‖2 son integrables. La ecuación diferencial estocástica

dXt = f (t)dt +G(t)dWt ; t ∈ [t0, T]; Xt0 = c,

172

4.7. El teorema de existencia y unicidad con sus generalizaciones.

posee una solución única P−c.d., la cual está dada por

Xt(ω) = c(ω) +t∫

t0

f (s)ds +t∫

t0

G(s)dWs(ω).

En particular, si c(ω) = c, es constante, entonces Xt es un proceso gaussiano d dimensional con incrementosindependientes, esperanza

E (Xt) = c +t∫

t0

f (s)ds

y matriz de covariaciones

E((Xt − E (Xt))(Xs − E (Xs))′

)= cc′ +

mıns,t∫t0

G(u)G(u)′du,

para s, t ∈ [t0, T].

Que la solución de la ecuación en (4.7.9) sea la propuesta es inmediato de (4.1.7); las afirmacionessobre el caso en que c ∈ Rd sea un vector constante se derivan de (1.2.3) y del teorema de Goldstein(4.4.11).

( 4.7.10 ) Sean g, h y L funciones continuas de [t0, T] a R con L positiva. Supón que

g(t) ≤t∫

t0

L(s)g(s)ds + h(t)

para t ∈ [t0, T] cualquiera, entonces

g(t) ≤ h(t) +t∫

t0

L(s)h(s) exp

Ñ t∫s

L(u)du

éds;

la «desigualdad (o el lema) de Gronwall». En particular, si L es constante

g(t) ≤ h(t) + Lt∫

t0

eL(t−s)h(s)ds,

por lo que si h es la función cero, g también es la función cero.

Si R(t) =t∫

t0

L(s)g(s)ds, por el teorema fundamental del cálculo R′ = Lg y así

R′ − LR = L(g − R) ≤ Lh.

Sea

ψ(x, y) = exp

Ñ y∫x

L(u)du

é,

173

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

se ve que, usando integración por partes,

t∫t0

[R′(s)− L(s)R(s)

]ψ(s, t0)ds

= R(u)ψ(u, t0)t∣∣∣t0

−t∫

t0

R(s)D1ψ (s, t0)ds −t∫

t0

L(s)R(s)ψ(s, t0)ds.

Nota que D1ψ (x, y) = −L(x)ψ(x, y), por ende

t∫t0

R(s)D1ψ (s, t0)ds = −t∫

t0

L(s)R(s)ψ(s, t0)ds.

Por lo tanto,t∫

t0

[R′(s)− L(s)R(s)

]ψ(s, t0)ds = R(t)ψ(t, t0).

Como ψ ≥ 0 y R′ − LR ≤ Lh se ve que

R(t)ψ(t, t0) ≤t∫

t0

L(s)h(s)ψ(s, t0)ds.

Dividiendo por ψ(t, t0) se encuentra que

ψ(s, t0)ψ(t, t0)

= exp

Ñ t0∫s

L(u)du −t0∫t

L(u)du

é= ψ(s, t).

Para concluir solo resta ver que R ≥ g −h pero ya se tenía L(g −h) ≤ LR, usando que L > 0 se obtienela desigualdad de Gronwall.

( 4.7.11 ) Se considera la ecuación diferencial estocástica (4.7.3); se supone que existe un k > 0 y una sucesión(kn)n∈N de constantes positivas tales que

1. para cualquier N ∈ N y cualesquier (t, x), (t, y) ∈ [t0, T]× B′ (0;N) se cumple que

‖f (t, x)− f (t, y)‖+ ‖G(t, x)−G(t, y)‖ ≤ kN ‖x − y‖ (lipschitzianidad);

2. para cualesquier (t, x) ∈ [t0, T]× Rd se cumple que

‖f (t, x)‖2 + ‖G(t, x)‖2 ≤ k2(1 + ‖x‖2) (restricción en el crecimiento);

entonces existe una solución X = (Xt)t∈[t0,T] de la ecuación; más aún, si (Yt)t∈[t0,T] es otra solución de la ecuacióndiferencial la cual es continua, entonces

supt0≤t≤T

‖Xt − Yt‖ > 0å

= 0;

el teorema de «existencia y unicidad» de soluciones fuertes.

174

4.7. El teorema de existencia y unicidad con sus generalizaciones.

Se dará la demostración en varias etapas.

( 4.7.11.1 ) Vale la unicidad de las soluciones.

Sean entonces X y Y dos soluciones de la ecuación tales que casi todas sus trayectorias son continuas.Se define

IN : [t0, T]×Ω→ R por IN (t, ω) = 1[0,N]

Çsupt0≤s≤t

‖Xs(ω)‖å1[0,N]

Çsupt0≤s≤t

‖Ys(ω)‖å,

entonces IN (t) = IN (s)IN (t) para cualquier s ∈ [t0, t] e IN (s) es no anticipante (ve (4.1.8)). Luego,

IN (t)(Xt − Yt) = IN (t)

t∫t0

f (s,Xs)− f (s, Ys)

ds +

t∫t0

G(s,Xs)−G(s, Ys)

dWs

= IN (t)

t∫t0

IN (s)f (s,Xs)− f (s, Ys)

ds +

t∫t0

IN (s)G(s,Xs)−G(s, Ys)

dWs

,de la hipótesis de lipschitzianidad se deriva que

IN (s)(‖f (s,Xs)− f (s, Ys)‖+ ‖G(s,Xs)−G(s, Ys)‖

)≤ IN (s)kN ‖Xs − Ys‖ ≤ 2NkNIN (s) ≤ 2NkN ,

de donde, usando que ‖x + y‖2 ≤ 2(‖x‖2 + ‖y‖2

), se concluye que

EÄIN (t) ‖Xt − Yt‖2

ä≤ 2E

ÖIN (t)

∥∥∥∥∥∥∥t∫

t0

IN (s)f (s,Xs)− f (s, Ys)

ds

∥∥∥∥∥∥∥2è

+ 2E

ÖIN (t)

∥∥∥∥∥∥∥t∫

t0

IN (s)G(s,Xs)−G(s, Ys)

dWs

∥∥∥∥∥∥∥2è

.

Define φ : Rn → R por φ(x) = ‖x‖2 , la desigualdad de Jensen16 muestra que

φ

Ñ b∫a

f (u)b − adu

é≤

b∫a

φ(f (u))b − a du,

16Aquí no intentes aplicar la desigualdad de Jensen a f : [a, b]→ Rn o a φ pues no aplica. Haz lo siguiente, define µ = λb−a , en

donde λ es la medida de Lebesgue. De aquí, utiliza la desigualdad∥∥∥∥∥∥b∫

a

f (u)dµ

∥∥∥∥∥∥ ≤b∫

a

‖f‖dµ

y la monotonía de φ para concluir que

φ

Ñb∫

a

fdµ

é≤

Ñb∫

a

‖f‖dµ

é2

b∫a

‖f‖2 dµ,

en donde la última desigualdad es la de Jensen.

175

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

mostrando que

φ

Ñ b∫a

f (u)du

é≤ (b − a)

b∫a

φ(f (u))du.

Así, se puede concluir que (ve (4.3.1) inciso 5.),

EÄIN (t) ‖Xt − Yt‖2

ä≤ 2(T − t0)

t∫t0

EÄIN (s) ‖f (s,Xs)− f (s, Ys)‖2

äds

+ 2T∫

t0

EÄIN (s) ‖G(s,Xs)−G(s, Ys)‖2

äds.

Define LN = 2(T − t0 +1)k2N , entonces la hipótesis de lipschitzianidad y la última igualdad muestran que

EÄIN (t) ‖Xt − Yt‖2

ä≤ LN

t∫t0

EÄIN (s) ‖Xs − Ys‖2

äds.

Con aplicar el lema de Gronwall para h = 0 y g(t) = EÄIN (t) ‖Xt − Yt‖2

äse concluye que g(t) = 0. Por

lo tanto, para cualquier N ∈ N y cualquier t ∈ [t0, T] se cumple que

P (IN (t)Xt = IN (t)Yt) = 1,

de donde,

P (IN 6= 1) = P (IN (t) = 0 para algún t ∈ [t0, T])= P (‖Xt‖ > N o ‖Yt‖ > N para algún t ∈ [t0, T]) ,

la contención de conjuntos

‖Xt‖ > N o ‖Yt‖ > N para algún t ∈ [t0, T] ⊂®

supt0≤t≤T

‖Xt‖ ≥ N´∪®

supt0≤t≤T

‖Yt‖ ≥ N´

muestra que

P (IN 6= 1) ≤ PÇ

supt0≤t≤T

‖Xt‖ ≥ Nå

+ PÇ

supt0≤t≤T

‖Yt‖ ≥ Nå

;

se hará N → ∞, hay que verificar que la probabilidad de la derecha tiende a cero. Para esto se haceun proceso de refinamiento. Como casi todas las trayectorias de X son continuas existe un Z ∈ F talque P (Z) = 0 y ω ∈ Z Ñ fXω es continua; para ω ∈ Z existe un N(ω) ≥ 0 tal que sup

t0≤t≤T

∥∥∥fXω (t)∥∥∥ = N(ω).

Hay dos casos a considerar, el primero de ellos es que

supω∈Z

N(ω) <∞;

en este caso, si N > supω∈Z

N(ω) entonces

supt0≤t≤T

‖Xt‖ ≥ Nå

= 0,

176

4.7. El teorema de existencia y unicidad con sus generalizaciones.

lo que resuelve el problema; en el segundo caso, se supone que

supω∈Z

N(ω) =∞;

se considera Zn =ω ∈ Z

∣∣N(ω) ≤ n, se ve que

Zn ⊂ Zn+1

y queZ =

⋃n∈NZn,

por lo tanto,1 = P

(Z)

= lımn→∞

P(Zn

);

esto es, dado ε > 0 existe un M ∈ N con n ≥M Ñ P (Zn) ≤ε2 , con observar que®

ω ∈ Ω∣∣∣ supt0≤t≤T

∥∥∥fXω (t)∥∥∥ > n

´=®

supt0≤t≤T

‖Xt‖ ≥ n´⊂ Zn

se puede concluir que

lımN→∞

supt0≤t≤T

‖Xt‖ ≥ Nå

= 0,

análogamente,

lımN→∞

supt0≤t≤T

‖Yt‖ ≥ Nå

= 0.

Por lo tanto, se ha demostrado17 que

∀t ∈ [t0, T],P (Xt = Yt) = 1.

Sea M = [t0, T],∩Q. EntoncesP (∀t ∈M,Xt = Yt) = 1,

y al ser que los dos procesos X y Y son continuos, y casi todas sus trayectorias coinciden en un conjuntodenso se sigue que

P (∀t ∈ [t0, T], Xt = Yt) = 1,

que era la afirmación de unicidad.

( 4.7.11.2 ) Vale la existencia si EÄ‖c‖2ä< ∞ y para cada n ∈ N se cumple que k = kn; es decir, cuando la

constante de lipschitzianidad es la misma cota k.17Si no es claro como se demuestra esta igualdad puede proceder como sigue:

P (Xt = Yt ) = P (Xt = Yt , IN (t) = 1) + P (Xt = Yt , IN (t) = 0)= P (IN (t) = 1) + P (Xt = Yt , IN (t) = 0)≥ P (IN (t) = 1) = 1− P (IN (t) 6= 1) ,

y se demostró que lımn→∞

P (IN (t) 6= 1) = 0, por lo que P (Xt = Yt ) = 1.

177

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Se procede mediante iteraciones sucesivas; se defineX(0)t = c

X(n)t = c +

t∫t0

fÄs,X(n−1)

säds +

t∫t0

GÄs,X(n−1)

sädWs;

para verificar que esta sucesión está bien definida se debe verificar que las integrales existen. Ahora,como X(0)

t = c es independiente del proceso wieneriano, es no anticipante. Si∥∥∥X(n−1)

∥∥∥2es integrable y

no anticipante, en virtud de la hipótesis de restricción de crecimiento, se sigue que las integrales en ladefinición de X(n) existen; como se supone que

∥∥∥X(0)∥∥∥2

es integrable, se obtiene que toda la sucesión(X(n))

n∈N está bien definida. De hecho, la hipótesis

EÄ‖c‖2ä<∞

equivale asupt0≤t≤T

EÅ∥∥∥X(0)

t

∥∥∥2ã<∞.

Nota que para cualesquier x1, . . . , xk ∈ Rn se cumple que∥∥∥∥∥ k∑i=1

xi

∥∥∥∥∥2

≤ 2k−1k∑i=1‖xi‖2 ;

el cual se verifica usando inducción en k, donde el paso inductivo está dado por∥∥∥∥∥k+1∑i=1

xi

∥∥∥∥∥2

≤ 2∥∥∥∥∥ k∑i=1

xi

∥∥∥∥∥2

+ 2 ‖xk+1‖2 ≤ 2× 2k−1k∑i=1‖xi‖2 + 2k ‖xk+1‖2 = 2k

k+1∑i=1‖xi‖2 ,

que es lo afirmado. Entonces, aplicando el caso k = 3 se verifica que

EÅ∥∥∥X(n)

t

∥∥∥2ã≤ 4E

Ö‖c‖2 +

∥∥∥∥∥∥∥t∫

t0

fÄs,X(n−1)

säds

∥∥∥∥∥∥∥2

+

∥∥∥∥∥∥∥t∫

t0

GÄs,X(n−1)

sädWs

∥∥∥∥∥∥∥2è

,

el argumento de la desigualdad de Jensen con la φ dada antes y (4.3.1), inciso 5., muestran que

EÅ∥∥∥X(n)

t

∥∥∥2ã≤ 4E

Ä‖c‖2ä

+ 4(T − t0)t∫

t0

EÅ∥∥∥f Äs,X(n−1)

sä∥∥∥2ãds

+ 4t∫

t0

EÅ∥∥∥G Äs,X(n−1)

sä∥∥∥2ãds,

y usando la condición de restricción en el crecimiento se deduce que

EÅ∥∥∥X(n)

t

∥∥∥2ã≤ 4E

Ä‖c‖2ä

+ 4(T − t0 + 1)k2t∫

t0

ï1 + E

Å∥∥∥X(n−1)s

∥∥∥2ãò

ds;

178

4.7. El teorema de existencia y unicidad con sus generalizaciones.

usando inducción en n, se ve claramente que

supt0≤t≤T

∥∥∥X(n−1)t

∥∥∥2å<∞Ñ E

Çsupt0≤t≤T

∥∥∥X(n)t

∥∥∥2å<∞;

es decir, para cualqueir n ∈ N se cumple que

supt0≤t≤T

∥∥∥X(n)t

∥∥∥2å<∞.

Ahora, en la prueba clásica de (4.7.2) (por ejemplo, ve [7], capítulos 1 y 2) se procedía a verificar quela aproximaciones sucesivas conformaban una sucesión de funciones uniformemente equicontinua; elteorema de Arzelà-Ascoli permitía entonces concluir la existencia de una subsucesión uniformementeconvergente, de ahí se derivaba el resultado; aquí no es posible aplicar directamente el mismo métododebido a la aleatoriedad del proceso; sin embargo, el lema de Borel-Cantelli da la conexión buscada.En consecuencia, es deseable mostrar que si

dn = supt0≤t≤T

∥∥∥X(n)t − X

(n−1)t

∥∥∥entonces

∞∑n=1

P (dn > an) <∞,

en donde (an)n∈N es una sucesión tal que su serie converge, esto implicaría que la sucesión (dn) es deCauchy P−c.d., en consecuencia, será convergente P−c.d. y entonces se podrá concluir que el límitees solución fuerte de la ecuación diferencial.

Una sucesión conveniente (an)n∈N es an = 1n2 . Antes de dar una cota directa para las probabilidades

P (dn > an) será necesario dar una cota para

µn(t) =∥∥∥X(n)

t − X(n−1)t

∥∥∥2.

Se afirma que

E (µn(t)) ≤ Lt∫

t0

E (µn−1(s))ds, donde L = 2(T − t0 + 1)k2

Para ver esto se utiliza una técnica ya empleada antes. Se parte de la desigualdad ‖a + b‖2 ≤ 2 ‖a‖2 +2 ‖b‖2 . Entonces µn(t) está acotada superiormente por

2

∥∥∥∥∥∥∥t∫

t0

îfÄs,X(n−1)

sä− fÄs,X(n−2)

säóds

∥∥∥∥∥∥∥2

+ 2

∥∥∥∥∥∥∥t∫

t0

îGÄs,X(n−1)

sä−GÄs,X(n−2)

säódWs

∥∥∥∥∥∥∥2

.

Se utiliza la desigualdad de Jensen en el primer sumando para concluir que µn(t) queda acotada supe-riormente por

2(T − t0)T∫

t0

∥∥∥f Äs,X(n−1)sä− fÄs,X(n−2)

sä∥∥∥2

ds + 2

∥∥∥∥∥∥∥t∫

t0

îGÄs,X(n−1)

sä−GÄs,X(n−2)

säódWs

∥∥∥∥∥∥∥2

.

179

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

En el primero sumando se aplica la condición de lipschitzianidad para llegar a la desigualdad

2(T − t0)T∫

t0

∥∥∥f Äs,X(n−1)sä− fÄs,X(n−2)

sä∥∥∥2

ds ≤ 2(T − t0)k2t∫

t0

µn−1(s)ds.

Se puede concluir que

E (µn(t)) ≤ 2(T − t0)k2E

Ñ t∫t0

µn−1(s)ds

é+ 2E

Ö∥∥∥∥∥∥∥ t∫t0

îGÄs,X(n−1)

sä−GÄs,X(n−2)

säódWs

∥∥∥∥∥∥∥2è

.

Manipular el término estocástico puede ser un poco complicado. Se aplica inducción, se considera elconjunto de los n ≥ 2 tales que

ÄGÄs,X(n−1)

sä−GÄs,X(n−2)

sää

t∈[t0,T]es de tipo L2. El caso base es n = 2

y se utilizará (4.4.2), inciso 2., bastará ver que

EÅ∥∥∥G Äs,X(1)

sä−GÄs,X(0)

sä∥∥∥2ã<∞.

EntoncesEÅ∥∥∥G Äs,X(1)

sä−GÄs,X(0)

sä∥∥∥2ã≤ k2E

Å∥∥∥X(1)s − c

∥∥∥2ã

≤ k2E

Ö(T − t0)k2

t∫t0

‖c‖2 ds +

∥∥∥∥∥∥∥t∫

t0

G(s, c)dWs

∥∥∥∥∥∥∥2è

,

esto es finito si

E

Ö∥∥∥∥∥∥∥ t∫t0

G(s, c)dWs

∥∥∥∥∥∥∥2è

<∞.

Ahora, nota queEÄ‖G(s, c)‖2

ä≤ k2(1 + E

Ä‖c‖2ä) <∞,

por lo que vale la base inductiva. En el paso inductivo simplemente se utiliza la lipschitzianidad

EÅ∥∥∥G Äs,X(n)

sä−GÄs,X(n−1)

sä∥∥∥2ã≤ k2E

Å∥∥∥X(n)s − X(n−1)

s

∥∥∥2ã<∞

pues ya se había probado que

supt0≤t≤T

∥∥∥X(n)t

∥∥∥2å<∞.

Usando el hecho de que los incrementos de G tienen segundos momentos finitos se puede concluir que

E (µn(t)) ≤ 2(T − t0)k2E

Ñ t∫t0

µn−1(s)ds

é+ 2

t∫t0

EÅ∥∥∥G Äs,X(n−1)

sä−GÄs,X(n−2)

sä∥∥∥2

dsã

≤ 2(T − t0 + 1)k2t∫

t0

E (µn−1(s))ds = Lt∫

t0

E (µn−1(s))ds.

180

4.7. El teorema de existencia y unicidad con sus generalizaciones.

Observa que la monotonía de t 7Ï t2 sobre [0,∞) muestra que

d2n = sup

t0≤t≤Tµn(t),

en particular, la cota encontrada para µn(t) también funciona para d2n.

Por otro lado, la fórmula integral de Cauchy (ve (9.9.4) de [8]) muestra que si g es una funciónintegrable, entonces

t∫t0

tn−1∫t0

· . . . ·t1∫t0

g(s)dsdt1 . . . dtn−1 =t∫

t0

g(s) (t − s)n−1

(n − 1)! ds;

en consecuencia,

E (µn(t)) ≤ Lt∫

t0

E (µn−1(s))ds ≤ L2t∫

t0

tn−1∫t0

E (µn−2(s))dsdtn−1

≤ . . . ≤ Lnt∫

t0

tn−1∫t0

· . . . ·t1∫t0

E (µ0(s))dsdt1 . . . dtn−1

= Ln−1t∫

t0

(t − s)n−2

(n − 2)! E (µ1(s))ds.

También se ve que

E (µ1(t)) = E

Ö∥∥∥∥∥∥∥ t∫t0

f (s, c)ds +t∫

t0

G(s, c)dWs

∥∥∥∥∥∥∥2è

≤ 2(T − t0)t∫

t0

EÄ‖f (s, c)‖2

äds + 2

t∫t0

EÄ‖G(s, c)‖2

äds

≤ Lt∫

t0

k2(1 + ‖c‖2)ds ≤ K <∞, donde K = TLk2(1 + ‖c‖2)

es constante. Por lo tanto,

∀n ∈ N, supt0≤t≤T

E (µn(t)) ≤ K[L(T − t0)

]n−1

(n − 1)! .

Ahora,

d2n = sup

t0≤t≤Tµn(t)

≤ 2(T − t0)k2T∫

t0

µn−1(s)ds + 2 supt0≤t≤T

∥∥∥∥∥∥∥t∫

t0

GÄs,X(n−1)

sä−GÄs,X(n−2)

sädWs

∥∥∥∥∥∥∥2

,

181

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

la desigualdad maximal de martingalas (ve (2.8.4)) muestra que

d2n ≤ 2(T − t0)k2

T∫t0

µn−1(s)ds + 8T∫

t0

EÅ∥∥∥G Äs,X(n−1)

sä−GÄs,X(n−2)

sä∥∥∥2ãds

y de la condición de lipschitzianidad se sigue que

d2n ≤ 2(T − t0)k2

T∫t0

µn−1(s)ds + 8k2T∫

t0

E (µn−1(s))ds.

Así, se consigue que

E(d2n)≤ 2(T − t0 + 4)k2

T∫t0

E (µn−1(s))ds.

Entonces,

E(d2n)≤ 2(T − t0 + 4)k2K

[L(T − t0)

]n−1

(n − 1)! ,

y poniendo J = 2(T − t0 + 4)k2K, resulta

∞∑n=1

P (dn > an) ≤∞∑n=1

J L(T − t0)n−1

(n − 1)! n4;

donde la serie del lado derecho de esta última desigualdad es convergente18. El lema de Borel-Cantellipermite concluir que

P (dn > an, i.o) = 0.

Luego, con probabilidad uno, la serie(X(n) − X(n−1))

n∈N converge en el espacio de las funciones acotadas;para casi toda ω existe una función fω tal que

∞∑n=1

ÄfX(n)

ω (t)− fX(n−1)

ω (t)ä

= fω(t);

de donde

fX(n)

ω (t) =n∑j=1

îfX(j)

ω (t)− fX(j−1)

ω (t) + c(ω)ó⇒ fω(t) + c(ω),

uniformemente para t ∈ [0, T]. Define

X(t, ω) =ßfω(t) + c(ω) si existe fω(t)0 en otro caso;

18Esto puede ser verificado usando el criterio del cociente:

J L(T − t0)nn! (n + 1)4

J L(T − t0)n−1

(n − 1)! n4= T − t0

n

(1 + 1

n

)4−−−Ïn→∞

0,

de hecho, el radio de convergencia de la serie es todo R, en particular la serie define una función analítica.

182

4.7. El teorema de existencia y unicidad con sus generalizaciones.

se demostrará que X es solución de la ecuación. En virtud de (4.1.8) y del hecho que X es el límiteuniforme de procesos continuos (ve (4.4.2)) se sigue que X es no anticipante y es un proceso continuo.Además, ∥∥∥∥∥∥∥

t∫t0

fÄs,X(n)

säds −

t∫t0

fÄs, Xs

ä∥∥∥∥∥∥∥ds ≤ T∫t0

k∥∥∥X(n)

s − Xs∥∥∥ds,

y la última integral converge a cero P−c.d. pues PÄX(n) ⇒ X

ä= 1. Asimismo,

t∫t0

∥∥∥G Äs,X(n)sä−GÄs, Xs

ä∥∥∥2ds ≤

T∫t0

k2∥∥∥X(n)

s − Xs∥∥∥2ds,

y de nuevo la última integral también converge a cero por el mismo argumento que antes. Por lo tanto(ve (4.3.1))

lımn→∞

t∫t0

GÄs,X(n)

sädWs =

t∫t0

GÄs, Xs

ädWs,

lo cual muestra que

Xt = c +t∫

t0

fÄs, Xs

äds +

t∫t0

GÄs, Xs

ädWs;

es decir, el teorema queda demostrado para este caso.

( 4.7.11.3 ) Vale la existencia si EÄ‖c‖2ä

=∞ y si para cada n ∈ N se cumple que k = kn.

Se define cN = c1[0,N](‖c‖) y se considera la única soluciónÄX(N)tät∈[t0,T]

de la ecuación diferencialßdXt = f (t, Xt)dt +G(t, Xt)dWt ; t ∈ [t0, T]Xt0 = cN .

Nota que, al igual que antes,

EÅ∥∥∥X(N)

t

∥∥∥2ã≤ 4E

Ä‖cN‖2

ä+ 4(T − t0 + 1)k2

t∫t0

Å1 + E

Å∥∥∥X(N)s

∥∥∥2ãã

ds;

el lema de Gronwall (4.7.10) muestra que

supt0≤t≤T

EÅ∥∥∥X(N)

t

∥∥∥2ã<∞.

Será mostrado que existe un X tal quelımN→∞

X(N)t = Xt

en probabilidad, y que X es solución de la ecuación diferencial (4.7.3). Para este efecto se define ηN =1[0,N)(‖c‖), entonces

N ′ ≥ N Ñ∥∥∥X(N)

t0 − X(N ′)t0 ηN

∥∥∥ = 0.

183

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Se observa que ηN es (Ft0 ,B (R))-medible, y después de unos cálculos sencillos19 se llega a

∥∥∥X(N)t − X

(N ′)t

∥∥∥2ηN ≤ 2(T − t0)k2

t∫t0

∥∥∥X(N)s − X(N ′)

s

∥∥∥2ds

+ 2

∥∥∥∥∥∥∥t∫

t0

¶GÄs,X(N)

sä−GÄs,X(N ′)

sä©dWs

∥∥∥∥∥∥∥2

Ahora se considera el supremo de la expresión anterior y luego se toma la esperanza. Utilizando ladesigualdad de martingalas (ve (2.8.4)),

supt0≤s≤t

∥∥∥X(N)s − X(N ′)

s

∥∥∥2ηNå≤ 2(T − t0 + 4)k2

t∫t0

EÅ∥∥∥X(N)

s − X(N ′)s

∥∥∥2ηNãds

≤ 2(T − t0 + 4)k2t∫

t0

supt0≤u≤s

∥∥∥X(N)u − X(N ′)

u

∥∥∥2ηNåds,

y el lema de Gronwall (4.7.10) permite concluir que para cualquier t ∈ [t0, T] se cumple que

supt0≤s≤t

∥∥∥X(N)s − X(N ′)

s

∥∥∥2ηNå

= 0,

así que

supt0≤t≤T

∥∥∥X(N)t − X

(N ′)t

∥∥∥ > 0å≤ P (‖c‖ > N) .

Es decir, la sucesión de procesos estocásticos(X(N))

N∈N es uniformemente de Cauchy en probabilidad,por lo que existe un proceso estocástico X tal que X(N) P−−−Ï

N→∞X (ve (4.2.3.2)). En particular, para cada

t ∈ [t0, T] se verifica que X(N)t

P−−−ÏN→∞

Xt .Asimismo, se cumple que

lımN→∞

T∫t0

∥∥∥X(N)t − Xt

∥∥∥2dt

P= 0.

Para verificar esto se toma δ > 0. Entonces

P

Ñ T∫t0

∥∥∥X(N)t − Xt

∥∥∥2dt > δ

é= P

Ñ T∫t0

∥∥∥X(N)t − Xt

∥∥∥2dt > δ, sup

t0≤t≤T

∥∥∥X(N)t − Xt

∥∥∥2≤ δT − t0

é+P

Ñ T∫t0

∥∥∥X(N)t − Xt

∥∥∥2dt > δ, sup

t0≤t≤T

∥∥∥X(N)t − Xt

∥∥∥2> δT − t0

é,

19Aplique la desigualdad ‖a + b‖2 ≤ 2 ‖a‖2 + 2 ‖b‖2 y la condición lipschitziana.

184

4.7. El teorema de existencia y unicidad con sus generalizaciones.

y es fácil ver que

supt0≤t≤T

∥∥∥X(N)t − Xt

∥∥∥2≤ δT − t0

ÑT∫

t0

∥∥∥X(N)t − Xt

∥∥∥2dt < δ,

por lo tanto,

P

Ñ T∫t0

∥∥∥X(N)t − Xt

∥∥∥2dt > δ

é≤ PÇ

supt0≤t≤T

∥∥∥X(N)t − Xt

∥∥∥2> δT − t0

åy el lado derecho converge a cero cuando N → ∞, lo que concluye la afirmación hecha. Se observaahora que ∥∥∥∥∥∥∥

t∫t0

fÄs,X(N)

säds −

t∫t0

f (s,Xs)ds

∥∥∥∥∥∥∥2

≤ k2(T − t0)T∫

t0

∥∥∥X(N)s − Xs

∥∥∥2ds P−Ï 0

e, igualmente,t∫

t0

∥∥∥G Äs,X(N)sä−G(s,Xs)

∥∥∥2ds ≤ k2

T∫t0

∥∥∥X(N)s − Xs

∥∥∥2ds P−Ï 0;

se sigue de (4.3.1) y de que lımN→∞

cN = c, en probabilidad, que

Xt = c +t∫

t0

f (s,Xs)ds +t∫

t0

G(s,Xs)dWs,

lo que concluye este caso.

( 4.7.11.4 ) Vale el caso general.

En efecto, se define gN =(1[−N,N] ‖‖

)IRn + N

(1[−N,N] ‖‖

) IRn

‖‖ . Según (4.2.5.1), gN es una función

1-lipschitziana, por lo tanto, las funciones fN , GN de [t0, T] × Rd a Rd y Matd×m (R) , respectivamente,dadas por fN (t, x) = f (t, gN (x)) y GN (t, x) = G(t, gN (x)) son kn-lipschitzianas. En virtud de los casosprevios, la ecuación diferencial estocásticaß

dXt = fN (t, Xt)dt +GN (t, Xt)dWt ; t ∈ [t0, T]Xt0 = gN (c)

posee una única soluciónÄX(N)tät∈[t0,T]

. Se define

τN = sup®t ∈ [t0, T]

∣∣∣∣ supt0≤s≤t

∥∥∥X(N)s

∥∥∥ ≤ N´ ,τN es el tiempo más grande tal que el proceso, durante [t0, τN ], no ha salido de B′ (0;N) . Para cualquierN ′ > N se observa que fN ′ = fN y GN ′ = GN sobre [t0, T] × B′ (0;N) , en consecuencia, usando unargumento de separabilidad como ya se ha hecho antes,

PÄ∀t ∈ [t0, τN ], X(N)

t = X(N ′)tä

= 1.

185

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

Por lo tanto, para N ′ > N se verifica que

supt0≤t≤T

∥∥∥X(N)t − X

(N ′)t

∥∥∥ > 0å≤ P (τN ≤ T) = P

Çsupt0≤t≤T

∥∥∥X(N)t

∥∥∥ > Nå.

En consecuencia, si lımN→∞

supt0≤t≤T

∥∥∥X(N)t

∥∥∥ > Nå

= 0, entoncesÄX(N)tät∈[t0,T]

es uniformemente de Cauchy

en probabilidad y el argumento final del caso previo aplicaría, esto mostraría que

Xt = c +t∫

t0

f (s,Xs)ds +t∫

t0

G(s,Xs)dWs.

Por lo tanto, para concluir la prueba del teorema de existencia y unicidad basta demostrar que

lımN→∞

supt0≤t≤T

∥∥∥X(N)t

∥∥∥ > Nå

= 0.

Se observa que

∥∥∥X(N)t

∥∥∥2≤ 4 ‖cN‖2 + 4

∥∥∥∥∥∥∥t∫

t0

fNÄs,X(N)

säds

∥∥∥∥∥∥∥2

+ 4

∥∥∥∥∥∥∥t∫

t0

GNÄs,X(N)

sädWs

∥∥∥∥∥∥∥2

≤ 4 ‖cN‖2 + 4(t − t0)t∫

t0

∥∥∥fN Äs,X(N)sä∥∥∥2

ds + 4 supt0≤s≤t

∥∥∥∥∥∥∥s∫

t0

GNÄu,X(N)

uädWu

∥∥∥∥∥∥∥2

.

Se define ψ(x) = 11 + ‖x‖2

, entonces

supt0≤s≤t

ψ(c)∥∥∥X(N)

s

∥∥∥2

≤ 4ψ(c)

‖cN‖2 + (t − t0)t∫

t0

∥∥∥fN Äs,X(N)sä∥∥∥2

ds + supt0≤s≤t

∥∥∥∥∥∥∥s∫

t0

GNÄu,X(N)

uädWu

∥∥∥∥∥∥∥2 .

Tomando esperanza y usando (4.4.2) se llega a

supt0≤s≤T

ψ(c)∥∥∥X(N)

t

∥∥∥2å

≤ 4

1 + (t − t0)t∫

t0

EÅψ(c)k2

Å1 +

∥∥∥X(N)s

∥∥∥2ãã

ds + 4t∫

t0

EÅψ(c)k2

Å1 +

∥∥∥X(N)s

∥∥∥2ãã

= 4

1 + (t − t0 + 4)k2t∫

t0

EÅψ(c)

Å1 +

∥∥∥X(N)s

∥∥∥2ãã

ds

≤ 4[1 + (t − t0 + 4)k2(t − t0)

]+ 4(T − t0 + 4)k2

t∫t0

EÅψ(c)

∥∥∥X(N)s

∥∥∥2ãds.

186

4.7. El teorema de existencia y unicidad con sus generalizaciones.

Se pone

g(t) = EÇ

supt0≤s≤t

ψ(c)∥∥∥X(N)

s

∥∥∥2å, donde L = 4(T − t0 + 4)k2

yh(t) = 4

[1 + (t − t0 + 4)k2(t − t0)E (ψ(c))

],

entonces el lema de Gronwall (4.7.10) muestra que

g(t) ≤ h(t) + Lt∫

t0

eL(t−s)h(s)ds.

Sea U(t) el lado derecho de la última desigualdad. Entonces,

supt0≤t≤T

∥∥∥X(N)t

∥∥∥ > Nå

= PÇ»

ψ(c) supt0≤t≤T

∥∥∥X(N)t

∥∥∥ >»ψ(c)Nå

= PÇ»

ψ(c) supt0≤t≤T

∥∥∥X(N)t

∥∥∥ >»ψ(c)N,ψ(c) > δå

+PÇ»

ψ(c) supt0≤t≤T

∥∥∥X(N)t

∥∥∥ >»ψ(c)N,ψ(c) ≤ δå

≤ PÇ»

ψ(c) supt0≤t≤T

∥∥∥X(N)t

∥∥∥ > N√δå

+ P (ψ(c) ≤ δ)

≤ 1N2δ sup

t0≤t≤TU(t) + P (ψ(c) ≤ δ) ,

en donde la última desigualdad es consecuencia de la desigualdad de Markov y las definiciones de U yg. Por lo tanto, para δ > 0 cualquiera se cumple que

lım supN→∞

supt0≤t≤T

∥∥∥X(N)t

∥∥∥ > Nå≤ P (ψ(c) ≤ δ) .

Se observa queP (ψ(c) ≤ δ) = P

Å‖c‖ ≥ 1− δ

δ

ãtiende a cero cuando δ → 0. Consecuentemente,

lımN→∞

supt0≤t≤T

∥∥∥X(N)t

∥∥∥ > Nå

= 0;

el teorema de existencia y unicidad (4.7.11) queda demostrado.

187

Capítulo 4. La integral y la diferencial estocástica; los teoremas de Goldstein, Ito, y deexistencia y unicidad.

188

Capítulo 5

• Un ejemplo de estudio.

Aquí se estudiará un conjunto de ecuaciones diferenciales estocásticas particulares, las cuales sonimportantes en genética poblacional. Para que la conexión resulte transparente será necesario intro-ducir un poco de terminología e ideas. La siguiente sección no pretende ser una visión exhaustiva de ladinámica de genes sino una simple recuento de nociones genéticas para que los términos posterioresno resulten extraños.

§ 5.1. Un poco sobre biología de genes.Aquí se entenderá que un alelo es una únidad ínfima de información en el ADN de una especie;

aunque cada alelo es una secuencia de nucléotidos, y estos, a su vez, están constituidos por moléculasorgánicas, como estos últimos entes resultan irrelevantes en este estudio, ya no serán mencionadas enlo que resta del trabajo.

El ácido desoxirribonucleico, frecuentemente abreviado como ADN, es un ácido nucleico que con-tiene instrucciones genéticas usadas en el desarrollo y funcionamiento de todos los organismos vivosconocidos y de algunos virus, y es el responsable de su propia transmisión hereditaria. El papel principalde la molécula de ADN es el almacenamiento de información biológica que se transmite de generaciónen generación.

Los cromosomas son estructuras que se encuentran en el centro, el núcleo, de las células quetransportan fragmentos largos de ADN. Los cromosomas también contienen proteínas que ayudan alADN a existir en la forma apropiada. La función del cromosoma es empaquetar el ADN y controlar lasfunciones que este tiene guardadas. Los cromosomas, vistos a través de un microscopio, tienen formade bastoncillos alargados.

La mayoría de las especies evolucionadas pertenecen a una categoría llamada especies diploides;es decir, que tienen padre y madre, siendo estos no necesariamente individuos distintos. Estas especiesestán caracterizadas porque sus cromosomas vienen a pares; por ejemplo, el ser humano tiene 46cromosomas, 23 pares de ellos, en particular, existen dos cromosomas especiales, llamados cromoso-mas sexuales o cromosomas X y Y, por la forma que tienen estos, los cuales determinan el sexo decada individuo, así, las mujeres tienen dos cromosomas sexuales X mientras que el hombre tiene uncromosoma X (el que aporta la madre) y un cromosoma Y (el que aporta el padre).

Un locus1 es una secuencia de posiciones en el ADN las cuales están ocupadas por nucléotidos.La frecuencia de nucléotidos constituye la información genética portada por el locus. La frecuenciade nucléotidos en un locus puede variar entre individuos, y aún entre células. Cada versión de dicha

1Locus es una palabra que es singular y plural a la vez, como virus. Algunos autores utilizan el término loci para referirse allocus.

189

Capítulo 5. Un ejemplo de estudio.

secuencia se denomina alelo (del código genético contenido en el locus). Las células diploides cuyoscromosomas tienen el mismo tipo de alelo en un locus dado se llaman homocigotos, mientras que losque tienen diferentes alelos en un locus, heterocigotos. A la variedad de alelos que ocupan un locus dadoen un individuo diploide se le llama el genotipo (respecto a ese locus) de dicho individuo. Si todos losalelos de un genotipo coinciden, entonces se dirá que dicho genotipo es homogéneo, en caso contrario,heterogéneo.

z Genotipos.Como ya se mencionó, los seres diploides tiene pares de cromosomas. Dado un cromosoma se

llamará, cromosoma homólogo al cromosoma con el que forma una pareja. Se supone que estos cro-mosomas tienen la misma cantidad de locus; dado un locus en un cromosoma, se llamará locus homó-logo al mismo locus en el cromosoma homólogo. Estudios han demostrado que los locus homólogoscontrolan la misma característica del individuo (color de piel, ojos, estatura, tamaño, etcétera) más noes necesario que lleven la misma información (de aquí el porqué de las diferencias entre individuosde la misma especie). Entonces, un genotipo es la información genética que lleva un locus, que en unindividuo diploide viene en pares de alelos.

Como ejemplo sencillo de genotipo considere un locus respecto al cual posee n posiciones y elindividuo posee dos tipos diferentes de alelos: a y A. Entonces, existen tres tipos diferentes de genotipos:los que tienen dos alelos a, los que tienen dos alelos A y los que tienen un alelo a y un alelo A.

z Deriva genética.¿Cómo evoluciona a través de las generaciones la frecuencia de un alelo? Para entender la tras-

cendencia de esta pregunta se considera una población constituida por N individuos diploides, la cualevoluciona por generaciones. En una generación dada se selecciona un alelo al azar, de entre los 2Nalelos disponibles, y se copia dicho alelo. Se repite este proceso de forma independiente 2N veces,dando origen a la siguiente generación. En consecuencia, el tamaño de la población es constante eigual a N individuos diploides. El procedimiento que se implementa para genera la nueva generación,llamado «cruzamiento aleatorio», origina cambios aleatorios en las frecuencias de alelos debido a laley de segregación de Mendel, según la lcual cuando un progenitor produce un gameto, es decir unacélula reproductiva como un óvulo o un espermatozoide, la cual puede portar solamente uno de los dosalelos del genotipo, sus alelos homólogos tienen igual probabilidad de figurar en el gameto. Nota que laprobabilidad de que un alelo dado (de entre los 2N alelos que conforman la población) no contribuyaa la siguiente generación es Å

1− 12N

ã2N

que aproximadamente vale e−1. Dichos cambios aleatorios en la frecuencia de alelos se conocen porel nombre de «deriva genética aleatoria».

Sea X0 la frecuencia del alelo del tipo a en una población incicial (es decir, al tiempo n = 0) y seaXn la frecuencia del alelo del tipo a en la enésima generación, n ≥ 1. Entonces

Xn+1 = Bn,1 + . . .+ Bn,2N ,

donde Bn,1, . . . , Bn,2N son variables aleatorias independientes las cuales, condicionadas a que Xn = i,que siguen una distribución Bernoulli i

2N ; esto es

P (Bk = 1|Xn = i) i2N

190

5.1. Un poco sobre biología de genes.

para k = 1, . . . , 2N e i = 0, . . . , 2N. De este modo

P (Xn+1 = j|Xn = i) =Ç

j2N

åÅ i2N

ãj Å1− i

2N

ã2N−j,

lo cual revela que (Xn)n∈N∪0 es una cadena markoviana con espacio de estados 0, . . . , 2N, siendo 0y 2N estados absorbentes. Si

τ = mınn ≥ 0|Xn ∈ 0, 2N,es el tiempo de absorbción de la cadena, entonces, en virtud de que

E (Xn+1|Xn = i) = (2N) i2N = i = Xn,

se sigue que (Xn)n∈N es una martingala. Por lo tanto,

i = E (Xτ |X0 = i) = 0P (Xτ = 0|X0 = i) + 2NP (Xτ = 2N|X0 = i)

y, en consecuencia,P (Xτ = 2N|X0 = i) = i

2N ,

esto es, la probabilidad de que el alelo a sea finalmente el alelo que quedó fijado en la poblacional esigual a la proporción inicial de alelos a con los que inicia la población. Así, se puede concluir que si laderiva genética aleatoria es la úncia fuente de variacipon de las frecuencias de alelos, finalmente unode los dos tipos de alelos predominará en la población, excluyendo al otro, y la probabilidad de fijaciónde un tipo de alelo dado es igual a su frecuencia inicial.

z Mutación.La dinámica de las frecuencias alélicas cambia drásticamente si, además de la deriva genética, la

población de alelos sufre mutaciones de tipos de alelos. Entonces, otra fuerza evolutiva de interés es lamutación. En un modelo simple, considere, al igual que antes, una población compuesta por N individuosdiploides, en la que hay dos tipos de alelos, a y A, y que evoluciona por generaciones ante cruzamientoaleatorio. Adicionalmente, se supone que la población empieza con i alelos de tipo A y 2N − i alelos detipo a y que cada alelo de tipo a muta, con probabilidad u, a un alelo de tipo A y, a su vez, cada alelode tipo A muta a un alelo de tipo a con probabilidad v. De nuevo, se supone que las mutaciones delos alelos ocurren de manera independiente entre ellas e independientemente al cruzamiento aleatorio.Entonces, la frecuencia esperada de alelos de tipo A después de las mutaciones es

i2N (1− u) +

Å1− i

2N

ãv,

yi

2Nu +Å

1− i2N

ã(1− v)

aquella de los alelos de tipo a. Sobre estas suposiciones, el número de alelos de tipo A en la (n+1)-ésimageneración está dado por

Xn+1 = B(m)n,1 + . . .+ B(m)

n,2N ,

en donde B(m)n,1 , . . . , B

(m)n,2N son variables aleatorias independientes sujetas a que

pi = P(B(m)n,k = 1

∣∣∣Xn = i)

= i(1− u) + (2N − i)v2N .

191

Capítulo 5. Un ejemplo de estudio.

Como antes, se sigue que (Xn)n∈N∪0 es una cadena markoviana con espacio de estados 0, . . . , 2N,con matriz de transición definida por

pi,j =Ç

j2N

åpji(1− pi)2N−j .

Nota que sobre este modelo los estados 0 y 2N ya nos necesariamente absorbentes. Por ejemplo,

p0,j =Ç

j2N

åv j (1− v)2N−j .

A esta cadena markoviana (Xn)n∈N∪0 se le denomina el «modelo de Wright-Fisher» con mutación.

z El modelo de pasaderas.Este es un modelo propuesto por Moto Kimura para estudiar la evolución de frecuencias de alelos

en una población genética con cierta estructura espacial. Se considera un locus que posee d alelos,donde d ≥ 2. La población está subdividida en un conjunto contable S de subpoblaciones o colonias.Denotando por

ÄX(1)k , . . . , X

(d)kä

al vector de frecuencias de los tipos de alelos en la k-ésima colonia, secumple que

X(1)k ≥ 0, . . . , X(d)

k ≥ 0 yd∑j=1

X(j)k = 1,

es decir,ÄX(1)k , . . . , X

(d)kä

toma valores en el simplejo d-dimensional (ve (5.2.1)). Se supone que d = 2 ysean A y B los dos alelos del locus que se estudia. Sea Xi la frecuencia del alelo A en i-ésima colonia,y (1 − Xi) aquella del alelo B. La evolución en el tiempo de la frecuencia alélila se determina por lossiguientes factores genético-poblacionales:

1. mutación en cada colonia;

2. migración entre colonias;

3. deriva genética aleatoria;

originados por el muestreo aleatorio de gametos. Tokuzo Shiga y Akinobu Shimizu postularion que(Xi)i∈S cumple la ecuación diferencial estocástica

dXi(t) =

v − (u + v)Xi(t) +∑j∈S

qi,j (t)Xj (t)

dt +

Xi(t)(1− Xi(t))

2N dBi(t),

donde N, u y v son constantes no negativas y qi,j ≥ 0 si i 6= j y además∑j∈S

qi,j = 0 para cualquier i, los

procesos ((Bi(t))t≥0)i∈S conforman un sistema independiente de procesos wienerianos unidimensionales.En el modelo genético, N denota el tamaño poblacional de cada colonia respecto al cual tiene lugar elmuestreo aleatorio de gametos, u y v representan la tasa de mutación de un tipo de alelo en el otroy para i 6= j el parámetro qi,j representa la tasa de migración de la colonia i ∈ S a la colonia j ∈ S,en donde se supone que sup

i∈S|qi,i| < ∞. En [16] se prueba que si 0 ≤ Xi(0) ≤ 1 para cualquier i ∈ S,

entonces la ecuación diferencial estocástica de arriba posee una única solución (débil) ((Xi(t))t≥0)i∈S , lacual cumple que 0 ≤ Xi(t) ≤ 1 c.s. para cualesquier i ∈ S y t ≥ 0. La presente tesis está basada en eltrabajo angular de [16] se esos dos autores.

192

5.2. El simplejo y algunas propiedades básicas.

§ 5.2. El simplejo y algunas propiedades básicas.

( 5.2.1 ) Se define el simplejo en d dimensiones («d-dimensional») como la envolvente convexa de los vectorescanónicos de Rd.

( 5.2.2 ) El simplejo d-dimensional es el conjunto de puntos x = (ξ1, . . . , ξd) en Rd tales que cada ξi ≥ 0 yd∑i=1

ξi = 1.

Sea S = (e1, . . . , ed) la base de los vectores canónicos de Rd y L el simplejo d-dimensional; se ha dedemostrar que L = C, en donde

C =

(ξ1, . . . , ξd)∣∣∣∣∣ξi ≥ 0 y

d∑i=1

ξi = 1.

Obviamente C ⊂ L pues si (ξ1, . . . , ξd) ∈ C, entonces (ξ1, . . . , ξd) =d∑i=1

ξiei ∈ L, por definición de L.

Ahora, si x ∈ L, entonces existen ξ1, . . . , ξd ∈ [0, 1] tales qued∑i=1

ξi = 1 y x =d∑i=1

ξiei ∈ C.

Observación: cuando se trabajan frecuencias alélicas de varias colonias, entonces el vector de fre-cuencias es un elemento del simplejo. Esto es, si hay n colonias y pi es la frecuencia del alelo a en

la población i, entoces pi ≥ 0 yn∑i=1

pi = 1. Entonces, es deseable estudiar la existencia de soluciones

de la ecuación diferencial del modelo de pasaderas y verificar que dicha solución es un elemento delsimplejo.

( 5.2.3 ) Sea E un espacio prehilbertiano y F un subespacio completo de él, considera C ⊂ F un subconjuntocerrado en E. Para cualquier x ∈ E existe un punto y = prC(x) ∈ C y solo uno que satisface lo siguiente

ınfy∈C‖x − y‖ = ‖x − prC(x)‖ ;

a prC(x) se le conoce como la «proyección de x sobre C». Además, si C = F entonces

1. x − prF (x) es ortogonal a F ; es decir,

〈x − prF (x), y〉 = 0, ∀y ∈ F ;

además, no existe otro z ∈ E \ 0 que satisfaga esta propiedad;

2. el mapeo x 7Ï prF (x) de E a F es suprayectivo, continuo y de norma 1 siempre que F 6= 0;

3. el núcleo de prF es el subespacio ortogonal a F ; y F es el espacio ortogonal del núcleo de prF .

4. Finalmente, E se descompone como suma directa topológica de F y el núcleo de prF ;

193

Capítulo 5. Un ejemplo de estudio.

§ 5.3. Solución de la ecuación diferencial.Aquí, en lugar de considerar el sistema de ecuaciones diferenciales

dXi(t) =

v − (u + v)Xi(t) +∑j∈S

qi,j (t)Xj (t)

dt +

Xi(t)(1− Xi(t))

2N dBi(t).

se considerará una clase más grande de ecuaciones diferenciales, pero con S = 1, . . . , n es finito. Asaber,

dXt = f (Xt)dt + α(Xt)dWt ,en donde X = (x1, . . . , xn) ∈ Rd × . . .× Rd y α es una matriz cuadrada de orden nd.

z Notación e hipótesis sobre las funciones f y α.

Se define L =

(ξ1, . . . , ξd) ∈ Rd

∣∣∣∣∣ξi ≥ 0 yd∑i=1

ξi ≤ 1. Observa que este L no es el simplejo definido

antes, este L es la envolvente convexa entre el simplejo y el origen lo que es sencillo de verificar puessolo hay que notar que todo los segmentos que unen al origen con un punto del simplejo pertenecen aL. Aquí también se supondrá que α(j,m)

i : L→ R son funciones continuas para i desde 1 hasta n, y paraj y m que van desde 1 hasta d; asimismo, para la matriz

αi =

α(1,1)i α(1,2)

i . . . α(1,d)i

α(2,1)i α(2,2)

i . . . α(2,d)i

......

. . ....

α(d,1)i α(d,2)

i . . . α(d,d)i

se denotará por α(j,·)

i a su j-ésima fila y por α(·,m)i a su m-ésima columna. Se supone que

[αi(x)αi(x)′

]j,j =

d∑m=1

îα(j,m)i (x)

ó2=∥∥∥α(j,·)

i (x)∥∥∥2

= 0

si x = (ξ1, . . . , ξd) ∈ Rd con ξj = 0. Por otro lado, también se supondrá qued∑j=1

d∑m=1

[αi(x)αi(x)′

]j,m = 0

si x = (ξ1, . . . , ξd) ∈ Rd es tal qued∑i=1

ξi = 1. Se define la matriz α : Ln →Matnd×nd (R) por

α(x1, . . . , xn) =

α1(x1) 0 . . . 0

0 α2(x2) . . . 0...

.... . .

...0 0 . . . αn(xn)

.Se supone que fi,j : Ln → R son funciones continuas para i = 1, . . . , n y j = 1, . . . , d, las cuales

cumplen quefi,j (ξ1,1, . . . , ξ1,d, . . . , ξn,1, . . . , ξn,d) = 0 si xi,j = 0

194

5.3. Solución de la ecuación diferencial.

y qued∑j=1

fi,j (ξ1,1, . . . , ξn,d) ≤ 0 sid∑j=1

xi,j = 1.

Se define ahora fi = (fi,1, . . . , fi,d) y f = (f1, . . . , fn), entonces f : Ln → Rnd. El sistema de ecuacionesdiferenciales estocásticas

dxi,j (t) = fi,j (Xt)dt +d∑

m=1α(j,m)i (xi(t))dW (m)

i (t),

para i = 1, . . . , n y j = 1, . . . , d, equivale a la ecuación diferencial estocástica

dXt = f (Xt)dt + α(Xt)dWt ,

en donde Xt =(x1(t), . . . , xn(t)

)∈ Rd × . . .× Rd︸ ︷︷ ︸

n veces

= Rnd y W =ÄW (1)

1 , . . . ,W (d)1 , . . . ,W (1)

n , . . . ,W (d)nä

es un

proceso wieneriano en Rnd.

z Existencia de la solución y estacionaridad en Ln.El siguiente es el teorema central de este trabajo.

( 5.3.1 ) Para cualquier ξ0 ∈ Ln y cualquier T > 0 la ecuación diferencial estocásticaßdXt = f (Xt)dt + α(Xt)dWt ; t ∈ [0, T]X0 = ξ0;

posee una única solución (ve (4.7.3)) X = (Xt)t∈[0,T] tal que

P (∀t ∈ [0, T], Xt ∈ Ln) = 1

siempre que f y α satisfagan las hipótesis del teorema de existencia y unicidad (4.7.11).

Sea prL : Rd → L la proyección en L (ve (5.2.3)). Se extienden f y α a todo Rnd poniendo

f (X) = f((

prL(x1), . . . ,prL(xn)))

y α(X) = α((

prL(x1), . . . ,prL(xn))),

en donde X = (x1, . . . , xn) con xi ∈ Rd. Se verificará que f y α satisfacen las hipótesis del teorema deexistencia y unicidad. Se observa que∥∥∥f (X)

∥∥∥2+ ‖α(X)‖2 =

∥∥f((prL(x1), . . . ,prL(xn)))∥∥2 +

∥∥α((prL(x1), . . . ,prL(xn)))∥∥2

≤ k2Ä1 +

∥∥(prL(x1), . . . ,prL(xn))∥∥2ä

= k2

(1 +

n∑i=1‖prL(xi)‖

2)≤ k2

(1 +

n∑i=1‖xi‖2

)= k2 (1 + ‖(x1, . . . , xn‖)2

)= k2

Ä1 + ‖X‖2

ä;

195

Capítulo 5. Un ejemplo de estudio.

luego, es satisfecha la hipótesis de restricción en el crecimiento. Por otro lado, si X,Y ∈ B′ (0;N) ⊂ Rnd,entonces∥∥∥f (X)− f (Y )

∥∥∥+ ‖α(X)− α(Y )‖ =∥∥f((prL(x1), . . . ,prL(xn)

))− f((

prL(y1), . . . ,prL(yn)))∥∥

+∥∥α((prL(x1), . . . ,prL(xn)

))− α

((prL(y1), . . . ,prL(yn)

))∥∥≤ kN

∥∥(prL(x1), . . . ,prL(xn))−(prL(y1), . . . ,prL(yn)

)∥∥= kN

∥∥(prL(x1 − y1), . . . ,prL(xn − yn))∥∥ ≤ kN n∑

i=1‖xi − yi‖

≤ nkN ‖(x1 − y1, . . . , xn − yn)‖ = nkN ‖X − Y‖ ,

con lo que se satisface la hipótesis de lipchitzianidad.En virtud de (4.7.11) existe una única solución (Xt)t∈[0,T] de la ecuación que cumple

Xt = X +t∫

0

f (Xs)ds +t∫

0

α(Xs)dWs.

Resta ver que P (∀t ∈ [0, T], Xt ∈ Ln) = 1. Para este efecto se define, dado ε > 0, la función uε : R→ R

dada por uε(t) = 1t + ε . Entonces, se cumple que u′ε(t) = − 1

(t + ε)2 y u′′ε(t) = 2(t + ε)3 . Sea U : Rnd → Rnd

dada por U(t1,1, . . . , tn,d) = (uε(t1,1), . . . , uε(tn,d)), entonces

DU (t1,1, . . . , tn,d) =

u′ε(t1,1) 0 . . . 0

0 u′ε(t1,2) . . . 0...

.... . .

...0 0 . . . u′ε(tn,d)

y, en virtud de (A.5.13),

D2U (t1,1, . . . , tn,d) =

nd︷ ︸︸ ︷u′′ε(t1,1) 0 . . . 0

0 0 . . . 0...

.... . .

...0 0 . . . 0

, . . . ,

0 0 . . . 00 0 . . . 0...

.... . .

...0 0 . . . u′′ε(tn,d)

nd

,

el cual es un elemento de(Matnd×nd (R)

)nd. Se considera ahora el proceso Yt = U(Xt), y se aplica elteorema de Ito (4.5.2). Entonces,

dYt =ïDU (Xt) f (Xt) + 1

2tr(D2U (Xt) α(Xt)α(Xt)′

)òdt + DU (Xt) α(Xt)dWt .

Se observa que

DU (Xt) f (Xt) =

Öu′ε(x1,1(t))f1,1(Xt)

...u′ε(xn,d(t))fn,d(Xt)

è∈Matnd×1 (R)

196

5.3. Solución de la ecuación diferencial.

y que

α(Xt)α(Xt)′ =

α1(x1(t))α1(x1(t))′ 0 . . . 0

0 α2(x2(t))α2(x2(t))′ . . . 0...

.... . .

...0 0 . . . αn(xn(t))αn(xn(t))′

∈Matnd×nd (R) ,

en dondeαi(xi(t))αi(xi(t))′ =

î¨α(j,·)i (xi(t)), α(m,·)

i (xi(t))∂ó

j,m=1,...,d∈Matd×d (R) ,

y en consecuencia, si E(l)p,q es la matriz cuadrada de orden l tal que todas sus entradas son 0 salvo la

entrada (p, q), la cual vale 1, se cumple que para cualquier matriz A de orden l la matriz E(l)p,qA es la

matriz de orden l tal que su fila p-ésima es la fila q-ésima de A; de donde,îu′′ε(ti,j )E

(nd)(i−1)d+j,(i−1)d+j

ó [α(Xt)α(Xt)′

]= u′′ε(ti,j )

nd∑q=1

[α(Xt)α(Xt)′

](i−1)d+j,q E

(nd)(i−1)d+j,q

De esto se ve que

[tr(D2U (Xt) α(Xt)α(Xt)′

)]i,j = tr

Ñu′′ε(ti,j )

nd∑q=1

[α(Xt)α(Xt)′

](i−1)d+j,q E

(nd)(i−1)d+j,q

é= u′′ε(ti,j )

nd∑q=1

[α(Xt)α(Xt)′

](i−1)d+j,q tr

ÄE(nd)

(i−1)d+j,q

ä= u′′ε(ti,j )

[α(Xt)α(Xt)′

](i−1)d+j,(i−1)d+j = u′′ε(ti,j )

¨α(j,·)i (xi(t)), α(j,·)

i (xi(t))∂

;

por lo tanto, si Ai,j (t) = u′ε(xi,j (t))fi,j (Xt) + 12u′′ε(ti,j )

¨α(j,·)i (xi(t)), α(j,·)

i (xi(t))∂, entonces

DU (Xt) f (Xt) + 12tr(D2U (Xt) α(Xt)α(Xt)′

)=

A1,1(t)...

An,d(t)

.Además,

Ai,j (t) = 1(xi,j (t) + ε)2

∥∥∥α(j,·)

i (xi(t))∥∥∥2

xi,j (t) + ε − fi,j (Xt)

.Se demuestra a continuación que existe una constante ci,j > 0 tal que Ai,j (t) ≤ ci,j para cualquiert ∈ [0, T] que cumpla xi,j (t) > −ε. Por continuidad (ve (4.4.2)), la función Ai,j (t) permanecerá acotadasuperiormente siempre que se pueda demostrar que

lımxi,j↓−ε

1(xi,j + ε)2

∥∥∥α(j,·)

i (xi)∥∥∥2

xi,j + ε − fi,j (X)

<∞,en donde X = (x1, . . . , xn) = (x1,1, . . . , x1,d, . . . , xn,1, . . . , xn,d) ∈ Rnd. Se demostrará que, de hecho, estelímite es cero. Para notar esto empieza observando que al ser

α(j,·)i (xi) = α(j,·)

i (prL(xi))

197

Capítulo 5. Un ejemplo de estudio.

entoncesα(j,·)i (xi) = 0

si xi,j ≤ 0; en efecto, por las hipótesis impuestas a α(j,·)i bastará ver que si xi,j ≤ 0 entonces la entrada

j-ésima de prL(xi) es 0; sea (ξ1, . . . , ξd) ∈ Rd tal que ξj ≤ 0 y sea (µ1, . . . , µd) = prL(ξ1, . . . , ξd), entoncesse define µi = µi si i 6= j y µj = 0, de aquí que

‖(ξ1, . . . , ξd)− (µ1, . . . , µd)‖2 =d∑i=1

(ξi − µi)2.

Se observa que ξj − µj ≤ ξj por ser µj ≥ 0, luego, (ξj − µj )2 ≥ ξ2j y así

‖(ξ1, . . . , ξd)− (µ1, . . . , µd)‖2 ≥ ‖(ξ1, . . . , ξd)− (µ1, . . . , µd)‖2 ,

lo cual contradiría a (5.2.3) en el caso µj > 0; consecuentemente, µj = 0. Por lo tanto, se ha demostradoque ∥∥∥α(j,·)

i (xi)∥∥∥2

= 0

siempre que xi,j ≤ 0. El mismo argumento muestra que fi,j (X) = 0 si xi,j ≤ 0. Por lo tanto, Ai,j (t) = 0siempre que xi,j (t) ≤ 0; por lo tanto existe el ci,j afirmado anteriormente.

Ahora, en virtud de (4.4.2) se sigue que

E (Yt) = E (U(X)) + E

Ñ t∫0

ïDU (Xs) f (Xs) + 1

2tr(D2U (Xs) α(Xs)α(Xs)′

)òds

é;

la existencia de los ci,j muestra que

E(uε(xi,j (t))

)≤ E

(uε(xi,j (t))

)+ ci,jt.

Sea ε ≥ δ > 0 y τ(δ)i,j = ınf

t ≥ 0

∣∣xi,j (t) ≤ −δ . Entonces, si δ < ε

EÄuεÄxi,jÄmın¶t, τ(δ)

i,j©äää

≤ E(uε(xi,j (t))

)+ ci,jt.

Por lo tanto,PÄuεÄxi,jÄmın¶t, τ(δ)

i,j©ää

<∞ä

= 1.

Se observa ahora que

∞ > EÄuεÄxi,jÄmın¶t, τ(δ)

i,j©ää

1(−∞,t]Äτ(δ)i,jää

= EÄuε(−δ)1(−∞,t]

Äτ(δ)i,jää

= uε(−δ)PÄτ(δ)i,j ≤ t

äy como uε(−δ)→∞ cuando δ → ε se ve que P

Äτ(δ)i,j ≤ t

ä→ 0 cuando δ → ε. Por la continuidad de las

trayectorias y el teorema del valor intermedio se concluye que

0 ≤ PÄτ(ε)i,j ≤ t

ä≤ PÄτ(δ)i,j ≤ t

ä;

de donde,PÄτ(ε)i,j ≤ t

ä= 0.

198

5.3. Solución de la ecuación diferencial.

Se verifica quePÄτ(ε)i,j ≤ t

ä= P

(xi,j (s) ≤ −ε para algún s ∈ [0, T]

)= 0;

es decir,P(xi,j > −ε

)= 1.

Con considerar la sucesión εn = 1n y usar la continuidad de la probabilidad en el vacío se verifica que

P(xi,j ≥ 0

)= 1.

De manera análoga se define

σ (δ)i = ınf

t≥0

1−d∑j=1

xi,j (t)

≤ −δ,entonces para t ≥ 0 cualquiera se cumple que

E

Ñuε

Ñ1−

d∑j=1

xi,j (t)

éé<∞

y, por lo tanto,

P

Ñ1 ≥

d∑j=1

xi,j

é= 1;

consecuentemente P (∀t ∈ [0, T], Xi(t) ∈ L) = 1 y así, P (∀t ∈ [0, T], Xt ∈ Ln) = 1.

199

Capítulo 5. Un ejemplo de estudio.

200

Apéndice A

• Un repaso de diferenciación en Rn.

A lo largo del texto se necesitaron propiedades de diferenciación en varias variables. Se exponen aquílos resultados principales que se utilizaron. Se supondrá, sin embargo, que el lector está familiarizadocon estructuras (V, ‖‖V ) de espacios vectoriales normados; en particular, se supondrá que el lectorconoce propiedades de la topología de Rn así como de su estructura métrica. Se abordará directamenteel problema de diferenciación. Antes, será conveniente establecer la notación preliminar. Para cualquiersubconjunto A ⊂ Rn se denotará por

1. P (A) al conjunto de todos los subconjuntos de A, el «conjunto potencia» de A;

2. ÛA al interior de A;

3. A a la cerradura de A;

4. extA al exterior de A;

5. ∂A a la frontera de A;

6. A al complemento de A relativo a Rn.

Así mismo, se utlizarán letras mayúsculas para denotar vectores en Rn y minúsculas para denotarnúmeros en R; entre otras, se utilizará la notación estándar siguiente

7. B (P; r) la bola abierta de centro P ∈ Rn y radio r > 0;

8. B′ (P; r) la bola cerrada de centro P ∈ Rn y radio r > 0;

9. S (P; r) la esfera de centro P ∈ Rn y radio r > 0;

10. Dom (f ) el dominio de la función f ;

11. Ac (Rn,Rm) el conjunto de funciones acotadas de Rn a Rm;

12. Linp (Rn,Rm) el conjunto de funciones T : Rn × . . .× Rn︸ ︷︷ ︸p veces

→ Rm que sean lineales en cada entrada,

a los elementos de Linp (Rn,Rm) se les llamará «funciones p-lineales» de Rn a Rm;

13. Matn×m (R) las matrices de tamaño n ×m con coeficientes reales.

Aunque existen diferentes normas para un mismo espacio vectorial (ve (A.1.2)), se utilizará siempre lanotación siguiente para las normas estándares:

201

Apéndice A. Un repaso de diferenciación en Rn.

14. para X = (x1, . . . , xn) ∈ Rn, ‖X‖ =

Ãn∑i=1

x2i ;

15. para A = (ai,j ) ∈Matn×m (R) , ‖A‖ =

Ãn∑i=1

m∑j=1

a2i,j ; en particular, para cualesquier A ∈Matn×m (R) y

X ∈ Rn, ‖AX‖ ≤ ‖A‖ ‖X‖ ; del mismo modo, para A ∈Matn×m (R) y B ∈Matm×p (R) se cumple que‖AB‖ ≤ ‖A‖ ‖B‖ ;

16. para T ∈ Lin(p) (Rn,Rm) , ‖T‖ = max‖X1‖≤1

. . . max‖Xp‖≤1

‖T(X1, . . . , Xp)‖ ; en particular

X1, . . . , Xp ∈ Rn Ñ ‖T(X1, . . . , Xp)‖ ≤ ‖T‖ ‖X1‖ · · · ‖Xp‖ .

§ A.1. Definiciones básicas.La definición más importante de este apéndice es la de derivada.

( A.1.1 ) Sean (V, ‖‖V ) y (W, ‖‖W ) espacios normados de dimensión finita y F : U ⊂ V →W, donde U 6= ∅ es

un conjunto arbitrario y sea P ∈ ÙU. Si existe r > 0 y una transformación lineal T : V →W los cuales satisfacenque

lımH→0

‖F (P +H)− F (P)− TH‖W‖H‖V

= 0,

se dirá que T es una derivada de F en P respecto a las normas ‖‖V y ‖‖W . Se dirá que F es diferenciable enE ⊂ V si E es abierto y para todo P ∈ E, F es diferenciable en P.

Observación: la derivada, cuando existe, es única. En efecto, si S y T son derivadas de F, entoncespara H ∈ V unitario y t ∈ R no nulo,

‖SH − TH‖W = ‖S(tH)− T(tH)‖W|t|

≤ ‖F (P + tH)− F (P)− T(tH)‖W‖tH‖V

+ ‖F (P + tH)− F (P)− S(tH)‖W‖tH‖V

,

que converge a cero cuando t lo hace, concluyendo que SH = TH para cualquier H ∈ V unitario.Conviene generalizar la noción de derivada a espacios vectoriales reales, normados y de dimensión

finita.

( A.1.2 ) Sea V un espacio vectorial normado de dimensión finita y ‖‖1 , ‖‖2 dos normas en V. Existen constantesa > 0 y b > 0 tales que para cualquier v ∈ V

a ‖v‖1 ≤ ‖v‖2 ≤ b ‖v‖1 .

( A.1.2.1 ) Basta demostrar (A.1.2) cuando V = Rn.

En efecto, existe un isomorfismo entre espacios vectoriales Φ : Rn → V, en donde n = dim V.Luego, se definen en Rn las normas ‖X‖R1 = ‖Φ(X)‖1 y ‖X‖R2 = ‖Φ(X)‖R2 . Si (A.1.2) vale cuando V = Rn,entonces existen a y b tales que

a ‖X‖R1 ≤ ‖X‖R2 ≤ b ‖X‖

R1 .

Luego, dado v ∈ V cualquiera, existe un X ∈ Rn y solo uno tal que v = Φ(X). Usando la definición de‖‖R1 y ‖‖R2 se concluye el resultado deseado.

202

A.1. Definiciones básicas.

( A.1.2.2 ) Basta demostrar (A.1.2) cuando ‖‖2 es la norma estándar de Rn.Pues si fuese cierto el teorema en ese caso, entonces existirían constantes a > 0, b > 0, c > 0 y

d > 0 tales que para todo X ∈ Rn

a ‖X‖1 ≤ ‖X‖ ≤ b ‖X‖1 ; c ‖X‖2 ≤ ‖X‖ ≤ d ‖X‖2 .

De donde, ad ‖X‖1 ≤ ‖X‖2 ≤bc ‖X‖1 .

( A.1.2.3 ) Para la norma euclidiana vale (A.1.2).

Pues si X =n∑i=1

aiei, donde e1, . . . , en es la base canónica de Rn, entonces

‖X‖1 ≤n∑i=1|ai| ‖ei‖1 ≤ max

1≤j≤n‖ej‖1

n∑i=1|ai| ≤ n max

1≤j≤n‖ej‖1 ‖X‖ .

Para demostrar la otra desigualdad, sea V el espacio normado Rn con la norma ‖‖1 . Entonces la funciónI : Rn → V, dada por I(X) = X, es continua en el origen. Para esto se debe demostrar que

(∀ε > 0)(∃δ > 0)(‖X‖ < δ Ñ ‖X‖1 < ε).

Sean ε > 0 y b > 0 tal que para cualquier X ∈ Rn ‖X‖1 ≤ b ‖X‖ . Define δ = ε2b . Entonces ‖X‖ < δ Ñ

‖X‖1 ≤ b ‖X‖ = ε2 < ε. Por lo tanto, la función I es continua. En particular, para ε = 1 existe η > 0

tal que ‖X‖ < η Ñ ‖X‖1 < 1. Sea X ∈ Rn cualquier vector no nulo. Entonces∥∥∥∥η2 X‖X‖

∥∥∥∥ = η2 , por lo que∥∥∥∥η2 X

‖X‖

∥∥∥∥1≤ 1, despejando, se obtiene que ‖X‖1 ≤

2η ‖X‖ . Esto concluye la demostración de (A.1.2).

( A.1.3 ) La definición (A.1.1) es independiente de la norma que se utilice.

Pues si ‖‖1 , y ‖‖′1 son dos normas de V, y ‖‖2 y ‖‖′2 son dos normas de W, en virtud de (A.1.2)existen constantes a, b, c y d positivas tales que

a ‖‖1 ≤ ‖‖′1 ≤ b ‖‖1 y c ‖‖2 ≤ ‖‖

′2 ≤ d ‖‖2 .

Entonces‖F (P +H)− F (P)− TH‖′2

‖H‖′1≤ da‖F (P +H)− F (P)− TH‖2

‖H‖1,

y con tomar límite se ve que F tiene la misma derivada T en P ante las normas ‖‖′1 y ‖‖′2 .

Observaciones: Sean V y W dos espacios vectoriales reales, normados (con sendas normas ‖‖V y‖‖W ) y de dimensión finita. Sean Φ y Ψ sendos isomorfismos de Rn y Rm a V y W.

1. Los isomorfismos Φ y Ψ resultan ser funciones uniformemente continuas de Rn a V y de Rm

a W, respectivamente. En particular, toda sucesión de Cauchy en Rn (Rm, respectivamente) esuna sucesión de Cauchy en V (W, respectivamente). Para que en Rn (Rm, respectivamente) unasucesión sea convergente es necesario y suficiente que sea de Cauchy; se sigue que todas lasconvergencias en Rn (Rm, respectivamente) se preservan en V (W, respectivamente).Esto es mucho más fuerte que V y Rn (W y Rm, respectivamente) sean simplemente isomorfos,pues toda la estructura métrica de Rn (Rm, respectivamente) es la misma para V (W, respectiva-mente). Entonces se puede identificar canónicamente a V con Rn (W con Rm) y se escribirá estocomo V = Rn (W = Rm).

203

Apéndice A. Un repaso de diferenciación en Rn.

2. Las funciones ‖X‖1 = ‖Φ(X)‖V y ‖X‖2 = ‖Ψ(X)‖W definen normas en Rn y Rm. Y como se puedehablar sin ambigüedad (ve (A.1.2) y (A.1.3) de diferenciabilidad entre dos espacios vectoriales dedimensión finita V y W, bastará demostrar los resultados concernientes a derivación sobre algúnRn.

3. Dado que la derivada es independiente tanto del espacio como de las normas, esta será denotadasiempre por DF (P) .

§ A.2. La regla de la cadena.( A.2.1 ) Sean F : U ⊂ Rm → Rp y G : V ⊂ Rn → Rm tales que G es diferenciable en P, punto interior de V, yF es diferenciable en G(P), punto interior de U. Entonces, F G es diferenciable en P y, además,

D(F G) (P) = DF (G(P)) DG (P) ;

la «regla de la cadena».

Dado que G es diferenciable en P se puede encontrar φ : Rn → Rm tal que

G(P +H) = G(P) + DG (P)H + φ(H),

en donde lımH→0

‖φ(H)‖‖H‖ = 0. Análogamente, para F existe ψ : Rm → Rp con lım

H→0

‖ψ(H)‖‖H‖ = 0 y tal que

F (G(P) +H) = F (G(P)) + DF (G(P))H + ψ(H).

En consecuencia, solo resta demostrar que

lımH→0

‖DF (G(P))φ(H) + ψ(DG (P)H + φ(H))‖‖H‖ = 0.

Pero‖DF (G(P))φ(H)‖

‖H‖ ≤ ‖DF (G(P))‖ ‖φ(H)‖‖H‖ ,

que tiende a cero cuando H lo hace. Por otro lado,

‖ψ(DG (P)H + φ(H))‖‖H‖ = ‖ψ(DG (P)H + φ(H))‖

‖DG (P)H + φ(H)‖‖DG (P)H + φ(H)‖

‖H‖ ,

que también tiende a cero cuando H lo hace. La regla de la cadena tiene innumerables consecuencias, entre ellas, las reglas de derivación para

sumas, productos, cocientes, funciones multilineales, etcétera.

( A.2.2 ) Sea F = (f1, . . . , fm) : U ⊂ Rn → Rm, donde U es arbitrario y sea P ∈ ÙU. Para que F sea diferenciableen P es necesario y suficiente que cada fi sea diferenciable en P.

Considerando las funciones pri : Rn → R dadas por pri(x1, . . . , xn) = xi, se ve que para todoj = 1, . . . ,m,

|fj (P +H)− F (P)− prj DF (P)H|‖H‖ ≤ ‖F (P +H)− F (P)−DF (P)H‖

‖H‖y que

‖F (P +H)− F (P)−DF (P)H‖‖H‖ ≤

n∑i=1

‖fi(P +H)− F (P)− pri DF (P)H‖‖H‖

lo que demuestra la equivalencia.

204

A.3. El teorema del valor medio.

Observación: este teorema demuestra que Dfi (P) es la i-ésima fila de DF (P) , lo que puede escribirsecomo

DF (P)H =

Df1 (P)...

Dfm (P)

H =

Df1 (P)H...

Dfm (P)H

.

§ A.3. El teorema del valor medio.( A.3.1 ) Sea f : [a, b]→ Rm una curva. Se dirá que f posee derivada por la derecha en un punto x ∈ [a, b) si

lımh→0,h>0

f (x + h)− f (x)h

existe; este límite será denotado por f ′d(x)1. Análogamente se define que f posee una derivada por la izquierda enx ∈ (a, b], denotado por f ′g (x)2 si

lımh→0,h<0

f (x + h)− f (x)h

existe.

Nota que si f : [a, b]→ Rm es diferenciable con continuidad, f ′d = f ′g .

( A.3.2 ) Sean f : [a, b]→ Rn una curva y g : [a, b]→ R cualquiera. Se supone que f y g son continuas y quesus derivadas por la derecha existen para todo x ∈ (a, b) las cuales satisfacen que

‖f ′d(x)‖ ≤ g ′d(x) para cada a < x < b.

Entonces,‖f (b)− f (a)‖ ≤ g(b)− g(a);

el «teorema del valor medio».

Aunque la idea puede parecer un poco oscura, se demostrará que para ε > 0 dado se satisface quepara todo x ∈ [a, b]

‖f (x)− f (a)‖ ≤ g(x)− g(a) + ε(x − a) + ε para cada x ∈ [a, b].

Luego, bastará tomar el ínfimo sobre ε > 0, el lado izquierdo en la desigualdad de arriba permaneceigual por ser independiente de ε y luego se obtiene el teorema.

Para demostrar esta desigualdad se define U como el conjunto de los x ∈ [a, b] para los cualesla desigualdad es falsa; para concluir basta ver que U es vacío. Se observa que U es abierto; estose sigue del hecho que U = φ−1((0,∞)) para φ una función continua. Se supone entonces que exitex ∈ U. Claramente, U es acotado y no vacío, por lo tanto existe c = ınfU. Se tiene que c > a pues‖f (a)− f (a)‖ = 0. Asimismo, c < b, pues si c = b, entonces se tendría, para todo x ∈ [a, b), que secumple la desigualdad y como f es continua también se cumpliría para b. Finalmente, c /∈ U, porquetodo x ∈ [a, c) satisface la desigualdad, de nuevo la continuidad de las funciones muestra que se satisfacepara c. De la definición de f ′d(c) y g ′d(c) se sigue que existe δ > 0 para el cual x ∈ [c, c + δ] implica

‖f ′d(c)‖ ≥∥∥∥∥ f (x)− f (c)

x − c

∥∥∥∥− ε2 y g ′d(c) ≤

g(x)− g(c)x − c + ε

2 .

1En francés la palabra derecha se escribe droite; al ser los franceses quienes introdujeron las derivadas laterales se utiliza lanotación adoptada por ellos.

2Mismo que antes, pero con izquierda y gauche.

205

Apéndice A. Un repaso de diferenciación en Rn.

Como c /∈ U se deduce que ‖f ′d(c)‖ ≤ g ′d(c) y así

‖f (x)− f (c)‖ ≤ g(x)− g(c) + ε(x − c).

Usando la desigualdad triangular se obtiene que para cada x ∈ [c, c + δ] se cumple que

‖f (x)− f (a)‖ ≤ g(x)− g(a) + ε(x − a) + ε.

Por lo que c no es el ínfimo de U, lo que es una contradicción. Se generaliza ahora el teorema del valor medio para funciones de variable vector.

( A.3.3 ) Si F : U ⊂ Rn → Rm es diferenciable y el segmento de extremos A y B está contenido en U, entonces

‖F (B)− F (A)‖ ≤ ‖B− A‖ sup0≤t≤1

‖DF ((1− t)A+ tB)‖ .

Si sup0≤t≤1

‖DF ((1− t)A+ tB)‖ = ∞, el resultado es trivial, por lo que se supondrá que este supremo

es finito. Se define la función auxiliar

α(t) = F ((1− t)A+ tB), t ∈ [0, 1].

Entonces α es diferenciable y

‖α′(t)‖ = ‖DF ((1− t)A+ tB) · (B− A)‖≤ ‖DF ((1− t)A+ tB)‖ ‖B− A‖≤ ‖B− A‖ sup

0≤t≤1‖DF ((1− t)A+ tB)‖ .

El teorema del valor medio implica entonces que

‖α(1)− α(0)‖ ≤ ‖B− A‖ sup0≤t≤1

‖DF ((1− t)A+ tB)‖ .

Que es lo que se quería demostrar.

( A.3.4 ) Se dirá que una función F : U ⊂ Rn → Rm es lipschitziana con constante de lipschitzianidad k > 0(«k-lipschitziana») si para todos X,Y ∈ U se cumple que

‖F (X)− F (Y )‖ ≤ k ‖X − Y‖ .

( A.3.5 ) Toda función lineal f : Rn → Rm es ‖f‖-lipschitziana.

( A.3.6 ) Sea f : [a, b] → Rn una curva continua la cual admite una derivada por la derecha en cada puntox ∈ (a, b). Si ‖f ′d(x)‖ < k para alguna k constante, entonces f es k-lipschitziana.

Lo que se sigue inmediatamente de (A.3.2).

( A.3.7 ) Sea F : U ⊂ Rn → Rm diferenciable y U convexo. Si ‖DF (P)‖ ≤ k para alguna k > 0 y todo P ∈ U,entonces F es k-lipschitziana.

Este es inmediato de (A.3.3).

206

A.4. Algunos isomorfismos canónicos.

§ A.4. Algunos isomorfismos canónicos.( A.4.1 ) Sean n1, . . . , nk k números naturales. Se cumple que

Lin (Rn1 ,Lin (Rn2 , . . .Lin (Rnk ,Rm) . . .)) = Mult(Rn1 × . . .× Rnk ;Rm).

En donde, Mult(Rn1 × . . .× Rnk ;Rm) denota a todas las transformaciones k-lineales de Rn1 × . . .× Rnk a Rm.

Para verificar esto se aplicará el principio de inducción matemática sobre el índice k. Cuando k = 1la igualdad es válida por definición.

Se ve el caso k = 2.Dada T ∈ Lin (Rm,Lin (Rn,Rp)) , sea BT ∈ Bil(Rm,Rn;Rp), en donde Bil(Rm,Rn;Rp)denota a las funciones 2-lineales de Rm × Rn a Rp, y BT está dada por

BT (u, v) = (Tu)v.

Se afirma que la función Φ : Lin (Rm,Lin (Rn,Rp))→ Bil(Rm,Rn;Rp) dada por T 7Ï BT es un isomorfis-mo. Se debe demostrar que es lineal e invertible.

1. Primero se verá la linealidad. Sean S, T ∈ Lin (Rm,Lin (Rn,Rp)) , λ ∈ R y (u, v) ∈ Rm×Rn. Entonces

Φ(S + λT)(u, v) = ((S + λT)u)v = (Su + λTu)v= (Su)v + λ(Tu)v = Φ(S)(u, v) + λΦ(T)(u, v).

Con lo cual, Φ es una función lineal.

2. Ahora se demostrará la invertibilidad. Para encontrar explícitamente a Φ−1 (si es que existe) seobserva lo siguiente: la fórmula BT (u, v) = (Tu)v ya indica quién será el candidato. Define

Ψ : Bil(Rm,Rn;Rp)→ Lin (Rm,Lin (Rn,Rp))

según la siguiente regla. Dado B ∈ Bil(Rm,Rn;Rp), se define Ψ(B) como la función

Ψ(B) ∈ Lin (Rn,Lin (Rp,Rm))

tal que para cada u ∈ Rn la función Ψ(B)u es la transformación lineal dada por (Ψ(B)u)v = B(u, v).Se verá que Ψ = Φ−1. Primero, para T ∈ Lin (Rn,Lin (Rp,Rm)) ,

(Ψ Φ)(T) = Ψ(Φ(T)) = Ψ(BT ).

Para u ∈ Rn se tiene que, por definición, Ψ(BT )u es la transformación lineal dada por (Ψ(BT )u)v =BT (u, v) = (Tu)v. Esto muestra que Ψ(BT )u = Tu para cada u ∈ Rn, por lo que Ψ(BT ) = T yΨ Φ = ILin(Rn ,Lin(Rp ,Rm)).Segundo, para B ∈ Bil(Rm,Rn;Rp) dado se tiene que Φ(Ψ(B)) está dada por

Φ(Ψ(B))(u, v) = Φ((Ψ(B)u)v) = B(u, v).

De donde, Φ Ψ = IBil(Rm ,Rn ;Rp), mostrando que Ψ = Φ−1.

Por lo tanto, Φ es invertible. El caso general se sigue del caso k = 2. Para facilitar la notación, cuando n1 = n2 = . . . = nk = n se escribirá

Mult(Rn1 × . . .× Rnk )(Rm) = Lin(k) (Rn,Rm) .

Con estas notaciones se pueden dar definiciones satisfactorias de derivadas superiores.

207

Apéndice A. Un repaso de diferenciación en Rn.

( A.4.2 ) Sea F : U ⊂ Rn → R y sea ek ∈ Rn el k-ésimo vector de la base canónica de Rn. Se define la derivadaparcial de F en P respecto del k-ésimo eje como

DkF (P) = lımh→0

F (hek + P)− F (p)h ,

siempre que el límite exista.

( A.4.3 ) Sea F : U ⊂ Rn → Rm diferenciable en P. Entonces DkF (P) existe y DkF (P) = DF (P) ek.

Es consecuencia directa de la regla de la cadena (A.2.1).

Observación: la matriz asociada a la transformación lineal DF (P) respecto de las bases canónicas deRn y Rm es

DF (P) =

D1f1 (P) · · · Dnf1 (P)...

. . ....

D1fm (P) · · · Dnfm (P)

.Lo cual se deriva de que DF (P) ek es la k-ésima columna de la representación matricial de DF (P) yque

DF (P) ek =

Df1 (P) ek...

Dfm (P) ek

.( A.4.4 ) Sea F diferenciable en P. Entonces DiF (P) es un elemento de Lin (R,Rm) . Más aún,

DF (P) =n∑i=1

DiF (P) pri,

donde pri : Rn → R es la proyección al i-ésimo eje.

Cuando F : U ⊂ Rn → Rm es diferenciable en P, DF (P) es un elemento de Lin (Rn,Rm) ; estopermite pensar a DiF (P) como un elemento de Lin (R,Rm) . La igualdad surge del hecho que para todo(x1, . . . , xn) ∈ Rn,

DF (P) (x1, . . . , xn) =n∑i=1

DiF (P)xi =n∑i=1

DiF (P) pri(x1, . . . , xn).

Lo cual concluye la demostración.

( A.4.5 ) Sea F : U ⊂ Rn → Rm función diferenciable. Se define la función D : U → Lin (Rn,Rm) , porD(P) = DF (P) , a la cual se le conoce como función de primera derivada de F. Por notación, se escribiráD = DF. A la asignación P 7Ï DiF (P) se le llamará función de primera derivada parcial respecto al eje i-ésimo.Esta función será denotada por DiF : U → Lin (R,Rm) .

( A.4.6 ) Sea F : U ⊂ Rn → Rm, donde U es cualquier subconjunto de Rn, una función tal que para cierto P ∈ ÙU,punto interior, todas sus derivadas parciales existen en B (P; r) , con r > 0. Si DF : B (P; r) → Lin (Rn,Rm) escontinua en P, entonces existe DF (P) .

208

A.4. Algunos isomorfismos canónicos.

Se utilizará el teorema del valor medio (A.3.3). Como las derivadas parciales existen, el único can-didato a ser derivada de F en P es la transformación lineal

(h1, . . . , hn) 7Ïn∑k=1

DkF (P)hk.

Se define para H = (h1, . . . , hn) y k ∈ 1, . . . , n el vector Hk = (h1, . . . , hk, 0, . . . , 0) y H0 = 0, entonces

F (P +H)− F (P)−n∑k=1

DkF (P)hk =n∑k=1

(F (P +Hk)− F (P +Hk−1)−DkF (P)hk

).

Las diferencias F (P +Hk)− F (P +Hk−1) dependen solamente de una coordenada. Define para t ∈ R lafunción

gk(t) = F (P +Hk(t))−DkF (P) t,donde Hk(t) = (h1, . . . , hk−1, t, 0, . . . , 0). Entonces,

F (P +H)− F (P)−n∑k=1

DkF (P)hk =n∑k=1

(gk(hk)− gk(0)

).

Según el teorema del valor medio (A.3.3),∥∥∥∥∥F (P +H)− F (P)−n∑k=1

DkF (P)hk

∥∥∥∥∥ ≤ n∑k=1‖gk(hk)− gk(0)‖ ≤

n∑k=1|hk| sup

0≤t≤1‖g ′k(thk)‖ .

Por definición de la derivada parcial,

g ′k(s) = DkF (P +Hk(s))−DkF (P) ,

con lo que∥∥∥∥∥F (P +H)− F (P)−n∑k=1

DkF (P)hk

∥∥∥∥∥ ≤ n∑k=1|hk| sup

0≤t≤1‖DkF (P +Hk(thk))−DkF (P)‖ .

Como |hk| ≤ ‖H‖ y para todo ε > 0 existe δ > 0 tal que

‖H‖ < δ Ñ ‖DkF (P +Hk(thk))−DkF (P)‖ < εn,

se sigue que dado ε > 0 existe un δ > 0 tal que

‖H‖ < δ Ñ

∥∥∥∥∥F (P +H)− F (P)−n∑k=1

DkF (P)hk

∥∥∥∥∥‖H‖ < ε,

lo cual muestra la diferenciabilidad de F en P.

( A.4.7 ) Sea F : U ⊂ Rn → Rm e i1, . . . , ik+1 ∈ 1, . . . , n. Se dirá que F posee la derivada parcial de (k+ 1)-ésimo orden respecto al orden (ik+1, . . . , i1), si la función Dik ,...,i1F : U → Rm existe, y la derivada parcial de estarespecto del eje ik+1 existe. Se define entonces

Dik+1

[Dik ,...,i1F

]= Dik+1,...,i1F.

209

Apéndice A. Un repaso de diferenciación en Rn.

( A.4.8 ) Sea F : U ⊂ Rn → Rm, con U abierto, tal que DiF y DjF tienen dominio U. Se supone que Di,jF tienedominio U y es una función continua en P ∈ U. Entonces, Dj,iF (P) existe y, además, Di,jF (P) = Dj,iF (P) .

Supón que P = (p1, . . . , pn). Al ser P punto interior de U existe A =n∏k=1

(pk − r, pk + r) cubo abierto

tal que A ⊂ U. Se define la función Φ : (−r, r)2 → R dada por:

Φ(s, t) = F (P + sei + tej )− F (P + sei)− F (P + tej ) + F (P).

Nota que Φ(s, t) = Φ(t, s). Sea s ∈ (−r, r) fijo y define φ : (−r, r) → Rm dada por φ(t) = F (P + sei +tej )− F (P + tej )−DijF (P) st. Entonces

φ(t)− φ(0) = Φ(s, t)−DijF (P) st.

En virtud del teorema del valor medio (A.3.2),

‖φ(t)− φ(0)‖ ≤ |t| sup0≤ξ≤1

‖φ′(ξt)‖ .

Es claro, de la definición de derivada parcial, que

φ′(ξt) = DjF(P + sei + ξtej

)−DjF

(P + ξtej

)−DijF (P) s.

Con lo cual,

‖Φ(s, t)−DijF (P) st‖ ≤ |t| sup0≤ξ≤1

∥∥DjF(P + sei + ξtej

)−DjF

(P + ξtej

)−DijF (P) s

∥∥ .Defíne ahora ψ : (−r, r) → R por ψ(s) = DjF

(P + sei + tej

)− DijF (P) s para t ∈ (−r, r) fijo. Obsérve

que ψ es diferenciable pues Di,jF existe en todo U. Por lo que aplica el teorema del valor medio a ψ.Se obtiene que

‖ψ(s)− ψ(0)‖ ≤ |s| sup0≤ν≤1

‖ψ′(νs)‖

es decir, se ha demostrado que para (s, t) ∈ (−r, r)2,

‖Φ(s, t)−DijF (P) st‖ ≤ |ts| sup0≤ξ,ν≤1

∥∥Di,jF(P + νsei + ξtej

)−DijF (P)

∥∥ .Usando que Di,jF es continua en P, se sigue que

lıms→0

∥∥∥∥Φ(s, t)st −Di,jF (P)

∥∥∥∥ ≤ sup0≤ξ≤1

∥∥Di,jF(P + ξtej

)−DijF (P)

∥∥ .Para poder demostrar la igualdad de las derivadas parciales mixtas se usa ahora la existencia de

DiF, obteniendo que

lıms→0

Φ(s, t)st = lım

s→0

F (P + sei + tej )− F (P + sei)− F (P + tej ) + F (P)st

=DiF

(P + tej

)−DiF (P)

t .

Entonces, usando la continuidad de la norma,∥∥∥∥∥DiF(P + tej

)−DiF (P)

t −Di,jF (P)∥∥∥∥∥ ≤ sup

0≤ξ≤1

∥∥Di,jF(P + ξtej

)−DijF (P)

∥∥ .210

A.5. Derivadas de orden superior.

Haciendo t → 0Dj,iF (P) = lım

t→0

DiF(P + tej

)−DiF (P)

t = Di,jF (P) ,

con lo que se concluye el teorema.

( A.4.9 ) Sea F : U ⊂ Rn → Rm con U abierto. Se dirá que F es de clase C0 si F es continua y se dirá que Fes de clase C1 si su función de derivadas es continua. Inductivamente, se define que F sea de clase Ck+1 si cadauna de sus funciones de derivadas parciales es de clase Ck. Se denotará por F ∈ Ck (U,Rm) cuando F : U → Rm

sea de clase Ck. Si F ∈ Ck (U,Rm) para todo k ∈ N, entonces se dirá que F ∈ C∞ (U,Rm) .

Observación: para cada k ∈ N, Ck+1 (U,Rm) ⊂ Ck (U,Rm) y C∞ (U,Rm) ⊂ Ck (U,Rm) .

§ A.5. Derivadas de orden superior.

( A.5.1 ) Sea F : U ⊂ Rn → Rm una función. Se dira que F es (k + 1) veces diferenciable en P ∈ ÙU si suderivada DkF existe en una bola B (P; r) ⊂ U y DkF : B (P; r)→ Lin(k) (Rn, Rm) es diferenciable en P; entoncesse define la derivada de F en P como el único elemento en Lin(k+1) (Rn,Rm) que representa a D

[DkF

](P) según

el isomorfismo canónico definido antes. Si una función tiene derivada k-ésima para cada k ∈ N, se dirá que esindefinidamente diferenciable.

( A.5.2 ) Sean X1, . . . , Xk vectores fijos en Rn y F : U → Rm, con U ⊂ Rn. Si F es k veces diferenciable enP. Existe un r > 0 en el que puede ser definida g : B (P; r) → Rm dada por g(X) = Dk−1F (X) (X2, . . . , Xk),entonces g es diferenciable y

Dg (P)X1 = DkF (P) (X1, . . . , Xk).

Para demostrar esta igualdad considera la función Φ : Lin(k−1) (Rn,Rm) → Lin (Rn,Rm) dada porΦ(T) es el elemento en Lin (Rn,Rm) definida según Φ(T)v = T(v,X2, . . . , Xk), entonces, Φ es una funcióndiferenciable pues es lineal; de hecho DΦ (T) = Φ. De este modo, g = Φ

(Dk−1F

). Por la regla de la

cadena,Dg (P)X1 =

(DΦ

(Dk−1F (P)

)DkF (P)

)X1 = DkF (P) (X1, . . . , Xn)

como se afirmó.

( A.5.3 ) Sea U ⊂ Rn y P ∈ ÙU ; es condición necesaria y suficiente para que F = (f1, . . . , fm) : U → Rm sea k vecesdiferenciable en P que cada fi sea k veces diferenciable en P; en este caso, DkF (P) =

(Dkf1 (P) , . . . ,Dkfm (P)

).

Se procede por inducción. Sea F = (f1, . . . , fm) una función de U en Rm que es k + 1 veces diferen-ciable en P. Entonces, se tiene que

Dk+1F (P) = D[DkF

](P)

= D(Dkf1, . . . ,Dkfm

)(P)

=(D[Dkf1

], . . . ,D

[Dkfm

])(P)

=(Dk+1f1, . . . ,Dk+1fm

)(P)

=(Dk+1f1 (P) , . . . ,Dk+1fm (P)

).

Que demuestra lo pedido.

( A.5.4 ) Sea F ∈ Ck (U,Rm) , en donde U es un conjunto abierto. Entonces F es k-veces diferenciable.

211

Apéndice A. Un repaso de diferenciación en Rn.

Si el teorema es cierto para cierto k ∈ N, entonces, al ser que Dk+1F = D[DkF

]y usando que las

parciales de DkF son continuas en U que es un abierto (vea (A.5.6)), se concluye que DkF es diferenciable.

( A.5.5 ) Se dirá que F es k veces diferenciable con continuidad en P si todas sus funciones de derivación DF,D2F, . . . , DkF existen en una bola B (P; r) y cada una de ellas es continua en P. Se dirá que F es k vecesdiferenciable con continuidad si DkF existe con el mismo dominio que F y es continua.

Observaciones:

1. De hecho, como una función diferenciable es continua, para ver que una función es k vecesdiferenciable con continuidad en un punto P basta demostrar que su derivada k-ésima existe enuna bola B (P; r) y que es continua en P.

2. Con esta definición y el teorema anterior se deriva que una condición necesaria y suficiente paraque una función sea continuamente k veces diferenciable en P es que pertenezca al conjuntoCk (B (P; r) ,Rm) .

( A.5.6 ) Si f es k veces diferenciable en P, entonces

Dkf (P) (ei1 , . . . , eik ) = Dik ,...,i1f (P) ,

en donde (e1, . . . , en) es la base canónica de Rn.

La demostración puede proceder por inducción; ya ha sido demostrado antes (A.4.3) que Dif (P) =Df (P) ei. Supón que existe k para el cual el teorema es cierto. Por inducción,

Dk+1f (P) (ei1 , . . . , eik+1 ) = D[Dkf

](P)(ei1 , . . . , eik )(eik+1 )

= D[Dik ,...,i1f

](P) eik+1

= Dik+1,...,i1f (P) ,

lo que concluye la afirmación.

( A.5.7 ) Sea F ∈ Ck (U,Rm) , en donde U es un conjunto abierto de Rn. Si i1, . . . , ik son k números enterospositivos entre 1 y n (posiblemente coincidentes algunos de ellos) y σ ∈ Sk es una permutación de k elementos,entonces Di1···ikF = Diσ (1)···iσ (k)F.

Observa que en virtud de (A.4.8) el teorema es cierto para k = 2. Se supone cierto para algún k ∈ Ny sean ei1 , . . . , eik+1 ∈ Rn vectores canónicos y sea F ∈ Ck+1 (U,Rm) . Se define g : U → Lin(2) (Rn,Rm)como la forma bilineal g(X) definida según

g(X)(u, v) = Dk−1F (X) (u, v, ei3 , . . . , eik+1 ) .

En acuerdo con (A.5.2), la primera derivada de g es Dg (X) v = DkF (X) (v, ei3 , . . . , eik+1 ) , y su segundaderivada es

D2g (X) (u, v) = Dk+1F (X) (u, v, ei3 , . . . , eik+1 ) .Es evidente que se puede identificar a Sk como las permutaciones del conjunto K = 2, . . . , k+ 1, conesto, tomando una permutación σ : K → K, se tiene, por inducción, que para cada X ∈ U,

DkF (X) (ei2 , . . . , eik+1 ) = DkF (X)(eiσ (2) , . . . , eiσ (k+1)

).

Derivando respecto de X, se obtiene que

D2g (X) (ei1 , ei2 ) = Dk+1F (X) (ei1 , . . . , eik+1 )= DkF (X)

(ei1 , eiσ (2) , . . . , eiσ (k+1)

).

212

A.5. Derivadas de orden superior.

Como g ∈ C2 (U,Rm) y el teorema es cierto para el caso k = 2, se ve que

D2g (X) (ei1 , ei2 ) = D2g (X) (ei2 , ei1 ).

Esto es,Dk+1F (X) (ei2 , ei1 , ei3 , . . . , eik+1 ) = DkF (X)

(ei1 , eiσ (2) , . . . , eiσ (k+1)

).

Por ende, se puede trasponer el índice i1 con el índice i2 y, por inducción, se pueden permutar cuales-quier otros índices. Para concluir basta demostrar que todo elemento Sk+1 puede ser factorizado comoproducto de elementos que sean permutaciones del conjunto K o la trasposición de 1 con 2. Para esteefecto, basta ver que toda trasposición de Sk+1 se puede factorizar de este modo (pues las trasposicionesde Sk+1 generan Sk+1). Sea τ es una trasposición de Sk+1, por ejemplo τ = (ij); es decir, τ intercambia icon j. Si tanto i como j son distintos de 1, entonces τ

∣∣∣K

es una biyección de K en K y ya está factorizadodel modo requerido. Sin pérdida de generalidad, se supone que i = 1, entonces

τ = (2j)(12)(2j);

de hecho,

τ(i) =

(2j)(12)(2j)i = i si i 6= 1, 2, j(2j)(12)(2j)i = j si i = 1(2j)(12)(2j)i = 2 si i = 2(2j)(12)(2j)i = 1 si i = j,

mostrando que τ = (2j)(12)(2j), que es una factorización requerida. De este modo, Sk+1 se puede facto-rizar como se afirmó y esto demuestra que k + 1 ∈H , con lo cual se concluye que H = N.

( A.5.8 ) Sean Xi = (xi1, . . . , xin), para i = 1, . . . , k, k vectores en Rn. Sea F : U ⊂ Rn → Rm k veces

diferenciable en P ∈ ÙU. EntoncesDkF (P) (X1, . . . , Xk) =

∑j1,...,jk∈1,...,n

Dj1···jkF (P)x1j1x2j2 · · ·xkjk .

Se procede por inducción, el caso k = 1 ha sido demostrado ya. Se supone que el teorema es ciertopara cierto k y sea F : U → Rm k + 1 veces diferenciable en P. Entonces, por el caso k = 1,

Dk+1F (P) (X1, . . . , Xk+1) = D[DkF

](P) (X1, . . . , Xk+1)

=n∑

jk+1=1Djk+1

[DkF

](P) (X1, . . . , Xk)xk+1jk+1 .

Ahora, la hipótesis inductiva es que

DkF =∑

j1,...,jk∈1,...,nDj1···jkF,

sustituyendo en la expresión anterior, se llega a que Dk+1F (P) (X1, . . . , Xk+1) coincide con

n∑jk+1=1

∑j1,...,jk∈1,...,n

Djk+1

[Dj1···jkF

](P)x1j1 · · ·xk+1jk+1 .

Cabe destacar que como todas las sumas son finitas, se pueden reordenar, mostrando que el teoremaes cierto para k + 1 y, por lo tanto, el teorema es cierto para todo k ∈ N.

213

Apéndice A. Un repaso de diferenciación en Rn.

z Ejemplos.( A.5.9 ) Toda función constante es indefinidamente diferenciable y, además, todas sus derivadas son cero.

Ya se sabe que si c : Rn → Rm es constante, entonces Dc = 0. Por otro lado, si 0 : Rn → Rm es lafunción cero, como es constante se sigue que D0 (P) = 0, por lo que D0 = 0. Al ser m arbitrario, sesigue lo afirmado.

( A.5.10 ) Toda transformación lineal es indefinidamente diferenciable y sus derivadas a partir de la segunda soncero.

Sea L lineal de Rn en Rm. Entonces‖L(P +H)− L(P)− L(H)‖

‖H‖ = 0,

por lo que DL (P) = L. Para cada P ∈ Rn; su derivada es una función constante. De esto se sigue queD2L = 0 y, como es de esperarse, DkL = 0 para todo k ≥ 2.

( A.5.11 ) Sea T ∈ Lin(p) (Rn,Rm) . Entonces para cualesquier P1, . . . , Pp ∈ Rn,DT

(P1, . . . , Pp

)(H1, . . . , Hn) = T(H1, P1, . . . , Pp) + . . .+ T(P1, . . . , Pp−1, Hp).

Se resuelve únicamente el caso p = 2. Sea B ∈ Lin(2) (Rk,Rm) bilineal. Entonces

B(p1 + h1, p2 + h2)− B(p1, p2) = B(p1, h2) + B(h1, p2) + B(h1, h2),y resta ver que

lım(h1,h2)→0

‖B(h1, h2)‖‖(h1, h2)‖

= 0.

Para esto se nota que existe ‖B‖ ≥ 0 tal que

‖B(h1, h2)‖ 6= ‖B‖ ‖h1‖ ‖h2‖ ,por lo que

‖B(h1, h2)‖‖(h1, h2)‖

≤ ‖B‖ ‖h1‖ ‖h2‖max‖h1‖ , ‖h2‖

= ‖B‖mın‖h1‖ , ‖h2‖

que sí tiende a cero cuando (h1, h2)→ 0.

z Matrices hessianas.Si f : U ⊂ Rn → R es dos veces diferenciable en P. Entonces

Df (P) = (D1f (P) , . . . ,Dnf (P)) .Luego, su segunda derivada viene dada por

D2f (P) = D[Df ] (P) =

D[D1f ] (P)...

D[Dmf ] (P)

=

D11f (P) . . . Dn1f (P)...

. . ....

D1nf (P) . . . Dnnf (P)

.( A.5.12 ) Sea f : U ⊂ Rn → R cuyas funciones de segundas derivadas parciales existen en P. Se define la matrizHessiana3 de f en P por

Hessf (P) =

D11f (P) . . . Dn1f (P)...

. . ....

D1nf (P) . . . Dnnf (P)

.3En honor de Ludwig Otto Hesse (22 abril 1811 - 4 agosto 1874), un matemático alemán.

214

A.6. Teorema de Taylor.

Observación: nota que si Hessf (P) = (ai,j ), entonces el elemento ai,j es Djif (P) y no Dijf (P) , comoes definido por algunos autores. Sin embargo, cuando f es de clase C2 en un abierto, tales parcialescoinciden y no existe peligro a confusión.

Si F = (f1, . . . , fm) es diferenciable en P, entonces D2F (P) ∈ Lin(2) (Rn,Rm) . Es trivial verificar que

D2F (P) (u, v) =(D2f1 (P) (u, v), . . . ,D2fm (P) (u, v)

).

Surge naturalmente la siguiente definición.

( A.5.13 ) Sea F : U ⊂ Rn → Rm, supón que para algún P ∈ U existen todas las derivadas de segundo ordende F. Se define la matriz Hessiana de F en P como

HessF (P) =[Hessf1 (P) , . . . ,Hessfm (P)

],

donde la expresión de la derecha se entiende como la disposición por columnas4 de todas las matrices Hessianas.

§ A.6. Teorema de Taylor.La idea para definir el polinomio de Taylor en Rn es bastante simple: se toma el polinomio de Taylor

de R y se extiende esta definición. Supón entonces que f : Rn → R y f es k veces diferenciable en P. SiH es otro punto de Rn y α es la recta que une a P con P + H, se puede pensar que α : R → Rn estádada por α(t) = P + tH, entonces f α : R → R es k veces diferenciable. En este caso se tiene que elpolinomio de Taylor de f α de grado k centrado en cero es

Tk[f α

](0) t =

[f α

](0) + 1

1![f α

]′(0)t + . . .+ 1k![f α

](k)(0)tk.

Como α(0) = P, se puede definir Tkf (P) = Tk[f α

](0) . Nota que el lado izquierdo de esta igualdad

no tiene un significado riguroso, mientras que el lado derecho sí está bien definido. Resta calcular lasderivadas de f α. Procediendo por inducción, se demostrará que[

f α](p)(t) = Dpf (P + tH)H (p),

donde H (p) = (H, . . . , H)︸ ︷︷ ︸p veces

. Esto es consecuencia de la regla de la cadena. La primera derivada es

[f α]′(0) = f ′(P) · α′(0) = f ′(P) ·H.

Supón ahora que f es p+1 veces diferenciable y que la fórmula anterior vale para p. Sea h =[f α

](p);por inducción, h(t) = Dpf (P + tH)H (p). Con lo cual,

h(t + r)− h(t) = Dpf (P + (t + r)H)H (p) −Dpf (P + tH)H (p)

=[Dpf (P + (t + r)H)−Dpf (P + tH)

]H (p)

=[Dp+1f (P + tH) rH + φ(rH)

]H (p),

4Por ejemplo, la disposición por columnas de las matrices A =[a11 a12a21 a22

]y B =

[b11 b12b21 b22

]está dada por la matriz

[A,B] =[[

a11 a12a21 a22

],[b11 b12b21 b22

]].

215

Apéndice A. Un repaso de diferenciación en Rn.

en donde lımH→0

‖φ(H)‖‖H‖ = 0. Dividiendo ambos lados por r, se ve que

h(t + r)− h(t)r =

ïDp+1f (P + tH)H + φ(rH)

r

òH (p).

Cuando r → 0, queda que

h′(t) =[Dp+1f (P + tH)H

]H (p) = Dp+1f (P + tH)H (p+1).

De este modo, se obtiene que [f α](p)(0) = Dpf (P)H (p).

( A.6.1 ) Sea f ∈ Ck (U,Rm) , donde U es un abierto. Se define el polinomio de Taylor de f de grado k centradoen P ∈ U como

Tkf (P)H = f (P) + 11!Df (P)H + . . .+ 1

k!Dkf (P) (H)(p).

( A.6.2 ) Sea f ∈ Ck+1 (U,Rm) , donde U ⊂ Rn es abierto. Se supone que P ∈ U y sea r > 0 tal que la bolacerrada de centro P y radio r está contenida en U, esto es B′ (P; r) ⊂ U. Para cada H ∈ Rn con ‖H‖ < r, setiene que

f (P +H) = Tkf (P)H + Rk+1(f ;P,H),donde Rk+1(f ;P,H) es un término residual, al cual se le conoce como residuo del polinomio de Taylor de f degrado k + 1 centrado en P con incremento H. De hecho, se puede encontrar un ξ ∈ (0, 1) tal que

Rk+1(f ;P,H) = 1(k + 1)!Dk+1f (P + ξH)H (k+1).

Este se conoce como «Teorema de Taylor con resto de Lagrange».

Supón primero que n = 1. Se pone p = P e I = [p, p + r] ⊂ U. Para cada t ∈ I se define S(t)mediante la igualdad

f (p + r) = f (t) + f ′(t)(p + r − t) + . . .+ f (k)(t)k! (p + r − t)k + S(t),

Derivando respecto de t, pues f es Ck+1, se obtiene que

0 = ddt

ñf (t) + f ′(t)(p + r − t) + . . .+ f (k)(t)

k! (p + r − t)kô

+ S′(t).

Pero, para i = 1, . . . , k, se tiene que

ddt

ñf (i)(t)i! (p + r − t)i

ô= f (i+1)(t)

i! (p + r − t)i − f (i)(t)(i − 1)! (p + r − t)i−1,

de donde,

0 = f ′(t)+ [f ′′(t)(p + r − t)− f ′(t)]

+ñf (3)(t)

2! (p + r − t)2 − f ′′(t)(p + r − t)ô

...

+ñf (k+1)(t)k! (p + r − t)k − f (k)(t)

(k − 1)! (p + r − t)k−1ô

+ S′(t),

216

A.7. Convexidad.

arrojando “suma telescópica”, en la que se cancelan casi todos los términos, quedando que

S′(t) = − f(k+1)(t)k! (p + r − t)k.

Sea ahora g(t) = (p+ r − t)k+1; definiendo φ : I → R por φ(t) = S(p)g(t)− g(p)S(t) se ve que φ(p+ r) =0 = φ(p). Debido al teorema de Rolle5, existe un t en el interior de I para el cual φ′(t) = 0; esto es,

0 = S(p)g ′(t)− g(p)S′(t).

Sustituyendo la expresión de S′(t) encontrada antes, se obtiene que

S(p) = g(p)S′(t)g ′(t) =

rk+1 f (k+1)(t)k! (p + r − t)k

(k + 1)(p + r − t)k = f (k+1)(t)(k + 1)!r

k+1.

Como t está en el interior de I, existe un ξ ∈ (0, 1) tal que p+ ξr = t, con lo que se ha demostrado que

f (p + r) = f (p) + f ′(p)r + . . .+ f (k)(p)k! rk + f (k+1)(p + ξr)

(k + 1)! rk+1,

que concluye el teorema para éste caso especial.Se continúa con el caso general. Sea α : R→ Rn la curva dada por α(t) = P + tH y define g = f α.

Por el caso n = 1 aplicado a p = 0 y r = 1, se tiene que

g(1) = g(0) + g ′(0) + . . .+ g (k)(0)k! + g (k+1)(ξ)

(k + 1)! ,

donde ξ ∈ (0, 1). Pero se sabe que para cada i = 0, . . . , k + 1,

g (i)(t) = Dif (P + tH)H (i),

sustituyendo en la igualdad anterior, se obtiene el teorema general.

§ A.7. Convexidad.Se necesitan algunas definiciones básicas.

( A.7.1 ) Un subconjunto S ⊂ Rn se dice que es convexo si para cualesquier x, y ∈ S y cualquier t ∈ [0, 1] secumple que tx + (1− t)y ∈ S.

( A.7.2 ) Sea U ⊂ Rd es un subconjunto convexo. Entonces

1. para cualquier T : Rd → Rm que sea una función afín se cumple que T(U) es convexo;

2. para cualquier S : Rm → Rd afín, T−1(U) es convexo.

Si T es afín, entonces T = L + c, en donde L es lineal y c es un vector constante. Luego, parax, y ∈ T(U) cualesquiera existen u, v ∈ U con Tu = x y Tv = y, y además hay un segmento que unea u con v cuya imagen ante T es otro segmento, el cual une x con y; el caso de preimágenes se trataanálogamente.

5El teorema de Rolle asegura que si φ es continua en [a, b] y diferenciable en (a, b) tal que φ(b) = φ(a) = 0, entonces existeun t ∈ (a, b) para el cual φ′(t) = 0. La demostración de esto es sencilla, se verifica por casos. Si φ = 0 es todo (a, b), el resultadoes trivial, por lo que se supone que φ no se anula en todo (a, b); pero entonces, como [a, b] es compacto existe un punto dondeφ se maximiza. Al ser φ diferenciable, en tal punto su derivada se anula.

217

Apéndice A. Un repaso de diferenciación en Rn.

( A.7.3 ) Si la intersección de una familia de subconjunto convexos de Rd es no vacía, entonces esta conformaun subconjunto convexo de Rd.

Sea (Cα)α∈Γ una familia de subconjuntos convexos de Rd tales que C =⋂α∈Γ

Cα 6= ∅ y sean x, y ∈ C,

y t ∈ [0, 1] cualesquiera. El elemento tx + (1 − t)y ∈ Cα para cualquier α ∈ Γ, en consecuencia,tx + (1− t)y ∈ C.

( A.7.4 ) Sean A ⊂ Rn y B ⊂ Rm convexos. Entonces A× B ⊂ Rn+m es convexo.

Sean (x1, y1), (x2, y2) ∈ A× B. Entonces para t ∈ [0, 1] se cumple que

t(x1, y1) + (1− t)(x2, y2) = (tx1 + (1− t)y1, tx2 + (1− t)y2) ∈ A× B

por ser A y B convexos.

( A.7.5 ) Si x1, . . . , xk ∈ Rd y λ1, . . . , λk ∈ [0, 1], se dirá que x =k∑i=1

λixi es combinación lineal convexa de

x1, . . . , xk sin∑i=1

λi = 1.

( A.7.6 ) Sea S ⊂ Rd y CS el conjunto de todas las combinaciones lineales convexas de elementos de S; esto es

x ∈ CS si existen x1, . . . , xk ∈ S y λ1, . . . , λk ∈ [0, 1] tales que x =k∑i=1

λixi yn∑i=1

λi = 1. Entonces S es un

conjunto convexo al que llamaremos la «envolvente convexa» de S. Más aún, una condición necesaria y suficientepara que S ⊂ Rd sea convexo es que S = CS .

Es inmediato de la definición, pues si x, y ∈ S entonces

x =p∑i=1

λiui y y =q∑j=1

µjvj

en donde cada ui, vj ∈ S y todos los λi, µj ∈ [0, 1] satisfacen quep∑i=1

λi = 1 yq∑j=1

µj = 1. Luego, para

α ∈ [0, 1]

αx + (1− α)y =p∑i=1

αλiui +q∑j=1

(1− α)µjvj .

Nota que αλi, (1− α)µj ∈ [0, 1] y quep∑i=1

αλi +q∑j=1

(1− α)µj = α+ (1− α) = 1,

por lo que λx + (1− λ)y es suma convexa por elementos de S, es decir está en CS .La equivalencia es inmediato de lo previo, pues siempre se cumple que S ⊂ CS ; si S es convexo,

entonces cualquier combinación lineal convexa de elementos de S está en S.

( A.7.7 ) Sean [a1, b1], . . . , [an, bn] ⊂ R intervalos cerrados. La caja generada por ellos, R =n∏i=1

[ai, bi], es la

envolvente convexa del conjunto de vértices VR = (x1, . . . , xn)|xi ∈ ai, bi.

218

A.7. Convexidad.

Se procede por inducción sobre n; el resultado es evidente para n = 1 pues si t ∈ [a1, b1], entoncespara λ = b1 − t

b1 − a1∈ [0, 1] se cumple que t = λa1 + (1 − λ)b1; recíprocamente, si t es un elemento de

la envolvente convexa de a1, b1 entonces existe un λ ∈ [0, 1] tal que t = λa1 + (1 − λ)b1 y entoncest ∈ [a1, b1]; esto es CVR1

= [a1, b1].

Se supone que el resultado vale para un n dado. Si (x1, . . . , xn+1) ∈ Rn+1 =n+1∏i=1

[ai, bi] = Rn ×

[an+1, bn+1], entonces existen constantes λ1, . . . , λ2n ∈ [0, 1] con2n∑i=1

λi = 1 y (x1, . . . , xn) =2n∑i=1

λivi, en

donde VRn = vi : i = 1, . . . , 2n. Es claro que

VRn+1 = (vi, an+1), (vi, bn+1)|vi ∈ VRn,

por lo que2n∑i=1

λi(vi, an+1) =( 2n∑

i=1λivi, an+1

)y

2n∑i=1

λi(vi, bn+1) =( 2n∑

i=1λivi, bn+1

)pertenecen a la envolvente convexa de VRn+1 . Como xn+1 ∈ [an+1, bn+1] existe un λ ∈ [0, 1] con xn+1 =λan+1 + (1− λ)bn+1. Luego,

λ( 2n∑

i=1λivi, an+1

)+ (1− λ)

( 2n∑i=1

λivi, bn+1

)=

( 2n∑i=1

λivi, λan+1 + (1− λ)bn+1

)= (x1, . . . , xn+1);

esto es, (x1, . . . , xn+1) pertenece a la envolvente convexa de VRn+1 .

219

Apéndice A. Un repaso de diferenciación en Rn.

220

Apéndice B

• Teoría de la medida

El objetivo de este apéndice es volverse un material de consulta a lo largo del texto. Aquí se enun-ciarán los teoremas principales de teoría de la medida sobre σ -álgebras. De nuevo, una presentaciónmás general (sobre σ -anillos) puede ser encontrada en [14] y una más general aún, sobre espaciostopológicos metrizables, separables y localmente compactos, se encuentra expuesta en [9]. Todos lospreliminares de análisis se supondrán dados de [8].

§ B.1. Definiciones básicas.( B.1.1 ) Sea (An)n∈N una sucesión de subconjuntos de un conjunto dado; si An ⊂ An+1, se dirá que la sucesión

es creciente y se escribirá An A, siempre se entenderá que A =∞⋃n=1

An; si An+1 ⊂ An, se dirá que la sucesión

es decreciente y se escribirá An A para A =∞⋂n=1

An.

( B.1.2 ) Sea Ω un conjunto cualquiera y F ⊂P (Ω) . Se dirá que F es una σ-álgebra (tribu) de subconjuntosde Ω o que F es una σ-álgebra sobre Ω si satisface las siguientes tres propiedades

1. Ω ∈ F ;

2. A ∈ F Ñ A ∈ F ;

3. si (An)n∈N es una sucesión en F ,∞⋃n=1

An ∈ F .

Al par (Ω,F ) se le llamará espacio medible. Si en lugar de la última condición se pide solamente la condiciónmás débil

3’. A,B ∈ F Ñ A ∪ B ∈ F ,

a F se le llamará álgebra; igualmente el par (Ω,F ) recibe el nombre de espacio medible.

( B.1.3 ) Sea Ω un conjunto cualquiera y A ⊂P (Ω) . Existe un conjunto F tal que satisface las siguientes dospropiedades:

1. F es una σ-álgebra sobre Ω;

2. si H es una σ-álgebra sobre Ω tal que A ⊂H entonces F ⊂H .

221

Apéndice B. Teoría de la medida

A la σ-álgebra F se le llama σ-álgebra generada por A . Obviamente siendo única, se denotará por F = Σ(A ).

( B.1.4 ) Una medida sobre una σ-álgebra F es una función µ la cual es no negativa, que puede tomar el valor∞,tal que si (An)n∈N es una sucesión de conjuntos disjuntos por parejas en F (una «sucesión medible») entonces

µ( ∞⋃n=1

An

)=

∞∑n=1

µ(An);

es decir, µ es «σ-aditiva». También se dirá que µ es una medida sobre el espacio medible (Ω,F )1; en estostérminos se expresará que (Ω,F , µ) es un espacio de medida. Cuando µ(Ω) < ∞ se dirá que µ es una medidafinita y que el correspondiente espacio es un espacio de medida finita. Cuando exista una sucesión medible (An)n∈Nque cubra2 a Ω de tal forma que µ(An) < ∞, se dirá que µ es σ-finita y que el correspondiente espacio es demedida σ-finita.

Una carga o medida con signo es una función ν : F → R que sea σ-aditia y tal −∞,∞ 6⊂ ν(F ); es decir,puede tomar un valor infinito pero no ambos.

Convenio: siempre se excluirá el caso µ = ∞ (todos los conjuntos tienen medida infinito) comomedida.

( B.1.5 ) Sea F0 un álgebra sobre Ω y C una «clase monótona»; es decir, satisface la siguiente propiedad si(An)n∈N es una sucesión medible y monótona, con límite A entonces A ∈ C . Si F0 ⊂ C entonces Σ(F0) ⊂ C ;el «teorema de clases monótonas».

( B.1.6 ) Una colección A de subconjuntos de Ω se llama sistema π si A,B ∈ A Ñ A ∩B ∈ A . Una colecciónD de subconjuntos de Ω se llama sistema dynkiniano o sistema λ si

1. Ω ∈ D ;

2. A,B ∈ D , B ⊂ AÑ A \ B ∈ D ;

3. y An ∈ D , An AÑ A ∈ D .

( B.1.7 ) Si A ⊂ D , con A un sistema π y D un sistema dynkiniano entonces Σ(A ) ⊂ D ; el «teorema (o lema)de Dynkin».

§ B.2. Propiedades básicas de las medidas y cargas.( B.2.1 ) Sea F una σ-álgebra, µ una medida y ν una carga sobre ella. Entonces

1. ν(∅) = 0;

2. ν(A ∪ B) + ν(A ∩ B) = ν(A) + ν(B);

3. ν(A) = ν(B) + ν(A \ B) siempre que B ⊂ A; en particular µ es monótona;

4. An AÑ ν(An)→ ν(A);

5. An A, |ν(A1)| <∞Ñ ν(An)→ ν(A).1Observa que Ω es la unión de F , por lo que tiene perfecto sentido de hablar de una medida sobre una σ -álgebra sin hacer

mención al “espacio subyacente”.2Es decir,

∞⋃n=1

An = Ω.

222

B.3. Medidas de Lebesgue-Stieltjes en Rd.

( B.2.2 ) Se dice que una carga ν es continua en el vacío si para cualquier sucesión medible (An)n∈N tal queAn ∅ entonces ν(An) → 0. Toda función aditiva (sobre una σ-álgebra) que sea continua en el vacío es unacarga.

( B.2.3 ) Una medida exterior µ∗ sobre Ω es una función no negativa, que puede tomar el valor ∞, y que estádefinida sobre todos los subconjuntos de Ω que además satisface

1. µ∗(∅) = 0;

2. µ∗ es monótona;

3. µ∗ es σ-subaditiva, es decir, µ∗( ∞⋃n=1

An

)≤

∞∑n=1

µ∗(An) para cualquier sucesión (An)n∈N de subconjuntos

de Ω.

Se dice que un subconjunto de H ⊂ Ω es medible en el sentido exterior de Carathéodory respecto a µ∗ (osimplemente medible) si µ∗(H) + µ∗

(H)

= µ∗(Ω).

( B.2.4 ) Sea µ una medida sobre un álgebra F0 y supón que µ es σ-finita sobre F0, µ posee una única extensióncomo medida a F = Σ(F0); el «teorema de extensión de Carathéodory-Hahn».

§ B.3. Medidas de Lebesgue-Stieltjes en Rd.

( B.3.1 ) Una medida en Rd se llama de Lebesgue-Stieltjes si es σ-finita.

( B.3.2 ) Para A = (a1, . . . , ad) y B = (b1, . . . , bd) ∈ Rd, se define el intervalo semicerrado a la derecha como

(A,B] =d∏i=1

(ai, bi].

Los otros tipos de intervalos son definidos similarmente. El conjunto F0(Rd) de las uniones finitas de intervalos

disjuntos que sean semicerrados a la derecha3 constituyen un álgebra la cual genera a la σ-álgebra B(Rd) .

( B.3.3 ) Se define el operador de incrementos ∆H :(Rm)Rn

→(Rm)Rn

la función definida por ∆Hf : Rn → Rm

es la función dada por(∆Hf

)(X) = f (X +H)− f (X). En particular se verifica que para cualquier parmutación σ

de k elementos y cualesquier H1, . . . , Hk se cumple que

∆H1 · · ·∆Hk = ∆Hσ (1) · · ·∆Hσ (k) .

Se dirá que una función F : Rd → R es creciente si para cualquier intervalo semicerrado (A,B], con A =(a1, . . . , ad) y B = (b1, . . . , bd), se cumpla que para cualquier X ∈ Rd(

∆b1e1 −∆a1e1

)· · ·(∆bded −∆aded

)F (X) ≥ 0,

en donde (e1, . . . ,ed) es la base canónica de Rd. También se dirá que F es continua por la derecha si para cualquiersucesión

(X(k))

k∈N en Rd que sea decreciente4 a X se cumpla que F(X(k)) converja a F (X). Una función que sea

creciente y continua por la derecha se llamará función de distribución.

3Se supone que (A,∞) y que (−∞, B] son intervalos semicerrados a la derecha4Aquí se utiliza que X(k) ≥ X(k+1) equivale a que la desigualdad se da en cada entrada.

223

Apéndice B. Teoría de la medida

( B.3.4 ) Existe una correspondencia biunívoca entre funciones de distribución y medidas de Lebesgue-Stieltjes,identificando a cada dos funciones de distribución que difieran únicamente en una constante. Más específicamente,si F es una función de distribución entonces

µF ((A,B]) =(∆b1e1 −∆a1e1

)· · ·(∆bded −∆aded

)F (X)

define5 una medida sobre F0(Rd) la cual se extiende a todo B

(Rd) mediante el teorema de Carathéodory.

Recíprocamente, la funciónF (X) = µ((−∞, X])

es función de distribución.

( B.3.5 ) Considera la función F (x1, . . . , xn) = x1 · · ·xn, entonces F es una función de distribución y la únicamedida asociada a F se llamará medida de Lebesgue.

( B.3.6 ) La medida de Lebesgue es invariante ante traslaciones y cualquier medida de Lebesgue-Stieltjes que losea es un multiplo de la medidad de Lebesgue.

§ B.4. Funciones medibles, integración y teoremas de convergen-cia.

( B.4.1 ) Sean (Ωi,Fi) espacios medibles para i = 1, 2. Una función h : Ω1 → Ω2 se llamará función (F1,F2)-medible si h−1(B)|B ∈ F2 ⊂ F1. Se escribirá h : (Ω1,F1)→ (Ω2,F2).

( B.4.2 ) Si (hn)n∈N es una sucesión de funciones (Ω,F )→(R,B

(R))

que convergen puntualmente a cierta hentonces h : (Ω,F )→

(R,B

(R)).

( B.4.3 ) Cualquier función no negativa h : (Ω,F ) →(R,B

(R))

es el límite de una sucesión creciente defuncioes (Ω,F )→

(R,B

(R))

no negativas, simples y finitas. Si h no es necesariamente no negativa, entonceses el límite de una sucesión de funciones hn : (Ω,F )→

(R,B

(R))

simples, finitas y con |hn| ≤ |h|.

( B.4.4 ) Sea (fn)n∈N una sucesión de funciones (Ω,F ) →(R,B

(R)). Las funciones f (ω) = sup

n∈Nfn(ω) y

g(ω) = supn∈N

g(ω) definidas sobre Ω son(F ,B

(R))-medibles.

( B.4.5 ) Una función se llamará simple si toma únicamente un número finito de valores. Si h : (Ω,F ) →(R,B

(R))

es simple se puede escribir

h =k∑i=1

ci1Ei ,

para algunos números distintos ci y los conjuntos Ei = h−1(ci); en este caso, para que h sea (F ,B (R))-mediblees condición necesaria y suficiente que cada Ei sea medible.

( B.4.6 ) Sea h : (Ω,F )→(R,B

(R))

una función simple. Se define entonces su integral, respecto a la medidaµ sobre F , por ∫

Ω

hdµ =k∑i=1

ckµ(Ei),

5En particular, esta expresión es independiente de X.

224

B.4. Funciones medibles, integración y teoremas de convergencia.

en donde la expresión anterior no existe si hay j1, j2 tales que cj1µ(Ej1 ) = +∞ y cj2µ(Ej2 ) = −∞. Se verifica queesta expresión, cuando existe, está bien definida.

Si h es una función positiva cualquiera (no necesariamente simple), se define∫Ω

hdµ = sup0≤s≤h

s es simple

∫Ω

sdµ,

y de nuevo, esta integral está bien definida. Finalmente, si h es cualquiera (no necesariamente positiva), se puedeescribir h = h+ − h− para las partes positiva y negativa6 de h y definir∫

Ω

hdµ =∫Ω

h+dµ −∫Ω

h−dµ,

y esta integral, está bien definida. Se verifica entonces que la integral es lineal y monótona. Se dirá que h esintegrable respecto a µ («µ-integrable») si su integral es finita. En particular, h es µ-integrable si y solamente si|h| es µ-integrable.

Para A ∈ F la función 1A es (F ,B (R))-medible, y como la función F : R2 → R dada por F (x, y) = xyes medible respecto a las σ-álgebras de Borel, se ve que para cualquier A ∈ F y cualqueir función medible f lafunción f1A = F (f,1A) es medible. En consecuencia, se define∫

A

fdµ =∫Ω

f1Adµ.

Esta integral es finita si f es µ-integrable puesto que |f1A| ≤ |f |.

( B.4.7 ) Sea h : (Ω,F )→(R,B

(R))

no negativa. Entonces∫Ω

hdµ = sup0≤s≤h

s es medible

∫Ω

sdµ.

( B.4.8 ) Sea h : (Ω,F )→(R,B

(R))

tal que∫Ω

hdµ existe. Define, para B ∈ F ,

λ(B) =∫B

hdµ.

La función λ : F → R es contablemente aditiva, y una medida cuando h ≥ 0.

( B.4.9 ) Se dirá que una propiedad P se cumple µ−c.d. (donde c.d. significa casi dondequiera) si existe unconjunto «nulo» N tal que ω /∈ N satisface P; esto es, existe una conjunto N ∈ F tal que µ(N) = 0 y ω /∈ Nsatisface P. Sea h : (Ω,F )→

(R,B

(R))

tal que∫Ω

hdµ es finita. Entonces |h| <∞ µ−c.d..

6Estas partes quedan definidas por las fórmulas

f+ = |f |+ f2 y f− = |f | − f2 .

225

Apéndice B. Teoría de la medida

( B.4.10 ) Sea h : (Ω,F )→(R,B

(R))

tal que h = 0 µ−c.d., entonces∫Ω

hdµ = 0. Recíprocamente, si h ≥ 0

e∫Ω

hdµ = 0 entonces h = 0 µ−c.d..

( B.4.11 ) Si (hn)n∈N es una sucesión de funciones no negativas (Ω,F )→(R,B

(R))

que crece a una funciónh entonces ∫

Ω

hndµ→∫Ω

hdµ;

el «teorema de convergencia monótona».

( B.4.12 ) Si (hn)n∈N es una sucesión de funciones (Ω,F ) →(R,B

(R))

tales que hn ≥ h, donde h también

es medible, entonces∫Ω

hdµ > −∞ implica

lım infn→∞

∫Ω

hndµ ≥∫Ω

lım infn→∞

hndµ;

el «lema de Fatou».

( B.4.13 ) Si (hn)n∈N es una sucesión de funciones (Ω,F ) →(R,B

(R))

tales que hn → h y |hn| ≤ g con guna función µ-integrable, entonces ∫

Ω

hndµ→∫Ω

hdµ;

el «teorema de convergencia dominada» de Lebesgue.

( B.4.14 ) Si f : R→ [0,∞) es integrable en el sentido impropio de Riemann, entonces f es integrable respectoa la medida de Lebesgue y ambas integrales coinciden.

226

• Bibliografía

[1] Apostol, Tom M. Análisis matemático. Segunda edición, Reverté, 1974.

[2] Arnold, Ludwig. Stochastic Differential Equations: Theory and Applications. Jhon Wiley & Sons,1974.

[3] Ash, Robert. Real Analysis and Probability. Academic Press, 1972.

[4] Ash, Robert, Gardner, Melvin. Topics in stochastic processes. Academic Press, 1975.

[5] Breiman, Leo. Probability. SIAM, 1992.

[6] Cartan, Henri. Cálculo Diferencial. Ediciones Omega, Barcelona, 1978.

[7] Coddington, Earl A., Levinson, Norman. Theory of Ordinary Differential Equations. McGraw-Hill,1955.

[8] Dieudonné, Jean. Fundamentos de análisis moderno. Segunda Edición, Reverté, España, 1979.

[9] Dieudonné, Jean. Elementos de análisis. Tomo II, Reverté, España, 1982.

[10] Friedman, Avner. Stochastic Differential Equations and Applications. Vol. 1. Academic Press, 1975.

[11] Gikhman, Iosif, Skorokhod, Anatoly. Introduction to the theory of random processes. Saunderscompany, 1965.

[12] Gikhman, Iosif, Skorokhod, Anatoly. Stochastic differential equations. Springer, 1972.

[13] Goldstein, Jerome A. Second order Itô processes, Nagoya Mathematical Journal, vol. 36, 1969.

[14] Halmos, Paul R. Measure Theory. Primera edición, Springer, 1974.

[15] Ito, K. (1951) On a formula concerning stochastic differentials. Nagoya Mathematical Journal, Vol.3, 55 - 65.

[16] Shiga, Tokuzo, Shimizu, Akinobu. (1979) Infinite dimensional stochastic differential equations andtheir applications. Kyoto University Mathematical Journal, vol. 20, 395 - 416, 1980.

[17] Skorokhod, Anatoly. Studies in the theory of random processes. Addison-Wesley, 1965.

227