Dos Teoremas Limite

7/31/2019 Dos Teoremas Limite

1/33

Dos teoremas lmite

En este ultimo captulo se estudian dos de los teoremas mas importantes enprobabilidad: la ley de los grandes numeros y el teorema central del lmite.Antes de ello se revisan algunas desigualdades de interes general.

9.1. Algunas desigualdades

Proposicion. (Desigualdad de Markov). Sea X 0 una variablealeatoria con esperanza finita. Para cualquier > 0,

P(X ) E(X)

.


2/33

Demostracion.

E(X) = E( X1(X) + X1(X 0,

P(|X | ) 2

2. (9.1)

Demostracion.

2 = E

(X )2= E

(X )2 1(|X|) + (X )2 1(|X|


3/33

En palabras, esta desigualdad dice que la probabilidad de que X difierade su media en mas de esta acotada superiormente por la varianza entre

2

. A este resultado se le conoce tambien con el nombre de desigualdad deChebyshev-Bienayme. Existen otras versiones de esta desigualdad equiva-lentes a la demostrada, por ejemplo,

a) P(|X | ) 1/2.b) P(|X | < ) 1 1/2.

c) P(|X | < ) 1 2/2.

Ahora demostraremos una version de la desigualdad de Chebyshev un pocomas general.

Proposicion. (Desigualdad de Chebyshev extendida). Sea X

una variable aleatoria, y sea g 0 una funcion no decreciente tal queg(X) es una variable aleatoria con esperanza finita. Para cualquier > 0,

P(X ) E[g(X)]g()

. (9.2)

Demostracion.

E[g(X)] = E[ g(X) 1(X) + g(X) 1(X


4/33

Pafnuty Lvovich Chebyshev

(Rusia, 18211894)

Andrei Andreyevich Markov

(Rusia, 18561922)

Profesor y alumno.

Fuente: Archivo MacTutor, Universidad de St. Andrews.

A partir de la desigualdad anterior y con una funcion g adecuada se puedenobtener tanto la desigualdad de Chebyshev como la desigualdad de Markov.

Proposicion. (Desigualdad de Kolmogorov). Sean X1, . . . , X n in-dependientes con media cero y segundo momento finito. Para cualquier > 0,

P( maxk

{|X1 + + Xk|} ) 12

nk=1

Var(Xk).

Demostracion. Para cada k = 1, . . . , n, defina Sk = X1 + + Xk, cuyaesperanza es cero por hipotesis. Observe que las variables Sk y Sn Sk sonindependientes y por lo tanto E(Sk(Sn Sk)) = 0. Defina ahora los eventosdisjuntos

Ak = ( |Sk| ) k1i=1

( |Si| < ),


5/33

en donde en particular A1 = ( |S1| ). El evento de interes puede escribirsecomo A =

nk=1 Ak. Entonces

E(S2n) E(S2n 1A) =nk=1

E(S2n 1Ak)

=

nk=1

E( (Sk + (Sn Sk))2 1Ak)

=

nk=1

E( (S2k + 2Sk(Sn Sk) + (Sn Sk)2) 1Ak)

n

k=1

E(S2k 1Ak)

n

k=1

2

E(1Ak) n

k=1

2

P(Ak)

= 2 P(A).

El resultado se obtiene al observar que E(S2n) = Var(Sn) =nk=1 Var(Xk).

Cuando n = 1 la desigualdad de Kolmogorov se reduce a la desigualdad deChebyshev. En resumen se tiene la siguiente tabla.

Algunas desigualdades

Markov: a) P(X

)

E(X)/, para X

0.

b) P(|X| ) E|X|/.c) P(|X| ) E|X|n/n.

Chebyshev: a) P(|X | ) Var(X)/2.b) P(X ) E[g(X)]/g(), con g 0 no decreciente.

Kolmogorov: P( maxk {|X1 + + Xk|} ) 1

2

n

k=1

Var(Xk).


6/33


7/33

El argumento es el siguiente. Sea nuevamente Sn = (X1 + + Xn)/n.Entonces E(Sn) = y Var(Sn) =

2/n, suponiendo Var(X) = 2 < .La desigualdad de Chebyshev aplicada a la variable Sn asegura que paracualquier > 0 se cumple P (|Sn | ) 2/n2. Basta ahora tomar ellmite cuando n tiende a infinito para obtener el resultado.

Damos a continuacion un ejemplo sencillo de aplicacion de la ley debil ymas adelante demostramos la ley fuerte.

Ejemplo (Probabilidad frecuentista). Considere un experimento alea-torio cualquiera y sea A un evento. Se efectuan realizaciones independientesdel experimento, y se observa en cada ensayo la ocurrencia o no ocurrencia

del evento A. Sea Xk la variable que toma el valor uno si en el k-esimo ensayose observa A, y cero en caso contrario. Entonces las variables X1, X2, . . . sonindependientes cada una con distribucion Ber(p), en donde p es la probabili-dad desconocida del evento A. Por lo tanto E(Xk) = p y Var(Xk) = p(1p).La ley debil de los grandes numeros asegura que la fraccion de ensayos enlos que se observa el evento A converge, en probabilidad, a la constantedesconocida p cuando el numero de ensayos crece a infinito. Esta es la de-

finicion frecuentista de la probabilidad, y hemos entonces corroborado suvalidez con ayuda de la ley de los grandes numeros.

Ejemplo. A continuacion se muestra graficamente una simulacion en compu-tadora del comportamiento del cociente (X1 + + Xn)/n cuando n crece.Se muestra tambien el codigo MATLAB utilizado, el cual puede ser traduci-do facilmente a cualquier otro lenguaje de programacion. Se generaron 200

valores al azar usando la distribucion discreta Ber(p), con p = 0.5. El coman-do binornd(n,p) genera un valor al azar de la distribucion bin(n, p). Losdatos obtenidos por este paquete fueron luego trasladados a LATEX, usandopstricks, para generar la grafica mostrada en la Figura 9.1. Los puntos gra-ficados fueron unidos por una linea continua para una mejor visualizaciondel comportamiento inicial oscilante y su eventual estabilizacion.

Ejemplo. Esta es otra simulacion en computadora del comportamiento delcociente (X1 + + Xn)/n cuando n crece, ahora usando la distribucion


8/33

randn(state,150)N=200; S=zeros(1,N); Sn=zeros(1,N);p=0.5; R=binornd(1,p);S(1)=R; Sn(1)=R;

for j=2:NS(j)=S(j-1)+binornd(1,p);Sn(j)=S(j)/j;

endplot([Sn],r-)

Sn/n

n100 200

1/2

Figura 9.1: Comportamiento del cociente Sn/n cuando n crece cuando las variables

Xi

tienen distribucion discreta Ber(p), con p = 0.5, y el codigo MATLAB paragenerar la simulacion.

continua N(1, 9). El comando randn genera valores al azar de la distribu-cion normal estandar, de modo que la expresion 1+3*randn correspondea un valor de la distribucion N(1, 9). Se generaron nuevamente 200 de estos

valores y los resultados de muestran en la Figura 9.2. Es gratificante obser-var las oscilaciones iniciales de dicho cociente y su eventual estabilizacionhacia la media de la distribucion.

Teorema. (Ley fuerte de los grandes numeros). Sean X1, X2, . . .independientes e identicamente distribuidas con media . Entonces

1n

ni=1

Xic.s. .

Demostracion. (Suponiendo cuarto momento finito). Dada la identica dis-

tribucion de los elementos de la sucesion, cualquier elemento de esta sedenota simplemente por X. Suponga que E|X |2 = 2 y observe que


9/33

randn(state,1500)N=200; S=zeros(1,N); Sn=zeros(1,N);R=1+3*randn;S(1)=R; Sn(1)=R;

for j=2:NS(j)=S(j-1)+1+3*randn;Sn(j)=S(j)/j;

endplot([Sn],r-)

Sn/n

n100 200

1

Figura 9.2: Comportamiento del cociente Sn/n cuando n crece usando la distri-

bucion normal con media uno y varianza nueve.

E(X ) = 0. Entonces por independencia,

E|ni=1

(Xi )|4 = nE|X |4 + 3n(n 1)4.

Por la desigualdad de Chebyshev (9.2) aplicada a la variable |ni=1(Xi)|y la funcion g(x) = x4 se obtiene, para > 0,

P(|ni=1

(Xi )| > n) E|ni=1

(Xi )|4/(n)4

= ( nE|X |4

+ 3n(n 1)4

)/(n)4

.

Sea el evento An = (| 1nni=1 Xi | > ). Entonces

n=1 P(An) < . Por

el lema de Borel-Cantelli la probabilidad de que ocurra una infinidad deeventos An es cero, es decir, con probabilidad uno, solo un numero finito deestos eventos ocurre. Por lo tanto con probabilidad uno, existe un numeronatural n a partir del cual ningun evento An se verifica. Es decir,

P( lmn |

1

n

ni=1

Xi | ) = 1.


10/33

Como esta afirmacion vale para cualquier > 0, se cumple que

P( lmn

1

n

ni=1

Xi = ) = 1.

Ejemplo. (El problema del mono, nuevamente). Usaremos la leyfuerte de los grandes numeros para dar otra solucion al problema del mono.Considere entonces un mono que escribe caracteres al azar. Nos interesaencontrar la probabilidad de que el mono eventualmente escriba las obrascompletas de Shakespeare, las cuales, supondremos, tienen una longitudtotal de N caracteres. Nuevamente se consideran bloques de longitud N dela siguiente forma

x1, . . . , xN , xN+1, . . . , x2N , . . .Sea Ak el evento correspondiente a que en el k-esimo bloque el mono tengaexito, y sea Xk la variable aleatoria indicadora del evento Ak, es decir,

Xk = 1 si Ak ocurre,

0 si Ak no ocurre.

Se tiene entonces una sucesion de variables aleatorias X1, X2, . . . indepen-dientes e identicamente distribuidas Ber(p), con p = P(Ak) = (1/m)

N,suponiendo que el total de caracteres disponibles es m. En particular, lamedia de cada una de estas variables es E(Xk) = p. Considere ahora la

suma X1 + + Xn. Si para algun valor de n esta suma es positiva, significaque alguno de los sumandos es distinto de cero, y por lo tanto que el monoha tenido exito. Pero esto es justamente lo que garantiza la ley fuerte de losgrandes numeros pues

P( lmn

1

n

nk=1

Xk = p ) = 1.

Es decir, con probabilidad uno la suma en esta ecuacion es positiva. Estoimplica que debe existir un valor de k tal que Xk = 1, y esto a su vez


11/33

significa que en el k-esimo bloque el mono ha tenido exito. Mas aun, paraque el promedio que aparece en esta ecuacion sea positivo necesariamente lasuma debe ser infinita, y por lo tanto, deben existir una infinidad de valoresde k tal que Xk = 1. Esto quiere decir que con probabilidad uno el monoescribira una infinidad de veces las obras completas de Shakespeare.

9.3. Teorema central del lmite

Concluimos el curso con el celebre y famoso teorema central del lmite. Esteresultado es de amplio uso en estadstica y otras ramas de aplicacion de la

probabilidad. Existen muchas versiones y generalizaciones de este teoremapero nos limitaremos a enunciar y demostrar una version simple y corta.Un caso particular de este resultado lleva el nombre de A. de Moivre y deP. S. Laplace.

Teorema de De Moivre-Laplace. Sea X1, X2, . . . una sucesion devariables aleatorias independientes tal que cada una de ellas tiene dis-tribucion Bernoulli con parametro p (0, 1). Para cualesquiera numerosreales a < b,

lmnP( a 0 defina

X =

si X ,0 si X < .

Compruebe que X X. Ahora tome esperanza de ambos lados ycalcule E(X

).

603. Use la desigualdad de Markov para demostrar que si X es una va-riable aleatoria no negativa con esperanza cero, entonces X = 0 casiseguramente.

604. Conv. en media Conv. en probabilidad. Demuestre que laconvergencia en media implica la convergencia en probabilidad, usando

la desigualdad de Markov aplicada a la variable aleatoria no negativa|Xn X|.

Desigualdad de Chebyshev

605. Conv. en m.c. Conv. en probabilidad. Use la desigualdad deChebyshev (9.2) para demostrar directamente que la convergencia enmedia cuadratica implica la convergencia en probabilidad.

606. Demuestre la desigualdad de Chebyshev (9.1) usando la desigualdadde Markov aplicada a la variable aleatoria no negativa |X |.

607. Use la desigualdad de Chebyshev para demostrar que si X es unavariable aleatoria tal que E(X) = a y Var(X) = 0, entonces X esconstante casi seguramente, es decir, P(X = a) = 1.


15/33

608. Sea X con media y varianza 2. Use la desigualdad de Chebyshevpara estimar la probabilidad de que X tome valores entre y + para cualquier > 0 constante.

609. A partir de la desigualdad de Chebyshev extendida (9.2) demuestre la

desigualdad de Chebyshev (9.1) y la desigualdad de Markov.

610. Demuestre que P(|X| ) E|X|/, para > 0,a) usando la desigualdad de Chebyshev extendida.

b) de manera directa.

611. Demuestre que P(

|X

| )

E

|X

|n/n, para > 0 y n

N,

a) usando la desigualdad de Chebyshev extendida.


612. Demuestre que P(X ) E(etX)/et, para > 0 y t > 0,a) usando la desigualdad de Chebyshev extendida.


613. Sea X discreta con funcion de probabilidad

f(x) =

1/18 si x = 1, 1,16/18 si x = 0,0 otro caso.

Demuestre que el valor exacto de la probabilidad P(

|X

| 3)

coincide con la estimacion dada por la desigualdad de Chebyshev. Esteresultado demuestra que, sin hipotesis adicionales, la cota superiordada por la desigualdad de Chebyshev es optima.

614. Considere la siguiente version de la desigualdad de Chebyshev

P(|X | < ) 1 1/2.

Encuentre el mnimo valor de > 0 de tal modo que la probabilidadde que una variable aleatoria tome valores entre y + seaal menos 0.90.


16/33

615. Desigualdad de Cantelli. Demuestre que si Var(X) < , enton-ces para cualquier > 0,

P(|X E(X)| > ) 2 Var(X)2 + Var(X)

.

Ley de los grandes numeros

616. Use la ley debil de los grandes numeros para demostrar que si Xntiene distribucion bin(n, p), entonces 1nXn

p p, cuando n tiende ainfinito.

617. Ley de los grandes numeros en media cuadratica. Demues-tre que si X1, X2, . . . son independientes con media y varianza

2,entonces

1

n

ni=1

Xim.c. .

Observe que no se pide la hipotesis de identica distribucion para las

variables aleatorias y que este resultado no es consecuencia de la leyfuerte.

618. Sean X1, . . . , X n independientes con distribucion N(, 2). El prome-

dio (X1 + + Xn)/n tiene distribucion N(, 2/n) para cualquiervalor de n. Contradice esto la ley de los grandes numeros?

619. En el ejercicio 601 se pide usar la funcion caracterstica para demos-trar que si X1, . . . , X n son independientes con distribucion Cauchyestandar, entonces el promedio Sn = (X1 + + Xn)/n tiene distribu-cion Cauchy estandar, independientemente del valor de n. Contradiceesto la ley de los grandes numeros?

620. Se lanza una moneda equilibrada 2n veces. Calcule la probabilidad de

que ambas caras caigan el mismo numero de veces. Que le sucede aesta probabilidad cuando n tiende a infinito? Contradice esto la leyde los grandes numeros?


17/33

Teorema central del lmite

621. Use el teorema central del lmite para estimar la probabilidad de obte-ner mas de 520 aguilas en 1000 lanzamientos de una moneda honesta.

622. Sean X1, X2, . . . independientes con distribucion Poisson() con =1. Use el teorema central del lmite para demostrar que

lmn

1

en

nk=0

nk

k!=

1

2.

623. La probabilidad de ocurrencia de un evento en un ensayo es de 0.3.Cual es la probabilidad de que la frecuencia relativa de este eventoen 100 ensayos se encuentre entre 0.2 y 0.5?


18/33

Apendice A

Distribuciones de probabilidad

Se presenta a continuacion una lista en orden alfabetico de algunas distri-buciones de probabilidad univariadas de uso comun. Como es costumbre,la funcion de probabilidad o de densidad se denota por f(x), y la funcionde distribucion por F(x). Como en el texto, G(t) es la funcion generadorade probabilidad, M(t) es la funcion generadora de momentos, y (t) es lafuncion caracterstica.

Distribucion Bernoulli

X Ber(p), con p (0, 1).f(x) = px(1 p)1x para x = 0, 1.E(X) = p.Var(X) = p(1

p).

G(t) = 1 p +pt.M(t) = 1 p +pet.Este es el modelo mas simple de variable aleatoria y corresponde a la obser-vacion de la ocurrencia o no ocurrencia de un evento. La suma de n variablesindependientes Ber(p) tiene distribucion bin(n, p).

365


19/33

Distribucion beta

X beta(a, b) con a > 0, b > 0.f(x) = xa1(1 x)b1/B(a, b), para x (0, 1).E(X) = a/(a + b).Var(X) = ab/[(a + b + 1)(a + b)2].Cuando a = 1, b = 2 o a = 2, b = 1 se obtiene la distribucion triangular.

Distribucion binomial

X bin(n, p) con n N y p (0, 1).f(x) =

nx

px(1 p)nx para x = 0, 1, . . . , n.

E(X) = np.Var(X) = np(1 p).G(t) = (1

p +pt)n.

M(t) = [1 p +pet]n.Una variable aleatoria binomial registra el numero de exitos en n ensayosindependientes Bernoulli en donde en cada ensayo la probabilidad de exitoes p. La suma de dos variables independientes con distribucion bin(n, p) ybin(m, p) tiene distribucion bin(n + m, p).

Distribucion binomial negativa

X bin neg(r, p) con r N y p (0, 1).f(x) =

r + x 1

x

pr(1 p)x para x = 0, 1, . . .

E(X) = r(1

p)/p.Var(X) = r(1 p)/p2.G(t) = [p/(1 t(1 p))]r.


20/33

M(t) = [p/(1 qet)]r.Este es el modelo que se usa para contar el numero de fracasos antes deobtener el r-esimo exito en una sucesion de ensayos independientes Bernou-lli, en donde en cada ensayo la probabilidad de exito es p. La distribucionbinomial negativa se reduce a la distribucion geometrica cuando r = 1.

Distribucion Cauchy

X Cauchy(a, b) con a > 0 y b > 0.

f(x) =

1

b[1 + ((x a)/b)2] .La esperanza, la varianza y cualquier momento no existen.La funcion generadora de momentos no existe para t = 0.(t) = exp(iat b|t|).Cuando a = 0 y b = 1 se obtiene la distribucion Cauchy estandar, y coincidecon la distribucion t(n) con n = 1. En este caso,f(x) = 1/((1 + x2)), para x

R.

F(x) = 1/2 + (arctan x)/, para x R.

Distribucion exponencial

X exp() con > 0.f(x) = ex, para x > 0.F(x) = 1 ex, para x > 0.E(X) = 1/.Var(X) = 1/2.M(t) = /( t) para t < .(t) = /(

it).

La suma de n variables independientes exp() tiene distribucion gama(n, ).


21/33

Distribucion gama

X gama(n, ) con n > 0 y > 0.f(x) =

(x)n1

(n)ex para x > 0.

F(x) = 1 exn1k=0

(x)k/k! para x > 0 y n entero.

E(X) = n/.Var(X) = n/2.M(t) = [/( t)]n, para t < .Cuando n = 1 la distribucion gama se reduce a la distribucion exponen-cial. Advertencia: para denotar esta distribucion en algunos textos se usael smbolo gama(, n), es decir, el orden de los parametros es distinto. Enocasiones se usa el parametro 1/ en lugar de .

Distribucion geometrica

X geo(p) con p (0, 1).f(x) = p(1 p)x para x = 0, 1, . . .E(X) = (1 p)/p.Var(X) = (1 p)/p2.G(t) = p/[1 t(1 p)].M(t) = p/[1 (1 p)e

t

].Esta variable se usa para modelar el numero de fracasos antes de obtener elprimer exito en una sucesion de ensayos independientes Bernoulli, en dondeen cada uno de ellos la probabilidad de exito es p. La distribucion geometricaes un caso particular de la distribucion binomial negativa.


22/33

Distribucion hipergeometrica

X hipergeo(N ,K,n) con N ,K,n N y n K N.f(x) =

K

x N Kn x /

N

n para x = 0, 1, . . . , n.E(X) = nK/N.

Var(X) = nK

N

N KN

N nN 1 .

Si un conjunto de N elementos se puede separar en dos clases, una clase conK elementos y la otra con N K elementos, y si se seleccionan n elementosde este conjunto, entonces la variable X modela el numero de elementos

seleccionados de la primera clase.

Distribucion ji-cuadrada

X 2(n) con n > 0.f(x) = 1

(n/2)

12

n/2xn/21ex/2 para x > 0.

E(X) = n.Var(X) = 2n.M(t) = (1 2t)n/2 para t < 1/2.(t) = (1 2it)n/2.Si X tiene distribucion N(0, 1), entonces X2 tiene distribucion 2(1).

Distribucion log normal

X log normal(, 2) con R y 2 > 0.

f(x) =

1

x22 exp[(ln x )2

/2

2

] para x > 0.E(X) = exp( + 2/2).


23/33

E(Xn) = exp(n + n22/2).Var(X) = exp(2 + 22) exp(2 + 2).La funcion generadora de momentos no existe. Si X tiene distribucionN(, 2), entonces eX tiene distribucion log normal(, 2).

Distribucion normal

X N(, 2) con R y 2 > 0.f(x) =

122

e(x)2/22 .

E(X) = .Var(X) = 2.M(t) = exp (t + 2t2/2).(t) = exp (it 2t2/2).Cuando = 0 y 2 = 1 se obtiene la distribucion normal estandar. La sumao diferencia de dos variables independientes con distribucion normal tienedistribucion normal.

Distribucion Pareto

X

Pareto(a, b) con a > 0 y b > 0.f(x) = aba/(b + x)a+1 para x > 0.F(x) = 1 [b/(b + x)]a para x > 0.E(X) = b/(a 1) para a > 1.Var(X) = ab2/[(a 1)2(a 2)] para a > 2.


24/33

Distribucion Poisson

X Poisson() con > 0.f(x) = e x/x! para x = 0, 1, . . .

E(X) = .Var(X) = .G(t) = e(1t).M(t) = exp [(et 1)].La suma de dos variables independientes con distribucion Poisson(1) yPoisson(2) tiene distribucion Poisson(1 + 2).

Distribucion t

X t(n) con n > 0.f(x) =

((n + 1)/2)n (n/2)

(1 + x2/n)(n+1)/2.

E(X) = 0.Var(X) = n/(n 2) para n > 2.M(t) no existe para t = 0.(t) = exp(|t|) , cuando n = 1. La expresion de (t) resulta complicadapara valores n 2.

Distribucion uniforme discreta

X unif{x1, . . . , xn} con n N.f(x) = 1/n para x = x1, . . . , xn.E(X) = (x1 + + xn)/n.Var(X) = [(x1

)2 +

+ (xn

)2]/n.

G(t) = (tx1 + + txn)/n.M(t) = (ex1t + + exnt)/n.


25/33

Distribucion uniforme continua

X unif(a, b) con a < b.f(x) = 1/(b a) para x (a, b).F(x) = (x a)/(b a) para x (a, b).E(X) = (a + b)/2.Var(X) = (b a)2/12.M(t) = (ebt

eat)/(bt

at).

Distribucion Weibull

X

Weibull(r, ) con r > 0 y > 0.f(x) = e(x)rrrxr1 para x > 0.F(x) = 1 e(x)r para x > 0.E(X) = (1 + 1/r)/.Var(X) = [(1 + 2/r) 2(1 + 1/r)]/2.Cuando r = 1 se obtiene la distribucion exp(). Cuando r = 2 se obtiene ladistribucion Rayleigh().


26/33

Apendice B

Conceptos y resultados varios

El alfabeto griego

A alfa I iota P , rho

B beta K kapa , sigma gama lambda T tau delta M mu upsilonE , epsilon N nu , phiZ zeta xi X ji o chiH eta O o omikron psi

, theta pi omega

373


27/33

Notacion

B(R) : Conjuntos de Borel de R.a b : max{a, b}.a b : mn{a, b}.A B : Independencia de los eventos A y B.x : Parte entera de x.F(x+) : Lmite por la derecha de la funcion F en el punto x.F(x) : Lmite por la izquierda de la funcion F en el punto x.

Lema de Abel

Sea a0, a1, . . . una sucesion de numeros reales o complejos tal que la serie

n=0 an es convergente. Defina la funcion G(t) =

n=0 an t

n, la cual es

convergente para valores de t por lo menos en el intervalo [0, 1]. El lema deAbel asegura que G(t) es una funcion continua por la izquierda en t = 1, esdecir,

lmt1

G(t) =

n=0

an.

Lmite superior e inferior

Sea a1, a2, . . . una sucesion infinita de numeros reales. Para cada m naturaldefina bm = nf {am, am+1, . . .}, y cm = sup {am, am+1, . . .}. Claramentebm bm+1, y cm cm+1. Es decir, ambas sucesiones son monotonas, laprimera no decreciente y la segunda no creciente, por lo tanto son con-

vergentes, no excluyendo con ello valores infinitos. Al lmite de la sucesionb1 b2 se le llama lmite inferior, y al lmite de c1 c2 se le


28/33

llama lmite superior de la sucesion a1, a2, . . .. A estos lmites se les denotapor lm infn an y lm supn an, respectivamente. Es inmediato com-probar que lm infn an lm supn an. Ademas la sucesion original esconvergente al numero a si, y solo si, lm infn an = lm supn an = a.Estos conceptos de lmite inferior y superior pueden extenderse al caso de

sucesiones de eventos como se muestra en el primer captulo de este texto.

Imagen inversa

Sean A y B dos conjuntos. Considere una funcion X : A

B. La imagen

inversa de un conjunto B B es un subconjunto de A, denotado por X1B,y definido como sigue: X1B = {a A : X(a) B}.

A B

X

X1B B

Figura B.1: Imagen inversa.

En palabras, la imagen inversa de B es aquella coleccion de elementos deA

tal que al aplicarles la funcion X toman un valor dentro del conjuntoB. Observe que X es una funcion puntual, es decir, lleva puntos de A enpuntos de B, mientras que X1 es una funcion conjuntista, es decir, llevasubconjuntos de B en subconjuntos de A. No debe confundirse X1 con lafuncion inversa de X.

El concepto de imagen inversa es usado en este texto para definir a una

variable aleatoria como una funcion medible. La imagen inversa cumple lassiguientes propiedades:


29/33

a) X1B = A.

b) X1(Bc) = (X1B)c.

c) Si B1 B2, entonces X1B1 X1B2.

d) X1(B2 B1) = X1B2 X1B1.e) X1(

k=1 Bk) =

k=1 X

1Bk.

f) X1(k=1 Bk) =

k=1 X

1Bk.

g) X(X1B) B, la igualdad se cumple si, y solo si, X es sobre.

h) A X1(XA), la igualdad se cumple si, y solo si, X es inyectiva.

Si se tienen dos funciones X : A B y Y : B C, entonces para cualquiersubconjunto C de C, se cumple (X Y)1C = X1(Y1C).

Funcion indicadora

La funcion indicadora de un conjunto A es la funcion 1A : {0, 1}dada por

1A() = 1 si

A,

0 si / A.

De este modo la funcion 1A toma el valor uno dentro del conjunto A, y cerofuera de el. Es sencillo verificar que esta funcion resulta ser una variablealeatoria si, y solo si, el conjunto A es un evento. La funcion indicadoracumple, entre otras, las siguientes propiedades:

a) 1AB = max {1A, 1B} = 1A + 1B 1A 1B .


30/33

b) 1AB = mn {1A, 1B} = 1A 1B.c) 1Ac = 1 1A.d) 1AB = 1A 1A 1B.

e) 1AB = |1A 1B| = |1A 1B |2 = 1A + 1B 2 1A 1B.f) Si A B, entonces 1A 1B.

Esperanza condicional

Sea (,F) un espacio medible. Sean P y Q dos medidas de probabilidad.Se dice que Q es absolutamente continua respecto de P si cada vez queP(A) = 0, necesariamente Q(A) = 0 para cada A en F. En tal caso seescribe Q P.Teorema de Radon-Nikodym. Si Q P, entonces existe una variablealeatoria integrable que es unica P-casi seguramente, y es tal que paracada evento A,

Q(A) =

A

dP.

Se escribe = dQ/dP y se le llama la derivada de Radon-Nikodym.

Con ayuda de este teorema es facil demostrar la existencia y unicidad de la

esperanza condicional. Sea (,F, P) un espacio de probabilidad, sea X unavariable aleatoria integrable, y sea G F una sub -algebra. Para cada Aen G defina

Q(A) =

A

X dP.

Puede comprobarse que Q P cuando P se restringe a la -algebra G.El teorema de Radon-Nikodym garantiza entonces la existencia y unicidad

P-casi segura de una variable aleatoria G-medible tal que para cada A en


31/33

G, A

X dP =

A

dP,

A la variable le hemos denotado por E(X|G). He aqui una lista de algunasde sus propiedades.

1. E(X|G) es G-medible y tiene esperanza finita.

2.

G

E(X|G) dP =G

X dP, para cualquier G G.

3. E(E(X|G)) = E(X).4. E(X| {, } ) = E(X).5. Si B es un evento tal que 0 < P(B) < 1, entonces

E(1A | {, B , Bc, } ) = P(A | B)1B + P(A | Bc)1Bc .6. Si B1, . . . , Bn es una particion de tal que cada elemento tiene pro-

babilidad estrictamente positiva, entonces

E(X| {B1, . . . , Bn}) = E(X| B1) 1B1 + + E(X| Bn) 1Bn .7. E(X + Y |G) = E(X|G) + E(Y |G).8. Si X 0, entonces E(X|G) 0.9. Si X Y, entonces E(X|G) E(Y |G).

10. | E(X|G

) | E( |X| |G

).11. E|E(X|G)| E(|X|).12. Caso discreto. Si Y toma los valores y1, y2, . . . con probabilidad es-

trictamente positiva, entonces E(X| Y) = i=1 E(X| Y = yi) 1(Y=yi).13. Caso abs. continuo. Si es tal que Y() = y, entonces

E(X| Y)() =

x dFX|Y(x|y), cuando fY(y) = 0.


33/33

Dos Teoremas Limite

Documents

Transcript of Dos Teoremas Limite