Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones...

24
Probabilidades: Vectores Aleatorios Ra´ ul Jim´ enez, 1 Densidad conjunta y densidades marginales Un par ordenado (X, Y ) de v.a. continuas, es un punto aleatorio en el plano. Experimentos aleatorios como el lanzamiento de un dardo u observaciones multivariadas en muestreo aleatorio pueden ser modelados por conjuntos or- denados de v.a. Extendiendo el concepto de densidad de probabilidad que introducimos para una v.a. a un punto aleatorio en el plano; diremos que el par ordenado de v.a. (X, Y ) es continuo si existe una funci´on f : R 2 (0, ) tal que para cualquier evento D R 2 se cumple P ((X, Y ) D)= ZZ D f (x, y)dydx (1) Por supuesto, supondremos P ((X, Y ) R 2 )= ZZ R 2 f (x, y)dydx =1. Lafunci´on f es llamada densidad de probabilidad conjunta del vector aleatorio (X, Y ). A efecto de identificar la densidad conjunta de (X, Y ), es suficiente ve- rificar la ecuaci´on (1) para conjuntos D R 2 que sean de la forma A × B, es decir, f es la densidad conjunta de(X, Y ) sii P (X A, Y B)= Z A Z B f (x, y)dydx para cualquier par de eventos A, B R. 1

Transcript of Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones...

Page 1: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Probabilidades: Vectores Aleatorios

Raul Jimenez,

1 Densidad conjunta y densidades marginales

Un par ordenado (X, Y ) de v.a. continuas, es un punto aleatorio en el plano.Experimentos aleatorios como el lanzamiento de un dardo u observacionesmultivariadas en muestreo aleatorio pueden ser modelados por conjuntos or-denados de v.a.

Extendiendo el concepto de densidad de probabilidad que introducimospara una v.a. a un punto aleatorio en el plano; diremos que el par ordenadode v.a. (X, Y ) es continuo si existe una funcion f : R2 → (0,∞) tal que paracualquier evento D ⊂ R2 se cumple

P ((X, Y ) ∈ D) =∫ ∫

Df(x, y)dydx (1)

Por supuesto, supondremos

P ((X, Y ) ∈ R2) =∫ ∫

R2f(x, y)dydx = 1.

La funcion f es llamada densidad de probabilidad conjunta del vectoraleatorio (X, Y ).

A efecto de identificar la densidad conjunta de (X,Y ), es suficiente ve-rificar la ecuacion (1) para conjuntos D ∈ R2 que sean de la forma A × B,es decir, f es la densidad conjunta de(X, Y ) sii

P (X ∈ A, Y ∈ B) =∫

A

Bf(x, y)dydx

para cualquier par de eventos A,B ⊂ R.

1

Page 2: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Denotemos por fX la densidad de probabilidad de X. Si f es la densidadconjunta de (X,Y ), la identidad

P (X ∈ A) = P (X ∈ A, Y ∈ R)

puede reescribirse por

AfX(x)dx =

A

Rf(x, y)dydx

es decir,

fX(x) =∫

Rf(x, y)dy.

En este contexto, fX(x) =∫R f(x, y)dy es llamada densidad marginal de

X. De manera simetrica definimos la densidad marginal de Y por

fY (y) =∫

Rf(x, y)dx.

2 Independencia de v.a. continuas

Anteriormente vimos que las v.a. X,Y son independientes sii para cualquierpar de eventos A,B de la recta real

P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B)

Para el caso continuo que estamos considerando, la ecuacion anterior se es-cribe ∫

A

Bf(x, y)dydx =

AfX(x)dx

BfY (y)dy,

lo que permite probar el siguiente

Teorema: X,Y son independientes si y solo si la densidad conjunta f =fXfY .

De lo anterior se desprende que si la densidad conjunta admite la factor-izacion

f(x, y) = g(x)h(y), (2)

aun cuando g, h no sean las marginales de X, Y respectivamente, es suficientepara probar que X, Y son independientes.

2

Page 3: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Ejemplo: Consideremos el punto (X, Y ) con distribucion uniforme en eldisco de radio r, Dr = {(x, y) : x2 + y2 ≤ r2}, el cual modela el resultadode lanzar un dardo a una diana de radio r por un lanzador sin punterıa. SiA ⊂ Dr, entonces

P ((X, Y ) ∈ A) =area(A)

area(Dr)=

1

πr2

∫ ∫

Adydx (3)

Luego, la densidad conjunta de (X, Y ) es

f(x, y) =1

πr2si (x, y) ∈ Dr

= 0 si no

Son X, Y independientes?. Comunmente un novato aplicarıa incorrectamenteel criterio de factorizacion (2) sin darse cuenta que las regiones en las queesta definida por partes la densidad conjunta no pueden factorizarse. A vecesayuda usar en estos casos la funcion indicatriz de un conjunto A definida por

IA(ω) = 1 si ω ∈ A

= 0 si no

Ası podemos escribir f(x, y) = 1πr2 IDr(x, y) sin la posibilidad de incurrir en

el error de creer que IDr(x, y) puede ser factorizada como en (2).

3 Cambio de variable y aplicaciones

Para el punto (X,Y) distribuıdo uniformemente en el disco Dr, consideremosahora las coordenadas polares R =

√X2 + Y 2 y Θ el angulo entre el vector

(X,Y) y el eje x. Usando la formula para el area de una rebanada del disco,(3) implica

P (0 < R < ρ, 0 < Θ < θ) =ρ2θ

r22π=

∫ ρ

0

∫ θ

0

2x

r2

1

2πdvdu

De donde

fR,Θ(ρ, θ) =ρ

r2

1

πI(0,r)(ρ)I(0,2π)(θ)

3

Page 4: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

y usando (2) vemos que R, Θ si son independientes. ¿Caules son las densi-dades marginales?.

El cambio a coordenas polares anterior, ejemplifica un problema general:

Dado un v.a. (X, Y ) con densidad conjunta f(x, y) y una transformacionT (X, Y ) = (U, V ), ¿cual es la densidad conjunta del nuevo v.a. (U, V )?. Sila transformacion es invertible

P ((X, Y ) ∈ A) = P ((U, V ) ∈ T (A))

Usando la formula de cambio de variable, la ecuacion anterior se reescribe

∫ ∫

Af(x, y)dxdy =

∫ ∫

T (A)f(x(u, v), y(u, v))|J(u, v)|dudv

donde (x(u, v), y(u, v)) = T−1(u, v) y J es el jacobiano de T−1. Estas identi-dades permiten probar el siguiente

Teorema: Sea (X, Y ) un v.a. con densidad conjunta f(x, y), D = {(x, y) :f(x, y) > 0} y T : D → S invertible, entonces la densidad conjunta del v.a.(U, V ) es

f(U,V )(u, v) = f(x(u, v), y(u, v))|J(u, v)|IS(u, v)

Marginalizando, esta formula es de mucha utilidad para calcular densi-dades de v.a. que son funciones de puntos aleatorios

Ejemplo: Sean X, Y i.i.d con distribucion exponencial de parametro 1. ¿Comose distribuye X/(X + Y )?.

Consideremos las v.a. V = X/(X + Y ) y U = X + Y . La variable U esauxiliar a fin de poder invertir la transformacion T (x, y) = (x+y, x/(x+y)).Usando el teorema anterior, podemos calcular la densidad conjunta de (U, V )

f(U,V )(u, v) = e−u|J(u, v)|IR+(u)I(0,1)(v) = ue−uIR+(u)I(0,1)(v)

Marginalizando

fV (v) =∫ ∞

0f(U,V )(u, v)du = 1

para v ∈ (0, 1). es decir X/(X + Y ) es uniforme en (0,1).

4

Page 5: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

4 Propiedades de la esperanza

Para g : R×R → R, probamos que si X,Y son discretas

E[g(X,Y )] =∑x

∑y

g(x, y)P (X = x, Y = y). (4)

Tambien hemos visto como la esperanza para el caso univariado discreto,∑x xP (X = x) tiene su version para el caso continuo

∫xf(x)dx. La intuicion

sugiere dar como version continua de (4) a

E[g(X, Y )] =∫ ∫

g(x, y)fX,Y (x, y)dxdy

La prueba formal de este resultado escapa de los alcances del curso.De manera identica a como lo hicimos para el caso discreto, usando ahora

las densidades conjuntas y marginales puede probarse los siguientes resulta-dos:

Proposicion 1: E[aX + bY ] = aE[X] + bE[Y ]

Proposicion 2: La covarianza definida por

Cov(X, Y ) = E[(X − EX)(Y − EY )]

puede calcularse por

Cov(X,Y ) = E[XY ]− E[X]E[Y ]

Proposicion 3: V ar(aX + bY ) = a2V ar(X) + b2V ar(Y ) + abCov(X, Y )

Proposicion 4: Si X,Y son independientes E[XY ] = E[X]E[Y ] y en con-secuencia V ar(X + Y ) = V ar(X) + V ar(Y ).

5 Densidad y esperanza condicional

Para el caso X, Y discretas, la probabilidad condicional de X dado Y = yviene dada directamente por la formula de la probabilidad condicional

P (X ∈ A|Y = y) =P (X ∈ A, Y = y)

P (Y = y)=

x∈A

P (X = x, Y = y)

P (Y = y)

5

Page 6: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Para extender esta idea al caso continuo debemos proceder con cuidado,ya que si Y es continua P (Y = y) = 0 para todo y y la ecuacion anterior notiene sentido. La idea es considerar eventos del tipo {y ≤ Y ≤ y + δ} paraδ > 0 y hacer luego δ → 0. Para lo que sigue f(x, y) denota la densidadconjunta de (X,Y ):

P (a ≤ X ≤ b|y ≤ Y ≤ y + δ) =P (a ≤ X ≤ b, y ≤ Y ≤ y + δ)

P (y ≤ Y ≤ y + δ)

=

∫ ba

(∫ y+δy f(x, v)dv

)dx

∫ y+δy fY (v)dv

Dividiendo y multiplicando por δ, y observando que

1

δ

∫ y+δ

yf(x, v)dv → f(x, y)

y1

δ

∫ y+δ

yfY (v)dv → fY (y)

podemos verificar que

P (a ≤ X ≤ b|y ≤ Y ≤ y + δ) →∫ b

a

f(x, y)

fY (y)dx

Usando la definicion de densidad de probabilidad, el integrando, es decirf(x, y)/fY (y), es la densidad condicional de X dado {y ≤ Y ≤ y+δ} cuandoδ → 0, es decir dado {Y = y}. A la densidad condicional de X dado Y = yla denotaremos por

fX|Y (x|y) =f(x, y)

fY (y).

Teniendo una formula para la densidad condicional, la esperanza condi-cional de X dado Y = y puede ser definida como la esperanza respecto a ladensidad condicional, i.e.

E[X|Y = y] =∫

xfX|Y (x|y)dx

6

Page 7: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

En el caso discreto vimos la utilidad de la esperanza condicional para elcalculo de valores esperados via formula de particionamiento

E[X] =∑y

E[X|Y = y]P (Y = y)

Con las definiciones anteriores es facil probar la version continua de estaimportante formula:

E[X] =∫

E[X|Y = y]fY (y)dy

Ejemplo: Un distribucion que sirve para ilustrar lo visto en las seccionesanteriores es la normal bivariada. Sea

f(x, y) =1

2π√

1− ρ2exp

(1

2(1− ρ2)(x2 − 2ρxy + y2)

)

donde x, y son numeros reales y |ρ| ≤ 1, la densidad conjunta de (X,Y ).Verifique que

• X se distribuye N(0, 1)

• X dado Y = y se distribuye N(ρy, 1− ρ2)

• E[X|Y = y] = ρy

• X,Y son independientes si y solo si son incorrelacionados. Recuerdeque incorrelacion no implica independencia, lo cual hace a la normalbivariada una distribucion muy especial.

• Si X, Y son independientes, X/Y tiene distribucion de Cauchy, es decirsu densidad es 1/π(1 + x2)

6 Distribucion del Maximo y del Mınimo

Sea (X1, X2, . . . , Xn) un vector aleatorio. Queremos determinar la distribuciondel mınimo:

Un = min{X1, X2, . . . , Xn}

7

Page 8: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Consideremos el evento {Un > k} para k ∈ R, es facil chequear que

{Un > k} = {X1 > k,X2 > k, . . . , Xn > k}

en consecuencia,

P ({Un > k}) = P ({X1 > k, X2 > k, . . . , Xn > k}).

Si X1, X2, . . . , Xn son v.a. independientes,

P (Un > k) = P (X1 > k)P (X2 > k) . . . P (Xn > k).

Si X1, X2, . . . , Xn son v.a. independientes e identicamente distribuıdas,

P (Un > k) = P (X1 > k)n

La funcion de distribucion de Un(k) es

FUn(k) = P (Un ≤ k) = 1−P (Un > k) = 1−P (X1 > k)n = 1− [1−FX(k)]n

y su funcion de densidad es

fUn(k) = n[1− FX(k)]n−1fX(k)

Para determinar la distribucion del maximo:

Vn = max{X1, X2, . . . , Xn},

consideremos el evento {Vn ≤ k} para k ∈ R. Es facil chequear que

{Vn ≤ k} = {X1 ≤ k,X2 ≤ k, . . . , Xn ≤ k}

en consecuencia la funcion de distribucion FVn(k) sera,

P ({Vn ≤ k}) = P ({X1 ≤ k, X2 ≤ k, . . . , Xn ≤ k})

8

Page 9: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Si X1, X2, . . . , Xn son v.a. independientes,

P (Vn ≤ k) = P (X1 ≤ k)P (X2 ≤ k) . . . P (Xn ≤ k)

Si X1, X2, . . . , Xn son v.a. independientes e identicamente distribuıdas,

P (Vn ≤ k) = P (X1 ≤ k)n

asıFVn(k) = P (Vn ≤ k) = FX(k)n

con funcion de densidad

fVn(k) = n[FX(k)]n−1fX(k)

Ejemplo Sean X1, X2, . . . , Xn v.a. i.i.d. exponenciales de parametro λ = 1.Determine la distribucion del mınimo. Usando el hecho que son i.i.d. tenemos

fUn(u) = n[1− FX(u)]n−1fX(u)

por tanto,fUn(u) = n[1− (1− e−u]n−1e−u = ne−nu

Observando que la distribucion del mınimo Un es exponencial de parametroλ = n.

7 Suma de Variables Aleatorias

Sean X,Y v.a. y Z = X + Y . Vamos a determinar la distribucion de lav.a. Z. Consideremos ahora (X, Y ) v.a. continuo con funcion de densidadconjunta. Si Z = X + Y entonces,

P (Z ≤ z) = P (X + Y ≤ z)

=∫ ∫

{x+y≤z}fX,Y (x, y)dydx

=∫ +∞

−∞

∫ z−x

−∞fX,Y (x, y)dydx

9

Page 10: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

haciendo un cambio de variables u = x y v = x + y donde |J | = 1, tenemos

=∫ +∞

−∞

∫ z

−∞fX,Y (u, v − u)dvdu

=∫ z

−∞

∫ +∞

−∞fX,Y (u, v − u)dudv

observando que

P (Z ≤ z) =∫ z

−∞fZ(v)dv

entonces

fZ(v) =∫ +∞

−∞fX,Y (u, v − u)du ∀v ∈ R

Teorema: Si X,Y v.a. independientes entonces Z = X + Y tiene funcionde densidad:

fZ(z) =∫ +∞

−∞fX(x)fY (z − x)dx

Se dice que la funcion de densidad X + Y es la convolucion de las funcionesde densidad de X y Y .

Ejemplo: Sean X,Y v.a. independientes con distribuciones Gamma(s, λ) yGamma(t, λ) respectivamente. Encuentre la distribucion de Z = X + Y .

fZ(z) =∫ +∞

−∞fX(x)fY (z − x)dx

8 Tercer Problemario

1. Halle valor esperado y varianza de una variable aleatoria continua condistribucion

• Uniforme(a, b)

• Exponencial(λ)

• Normal(µ, σ)

• Gamma(α, β)

10

Page 11: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

2. Suponga que X, Y son independientes y obtenga las siguientes formulas:

• fX+Y (z) =∫

fX(u)fY (z − u)du

• fXY (u) =∫

fX(x)fY (u/x)|x|−1dx

• fX/Y (v) =∫

fX(vy)fY (y)|y|dy

3. Demuestre que si X, Y son exponenciales independientes con parametrosµ, λ respectivamente, entonces la distribucion del mınimo es tambienexponencial y determine su parametro.

4. Sean X1, . . . Xn v.a.i.i.d con funcion de densidad comun f(x). SeanU, V el mınimo y el maximo de la muestra. Pruebe que la densidadconjunta de (U, V ) es

n(n− 1)f(u)f(v)(F (v)− F (u))n−2, para u < v

y calcule las marginales (aquı F ′ = f)

5. Considere el punto aleatorio (X, Y ) con distribucion normal bivariaday coordenadas independientes. Sea (R, Θ) las coordenadas polares delpunto aleatorio. Identifique la distribucion marginal de R2 y Θ.

6. Un juego se llama justo cuando la esperanza de la ganancia de losparticipantes es cero.La flecha lanzada por un experto arquero, caera a una distancia de Rpies del centro de un blanco. Se pagan 5$ como entrada para parti-cipar en un juego cuyas reglas son las siguientes: Si R < 0.2 pies, elparticipante recibe 50$. Si 0.2 ≤ R < 0.5 pies, el participante recibe10$. Si 0.5 ≤ R < 1 pie, el participante no recibe ningun pago y,finalmente, si R ≥ 1 pies el participante debe pagar x dolares a la casa(adicionales a los cancelados a la entrada, por supuesto). Si R tienedensidad f(r) = r exp(−1

2r2) , r > 0, ¿Cuanto debe valer x para que

el juego sea justo?

7. (X,Y ) tienen densidad conjunta

f(x, y) = e−y para 0 < x < y

= 0 en otro caso

encuentre E[X|Y = y] y E[Y |X = x]

11

Page 12: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

8. Sean X, Y v.a. independientes con distribucion gamma de parametros(n, β) y (m,β) respectivamente. Considere las variables

U = X + Y V =X

X + Y

Demuestre que U, V son independientes y calcule sus distribuciones.Deduzca la curiosa identidad valida para este caso

E[

X

X + Y

]=

E[X]

E[X] + E[Y ]

9. La variable aleatoria X tiene f.d.a. F (x) = xr, 0 ≤ x ≤ 1, siendo run numero natural. Dado X = x, la variable Y tiene una distribucionBin(n, x).(a) Hallar E(Y ).(b) Hallar la f.d.p. de Y . Para esto puede necesitar la integral conocidacomo funcion β: Si i y j son numeros naturales, se tiene

∫ 1

0xi(1− x)j dx =

i! j!

(i + j + 1)!.

10. Se toma un punto (X,Y ) al azar en el triangulo de vertices (0,0), (0,2)y (1,1). Probar que E(Y |X = x) no depende de x. ¿Son X e Yindependientes?

11. Debido a variabilidad en el proceso de produccion, la tasa de vida Γ, delos amplificadores producidos por una fabrica, tiene una distribucionN(µ, σ2) con µ = 1.07 × 104 seg1/2, σ2 = 1.1 × 106 seg. A su vez,el tiempo de vida T , de un amplificador con tasa de vida Γ, tienedistribucion exponencial de parametro λ = 1

Γ2 seg−1. Hallar el tiempode vida promedio (en meses) de los amplificadores producidos por estafabrica.

12. Sea X v.a. con media µ, varianza σ2 y cuarto momento centralµ4 = E((X − µ)4). Pruebe que µ4 ≥ σ4.Ayuda: calcule la esperanza y la varianza de Z = (X − µ)2.

12

Page 13: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

9 Ley Debil de Grandes Numeros

Para modelar un fenomeno aleatorio que depende del tiempo, podemos con-siderar sucesiones de v.a. X1, X2, . . . donde Xi modela el estado del fenomenoa tiempo i. El conjunto de ındices puede representar unidades de tiempo,iteraciones de un proceso, etc. Es natural que en este tipo de situaciones, siqueremos tener una informacion que no dependa del tiempo, nos pregunte-mos acerca del comportamiento de Xn cuando n →∞. Antes de formalizaresta idea observemos el siguiente

Ejemplo: Supongamos que lanzamos un dado n veces, n un nmero muygrande, y observamos que el promedio de los numeros observados es an =3.500867. Al comparar este valor con el valor esperado de una v.a. quemodela el numero observado al lanzar un dado, 1

6(1 + 2 + . . . + 6) = 3.5,

podemos ver que estan muy cerca. Es natural conjeturar que

an → 3.5 cuando n →∞

Varios resultados de la teorıa de probabilidad establecen condiciones paraprobar conjeturas del tipo ”si repetimos un experimento muchas veces en-tonces el promedio de los resultados se aproxima al valor esperado”.

Teorema (Desigualdad de Markov) Sea X una v.a. y g una funcion positivaentonces,

P (g(X) ≥ ε) ≤ E(g(X))

ε∀ε > 0

Prueba. Supongamos que X es continua, el caso discreto es simmilar.

E(g(X)) =∫

{x:g(x)≥ε}g(x)f(x)dx +

{x:g(x)<ε}g(x)f(x)dx

≥∫

{x:g(x)≥ε}g(x)f(x)dx

≥ ε∫

{x:g(x)≥ε}f(x)dx

= εP (g(X) ≥ ε)

Un caso particular de la desigualdad de Markov es

13

Page 14: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Corolario(Desigualdad de Chebyshev) Sea X una v.a. con E(X) = µ yV ar(X) < ∞ entonces

P (|X − µ| ≥ ε) ≤ 1

ε2V ar(X)

Prueba

P (|X − µ| ≥ ε) = P (|X − µ|2 ≥ ε2) ≤ 1

ε2E((X − µ)2) =

1

ε2V ar(X)

Esta desigualdad es muy util para aproximar cuan concentrada esta unav.a. alrededor de su valor esperado.

Sean X1, X2, . . . , Xn v.a. i.i.d. con E(Xi) = µ y V ar(Xi) = σ2. Denote-mos el promedio muestral por

Xn =Sn

n=

X1 + X2 + . . . + Xn

n.

Ya que

E(Xn) = E(X1 + X2 + . . . + Xn

n) =

1

nnµ

y

V ar(Xn) =1

n2V ar(X1 + X2 + . . . + Xn) =

σ2

n,

usando la desigualdad de Chebyshev se tiene que

P (|Xn − µ| ≥ ε) ≤ 1

ε2

σ2

n

Decimos que Xn converge en probabilidad a X si ∀ε > 0,

P (|Xn −X| ≥ ε) −→ 0 cuando n −→∞.

Teorema (Ley Debil de Grande Numeros) Sean X1, X2, . . . , Xn v.a. i.i.d.con E(Xi) = µ y V ar(Xi) = σ2 < ∞, entonces el promedio muestral Xn

converge en probabilidad a µ.

14

Page 15: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

La Ley Debil de Grandes Numeros ofrece un potente metodo de esti-macion conocido como el Metodo de Monte Carlo. El siguiente ejemploilustra el la idea basica del metodo.

Ejemplo: Sea (X, Y ) un vector aleatorio distribuıdo uniformemente en elrectangulo B = [0, a]× [0, b]. Sea A un area contenida en B, ası,

p = P ((X,Y ) ∈ A) =|A|ab

Para estimar p, generamos puntos (X1, Y1), . . . , (Xn, Yn) i.i.d. U [0, a]× [0, b]y consideramos la v.a. Bernoulli

Zi = 1 si (Xi, Yi) ∈ A

= 0 sino

Es facil verificar el promedio Zn converge en probabilidad a p.

10 Funcion generatriz de momentos

Hemos visto que la esperanza y la varianza dan informacion acerca de lav.a. Para obtener esta informacion necesitamos calcular E[X] y E[X2]. Elmomento de orden k no es mas que la extension de esta idea para tener masinformacion acerca de la variable.

Definicion: El momento de k-esimo orden de una v.a. X es E[Xk] siemprey cuando E[|X|k] < ∞.

Ejemplo: Si X tiene distribucion Gamma(n, β) entonces el momento de ordenk es

E[Xk] =∫ ∞

0xk βn

Γ(n)e−βxdx =

n(n + 1) . . . (n + k − 1)

βk

Ejemplo: Si X tiene distribucion Cauchy entonces

E[Xk] =∫ ∞

−∞xk 1

π(1 + x2)dx

En vista de que la integral no converge en valor absoluto para ningun k ≥ 1decimos que la distribucion de Cauchy no tiene momentos.

15

Page 16: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Un util criterio para garantizar la existencia de momentos es:

E[|X|k] < ∞ implica E[|X|r] < ∞ para 1 ≤ r ≤ k

En particular, cuando digamos que V ar(X) < ∞, estaremos diciendo quelos momentos de primer y segundo orden existen.

Si lo que estamos buscando es obtener informacion de un v.a.; formal-mente de la distribucion de una v.a.; a traves de sus momentos, parece na-tural construir una funcion que reproduzca el valor de todos los momentossi es que existen:

Definicion: La funcion generatriz de momentos de una v.a. X es la funcion

MX(t) = E[e−tX ] para todo t para el cual la esperanza existe

Ejemplo: Si X tiene distribucion Gamma(n, β) entonces

MX(t) =

β − t

)n

para t ≤ β

Ejemplo: Si X tiene distribucion Cauchy entonces MX(t) solo esta definidapara t = 0.

Ejemplo: Si X tiene distribucion Normal(µ, σ2) entonces

MX(t) = eµt+σ2t2/2 para todo t ∈ R

Ejemplo: Si X tiene distribucion Poisson(λ) entonces

MX(t) = e−λ(1−et) para todo t ∈ R.

Volviendo a nuestro problema, ¿como reproducir los momentos de unav.a. a partir de su funcion generatriz?:

Teorema: Si MX existe en un entorno de 0, entonces para cualquier k ≥ 1

E[Xk] =dk

dtkMX(0)

La prueba formal de este teorema se escapa del alcance de estas notas. Laidea basica es la siguiente:

16

Page 17: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

La esperanza es una sumatoria o una integral dependiendo cual sea el casoque estemos estudiando. Estos operadores (sumatoria e integral) conmutan,bajo condiciones de regularidad, con el operador derivada (¿puede el lectorconstruir ejemplos concretos donde esto ocurre?). Ası resulta que

dk

dtkMX(t) =

dk

dtkE[etX ] = E[

dk

dtketX ] = E[XketX ]

evaluando la identidad anterior en t = 0 obtenemos el resultado del teorema.

Mas que reproducir los momentos de una distribucion, la funcion gene-ratriz provee una manera de caracterizar distribuciones de probabilidad.

Teorema: Si MX existe en un entorno de 0, entonces hay una unica dis-tribucion con funcion generatriz MX . Ademas, bajo esta condicion todoslos momentos existen, no importa el orden, y el desarrollo de Taylor de lafuncion generatriz es

MX(t) =∞∑

k=0

E[Xk]tk

k!

Del teorema anterior podemos observar que no basta conocer todos losmomentos para caracterizar una distribucion, es necesario que la serie

∞∑

k=0

E[Xk]tk

k!

converja en un entorno de cero, tal como aparece en la hipotesis del teorema.La prueba de este teorema se basa en propiedades de la transformada de

Laplace y la omitiremos en estas notas, sin embargo su aplicacion es de granutilidad al conectarla con las siguientes propiedades:

• Para numeros a, b se tieneMaX+b(t) = E[e(aX+b)t] = ebtE[eatX ] = etbMX(at)

• Si X, Y son independientes entoncesMX+Y (t) = E[et(X+Y )] = E[etXetY ] = E[etX ]E[etY ] = MX(t)MY (t)

• Usando recursivamente la propiedad anterior, si X1, . . . , Xn son inde-pendientes, entonces MX1+...+Xn = MX1 . . . MXn

17

Page 18: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Ejemplo: Sean X1, . . . , Xn v.a.i.i.d. exponenciales(β). ¿Cual es la dis-tribucion de la suma Sn = X1+ . . .+Xn?. Sabiendo que la funcion generatrizde una exponencial es

MX1(t) =β

β − tpara t ≤ β

podemos usar las propiedades enunciadas y verificar que

MSn(t) =

β − t

)n

para t ≤ β

que corresponde a la funcion generatriz de una Gamma(n, β). Usando elteorema anterior podemos concluir que la suma de n exponenciales i.i.d deparametro β tiene distribucion Gamma(n, β).

El lector puede usar esta tecnica para probar los siguientes resultados:

• sumas de normales independientes es normal

• sumas de Poisson independientes es Poisson

en general, pruebe que si (MX(t))1/n es la funcion generatriz de una v.a.Z, entonces sumas de n replicas independientes de Z se distribuye como X.

11 Funcion caracterıstica

Como vimos, la funcion generatriz ofrece un poderoso metodo para identificardistribuciones de probabilidad. El problema es que la funcion generatriz nosiempre existe, como en el caso de la Cauchy. La clase de distribucionespara la cual no existe es suficientemente grande como para necesitar unaalternativa. Usando la formula de Moivre

eiω = cosω + isenω, con i =√−1

es facil ver que

MX(iω) = E[cos(ωX)] + iE[sen(ωX)]

Ya que las funciones cos y sen son acotadas, la funcion

φX(ω) = MX(iω)

18

Page 19: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

siempre existe y tiene propiedades equivalentes a las de la funcion generatriz.Por lo cual conviene introducir la siguiente definicion

Definicion. La funcion caracterıstica de una v.a. X es la funcion

φX(ω) = E[eiωX ]

En estas notas, suponemos que el lector no esta familiarizado con el calculo envariable compleja. Para calcular φX(ω) = E[eiωX ], se puede usar la identidad

φX(ω) = MX(t) para t = iω

cuando MX(t) existe.

Ejemplo: Si X tiene distribucion Gamma(n, β) entonces

φX(ω) =

β − iω

)n

.

Cuando MX(t) no existe, por ejemplo para el caso Cauchy, el uso detablas para la transformada de fourier puede ser muy util. Casi cualquierfuncion caracterıstica ya ha sido tabulada. En particular, si X es Cauchy,

φX(ω) =1

2e−|ω|.

El hecho de que la funcion caracterıstica siempre exista simplifica el cri-terio de caracterizacion analogo al que estudiamos para la funcion generatrizde momentos.

Teorema: Las v.a. X, Y tienen la misma distribucion si y solo si φX(ω) =φY (ω) para todo ω. Aun mas, si X es continua con densidad de probabilidadf , la siguiente formula puede ser usada para recobrar f a partir de la funcioncaracterıstica

f(x) =1

∫ +∞

−∞e−iωxφX(ω)dω

Esta formula no es mas que la inversa de la transformada de fourier, obser-vando que la funcion caracterıstica

φX(ω) =∫ +∞

−∞e−iωxf(x)dx

19

Page 20: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

es la transformada de fourier de f .Para terminar, enunciamos algunas propiedades que el lector puede pro-

bar sin dificultad, siguiendo las pruebas analogas para la funcion generatriz.

• Para numeros a, b se tieneφaX+b(ω) = eiωbφX(aω)

• Si X, Y son independientes entoncesφX+Y (ω) = φX(t)φY (ω)

• Usando recursivamente la propiedad anterior, si X1, . . . , Xn son inde-pendientes, entonces φX1+...+Xn = φX1 . . . φXn

12 Convergencia en distribucion

Cuando modelamos un fenomeno aleatorio que cambia en el tiempo, debe-mos considerar sucesiones de v.a. X1, X2, . . . donde Xi modela el estado delfenomeno a tiempo i. El conjunto de ındices puede representar unidades detiempo, iteraciones de un proceso, etc. Es natural que en este tipo de situa-ciones, si queremos tener una informacion que no dependa del tiempo, nospreguntemos acerca del comportamiento de Xn cuando n →∞. Por ejemplo:¿cual es la distribucion de Xn cuando n → ∞?. Antes de formalizar estaidea observemos el siguiente ejemplo:

Consideremos la sucesion de v.a. X1, X2, . . . con P (Xn = 1n) = 1. Es

decir, con probabilidad 1, Xn = 1n. Lo natural serıa que {Xn} converja a

una v.a. X que tiene probabilidad 1 de valer 0. Veamos que pasa con lasfunciones de distribucion de estas v.a.

Fn(x) = P (Xn ≤ x) = 0 si x <1

n

= 1 si x ≥ 1

n

F (x) = P (X ≤ x) = 0 si x < 0

= 1 si x ≥ 0

Por otro lado

20

Page 21: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

limn→∞Fn(x) = 0 si x ≤ 0

= 1 si x > 0

Es decir, con la excepcion de 0, que es un punto de discontinuidad de F ,

limn→∞Fn(x) = F (X).

Este ejemplo muestra que los puntos de discontinuidad de la distribucionlımite deben ser ignorados, lo cual nos lleva a la siguiente

Definicion: Consideremos la sucesion de v.a. X1, X2, . . . con funciones dedistribucion F1, F2, . . . respectivamente. Sea X una v.a. con funcion dedistribucion F . Diremos que Xn converge en distribucion a X, o que Xn → Xen distribucion, sii

limn→∞Fn(x) = F (X)

para todo x donde F sea continua.

Ejemplo: Considere el mınimo Un de n variables i.i.d. uniformes en (0,1).Es facil intuir que pasa con Un cuando n →∞. ¿Que pasa con nUn cuandon →∞?. Primero que nada, como Un ∈ (0, 1), entonces nUn ∈ (0, n) y

P (nUn ≤ x) = P(Un ≤ x

n

)para x ∈ (0, n)

Usando la definicion del mınimo y la independencia, la probabilidad anteriorpuede escribirse como

1− P (nUn > x) = 1− P(Un >

x

n

)= 1−

(P (X >

x

n))n

con X uniforme en (0,1). Sustituyendo,

P (nUn ≤ x) = 1−(1− x

n

)n

para x ∈ (0, n)

Usando el hecho de que si nan → a entonces

lim(1− an)n = ea (5)

21

Page 22: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

se obtiene

lim P (nUn ≤ x) = lim 1−(1− x

n

)n

= 1− e−x para x ∈ (0,∞)

que corresponde a la distribucion de una variable exponencial de parametro1. Es decir, si X1, X2, . . . son v.a.i.i.d. uniformes sobre (0,1), entonces

nUn → exp(1) en distribucion.

Cuando las variables toman valores 0, 1, 2, ...; la convergencia en dis-tribucion se reduce a la convergencia de la funciones de masa. El lector notendra dificultad en probar la siguiente

Proposicion: Si X, X1, X2, . . . toman valores enteros y para todo k

lim P (Xn = k) = P (X = k)

entonces Xn → X en distribucion.

Ejemplo: Considere la sucesion de v.a. {Xn} con Xn binomial(n, pn). Supong-amos que pn → 0 con npn → λ > 0. Es decir, para n grande, Xn es unabinomial con muchas repeticiones de un experimento que tiene muy pocochance de exito. Podemos probar

lim P (Xn = 0) = e−λ

limP (Xn = k + 1)

P (Xn = k)= λ(k + 1)

Usando recurrencia, vemos que

lim P (Xn = k) = e−λ λk

k!

que es la funcion de masa de una Poisson(λ). Es decir,

Xn → Poisson(λ) en distribucion.

Los dos ejemplos anteriores muestran la dificultad de probar convergenciaen distribucion por definicion. El siguiente teorema ofrece un metodo sencillode hacerlo

22

Page 23: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

Teorema de continuidad: Sean X1, X2, . . . v.a. y φ1, φ2, . . . sus respectivasfunciones caracteısticas. Si

lim φn(ω) =: φ(ω) para todo ω ∈ R

y φ(ω) es continua en ω = 0, entonces φ es la funcion caracterıstica de unav.a. X tal que Xn → X en distribucion.

La prueba de este teorema exige de fuertes conocimientos de analisismatematico, sin embargo el teorema en si es facilmente intuible, a exceptode la condicion tecnica φ continua en cero.

Ejemplo: Usar el teorema para probar la convergencia a Poisson del ejemploanterior.

La aplicacion por excelencia del teorema de continuidad es el muy famoso

Teorema del Lımite Central: Sean X1, X2, . . . v.a.i.i.d. con varianza finitaσ2. Denotemos por µ la esperanza comun de las variables. Entonces

X1 + . . . + Xn − nµ√n

→ N(0, σ2) en distribucion

13 Cuarto Problemario

1. El numero de llamadas que llegan a la central telefonica de Sartenejasen un minuto, es, en promedio, 102. La central puede manejar unmaximo de 103 llamadas, colapsando si recibe mas de este numero dellamadas en un minuto. Usar la desigualdad de Chebyshev para estimarla probabilidad de que la central colapse en un minuto dado.

2. En la fabrica del problema anterior, supongase que los amplificadorescon Γ < 7.5× 103 seg−1/2 son rechazados por control de calidad.(a) Use la desigualdad de Chebyshev para estimar el % de amplifi-cadores rechazados.(b) Calcule la misma probabilidad de la parte (a) usando la tabla dela distribucion normal. Explique la discrepancia de los resultados.

3. A traves de una encuesta se quiere estimar la fraccion p de adultosde la poblacion que se interesarıa en un nuevo producto. Se interrogaa n personas de la poblacion, y se estima p como p = X/n, siendo

23

Page 24: Probabilidades: Vectores Aleatorios - UC3M...E[X] = X y E[XjY = y]P(Y = y) Con las definiciones anteriores es f´acil probar la versi´on continua de esta importante f´ormula: E[X]

X el numero de personas encuestadas que manifiestan interes en elproducto. Utilizando el Teorema del Lımite Central, y suponiendo queel verdadero valor de p es 0.35, encuentre, aproximadamente, el menorvalor de n para el cual p y p difieren en menos de 0.02, con probabilidadmayor que 0.9. ¿Como resolverıa el problema en el caso (realista) enque p es desconocido?

4. Tomamos 50 numeros al azar (uniformemente) en el intervalo (1,3).(a) Utilize la desigualdad de Chebyshev para estimar la probabilidadde que el promedio X de estos numeros se encuentre entre 1.9 y 2.1.(b) Utilize el Teorema del Lımite Central para aproximar la mismaprobabilidad de la parte (a) Segun la aproximacion que nos da el T.L.C.,¿Cuanto debe ser ε para que X se encuentre en el intervalo (1−ε, 1+ε)con probabilidad 0.95.

5. Use la funcion generatriz para calcular el momento de tercer orden deuna Normal(µ, σ2).

2.- Sean {Xn} v.a.i.i.d. y N una v.a. a valores enteros positivos in-dependiente de {Xn}. Calcule la funcion generatriz de momentos deX1 + . . . + XN y deduzca la esperanza y varianza de esta v.a.

6. {Xn} v.a. con

P

(Xn =

k

n + 1

)=

1

npara k = 1, . . . n

Pruebe que Xn → U(0,1) en distribucion.

7. Suponga que Xn tiene distribucion Gamma(n, 1). Calcule la funciongeneratriz de momentos de Zn = (Xn − n)/

√n y demuestre que

lim MZn(t) = et2/2

¿Que concluye?.

24