Cadenas de Markov

34
Escuela de Matem´ atica 1era. Escuela de Matem´ atica Pura y Aplicada Guatemala 2012. Curso 1 Introducci´ on a Cadenas de Markov 1 Antonio Murillo Salas Departamento de Matem´aticas Universidad de Guanajuato. Del 19 al 24 de noviembre de 2012. 1 Versi´ on preliminar.

description

Cadeias de markov

Transcript of Cadenas de Markov

Page 1: Cadenas de Markov

Escuela de Matematica1era. Escuela de Matematica Pura y Aplicada

Guatemala 2012.•

Curso 1Introduccion a Cadenas de Markov1

Antonio Murillo SalasDepartamento de Matematicas

Universidad de Guanajuato.

Del 19 al 24 de noviembre de 2012.

1Version preliminar.

Page 2: Cadenas de Markov

Indice general

1. Introduccion a la teorıa de probabiliadad 31.1. Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2. Medidas de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. σ-algebra de Borel en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.4. Independencia y probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . 81.5. Variables aleatorias y funciones de distribucion . . . . . . . . . . . . . . . . . . . . . 111.6. Funciones de distribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.7. Independencia de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . 161.8. Algunos ejemplos de variables aleatorias conocidas . . . . . . . . . . . . . . . . . . . 211.9. Esperanza de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.10. Suma de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.11. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1

Page 3: Cadenas de Markov

Introduccion

2

Page 4: Cadenas de Markov

Capıtulo 1

Introduccion a la teorıa de probabiliadad

El objetivo de la Teorıa de Probabilidad es estudiar o modelar, por medio de la herramientamatematica, el comportamiento de fenomenos o experimentos aleatorios. Un experimento es lla-mado aleatorio cuando no se puede asegurar el resuldato, es decir, intrınsecamente existe ciertaincertidumbre sobre el resultado.

Para llevar acabo tal madelacion probabilista se requieren de tres conceptos fundamentales. Asaber, espacio muestral, evento y medida de probabilidad. Mas un cuarto, basado el los anteriores,llamado variable aleatoria, el cual juega un papel primordial en el estudio de experimentos aleato-rios. El objetivo del presente capıtulo es definir dichos conceptos, los cuales formaran el marcoteorico de nuestro estudio.

1.1. Espacio muestral y eventos

Definicion 1.1.1 El conjunto de todos los resultados posibles de un experimento aleatorio es lla-mado espacio muestral, y sera denotado por Ω.

Ejemplos.

(1) El experimento de lanzar una moneda: Ω = a, s, donde a denota aguila y s denota sello.

(2) El experimento de lanzar un dado: Ω = 1, 2, 3, 4, 5, 6.

(3) El experimento de observar el tiempo de vida de un aparado electrico: Ω = [0,∞).

(4) El experimento de lanzar dos monedas consecutivamente:

Ω = (a, a), (a, s), (s, a), (s, s).

(5) Experimento de contar el numero de autos que cruzan en determinado intervalo de tiempo,digamos por dıa, por la caseta de peaje:

Ω = 0, 1, 2, · · · .

Definicion 1.1.2 Un evento es una caracterıstica de interes en un experimento aleatorio. Nor-malmente los denotaremos por las letras A, B, C, etc.

3

Page 5: Cadenas de Markov

(1.1) El experimento de lanzar una moneda. El evento “la moneda cae aguila”: A = a.

(2.1) El experimento de larzar un dado. Nos puede interesar A =“la cara muestra un numeroimpar” o B=“la cara muestra un numero divisible por 3”. Por lo tanto, A = 1, 3, 5 yB = 3, 6.

(3.1) El experimento de observar el tiempo de vida de un aparato electrico: A =“dura mas de unano pero menos de 2”, B =“al menos un ano”. Entonces, A = (1, 2) y B = [1,∞).

(4.1) El experimento de lanzar dos monedas consecutivamente. Puede ser de interes, A =“al menosuna cara en los dos lanzamientos” o B =“dos caras”. Luego, A = (a, a), (a, s), (s, a) yB = (a, a).

(5.1) Experimento de contar el numero de autos que cruzan por la caseta de peaje en un dıa.Supongamos que nos interesa, A =“al menos pasaron 105 carros”, B =“pasaron menos de150 carros”. Entonces, A = 105, 106, · · · y B = 0, 1, · · · , 148, 149.

Nos interesa “medir” o calcular la probabilidad de ciertos conjuntos. Los eventos son precisa-mente a los conjutos que podemos calcular la probabilidad de ocurrencia. Nos gustarıa que laoperaciones elementales entre eventos tales como complemento, union, interseccion tambien fueraun evento. Denotaremos por F a la clase de todos los eventos.

1.2. Medidas de probabilidad

En la Seccion 1.1 definimos dos de los tres elementos principales en la Teorıa de Probabilidad.El proposito de la presente seccion es introducir el concepto de medida de probabilidad, con locual estaremos en posicion de inicar nuestro estudio de modelacion de experimentos aleatorios.

Para lograr lo anterior, primero vamos a definir de manera rigurosa las propiedades que debecumplir la clase de todos los eventos. La clase F ⊂ P(Ω), donde P(Ω) denota la clase de todos lossubconjutos de Ω tambien conocido como conjunto potencia. En cursos mas avanzados, donde sehace uso de la Teorıa de la Medida, se puede ver que F debe ser una σ-algebra.

Definicion 1.2.1 Sea F una familia no vacia de subconjuntos de Ω. La familia F es llamadaσ-algebra si satisface las siguientes propiedades:

(i) Dado A ∈ F se cumple Ac ∈ F, donde Ac denota el complemento de A en Ω.

(ii) Sea (An)∞n=1 cualquier sucesion de conjuntos en F. Entonces,⋃∞n=1 An ∈ F.

(Ω,F) es llamado espacio medible.

Algunas propiedades de σ-algebras

1. Ω ∈ F, y por lo tanto, ∅ ∈ F.

2. Sea F una σ-algebra y (An)∞n=1 una coleccion de conjuntos en F. Entonces,⋂∞n=1An ∈ F.

4

Page 6: Cadenas de Markov

3. Todo cojunto Ω tiene dos σ-algebras triviales: las mas pequena F0 = Ω, ∅, y las mas grandeF1 = P(Ω). Ademas, si F es cualquier otra σ-algebra,

F0 ⊂ F ⊂ F1.

4. Sean A, B ∈ F, entonces A\B ∈ F. En efecto, basta notar que A\B = A ∩Bc.

Ahora sı, ya tenemos los elementos necesarios para definir el concepto de medida de probabili-dad.

Definicion 1.2.2 (Axiomas de la Teorıa de Probabilidad1) Una medida de probabilidad sobreel espacio medible (Ω,F), donde Ω es un conjunto y F una σ-algebra sobre Ω, es una funcion deconjuntos P tal que:

(i) 0 ≤ P(A) ≤ 1, para todo A ∈ F.

(ii) P(Ω) = 1.

(iii) Si (An)∞n=0 ⊂ F es una sucesion de conjuntos disjuntos por pares (Ai ∩ Aj = ∅, i 6= j),entonces

P

(∞⋃n=1

An

)=∞∑n=1

P (An) . (1.1)

A la terna (Ω,F,P) le llamaremos espacio de probabilidad.Propiedades de la medida de probabilidad

Las siguientes propiedades son consecuencia de la definicion de medida de probabilidad.

1. Si A ∈ F, entonces P(Ac) = 1− P(A). En particular, P(∅) = 0.

2. Considere los eventos A y B. Entonces,

P (A\B) = P (A)− P (A ∩B) .

En efecto, notemos que A = (A ∩B) ∪ (A ∩Bc). Entonces,

P(A) = P(A ∩B) + P(A ∩Bc),

luego,P(A\B) = P(A)− P(A ∩B).

Por lo tanto, si A ⊂ B entonces, P (A) ≤ P (B).

3. Sean A y B dos eventos cualquiera, entonces

P (A ∪B) = P (A) + P (B)− P (A ∩B) .

Para demostrar el hecho anterior basta notar que A ∪B = A ∪ (B\A).

1Andrey N. Kolmogorov (1903-1987) fue quien fundamento las bases de la Teorıa Moderna de Probabilidad.

5

Page 7: Cadenas de Markov

4. Supongamos que A,B,C ∈ F. Entonces,

P(A∪B∪C) = P(A)+P(B)+P(C)−P(A∩B)−P(A∩C)−P(B∩C)+P(A∩B∩C). (1.2)

Proposicion 1.2.3 Sea (An) una sucesion de eventos tales que An ⊂ An+1, para todo n. Entonces,

P (∪∞n=1An) = lımn→∞

P (An) . (1.3)

Demostracion: Notemos que, para cada k ∈ N,

Ak = A1 ∪ (A2\A1) ∪ (A3\A2) ∪ · · · (Ak\Ak−1),

y∪n=1An = A1 ∪∞n=1 (An+1\An).

Por lo tanto, dado que A1, A2\A1, A3\A2, · · · es una sucesion de eventos disjuntos se concluyeque

P (∪∞n=1An) = P(A1) +∞∑n=1

P(An+1\An)

= P(A1) +∞∑n=1

[P(An+1)− P(An)]

= lımn→∞

[P(A1) +

n−1∑k=1

(P(Ak+1)− P(Ak))

]= lım

n→∞P(An),

para obtener la ultima iguadad usamos el hecho que la suma resulta ser una serie telescopica.

Proposicion 1.2.4 i)(Desigualdad de Boole) Para cada n ∈ N, sean A1, · · · , An eventos.Entonces,

P

(n⋃k=1

Ak

)≤

n∑k=1

P (Ak) . (1.4)

Demostracion: Vamos a proceder por induccion sobre n. El resultado es valido para n = 2 yaque,

P (A1 ∪ A2) = P (A1) + P (A2)− P (A1 ∩ A2) ≤ P (A1) + P (A2) .

Supongamos que se cumple para n. Entonces,

P(∪n+1i=1 Ai) = P(∪ni=1Ai ∪ An+1)

≤ P(∪ni=1Ai) + P(An+1)

≤n+1∑i=1

P(Ai),

6

Page 8: Cadenas de Markov

la ultima desigualdad es por hipotesis de induccion.

ii)(σ-Subaditividad) Sean (An)∞n=1 una sucesion eventos. Entonces,

P

(∞⋃n=1

An

)≤

∞∑n=1

P (An) . (1.5)

Demostracion:

1.3. σ-algebra de Borel en REl siguiente resuldato nos dice que, dada cualquier coleccion de subconjuntos de Ω, existe una

mınima σ-algebra que la contiene.

Teorema 1.3.1 (Mınima σ-algebra generada) Sea Ω un conjunto y T una familia de subco-juntos de Ω. Entonces, existe una σ-algebra σ(T ) tal que (i) T ⊂ σ(T ) y (ii) si F es otra σ-algebrasobre Ω tal que T ⊂ F, entonces σ(T ) ⊂ F. Se dice que σ(T ) es la σ-algebra sobre Ω generada porT .

Demostracion: Sea R la familia de todas las σ-algebras sobre Ω que contienen a T . Entonces,

R = F : F es σ-algebra sobre Ω y T ⊂ F.

Es claro que R es no vacia, ya que P(Ω) ∈ R. Definamos

R∗ := ∩F∈RF.

Demostraremos que R∗ es una σ-algebra. En efecto,

(i) Ω ∈ R∗, ya que Ω ∈ F, para toda F ∈ R.

(ii) Sea A ∈ R∗. Entonces, A ∈ F, para toda F ∈ R. Por lo tanto, Ac ∈ F, para toda F ∈ R.Luego, Ac ∈ R∗.

(iii) Sea (An) una sucesion de conjuntos en R∗. Mostraremos que ∪∞n=1An ∈ R∗. Sabemos quepara cada F ∈ R, An ∈ F, para todo n. Ahora bien, dado que F es σ-algebra, se tiene que∪∞n=1An ∈ F para toda F ∈ R. Por lo tanto, ∪∞n=1An ∈ R∗.

En consecuencia, R∗ es σ-algebra. Para concluir la prueba basta notar que si F es una σ-algebratal que T ⊂ F, entonces F ∈ R. Lo cual implica R∗ ∈ F, i.e, σ(T ) = R∗

La siguiente definicion introduce una σ-algebra sobre R, la cual sera de mucha utilidad en elresto del curso.

Definicion 1.3.2 La σ-algebra de Borel2 sobre R, la cual denotamos por B(R), es la σ-algebragenerada por la clase de conjuntos T := (−∞, x] : x ∈ R. Todo conjuto en B := B(R) sera lla-mado conjunto de Borel o Boreliano.

2Emile Borel 1871-1956, matematico y politico frances.

7

Page 9: Cadenas de Markov

Observacion 1.3.3 (σ-algebra de Borel en Rd) Si consideramos la clase de conjuntos

τ = I := (−∞, x1]× · · · × (−∞, xd] : x1, · · · , xd ∈ R,

entonces la σ-algebra generada por τ es llamada σ-algebra de Borel en Rd.

Algunas propiedades de los Borelianos

1. Todo intervalo (a, b] esta en B.

Demostracion: Basta notar que,

(a, b] = (−∞, b]\(−∞, a].

2. Dado x ∈ R, x ∈ B.

Demostracion: Notemos que,

x = ∩∞n=1(x− 1

n, x].

Luego, el resultado se sigue usando que para cada n, (x− 1n, x] ∈ B.

3. (a, b), [a, b), [a, b] ∈ B.

4. Todo conjunto abierto en R es un Boreliano. Por lo tanto, por la propiedad de σ-algebra,todo conjunto cerrado es un Boreliano.

Demostracion: Sea A ⊂ R un conjunto abierto. Para cada x ∈ A existe un intervalo(ax, bx) ⊂ A con extremos racionales y tal que x ∈ (ax, bx). Por lo tanto, A puede escribirsecomo la union contable conjuntos de Borel (ax, bx), es decir,

A = ∪x∈A(ax, bx).

En consecuencia, A ∈ B.

1.4. Independencia y probabilidad condicional

El concepto de probabilidad condicional es de suma importancia en la teorıa de probabiliadaddado que, en muchos casos de modelacion se conoce informacion apriori sobre el fenomeno encuestion y un modo de “aprovechar” dicha informacion es por medio de la probabiliadad condi-cional. Veamos un ejemplo para clarificar lo anterior.

8

Page 10: Cadenas de Markov

Ejemplo 1.4.1 Supongamos que tenemos una baraja de 52 cartas. Sea A el evento de que primeracarta sea un as. Entonces,

P(A) =4

52=

1

13.

Supongamos ahora que nos damos cuenta que la ultima carta es el as de espadas, y denotemospor B tal evento. ¿Cual es la probababilidad de que la primera carta sea un as? Hay 51 cartaspara seleccionar, de las cuales 3 son favorables para nuestro evento de interes. Por lo tanto, laprobabiliadad que buscamos es 3/51.

El ejemplo anterior nos motiva a introducir la siguiente

Definicion 1.4.2 Sean A y B dos eventos tales que P(B) > 0. La probabilidad condicional delevento A dado B se define como

P (A|B) =P (A ∩B)

P (B). (1.6)

Observacion 1.4.3 Cuando P(B) = 0 la probabilidad condicional P(A|B) no se define comoantes.

Usaremos ahora la definicion de probabilidad condicional en el ejemplo anterior. Nos interesaencontrar

P(A|B) =P(A ∩B)

P(B)=

152

351

152

=3

51.

Intuitivamente, detras de P(A|B) esta que la ocurrencia del evento B nos proporciona informa-cion sobre la ocurrencia del evento A. Por lo tanto, si deseamos decir que A y B son independientesentonces, la ocurrencia del evento B no debe influir en la ocurrencia del evento A. Mas formalmente,los eventos A y B son llamamdos independientes si

P(A|B) =P(A ∩B)

P(B)= P(A),

en otras palabras,P(A ∩B) = P(A)P(B).

Vamos a introducir la definicion mas general de independencia entre eventos.

Definicion 1.4.4 Una coleccion de eventos (Ai)i∈I es una coleccion de eventos independientes sipara todo subconjuto finito J ⊂ I se cumple

P(∩i∈JAi) =∏i∈J

P(Ai).

Es importante notar que la coleccion de eventos puede ser finita o infinita. Ademas, si (Ai)i∈I sonindependientes entonces son independientes dos a dos. Sin embargo, la recıproca no es cierta comolo muestra el siguiente

Ejemplo 1.4.5 Sea Ω = 1, 2, 3, 4, y P la medida uniforme sobre Ω. Considere A = 1, 2, B =1, 3 y C = 3, 2. Entonces, A, B y C son independientes dos a dos pero no son independientes.

9

Page 11: Cadenas de Markov

Ejemplo 1.4.6 Una planta obtiene dos genes (los cuales determinan el color de las flores) demanera independiente, cada uno proviene de una planta progenitora. Si los genes son identicos,entonces las flores adquieren el color correspondiente. Si los genes son distintos, entonces lasflores tienes los dos colores. Los genes de los colores rosa (r), violeta (V) y rojo (R) ocurren en lapoblacion con proporciones a : b : c, de modo que a+ b+ c = 1. Supongamos que selecionamos unaplanta al azar; sea A el evento que sus flores sean al menos parcialmente rosas, y sea B el eventode que sus flores tengan dos colores.a) Encuentre P(A) y P(B).b) Demuestre que A y B son independientes si a = 2/3 y b = c = 1/6.Solucion: a) Primero notamos que

A = rr ∪ rV ∪ V r ∪ rR ∪ Rr.

Luego,P(rr) = P(r)P(r) = a2,

dado que el color rosa ocurre con probabilidad a. Por otro lado,

P(rR) = P(r)P(R) = ac = P(Rr),

yP(rV ) = ab = P(V r).

Por lo tanto,

P(A) = a2 + 2(ac+ ab)

= a2 + 2a(1− a)

= 1− (1− a)2.

De manera analoga se obtiene que

P(B) = 2(ab+ bc+ ca).

b) Tarea.

Los siguientes resultados son muy utiles para calcular probabilidades de eventos cuando conocemosciertas probabilidades condicionales.

Teorema 1.4.7 ( Ley de probabilidad total)(i) Sean A y B dos eventos tales que 0 < P(B) < 1. Entonces,

P(A) = P(A|B)P(B) + P(A|Bc)P(Bc).

ii) Mas generalmente, para cualquier particion (Bn)n∈Λ (Λ ⊂ N) de Ω, tal que P(Bi) > 0 para todoi ∈ Λ, se cumple

P(A) =∑i∈Λ

P(A|Bi)P(Bi).

10

Page 12: Cadenas de Markov

Teorema 1.4.8 (de Bayes) Sea A ⊂ ∪ni=1Bi, tales que Bi ∩ Bj = ∅ para i 6= j y P(Bi) > 0,entonces

P(Bj|A) =P(A|Bj)P(Bj)∑i P(A|Bi)P(Bi)

, P(A) > 0.

Ejemplo 1.4.9 (Una aplicacion del Teorema de Bayes) Supongamos que tenemos una prueba quedetecta cuando una persona tiene cierta enfermedad. Si la prueba resulta positiva se dice que lapersona tiene la enfermedad. Si el resultado es negativo se interpreta como que no se detecta laenfermedad.

Sea A1 :=“la persona tiene no tiene la enfermedad” y A2 :=“la persona tiene la enfermedad”.Ademas, sea T+ :=“la prueba da positivo” y T− =“la prueba da negativo”.

Supongamos que sabemos que P(A1) = 0.99 y P(A2) = 0.01. Por otro lado, supongamos ademasque

P(T+|A1) = 0.01 y P(T+|A2) = 0.99.

¿Cual es la probabilidad de que dado que la prueba detecta la enfermedad el paciente efectiva-mente tiene la enfermedad? Por el Teorema de Bayes tenemos que,

P(A2|T+) =P(A2)P(T+|A2)

P(A1)P(A1|T+) + P(A2)P(T+|A2)= 0.5.

yP(A1|T+) = 1− P(A2|T+) = 0.5.

Por lo tanto, la prueba no es efectiva para detectar si una persona esta o no enferma. Las cosascambian si se tuviera

P(T+|A1) = 0.001 y P(T+|A2) = 0.999,

en tal caso se tiene que P(A2|T+) = 0.91, lo cual es mas rozonable para una prueba que se suponedetecta alguna enfermedad.

1.5. Variables aleatorias y funciones de distribucion

Cuando se realiza algun experimento generalmente se esta interesado en ”funciones” del resul-tado del experimento mas que el experimento mismo. Tales cantidades de interes son funcionesreal-valuadas definidas en el espacio muestral. A dichas funciones aleatorias se les llama variablesaleatorias.

Supongamos que el experimento consiste en lanzar dos dados a la vez, y nos interesa la sumade los numeros en la cara superior de los dados. En este caso, el espacio muestral esta dado porΩ = (a, b) : a, b = 1, · · · , 6. Por lo tanto, dado que solo nos interesa las suma de las caras, paranosotros sera lo mismo (5, 1), (1, 5), (4, 2), (2, 4), (3, 3). De manera analoga, (5, 5), (4, 6), (6, 4)nos dara el mismo resultado.

Definicion 1.5.1 Dado un espacio de probabilidad (Ω,F,P) una variable aleatoria (v.a.), denotadapor X, es una funcion X : Ω→ R tal que, para todo x ∈ R

X ≤ x := ω ∈ Ω : X(ω) ≤ x ∈ F. (1.7)

11

Page 13: Cadenas de Markov

3

Observacion 1.5.2 (i) La definicion anterior es equivalente a la condicion

X−1(I) ≡ X ∈ I := ω ∈ Ω : X(ω) ∈ I ∈ F,

donde I es cualquier intervalo en R (o Rd). Mas generalmente, X−1(A) ∈ F para todo A ∈ B(R),donde B(R) denota la σ-algebra de Borel en R.(ii) Decimos que X es un vector aleatorio si X : Ω→ Rd es tal que

X−1(A) ∈ F, para todo A ∈ B(Rd),

donde B(Rd) es la σ-algebra de Borel en Rd. En particular, A se puede restringir a la clase τpresentada en la Observacion 1.3.3.

Veamos algunos ejemplos de v.a.

1. Sea c una constante en R, defina X(ω) = c para todo ω ∈ Ω, entonces X es v.a., y es llamadav.a. constante. Para ver que X es v.a. basta notar que

X ≤ x =

∅, si x < c,

Ω, si x ≥ c.

2. Sea A un evento, entonces

X(ω) =

1, ω ∈ A,0, en otro caso,

es v.a. aleatoria. En efecto, sea I cualquier intervalo en R,

X ∈ I =

Ω, si 0 ∈ I, 1 ∈ I,A, si 0 /∈ I, 1 ∈ I,Ac, si 0 ∈ I, 1 /∈ I,∅, si 0 /∈ I, 1 /∈ I.

Existen dos clases muy importantes de variables aleatorias, variables aleatorias discretas yvariables aleatorias continuas. Las variables aleatorias discretas aparecen en contextos donde elexperimento intrınsecamente tiene un conjunto de resultados posibles a lo mas contable. Por otrolado, las variables aleatorias continuas aparecen en experimentos donde el cojunto de resultadosposibles es no contable. Por ejemplo, la estatura de una persona, el tiempo de falla de un elec-trodomestico, la temperatura de cierto compuesto quımico, etc.

Definicion 1.5.3 Un variable aleatoria X es llamada discreta si esta toma a lo mas un numerocontable de valores. Es decir, si existe una coleccion de puntos x1, x2, · · · tales que,

X(Ω) := X(ω) : ω ∈ Ω = ∪∞n=1xi : X(ω) = xi, ω ∈ Ω.3En la terminologıa de teorıa de la medida se dice que, X es una funcion medible con respecto a la σ-algebra F.

12

Page 14: Cadenas de Markov

En el caso de v.a. discretas definimos la funcion de probabilidades asociada a X de la siguientemanera

p(xn) := P(X = xn) n = 1, 2, · · · .

Ahora bien, dado que P(Ω) = 1, y Ω = ∪∞n=1ω ∈ Ω : X = xn, se tiene que

∞∑n=1

p(xn) = 1.

Observacion 1.5.4 Cualquier funcion no negativa p tal que el conjunto x ∈ R : p(x) > 0 es alo mas contable y

∑x p(x) = 1, es funcion de probabilidades de alguna variable aleatoria discreta.

Definicion 1.5.5 Diremos que una v.a. X es continua si existe una funcion f continua y nonegativa, definida en R, tal que para todo conjunto A de numeros reales

P(X ∈ A) =

∫A

f(x)dx. (1.8)

La funcion f es llamada funcion de densidad de probabilidad o simplemente funcion de densidadde la v.a. X.

De la relacion (1.8) se obtiene que, si f es una funcion de densidad, entonces∫ ∞−∞

f(x) dx = 1.

Lo anterior es debido a que, X ∈ R = ω ∈ Ω : X(ω) ∈ R = Ω y P(Ω) = 1. De hecho, si f escualquier funcion continua y no negativa tal que∫ ∞

−∞f(x) dx = 1,

entonces f es la funcion de densidad de alguna variable aleatoria continua.

Nota 1.5.6 Es importante hacer notar que existen v.a. que no son continuas ni discretas. A talesvariables aleatorias se le conoce como v.a. mixtas. Sin embargo, tales v.a. quedan fuera del alcancedel presente curso.

En muchos casos es de interes estudiar funciones de variables aleatorias. Entonces, surge lasiguiente pregunta: si X es v.a. ¿para que funciones g se cumple que g(X) tambien es v.a.? Lasiguiente proposicion da respuesta a la pregunta.

Proposicion 1.5.7 Sea X una v.a. definida sobre el espacio de probabilidad (Ω,F,P) y g : R 7→ Runa funcion tal que g−1(I) ∈ B(R), para todo I ∈ B(R)4. Entonces,

Y (ω) := g(X(ω)), ω ∈ Ω,

tambien es variable aletoria.

4Se dice que la funcion g es medible con respecto a la σ-algebra de Borel B(R).

13

Page 15: Cadenas de Markov

Demostracion: Basta probar que Y −1(I) ∈ F, para todo intervalo I. Se tiene que,

Y −1(I) = Y ∈ I = ω ∈ Ω : g(X(ω)) ∈ I= ω ∈ Ω : X(ω) ∈ g−1(I)= X−1(g−1(I)).

Ahora bien, dado que g−1(I) ∈ B(R) y X es v.a., se tiene que Y −1(I) ∈ F.

1.6. Funciones de distribucion

Para cada x ∈ R definimos el conjunto

A(x) = ω ∈ Ω : X(ω) ≤ x.

Por la Definicion 1.5.1 se tiene que A(x) ∈ F, en consencuencia P(A(x)) esta bien difinido.

Definicion 1.6.1 La funcion de distribucion FX de una v.a. X se define por

FX(x) = P(A(x)), x ∈ R.

Cuando no haya lugar a confusion simplemente escribiremos F en lugar de FX .

Notemos que si F es una funcion de distribucion, entonces F es una funcion de R en [0, 1].

Proposicion 1.6.2 Sea F una funcion de distribucion, entonces se cumplen las siguientes propiedadesa) lımx→−∞ F (x) = 0 y lımx→∞ F (x) = 1.b) Si x < y, entonces F (x) ≤ F (y).c) F es continua por la derecha, i.e, F (x+ h)→ F (x) cuando h ↓ 0. Ademas, F tiene lımites porla izquierda, i.e., lımh↓0 F (x− h) existe, y usualmente se donota por F (x−).

Demostracion:a) Sea (an)∞n=1 cualquier sucesion tal que an ↓ −∞, y consideremosA(an). Entonces,A(a1), A(a2), · · ·es una sucesion decreciente y tal que ∩∞n=1A(an) = ∅. Por lo tanto, por el ejercicio 5 del Capıtulo1, se tiene que

0 = P(∩∞n=1A(an)) = lımn→∞

P(A(an)) = lımn→∞

F (an),

es decir, lımx→−∞ F (x) = 0. La otra parte es analoga, y se deja como ejercicio.

b) Sea A(x) = X ≤ x y A(x, y) = x < X ≤ y. Entonces, A(y) = A(x) ∪ A(x, y) y la union esdisjunta. Luego,

P(A(y)) = P(A(x)) + P(A(x, y)) ≥ P(A(x)),

equivalentementeF (y) ≥ F (x).

14

Page 16: Cadenas de Markov

c) Vamos a demostrar que F es continua por la derecha. Debemos probar que

lımh↓0

F (x+ h) = (x).

En efecto, notemos que (−∞, x] = ∩∞n=1(−∞, x+an], donde (an) es cualquier sucesion de numerosreales positivos tales que an ↓ 0. Luego,

F (x) = P(∩∞n=1X ≤ x+ an)= lım

n→∞P(X ≤ x+ an)

= lımn→∞

F (x+ an)

≡ lımh↓0

F (x+ h),

es decir, F es continua por la derecha.De manera similar se puede demostrar que F tiene lımites por la izquierda. Para ellos es

sufuciente notar que

P(X < x) = lımn→∞

P(X ≤ x− 1/n) = lımn→∞

F (x− 1/n) ≡ lımh↓0

F (x− h).

Si X es una v.a. continua con funcion de densidad f , entonces

FX(x) =

∫ x

−∞f(y) dy, x ∈ R.

Como se puede apreciar en la identidad anterior, la funcion de distribucion es util para encontrarprobabilidades asociadad a la variable aleatoria correspondiente. En esa misma direccion se tienela siguiente

Proposicion 1.6.3 Sea X una variable aleatoria y F su funcion de distribucion. Entonces, paratodo x < y en R se cumple

P(x < X ≤ y) = F (y)− F (x).

Demostracion: Notemos que, si A(x) = (−∞, x], entonces

ω ∈ Ω : x < X(ω) ≤ y = A(y) ∩ A(x)c = A(y)\A(x).

Por lo tanto,P(x < X ≤ y) = P(A(y))− P(A(x)) = F (y)− F (x).

15

Page 17: Cadenas de Markov

Ejemplo 1.6.4 Encuentre la funcion de distribucion asociada a la funcion de densidad

f(x) =

x, 0 ≤ x ≤ 1,

2− x, 1 < x ≤ 2,

0, en otro caso.

Sol. Por definicion tenemos que F (x) =∫ x−∞ f(y) dy. Entonces,

F (x) =

0, x ≤ 0,x2

2, 0 < x ≤ 1,

2x− x2

2− 1, 1 < x ≤ 2

1, x > 2.

Si X es un vector aleatorio d-dimensional, X := (X1, · · · , Xn), la funcion de distribucionconjunta de X se define por

FX(x1, · · · , xd) ≡ FX1,··· ,Xd(x1, · · · , xd) = P(X1 ≤ x1, · · · , Xd ≤ xd), para todo (x1, · · · , xd) ∈ Rd.

Sea (X, Y ) un vector aleatorio en R2 con funcion de distribucion conjunta FX,Y . La funcion dedistribucion de X, FX , se puede obtener a partir de FX,Y . En efecto, para cada x ∈ R se cumpleque

X ≤ x = X ≤ x ∩ Ω = X ≤ x ∩ Y <∞.

Entonces,

FX(x) = FX,Y (x,∞) = lımy→∞

FX,Y (x, y).

A FX se le conoce como distribucion marginal de X. De manera analoga se define la densidad demarginal de Y .

1.7. Independencia de variables aleatorias

Sabemos que dada una funcion de distribucion conjunta podemos calcular las densidadesmarginales. Sin embargo, en general no se cumple que dadas las marginales se puede determi-nar la conjunta de manera unica. Veamos un ejemplo.

Ejemplo 1.7.1 Sea (X, Y ) un vector aleatorio con densidad de probabilidad conjunta dada por

f(0, 0) =1

6, f(0, 1) =

1

3, f(1, 0) =

1

12, f(1, 1) =

5

12.

Por otro lado, sean tambien U , V v.a. cuya densidad de probabilidad conjunta esta dada por

g(0, 0) =1

4, g(0, 1) =

1

4, g(1, 0) = 0, g(1, 1) =

1

2.

16

Page 18: Cadenas de Markov

De lo anterior podemos observar que

fX(0) =1

2= fU(0), fX(1) =

1

2= fU(1),

y

fY (0) =1

4= fV (0), fY (1) =

3

4= fV (1).

En el caso en que las v.a. sean indenpendientes podremos asegurar que las marginales determinande manera unica a la conjunta. Ahora es tiempo de pasar al concepto de independencia de variablesaleatorias.

Definicion 1.7.2 (i) Dos vectores aleatorios discretos, X e Y , son independientes si

P(X = x, Y = y) = P(X = x)P(Y = y),

para todo x, y ∈ Rd.(ii) Sea (X, Y ) un vector aleatorio con funcion de densidad conjunta fX,Y , es decir,

P(X ≤ x, Y ≤ y) =

∫ x

−∞

∫ y

−∞fX,Y (u, v) du dv.

Se dice que X e Y son variables aleatorias independientes si

fX,Y (x, y) = fX(x)fY (y), para todo x, y ∈ R.

Teorema 1.7.3 Sea X e Y v.a. discretas independientes. Entonces,(i) Para cualesquiera dos conjuntos numerables A y B

P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B).

(ii) Para cualesquiera dos funciones reales f, g : R → R se tiene que las v.a. f(X) y g(Y ) sonindependientes.

Demostracion: (i) Notemos que

P(X ∈ A, Y ∈ B) = P (∪x∈AX = x,∪y∈BY = y)=

∑x∈A

∑y∈B

P(X = x, Y = y)

=∑x∈A

∑y∈B

P(X = x)P(Y = y)

= P(X ∈ A)P(Y ∈ B).

(ii) Dados a, b ∈ R definimos

A = x ∈ R : f(x) = a y B = x ∈ R : f(x) = b.

17

Page 19: Cadenas de Markov

Entonces, por (i) tenemos que

P(f(X) = a, g(Y ) = b) = P(X ∈ A, Y ∈ B)

= P(X ∈ A)P(Y ∈ B)

= P(f(X) = a)P(g(Y ) = b).

Ejemplo 1.7.4 Sea X una variable aleatoria Bernoulli de parametro p, es decir, P(X = 1) = 1−P(X = 0) = p. Definamos Y = 1−X y Z = XY . Encuentre P(X = x, Y = y) y P(X = x, Z = z),para x, y, z = 0, 1.

Solucion. Por definicion de Y tenemos que, dado el valor de X, Y es conocido. Entonces,

P(X = 0, Y = 0) = P(X = 1, Y = 1) = 0

P(X = 0, Y = 1) = 1− p y P(X = 1, Y = 0) = p.

En el otro caso tenemos,

P(X = 0, Z = 0) = 1− p y P(X = 1, Z = 1) = 0

P(X = 1, Z = 0) = p y P(X = 0, Z = 1) = 0.

Ejemplo 1.7.5 Sean X e Y v.a. independientes las cuales tienen una ley geometrica con proba-bilidad de exito λ y µ, respectivamente. Calcular: (i) la distribucion de Z := X ∧ Y = mınX, Y ,(ii) P(Z = X), (iii) la distribucion de X + Y y (iv) Para el caso µ = λ, P(Y = k|X + Y = n),para k = 1, · · · , n.

Solucion: (i) En lo que sigue usaremos que [z] denota la parte entera del numero real z. Notemosque

P(Z > z) = P(X > z, Y > z) = P(X > z)P(Y > z) = (1− λ)[z](1− µ)[z], z ≥ 0.

Lo anterior es gracias a que P(X > k) = (1 − p)k. Por lo tanto, Z tiene distribucion geometricacon probabilidad de exito 1− (1− λ)(1− µ).

18

Page 20: Cadenas de Markov

(ii) Notemos que Ω = ∪∞k=1X = k. Entonces,

P(Z = X) = P(Y ≥ X)

=∞∑k=1

P(X = k, Y ≥ k)

=∞∑k=1

P(X = k)P(Y ≥ k)

=∞∑k=1

P(X = k)(1− µ)k−1, P(Y ≥ k) = (1− µ)k−1

=∞∑k=1

λ(1− λ)k−1(1− µ)k−1

1− (1− λ)(1− µ).

(iii) Es claro que X + Y ≥ 2. Entonces, para cada n ≥ 2 tenemos

P(X + Y = n) =n−1∑k=1

P(X + Y = n,X = k)

=n−1∑k=1

P(Y = n− k)P(X = k)

=n−1∑k=1

λ(1− λ)k−1µ(1− µ)n−k−1

= λµ(1− µ)n−2

n−1∑k=1

(1− λ1− µ

)k−1

.

Por lo tanto, en el caso en que λ = µ se tiene que

P(X + Y = n) = (n− 1)λ2(1− λ)n−2.

Por otro lado, para µ 6= λ obtenemos

P(X + Y = n) = λµ(1− λ)n−21−

(1−λ1−µ

)n−1

1− 1−λ1−µ

= λµ(1− µ)n−1 − (1− λ)(1−λ)n−1

(1− µ)− (1− λ)).

19

Page 21: Cadenas de Markov

(iv) Para n ≥ 2 y k = 1, · · · , n− 2 se tiene

P(Y = k|X + Y = n) =P(Y = k,X + Y = n)

P(X + Y = n)

=λ(1− λ)k−1λ(1− λ)n−k−1

(n− 1)λ2(1− λ)n−2

=1

n− 1.

Lo anterior nos dice que, la distribucion de Y dado que X+Y = n es uniforme en 1, · · · , n−1.

Ejemplo 1.7.6 Sea Y1, Y2, · · · una sucesion de variables aleatorias independientes, todas ellascon distribucion Bernoulli de parametro p y, para cada k ∈ N, definamos

Tk := ınfj ∈ N :

j∑i=1

Yi = k.

Encontrar, para cada n ∈ N, la funcion de probabilidades conjunta de

Z1 := T1, Z2 := T2 − T1, · · · , Zn := Tn − Tn−1.

Solucion: Definamos X0 = 0 y, para cada k ∈ N, Xk =∑k

i=1 Yi, entonces:(i) Si 0 < k1 < k2 < · · · < kn, las variables aleatorias

Xk1 , Xk2 −Xk1 , · · · , Xkn −Xkn−1

son independientes.(ii) Para j < k, las variables aleatorias Xk−Xj tienen distribucion binomial con parametros k− jy p.

Con las observaciones anteriores obtenemos que

P(T1 = y1, T2 − T1 = y2, · · · , Tn − Tn−1 = yn)

= P(T1 = y1, T2 = y1 + y2, · · · , Tn = y1 + · · ·+ yn)

= P(Xy1−1 = 0, Xy1 = 1, Xy1+y2−1 = 1, Xy1+y2 = 2, · · · , Xy1+···+yn−1 = n− 1, Xy1+···+yn = n)

= (1− p)y1−1p(1− p)y2−1p · · · (1− p)yn−1p.

Por lo tanto, T1, T2− T1, · · · , Tn− Tn−1 son variables aleatorias indenpendientes y tienen distribu-cion geometrica con porbabilidad de exito p.

Por ultimo, presentamos la siguente

Definicion 1.7.7 Sea (Xi : i ∈ I) una coleccion de variables aleatorias definidad en un mismoespacio de probabilidad (Ω,F,P), decimos que las variables aleatorias son independientes si: paracualquier subconjunot finito de i

20

Page 22: Cadenas de Markov

1.8. Algunos ejemplos de variables aleatorias conocidas

Discretas

1. Bernoulli. Considere un experimento con dos posibles resultados: exito o fracaso. Sea

X(ω) =

1, si ω = exito,

0, si ω = fracaso.

Supongamos que P(X = 1) = p = 1−P(X = 0), para algun P ∈ (0, 1). Se dice que la variablealeatoria X tiene distribucion de Bernoulli con probabilidad (parametro) de exito p.

2. Binomial. Sea Y1, Y2, · · · , Yn una coleccion de variables aleatorias independientes con dis-tribucion de Bernoulli de parametro p. Definamos X =

∑nk=1 Yk, es decir, X es el numero de

exitos en n ensayos de Bernoulli independientes. Entonces,

P(X = k) =

(n

k

)pk(1− p)n−k, para cada k = 0, 1, · · · , n.

Se dice que X tiene distribucion binomial con parametros n y p. Se denota por X ∼ Bin(n, p).

3. Poisson. Sea X una variable aleatoria tal que

P(X = k) =λk

k!e−λ, para cada k = 0, 1, · · · ,

donde λ > 0. Se dice que X tiene distribucion de Poisson de parametro λ.

La distribucion de Poisson como un lımite: supongamos que Yn ∼ Bin(n, pn), n = 1, 2, · · ·tales que npn → λ > 0. Entonces,

P(Yn = k)→ λk

k!e−λ, k = 0, 1, · · · .

4. Geometrica. Supongamos que realizamos un experimento con dos posibles resultados: exisoo fracaso, donde exito tiene probabilidad p. Realizamos el experimento hasta obtener unexito, cada realizacion del experimento es independiete. Sea X el numero de veces que hayque repetir el experimento para obtener el primer exito. Entonces, X ∈ 1, 2, · · · y

P(X = k) = (1− p)k−1p.

Se dice que X tiene distribucion geometrica de parametro p, X ∼ Geo(p).

En algunos casos se toma Y := X − 1 por lo que

P(Y = k) = p(1− p)k, k = 0, 1, 2, · · · .

21

Page 23: Cadenas de Markov

Continuas

1. Distribucion uniforme. Decimos que X tiene distribucion uniforme en el intervalo [a, b],a, b ∈ R, si X tiene densidad f dada por

f(x) =

1b−a , a ≤ x ≤ b,

0, en otro caso.

La funcion de distribucion correspondiente esta dada por

F (x) =

∫ x

−∞f(y) dy =

0, x ≤ a,x−ab−a a < x < b,

1, x ≥ b.

Usaremos la notacion X ∼ Unif([a, b]).

2. Distribucion exponencial. Sea X una v.a. con funcion de distribucion dada por

F (x) =

0, x < 0,

1− e−λx, x ≥ 0.

Se dice que X tiene distribucion exponencial de parametro o intensidad λ > 0, se donotapor X ∼ Exp(λ). Notemos que

F (x) =

∫ x

−∞λe−λy dy,

es decir, la densidad de X esta dada por

f(x) =

λe−λx, x > 0,

0, en otro caso.

La distribucion exponencial tiene una propiedad sumamente importante en la teorıa de prob-abilidad y procesos estocasticos, ası como tambien desde el punto de vista de la modelacionestadıstica. A saber, para todo s, t ≥ 0 se cumple

P(X > t+ s|X > t) = P(X > s), (1.9)

la propiedad anterior es conocida como propiedad de perdida de memoria5. Vamos a ver quese cumple (1.9). Primero notamos que

P(X > x) =

∫ ∞x

λe−λy dy = e−λx, x ≥ 0.

5La propiedad de perdida de memoria caracteriza a la distribucion exponencial dentro de la clase de distribucionescontinuas.

22

Page 24: Cadenas de Markov

Por lo tanto,

P(X > t+ s|X > t) =P(X > t+ s,X > t)

P(X > t)

=P(X > t+ s)

P(X > t)

=e−λ(t+s)

e−λt

= e−λs

= P(X > s).

Nota 1.8.1 Sea U ∼ Unif(0, 1), entonces para λ > 0 y x > 0, se tiene que

P(−1

λlog(1− U) ≤ x

)= P(1− U ≥ e−λx)

= P(U ≤ 1− e−λx)= 1− e−λx,

es decir, − 1λ

log(1− U) ∼ Exp(λ).

3. Distribucion gama. Sea X una variable aleatoria con funcion de densidad dada por

f(x;λ, α) =

λ

Γ(α)e−λx(λx)α−1, x ≥ 0,

0, en otro caso.

Se dice que X tiene distribucion gama con parametros λ, α > 0.

Nota: la funcion Γ esta definida por

Γ(α) =

∫ ∞0

e−xxα−1 dx.

Verifique que Γ(n) = (n− 1)!.

4. Distribucion normal estandar. Sea φ definida por

φ(x) =1√2πe−

12x2 , x ∈ R.

Entonces, φ es una funcion de densidad. Sea X la v.a. asociada, se dice que X tiene distribu-cion normal estandar. La funcion de distribucion asociada Φ esta dada por

Φ(x) =

∫ x

−∞φ(y) dy, x ∈ R.

La funcion Φ no se puede calcular de manera explıcita. Por lo tanto, metodos numericos ode simulacion de variables aleatorias, son necesarios para conocer aproximaciones de proba-bilidades de interes.

23

Page 25: Cadenas de Markov

Nota 1.8.2 Sean µ ∈ R y σ > 0 constantes dadas. Luego,

P(σX + µ ≤ x) = P(X ≤ x− µσ

)

=

∫ x−µσ

−∞φ(y) dy

=1√

2πσ2

∫ x

−∞e−

(z−µ)2

2σ2 dz.

A la v.a. Y := σX+µ se le conoce como variable aleatoria con distribucion normal con mediaµ y varianza σ2, y se donota por Y ∼ N(µ, σ2). La funcion de densidad de Y esta dada por

φ(x;µ, σ2) =1√

2πσ2e−

(z−µ)2

2σ2 .

Las variables aleatorias continuas tienen la siguientePropiedad. Sea X una variable aleatoria continua. Entonces,

P(X = x) = para todo x ∈ R.

Demostracion: Notemos que x = ∩∞n=1(x− 1n, x]. Luego, como An = (x− 1

n, x] es una sucesion

decreciente se tiene que

P(X = x) = lımn→∞

P(x− 1

n< X ≤ x

)= lım

n→∞

[FX(x)− FX(x− 1

n)

]= 0, dado que F es continua.

1.9. Esperanza de variables aleatorias

Sea X una v.a. discreta y sean x1, x2, · · · sus posibles valores. Se dice que X tiene esperanzafinita si la serie

∑∞n=1 |xi|P(X = x) es convergente y, en este caso, se define la esperanza de X,

E(X), por

E(X) =∞∑n=1

xnP(X = xn).

Si X es una variable aleatoria continua con funcion de densidad f se define la esperanza de Xcomo

E(X) =

∫ ∞−∞

xf(x) dx,

siempre que la integral del lado derecho este bien definida.

24

Page 26: Cadenas de Markov

Observacion 1.9.1 Notese que, directamente de la definicion esperanza, se desprende que si Xes una variable aleatoria no nogativa, entonces E(X) ≥ 0.

Proposicion 1.9.2 Sea X una v.a. discreta que toma unicamente valores enteros, entonces

∑x:x>0

xfX(x) =∞∑n=1

P(X ≥ n),

y ∑x:x<0

|x|fX(x) =∞∑n=1

P(X ≤ −n).

Demostracion: Solo vamos a demostrar la primera identidad, la segunda es analoga.

∑x:x>0

xfX(x) = P(X = 1) + 2P(X = 2) + 3P(X = 3) + · · ·

= P(X = 1) + P(X = 2) + P(X = 3) + · · ·+P(X = 2) + P(X = 3) + · · ·+P(X = 3) + · · ·...

=∞∑n=1

P(X ≥ n).

Ejemplo 1.9.3 Sea X ∼ Geo(p). Entonces, aplicando la proposicion anterior tenemos

E(X) =∞∑n=1

P(X ≥ n) =∞∑n=1

(1− p)n−1 =1

p.

Cuando se usa Y = X − 1 se tiene que E(Y ) = 1−pp

.

Hemos visto anteriormente que si X es una variable aleatoria y g es una funcion real-valuada ymedible, entonces g(X) tambien es variable aleatoria. La siguiente proposicion nos permite calcularesperanzas de funciones de variables aleatorias.

Proposicion 1.9.4 Sea X una variable aleatoria discreta y g : R→ R. Entonces,

E(g(X)) =∑x

g(x)fX(x).

25

Page 27: Cadenas de Markov

Demostracion: Sabemos que g(X) toma los valores

g(x1), g(x2), · · · ,

con probabilidadesfX(x1), fX(x2), · · · ,

respectivamente. Por lo tanto, por definicion de esperanza se sigue que, siempre que∑x

|g(x)|fX(x) <∞,

se tiene que

E(g(X)) =∑x

g(x)fX(x).

Proposicion 1.9.5 (Linealidad) Sean X e Y variables aleatorias y a, b ∈ R. Entonces,

E(aX + bY ) = aE(X) + bE(Y ),

siempre que ambos lados esten bien definidos.

Demostracion: Vamos a demostrar el caso cuando el vector (X, Y ) es discreto. Sea fX,Y la funcionde probabilidades conjunta de X e Y . Entonces, por definicion se tiene que

E(aX + bY ) =∑x

∑y

(ax+ by)fX,Y (x, y)

=∑x

∑y

axfX,Y (x, y) +∑x

∑y

byfX,Y (x, y)

= a∑x

x

(∑y

fX,Y (x, y)

)+ b∑y

y

(∑x

fX,Y (x, y)

)= aE(X) + bE(Y ).

Observacion 1.9.6 Si (X, Y ) es un vector aleatorio con funcion de probabilidades conjunta fX,Yy g : R2 → R tal que g(X, Y ) resulta ser una variable aleatoria. Entonces,

Eg(X, Y ) =∑x,y

g(x, y)fX,Y (x, y),

siempre que la suma sea absolutamente convergente. La prueba sigue las mismas lıneas que lademostracion de la proposicion anterior.

Definicion 1.9.7 El momento (i, j) (i, j ∈ N) de las variables aleatorias X e Y esta definido por

E(X iY j).

Los momentos centrados (alrededor de la media) (i, j) se definen por

σij := E[(X − E(X))i(Y − E(Y ))j].

26

Page 28: Cadenas de Markov

Observacion 1.9.8 σ11 es conocido como la covarianza entre X e Y , y generalmente se denotacomo, Cov(X, Y ) ≡ σ11. La covarianza es un concepto fundamental en la Teorıa Estadıstica.

La varianza de X, Var(X), se define por Var(X) := Cov(X,X).

Omitimos la prueba del siguiente teorema, ya que sigue las mismas ideas que demostracion dela proposicion anterior.

Teorema 1.9.9 Sean X e Y variables aleatorias y a, b, c, d numeros reales. Entonces,

Cov(aX + b, cY + d) = acCov(X, Y ),

yVar(X + Y ) = Var(X) + Var(Y )− 2Cov(X, Y ).

El estudio de los momentos centrados (o centrales) de las variables aleatorias X e Y describecomo la variaciones (alrededor de la media) de X influyen en las variaciones de Y , y viceversa. Porlo tanto, al menos de manera intuitiva, se debe tener que si X e Y son independientes entonceslas variaciones de X no deben tener influencia sobre las variaciones de Y , y viceversa.

Teorema 1.9.10 Sean X e Y variables aleatorias tales que su esperanza esta bien definida y esfinita. Entonces, E(XY ) existe y es finita. Ademas, E(XY ) = E(X)E(Y ). Mas aun, Cov(X, Y ) =0.

Demostracion: Supongamos que X e Y son discretas. Entonces,∑x

∑y

|xy|fX,Y (x, y) =∑x

∑y

|x||y|fX(x)fY (y)

=

(∑x

xfX(x)

)(∑y

yfY (y)

)= E(X)E(Y ).

Por lo tanto, E(XY ) existe y es finita. Ademas, de los calculos anteriores se sigue que E(XY ) =E(X)E(Y ).

1.10. Suma de variables aleatorias

En la teorıa de probababilidad y procesos estocasticos es muy comun que aperezca la sumade variables aleatorias. El objetivo de esta seccion es estudiar la suma de variables aleatoriasindependientes.

Sean X e Y variables aleatorias discretas e independientes, y definamos Z = X + Y . Nuestroobjetivo es encontrar la distribucion de Z. Notemos que Z es de nuevo una variable aleatoriadiscreta. Entonces, para cada z perteneciente al rango de Z se tiene que

27

Page 29: Cadenas de Markov

P(Z = z) = P(X + Y = z)

=∑x

P(X + Y = z,X = x)

=∑x

P(Y = z − x,X = x)

=∑x

P(Y = z − x)P(X = x).

De la ultima relacion tenemos que si X e Y tienen funcion de probabilidades fX y fY , respecti-vamete. Entonces, si fZ denota la funcion de probabilidades de Z, se concluye que

fZ(z) =∑x

fY (z − x)fX(x) =∑y

fX(x)fY (z − y).

La variable aleatoria Z es llamada convolucion de X con Y . La siguiente notacion es estandar enla teorıa de probabilidad

fZ(x) = (fX ? fY )(z).

Un caso muy recurrente en la teorıa es cuando X e Y son no-negativas, y en este caso la funcionde distrubucion de Z, denotada por FZ , se puede escribir como

FZ(z) =z∑

x=0

FY (z − x)fX(x),

donde FY denota la funcion de distribucion de Y .

Ejemplo 1.10.1 Sean X e Y dos variables aleatorias independientes con distrubucion de Poissoncon parametros λ1 y λ2, respectivamente. Encuentre funcion de probabilidades de la convolucionde X con Y .Solucion: Notemos que Z toma valores en 0, 1, 2, · · · . Luego, para cada z ∈ 0, 1, 2, · · · tenemosque

fZ(z) =∑x

fY (z − x)fX(x)

=z∑

x=0

λz−x2

(z − x)!e−λ2

λx1x!e−λ1

=e−(λ1+λ2)

z!

z∑x=0

z!

(z − x)!x!λx1λ

z−x2

=(λ1 + λ2)z

z!e−(λ1+λ2),

donde en la ultima igualdad usamos el Teorema del binomio. Por lo tanto, Z tiene distrubucionde Poisson con parametro λ1 + λ2.

28

Page 30: Cadenas de Markov

Suma Poisson compuesta: sea

SN =N∑i=1

Xi,

donde N es una variable aleatoria con distribucion Poisson de parametro λ, y (Xi) es una sucesionde variables aleatorias independientes con distribucion comun F . A SN se le conoce como variablealeatoria Poisson compuesta. Esta aparece mucho en Teorıa de Riesgo. Supongamos que X tienedistribucion F y que es independiente de N y de la sucesion (Xi).

Proposicion 1.10.2 Sea h una funcion real-valuada. Entonces,

E(SNh(SN)) = λE(Xh(SN +X).

Demostracion: Notemos que, por la Ley de Probabilidad Total,

λE(Xh(SN +X)) = λ∞∑n=0

E(Xh(SN +X)|N = n)P(N = n)

= λ∞∑n=0

E(Xh(Sn +X))λne−λ

n!(por independencia)

=∞∑n=0

E(Xn+1h(Sn+1))λn+1e−λ

n!, (1.10)

la igualdad anterior es gracias a que X,X1, · · · , Xn tienen la misma distribucion conjunta queX1, · · · , Xn. Ahora bien, dado que Xi’s son indendientes y tiene la misma distribucion, se obtieneque para cada j ≤ n+ 1

E(Xn+1h(Sn+1)) = E(Xjh(Sn+1)).

Luego, sumando sobre 1 ≤ j ≤ n+ 1

(n+ 1)E(Xn+1h(Sn+1) =n+1∑j=1

E(Xjh(Sn+1)) = E(Sn+1h(Sn+1).

Por lo tanto, sustituyendo lo anterior en la ecuacion (1.10) tenemos que

λE(Xh(SN +X)) =∞∑n=0

E(Sn+1h(Sn+1))λn+1e−λ

(n+ 1)!

=∞∑n=1

E(Snh(Sn))λne−λ

n!

=∞∑n=0

E(Snh(Sn))λne−λ

n!(SN = 0, si N = 0)

= E(SNh(SN)).

29

Page 31: Cadenas de Markov

1.11. Ejercicios

1. Sean A, B y C eventos. Suponga que A y B son independientes, y que B y C tambien sonindependientes. En cada una de las siguientes preguntas justifique su respuesta:a) ¿En general, son A y C independientes?b) ¿Es B independiente de A ∪ C ?c) ¿Es B independiente de A ∩ C?

2. Demuestre queP(A ∩B) ≥ p(A) + P(B)− 1,

la desigualdad anterior es conocida como desigualdad de Bonferroni. Generalice dicha de-sigualdad para el caso de n eventos, donde n ≥ 2.

3. Sea B un evento tal que P(B) > 0. Demuestre que P : F→ [0, 1], definida por

P (A) = P (A|B)

en una medida de probabilidad sobre (Ω,F).

4. Sean A1, · · · , An eventos arbitrarios. Pruebe que P(∪nk=1Ak) ≥ 1−∑n

k=1 P(Ak).

5. Sea An una sucesion de eventos tales que An+1 ⊂ An, para cada n. Demuestre que

P(∩∞n=1An) = lımn→∞

P(An).

6. a) Demuestre la identidad dada en (1.2).b) Dar la identidad correspondiente para el caso de la union de n eventos. Justifique surepuesta.

7. Construir un ejemplo para mostrar que independencia dos a dos no implica independencia.

8. Sea Ω = 1, 2, · · · , p donde p es un numero primo, sea F la σ-algebra de todos los subcon-juntos de Ω, y P(A) = |A|/p, A ∈ F. Demuestre que si A,B ∈ F son independientes entoncesal menos un evento es Ω o ∅.

9. Sea (Bk)nk=1 una particion de Ω, i.e., los B’s son disjuntos por pares y Ω = ∪nk=1Bk. Suponga

ademas que para cada k, P(Bk) > 0. Demuestre que, para cada A ∈ F,

P(A) =n∑k=1

P(A|Bk)P(Bk).

Demuestre el analogo para una particion infinita contable.

10. Pruebe que para cualquiera dos eventos, A y B, con P(A) > 0 se cumple que

P(B|A) ≥ 1− P(Bc)

P(A).

30

Page 32: Cadenas de Markov

11. Demuestre que si A y B son eventos independientes tales que A ⊂ B y P(A) > 0, entoncesP(B) = 1.

12. Sean A, B yC eventos independientes dos a dos, cada uno con probabilidad p. Suponga queP(A ∩ B ∩ C) = 0. Encuentre el valor de p tal que el evento A ∪ B ∪ C tenga la maximaprobabilidad.

13. En el ejemplo 1.4.6 demuestre la expresion para P(B) y la parte b).

14. Un dado se lanza N veces, donde N es un numero aleatorio. Sea Ai el evento N = i, ysuponga que P(Ai) = 2−i, i ≥ 1. Sea S la suma de los resultados en las caras de los dados.Encuentre las siguientes probabilidades:a) N = 2 dado que S = 4.b) S = 4 dado que N es par.c) N = 2, dado que S = 4 y el primer dado mostro 1.d) El numero mayor en las caras es r, donde S es desconocida.

15. (i) Verique que, para cada σ > 0,

F (x) =

1− e−x2/(2σ2), x ≥ 0,

0, en otro caso,

es una funcion de distribucion.(ii) Encuentre la funcion de densidad correspondiente a F y P(0 ≤ X ≤ σ), donde X tienefuncion de distribucion F . F es conocida como distribucion de Rayleigh.

16. Suponga que el numero de carros que cruzan por la caseta de peaje de Guanajuato duranteun perıodo fijo de tiempo es una variable aleatoria con distribucion de Poisson. Sea 0 < p < 1la probabilidad de que ningun carro cruce la caseta en este perıodo, encuentre una expresionpara la probabilidad de que al menos dos carros la crucen.

17. Sean X y Y variables aleatorias con funcion de densidad de probabilidades conjunta

fX,Y (x, y) =C

(x+ y − 1)(x+ y)(x+ y + 1), x, y = 1, 2, . . . .

(i) Calcule la constante C.(ii) Encuentre la funcion de probabilidades de U = X + Y y V = X − Y .

18. Sean X e Y variables aleatorias discretas que toman valores en los enteros. Demuestre quepara cada par de enteros x e y se cumple

P(X = x, Y = y) = P(X ≥ x, Y ≤ y)− P(X ≥ x+ 1, Y ≤ y)

−P(X ≥ x, Y ≤ y − 1) + P(X ≥ x+ 1, Y ≤ y − 1).

19. Considere el experimento de lanzar un dado r veces. Sea X el mınimo de los numeros queaparece en los r lanzamientos y sea Y el maximo. Encuentre la funcion de probabilidadesdel vector (X, Y ).

31

Page 33: Cadenas de Markov

20. Consideremos el experimento aleatorio de lanzar 10 veces un par de dados y definamos Xcomo el numero de veces que no se obtiene un 5 en ninguno de los dos dados y Y comoel numero de veces en que se obtiene 5 en los dos dados. Encuentre la funcion de densidadconjunta de X y Y .

21. Sea (X, Y ) un vector aleatorio discreto con funcion de densidad conjunta dada por

fX,Y (x, y) =

cx, si x, y ∈ 1, . . . , N2, x ≤ y2,

0, en otro caso,

donde N es un numero natural y c es una constante.a) Determine la constante c.b) Encuentre P(X = Y ), P(X < Y ) y P(X > Y ).c) Encuentre las densidades marginales de X y Y .

22. Sean X y Y variables aleatorias independientes tales que

P(X = k) = P(Y = k) = 2−k, k = 1, 2, · · · .

Encuentre P(X = Y ) y P(Y > X).

23. Sea (N1, . . . , Nr) un vector aleatorio con distribucion multinomial de parametros n, p1, . . . , pr.Demuestre que, dada cualquier subcoleccion Ni1 , . . . , Nis , tomada de entre las variablesaleatorias N1, . . . , Nr, el vector aleatorio (Ni1 , . . . , Nis , n−

∑sj=1 Nij) tiene distribucion multi-

nomial con parametros n, pi1 , . . . , pis , 1−∑s

j=1 pij .

24. Considere la funcion

fθ(i, j) =

θi+j+1, i, j = 0, 1, · · ·0 en otro caso.

¿Para que valores de θ se tiene que f es una funcion de probabilidades conjunta? ¿Existealgun valor de θ tal que las variables aleatorias asociadas son independientes?

25. Suponga que (X, Y ) es un vector aleatorio con funcion de probabilidades conjunta dada por

P(X = i, Y = j) = e−(a+bi) (bi)j

j!

ai

i!, i, j ≥ 0.

Encuentre Cov(X, Y ).

26. Considere n ensayos de Bernoulli independientes con probabilidad de exito p. Sean X e Y elnumero de exitos y fracasos, respectivamente. Encuentre la distribucion conjunta del vector(X, Y ). ¿Que observa?

27. Sea X una variable aleatoria con distribucion de Laplace, es decir, X tiene funcion de den-sidad dada por

f(x) =1

2be−|x−a|/b,

donde b > 0 y a ∈ R son constantes. Verifique que f es una funcion de densidad. EncuentreE(X) y Var(X).

32

Page 34: Cadenas de Markov

28. Cada una de N partıculas se coloca al azar en una de M celdas. Supongamos que N tienedistribucion de Poisson con parametro λ y, para cada k ∈ 1, . . . ,M, sea Xk en numerode partıculas en la urna k. Demuestre que las variables aleatorias X1, . . . , XM son variablesaleatorias independientes y que cada una de ellas tiene distribucion Poisson.

29. SeaX y Y variables aleatorias independientes, ambas con distribucion uniforme en 1, . . . , N,N ∈ N. Encuentre la esperanza de U = mınX, Y y V = |Y −X|.

30. Sean X y Y variables aleatorias independientes con distribucion geometrica de parametro p.Defina U = mınX, Y y V = X − Y . Demuestre que U y V son independientes.

31. Dada una variable aleatoria con valores en los enteros no negativos se define el momentofactorial de orden k, µ(k), por

µ(k) = E[X(X − 1) · · · (X − k + 1)].

(i) Encuentre el momento factorial de orden 2 de una variable aleatoria X con distribucionPoisson de parametro λ > 0. Deduzca que Var(X) = λ.(ii) Sea X una variable aleatoria con distribucion binomial de parametros n y p. EncuentreE(X(X − 1)) y Var(X).

32. Sea X una variable aleatoria arbitraria. Demuestre que

∞∑i=1

P(|X| ≥ n) ≤ E(|X|) ≤ 1 +∞∑i=1

P(|X| ≥ n).

33. Considere la suma Poisson compuesta definida en clase. Suponga que X tiene funcion dedistribucion F . Demuestre que para cualquier entero positivo n se cumple

E(Sn) = λn−1∑j=0

(n− 1

j

)E(Sj)E(Xn−j).

33