CURSO INTRODUCTORIO DE PROBABILIDAD -...

76
CURSO INTRODUCTORIO DE PROBABILIDAD Ra´ ul Jim´ enez y Hayd´ ee Lugo Universidad Carlos III de Madrid Septiembre 2009

Transcript of CURSO INTRODUCTORIO DE PROBABILIDAD -...

Page 1: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

CURSO INTRODUCTORIO DEPROBABILIDAD

Raul Jimenez y Haydee Lugo

Universidad Carlos III de Madrid

Septiembre 2009

Page 2: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

2

Page 3: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

Indice general

Prefacio 5

1. Conceptos basicos 71.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . . 71.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 101.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.4. Espacios equiprobables . . . . . . . . . . . . . . . . . . . . . . . 151.5. Problemario I . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2. Variables aleatorias discretas 232.1. Definicion y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . 232.2. Vectores aleatorios discretos . . . . . . . . . . . . . . . . . . . . 272.3. Independencia de variables aleatorias discretas . . . . . . . . . . . 292.4. Funciones de vectores aleatorios . . . . . . . . . . . . . . . . . . 312.5. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.6. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . 352.7. Problemario II . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3. Variables aleatorias continuas 413.1. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . 423.2. Esperanza y funciones de variables aleatorias . . . . . . . . . . . 463.3. Densidad conjunta y densidades marginales . . . . . . . . . . . . 473.4. Independencia de v.a. continuas . . . . . . . . . . . . . . . . . . 483.5. Cambio de variable y aplicaciones . . . . . . . . . . . . . . . . . 503.6. Propiedades de la esperanza . . . . . . . . . . . . . . . . . . . . 513.7. Densidad y esperanza condicional . . . . . . . . . . . . . . . . . 523.8. Extremos y sumas de variables independientes . . . . . . . . . . . 553.9. Problemario III . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3

Page 4: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

4 INDICE GENERAL

4. Convergencia y funciones generatrices 634.1. Desigualdad de Chebyshev y Ley de Grandes Numeros . . . . . . 634.2. Funcion generatriz de momentos . . . . . . . . . . . . . . . . . . 664.3. Funcion caracterıstica . . . . . . . . . . . . . . . . . . . . . . . . 704.4. Convergencia en distribucion y Teorema Central del Lımite . . . . 714.5. Problemario IV . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Page 5: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

Prefacio

Estas notas no pretenden sustituir los excelentes libros de introduccion a laprobabilidad que he usado para ensenar a estudiantes de ingenierıa y matematicasde la Universidad Simon Bolıvar y a estudiantes de estadıstica e ingenierıa de laUniversidad Carlos III de Madrid. Ha sido un verdadero placer basar mis leccionesen los libros de Grimmett y Welsh1 y Durrett2. Estos libros son totalmente auto-contenidos y un buen estudiante podrıa prescindir de un profesor para aprenderlo que necesite. La intencion de estas notas es distinta. Por un lado, proponen unesquema eficiente para un curso de un trimestre o un cuatrimestre para estudiantesque ya manejen el calculo en varias variables. Por otro, ofrecen al estudiante y alprofesor una tabla de contenido ampliada que sirve de guıa para un curso sin quesustituya el material que se va a discutir en el pizarron de clase o el que se debeleer en los libros de referencia.

Las notas estan organizadas en cuatro capıtulos, cada uno puede cubrirse apro-ximadamente en tres semanas de clases, con dos sesiones por semana (incluyendosesiones de practicas). Si el curso es de un trimestre (12 semanas) las secciones4.2 y 4.3 deberıan omitirse y emplear el tiempo que se les hubiera dedicado paraevaluaciones y pequenos repasos. Si el curso es de un cuatrimestre (14 semanas)se puede cubrir todo el contenido. Mi recomendacion es hacer una evaluacionrapida (quiz) al finalizar el Captulo 1 y dos examenes, uno sobre los dos prime-ros capıtulos y otro sobre los dos ultimos. La experiencia me ha demostrado queseparar el tema discreto del continuo ayuda al desarrollo y evaluacion del curso.

Los conceptos y resultados mas importantes estan resaltados en negro en eltexto, en forma de formulas numeradas o incluıdos en definiciones y teoremas (ge-neralmente con nombres) o en proposiciones numeradas. Las demostraciones noestan necesariamente incluıdas, aunque muchas se incluyen por o bien considerarque ayudan al discurso de las notas o bien por que la version que aquı se ensenaes mejor que la estandar en este tipo de cursos. La idea es que las notas sean un

5

Page 6: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

6 INDICE GENERAL

material ligero y manipulable, ası que se requiere que el profesor demuestre y queel estudiante complete lo que hagan falta.

Me comprometo con los lectores en ir llenando poco a poco las notas con laintencion de hacerlas aun mas autocontenidas, sin que esto modifique la intecionoriginal que tienen. En particular, espero pronto ofrecer soluciones y actualizacio-nes de algunos ejercicios propuestos ası como ampliar la gama de ejemplos. Mipremura en ofrecer esta vesion beta es para remplazar unas notas excesivamenterudimentarias e incompletas que yo usaba para mis clases y que se han ido repro-duciendo espontaneamente por algunos estudiantes. Estas notas tienen los tıpicoserrores de cut and paste que siempre corregıa al pizarron y me averguenza quesigan circulando por ahı con mi nombre. Las actualizaciones de las notas puedenobtenerse en forma libre en mi pagina web www.est.uc3m.es/rjjimene

Raul JimenezMadrid, 2009

Referencias

1. Grimmett, G. y D. J. A. Welsh. Probability: An introduction. Oxford Uni-versity Press, Oxford (la primera impresion es de 1986 y existen diversanreimpresiones con correcciones desde entonces hasta la del 2003).

2. Durrett R. Essentials of Probability. Duxbury Press, Belmont CA (1993,ahora fuera de prensa para ser reemplazado por Elementary Probability forApplications, versiones PDF se pueden encontrar en la pagina del autorhttp://www.math.cornell.edu/ durrett)

Page 7: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

Capıtulo 1

Conceptos basicos

Muchos de los eventos que estamos acostumbrados a observar no pueden serpredeterminados. Por ejemplo, ¿cuanto variara el euro respecto al dolar de hoya una semana?, ¿cuanto llovera durante el proximo mes?. El escenario dispuestopara observar lo que esta por ocurrir se denomina experimento aleatorio. Losjuegos de azar nos brindan ejemplos clasicos de experimentos aleatorios. Aunquelos objetos que estudiemos con la teorıa de probabilidades esten siempre aso-ciados a un determinado experimento aleatorio, los presentamos en un contextomatematico muy general y util para la modelacion de cualquier escenario.

1.1. Espacios de probabilidadEl conjunto de todos los posibles resultados de un experimento aleatorio es

llamado espacio muestral y comunmente denotado por la letra Ω. Otros conjun-tos de interes de posibles resultados son llamados eventos y denotados por letrasmayusculas, generalmente las primeras del abecedario.

A lo largo de estas notas se hace uso intensivo de operaciones con conjuntos,es por ello que conviene recordar algunos conceptos basicos, tales como:

Conjunto vacıo.

Conjunto numerable, infinito numerable y no numerable.

Union, interseccion y diferencia de conjuntos.

Complemento y particion de un conjunto.

7

Page 8: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

8 CAPITULO 1. CONCEPTOS BASICOS

Diagramas de Venn.

Leyes distributivas y leyes de Morgan.

Dado un experimento aleatorio, la clase F de todos los eventos o conjuntos deinteres debe tener ciertas propiedades (razonables):

(I) El espacio muestral es un conjunto de interes,

Ω ∈ F .

(II) Si un conjunto es de interes su complemento tambien lo es,

si A ∈ F entonces Ac ∈ F .

(III) La union de una coleccion contable de eventos es un evento de interes,

si A1,A2, . . . son eventos de F entonces∪n≥1 An ∈ F .

Una clase de eventos que satisface las tres propiedades anteriores se denominaσ-algebra. Es facil comprobar que si F es una σ-algebra entonces cumple pro-piedades tales como:

(I’) /0 ∈ F .

(II’) Si A,B ∈ F entonces A−B ∈ F .

(III’) Si A1,A2, . . . son eventos de F entonces∩n≥1 An ∈ F .

Aun mas general, se puede demostrar que F es cerrada bajo operacionesnumerables de conjuntos.

Uno de nuestros objetivos es medir el chance de que eventos asociados a unexperimento aleatorio ocurran: ¿cual es el chance de que llueva mas este otonoque el pasado?, ¿cual es el chance de que el euro retroceda ante el dolar?, ¿cual esel chance de ganar un juego de poker?.

Una medida de probabilidad es una funcion que asigna a cada evento elchance o probabilidad que tiene de ocurrir al observar un experimento aleatorio.Si asignamos a los eventos que no tienen chance de ocurrir probabilidad 0 y a loseventos que tienen chance seguro de ocurrir probabilidad 1, entonces una medida

Page 9: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

1.1. ESPACIOS DE PROBABILIDAD 9

de probabilidad es una funcion P : F → [0,1] que debe satisfacer las siguientespropiedades:

P(Ω) = 1, (1.1)

Si A1,A2, . . . son eventos disjuntos de F , es decir si Ai∩A j = /0 para todo i 6= j,entonces

P(∪n≥1An) = ∑n≥1

P(An) (1.2)

Esta ultima propiedad es conocida como σ-aditividad y es natural exigırsela acasi cualquier medida: area, volumen, etc. La idea subyacente es que toda medidadebe permitir medir por partes.

A partir de (1.1) y (1.2) las siguientes propiedades de las medidas de probabi-lidad pueden (y deben) ser demostradas todas de manera directa:

P1. P( /0) = 0

P2. Aditividad: Si A1,A2, . . . ,An son eventos disjuntos, entonces

P(∪ni=1Ai) =

n

∑i=1

P(Ai)

P3. P(Ac) = 1−P(A)

P4. P(B−A) = P(B)−P(B∩A)

P5. Si A⊂ B entonces P(B−A) = P(B)−P(A)

P6. Monotonıa: Si A⊂ B entonces P(A)≤ P(B)

P7. P(A∪B) = P(A)+P(B)−P(A∩B)

P8. Subaditividad: P(∪n≥1An)≤ ∑ni=1 P(Ai)

Otras propiedades que se demuestran con un poco mas de trabajo (el profesorpuede escoger un par de ellas, recomendamos P10 y P11) son:

Page 10: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

10 CAPITULO 1. CONCEPTOS BASICOS

P9. Formula de inclusion exclusion:

P(∪ni=1Ai) =

n

∑i=1

P(Ai)−n

∑i< j

P(Ai∩A j)

+n

∑i< j<k

P(Ai∩A j∩Ak)

−·· ·+(−1)n+1P(∩ni=1Ai)

Note que el caso n = 2 corresponde a P7. El caso n = 3 se requiere pararesolver varios ejercicios.

P10. σ-subaditividad: Para cualquier sucesion de eventos, no necesariamente dis-juntos,

P(∪n≥1An)≤ ∑n≥1

P(An)

P11. Continuidad por la izquierda: Si A1,A2, . . . es una sucesion creciente deeventos, es decir, para cualquier n se verifica que An ⊂ An+1, entonces

P(∪n≥1An) = lımn

P(An)

P12. Continuidad por la derecha: Si A1,A2, . . . es una sucesion decreciente deeventos, es decir, para cualquier n se verifica que An+1 ⊂ An, entonces

P(∩n≥1An) = lımn

P(An)

Dado un espacio muestral Ω, una σ-algebra F de subconjuntos de Ω y unamedida de probabilidad P : F → [0,1], la terna (Ω,F ,P) es llamada espacio deprobabilidad.

1.2. Probabilidad condicionalInformacion adicional, no contemplada, de un experimento puede modificar

el escenario de tal forma que la probabilidad que le hayamos dado a un eventopuede variar. Por ejemplo, la probabilidad que le hayamos dado a que el euro serevalorizara frente al dolar durante la proxima semana cambiara si sabemos queacaba de ocurrir una caıda importante en Wall Street. En general, consideremos

Page 11: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

1.2. PROBABILIDAD CONDICIONAL 11

que A y B son eventos que ocurren con probabilidad P(A) y P(B). Si sabemosque B ha ocurrido la probabilidad de que A ocurra no tiene por que seguir siendoP(A), ya que A ocurrira sı y solo sı A∩B ocurre. Lo anterior sugiere que, dadoque B ocurre, la probabilidad de A es proporcional a P(A∩B). Ya que, dado que Bocurre, B en un evento seguro, la constante de proporcionalidad a la que hacemosreferencia debe ser 1/P(B). La siguiente definicion pone orden al trabalenguasanterior.

Definicion (Probabilidad Condicional). Sean A, B eventos con P(B) > 0, en-tonces la probabilidad condicional de A dado B se denota por P(A|B) y se definepor

P(A|B) =P(A∩B)

P(B).

Para cada evento A, P(A|B) es un numero positivo, es decir, la probabilidad con-dicional establece un correspondencia entre los eventos y los numeros reales po-sitivos. Mas especıficamente, la probabilidad condicional es una medida de pro-babilidad.

Proposicion 1. Sea B un evento con P(B) > 0, entonces

(i) Para todo evento A, 0≤ P(A|B)≤ 1

(ii) P(Ω|B) = 1

(iii) Si A1,A2, . . . son eventos disjuntos entonces

P(∪n≥1An|B) = ∑n≥1

P(An|B)

Por la proposicion anterior, todas las propiedades que satisfacen las medidasprobabilidad tambien las satisface la probabilidad condicional. Por ejemplo, laprobabilidad condicional es monotona, subaditiva, continua por la derecha y porla izquierda.

La probabilidad condicional brinda una importante formula para el calculo deprobabilidades, cuando se tiene una particion apropiada del espacio muestral. Unaparticion de un conjunto A es una sucesion de eventos disjuntos B1,B2, . . . cuyaunion sea A.

Page 12: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

12 CAPITULO 1. CONCEPTOS BASICOS

Formula de probabilidad total. Sea B1,B2, . . . una particion del espacio mues-tral, Supongamos que P(Bi) > 0 para i≥ 1. Entonces, para cualquier evento A,

P(A) = ∑i≥1

P(A|Bi)P(Bi). (1.3)

La aplicacion de esta formula se basa en la apropiada escogencia de la particion,de manera que P(A|Bi) sea sencillo de calcular. Comunmente esta formula sim-plifica engorrosos calculos.

Ejemplo. Se tienen dos cajas. La primera tiene b1 bolas blancas y r1 rojas. Lasegunda caja tiene b2 bolas blancas y r2 rojas. Si se pasa una bola al azar de laprimera caja a la segunda y luego se extrae un bola al azar de la segunda caja, usela formula de probabilidad total para calcular la probabilidad de extraer una bolablanca de la segunda caja.

Son comunes las situaciones en las que se tiene conocimiento preciso, o almenos informacion estadıstica, acerca de P(A|B) cuando en realidad se requiereconocer P(B|A). La siguiente es una sencilla y poderosa formula, que relacionaambas probabilidades.

Formula de Bayes. Sean A y B eventos con probabilidad no nula, entonces

P(B|A) =P(A|B)P(B)

P(A)(1.4)

Ejemplo. Continuando con el ejemplo anterior, use la formula de Bayes para cal-cular la probabilidad de haber pasado una bola roja de la primera caja a la segundacaja cuando la que se extrajo de la segunda caja fue blanca.

Otra formula de mucha utilidad para calculo de probabilidades, cuando se con-sideran experimentos secuenciales que son modelados a traves de arboles dedecision, es la llamada formula de multiplicacion:

Formula de multiplicacion. Sean A1,A2, . . . ,An eventos con probabilidad no nu-la. Entonces, para n≥ 2,

P(∩ni=1Ai) = P(A1)P(A2|A1) · · ·P(An|∩n−1

i=1 Ai) (1.5)

Page 13: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

1.3. INDEPENDENCIA 13

1.3. IndependenciaLa nocion de independencia en teorıa de probabilidades esta tomada de su

significado cotidiano. En general, decimos que un par es independiente cuando elresultado de las acciones de uno no afecta en el resultado las acciones del otro.En terminos probabilısticos, diremos que dos eventos son independientes si laocurrencia de uno de ellos no afecta la probabilidad de ocurrecia del otro. Esdecir, A es independiente de B si

P(A|B) = P(A)

Para que la ecuacion anterior este bien definida, es necesario que P(B) > 0, encuyo caso, podemos reescribir la ecuacion como

P(A∩B) = P(A)P(B)

De esta ultima ecuacion podemos observar que:

La independencia es recıproca, esto es, si A es independiente de B entoncesB es independiente de A.

La condicion P(B) o P(A) > 0 no es requerida.

Ahora estamos en capacidad de definir formalmente la independencia e interpre-tarla.

Independencia de dos eventos. Decimos que el par de eventos A, B son indepen-dientes respecto a P si

P(A∩B) = P(A)P(B) (1.6)

¿Como generalizar la nocion de independencia de una par de eventos a unafamilia?. Pues igual que en el sentido cotidiano: Para que una familia sea inde-pendiente cualquier subgrupo debe serlo, no basta que sean independientes porpares o que lo sea un subgrupo en particular.

Independencia de una Familia de Eventos. Decimos que la familia de eventosAi, i ∈ I es independiente si para cualquier J ⊂ I

P(∩i∈JAi) = Πi∈JP(Ai) (1.7)

Ejemplo. Considere Ω = 1,2,3,4 y P(ω) = 1/4 para todo ω ∈Ω. Sean A =1,2, B = 1,3 y C = 1,4. Note que la probabilidad de cada uno de estos

Page 14: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

14 CAPITULO 1. CONCEPTOS BASICOS

eventos es 1/2 y por tanto cada par de eventos son independientes. Por ejemplo, Ay B son independientes ya que

P(A∩B) = 1/4 = P(A)P(B).

Sin embargo, P(A∩B∩C) = 1/4 6= P(A)P(B)P(C), y por tanto A,B y C no sonindependientes.

Para determinar la no independencia (dependencia) de una familia de eventosbasta verificar que la ecuacion (1.7) no se cumple para un subgrupo particular (pa-ra algun J). Sin embargo, la independencia de una coleccion de eventos puede seruna propiedad dura de comprobar. Por ejemplo, para verificar por definicion la in-dependencia de apenas 10 eventos habrıa que verificar mas de 1000 ecuaciones!.Afortunadamente, consideraremos muchos casos en que la independencia de unafamilia de eventos es una consecuencia directa de la manera en que son obser-vados. El caso que queremos destacar trata de eventos asociados a repeticionesindependientes de experimentos aleatorios, tales como lanzamientos sucesivosde un dado o una moneda. Si se tienen n experimentos independientes, en el senti-do de que los resultados de unos no afectan los resultados de los otros, y A1,A2, . . .son eventos asociados al primer experimento, al segundo, etc., entonces A1,A2, . . .son independientes.

Los siguientes dos resultados conciernen con sucesiones de eventos asociadosa experimentos independientes.

Proposicion 2. Si A es un evento con probabilidad no nula de que ocurra aso-ciado a un experimento. Si repetimos el experimento infinitas veces, entonces Aocurre alguna vez con probabilidad 1.

Para demostrar este resultado aplicamos varias propiedades que hemos apren-dido. Llamando An el evento A ocurre en el nesimo experimento y p = P(An),usando P2, las leyes de Morgan, P12 y la independencia de A1,A2 . . . ,Am, obtene-mos

P(A ocurre alguna vez) = P(∪n≥1An)= 1−P([∪n≥1An]

c)= 1−P(∩n≥1Ac

n)= 1− lım

m→∞P(∩m

n≥1Acn)

= 1− lımm→∞

(1− p)m = 1

Page 15: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

1.4. ESPACIOS EQUIPROBABLES 15

Proposicion 3. Sean A y B son eventos mutuamente excluyentes, asociados a unexperimento con probabilidad no nula de que ocurran. Entonces, si repetimos elexperimento infinitas veces, A ocurre antes que B con probabilidad

P(A ocurra antes que B) =P(A)

P(A)+P(B).

Para probar esta proposicion observemos que

P(A ocurra antes que B) = ∑k≥1

P(A ocurre antes que B en el experimento k)

= ∑k≥0

[P(ni A ni B ocurren)]kP(A)

=P(A)

1−P(ni A ni B ocurren)

= P(A)1

P(A∪B)=

P(A)P(A)+P(B)

.

Una elegante aplicacion de la conjuncion de este resultado con la formulade probabilidad total, que sugerimos que o bien el profesor o bien el estudiantedemuestre, determina que la probabilidad de ganar en el juego de dados es

836

+2(

336

33+6

+4

364

4+6+

536

55+6

)=

244495

= 0,493.

En el juego tiras los dados en una primera ronda. Si sale 7 o 11 ganas. Si sale 2,3 o 12 pierdes. Si tiras 4, 5, 6, 8, 9 o 10 hay que seguir lanzando hasta que o bienrepitas el numero que lanzaste en la primera ronda o bien salga un 7. En el primercaso ganas, en el segundo pierdes.

1.4. Espacios equiprobablesEn muchos experimentos aleatorios; por ejemplo, en la mayorıa de los jue-

gos de azar; el calculo de probabilidades puede reducirse a contar el numero deelementos de un conjunto.

Denotemos por |A| el numero de elementos o cardinal del conjunto A. SiΩ es finito y todos los resultados del experimento tienen igual probabilidad de

Page 16: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

16 CAPITULO 1. CONCEPTOS BASICOS

ocurrencia decimos que el espacio es equiprobable. En ese caso, la probabilidadde un resultado cualquiera del experimento debe ser 1/|Ω|, ya que P(Ω) = 1. Ası,la probabilidad de un evento A de un espacio equiprobable es

P(A) = |A|/|Ω|.

A continuacion, vamos a presentar dos esquemas elementales de conteo.

Variaciones y Permutaciones. Sean E y F dos conjuntos finitos. Supongamossin perdida de generalidad que E = 1,2, . . . , p y F = 1,2, . . . ,n. Denotemospor Ip

n el numero de funciones inyectivas que van de E a F . Claramente, si p > nentonces Ip

n = 0. Si p ≤ n, podemos construir una funcion inyectiva f : E → Fusando el siguiente esquema recursivo:

Empezamos seleccionando f (1) entre los n elementos pertenecientes a F . Unavez escogido f (1) , existe n−1 posibles escogencias para f (2), ya que f (2) debediferir de f (1) para que f sea inyectiva. Siguiendo este procedimiento, f (i) puedeser escogido entre los n− (i− 1) elementos F − f (1), . . . , f (i− 1). En total,tenemos n(n−1) . . .(n− p+1) posibilidades para construir f .

En resumen, si p≤ n, el numero de inyecciones de E a F es

Ipn = n(n−1) . . .(n− p+1) =

n!(n− p)!

,

siendo n! el factorial de n, definido por

n! = 1 ·2 ·3 · · ·n (1.8)

para n≥ 1 y 0! = 1.

Varios problemas de conteo se reducen a calcular el numero de funciones in-yectivas entre dos conjuntos. Por ejemplo, ¿de cuantas maneras podemos colocarp bolas enumeradas en n cajas?. Otro problema tıpico es: ¿cuantos arreglos, oconjuntos ordenados, pueden construirse extrayendo sin reposicion p elementosde un conjuntos con n elementos. La respuesta a ambas preguntas es Ip

n .

El caso especial Inn = Pn = n! es comunmente interpretado como el total de

permutaciones de n elementos, lo cual no es mas que el numero de funcionesbiyectivas sobre un conjunto de n elementos.

Page 17: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

1.4. ESPACIOS EQUIPROBABLES 17

Numeros Combinatorios. Sea F un conjunto con n elementos, a continuacionvamos a responder la pregunta de cuantos subconjuntos de F con p elementoshay.

Ya que un arreglo de p elementos de F (x1,x2, ...,xp) puede identificarse comouna funcion inyectiva f : 1, . . . , p → F definida por f (i) = xi, el numero dearreglos o subconjuntos ordenados de F con p elementos es Ip

n . Ahora, las p!permutaciones del arreglo (x1, . . . ,xp) representan el mismo subconjunto de F .En consecuencia, el numero de subconjuntos diferentes de F con p elementos esIpn dividido por el numero p! de permutaciones de un conjunto con p elementos.

Ası, si p≤ n, el numero de subconjuntos de F con p elementos es(np

)=

n!(n− p)!p!

(1.9)

De la formula del binomio de Newton y de los calculos anteriores podemosdeducir que el numero de subconjuntos de un conjunto de n elementos es 2n, yaque

n

∑p=0

(numero de subconjuntos con n elementos) =n

∑p=0

(np

)= 2n. (1.10)

Una propiedad util de los numeros combinatorios es(np

)=

(n

n− p

). (1.11)

Otra, conocida como formula de Pascal, es(np

)=

(n−1p−1

)+

(n−1

p

). (1.12)

Varios problemas clasicos del calculo de probabilidades, que se reducen a con-tar el numero de elementos de un conjunto son versiones del siguiente problemade muestreo sin reposicion:

De una caja que contiene N1 bolas negras y N2 bolas rojas y escogemos aleato-riamente n bolas (n≤N1 +N2) sin reposicion. ¿Cual es la probabilidad de escogerexactamente k bolas negras? Si k es mayor que N1 o n, la probabilidad de escogerk bolas negras es cero, ası que supondremos que 0≤ k ≤mın(N1,n). El conjunto

Page 18: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

18 CAPITULO 1. CONCEPTOS BASICOS

Ω de todos los posibles resultados del experimento aleatorio es la familia de todoslos subconjuntos ω de n bolas de las N1 +N2 bolas de la caja. De manera que

|Ω|=(

N1 +N2

n

)Debemos contar los subconjuntos ω con k bolas negras y n− k bolas rojas. Paraformar tal conjunto debemos formar un conjunto de k bolas negras entre las N1

bolas negras. Sabemos que hay(

N1k

)posibilidades de hacer lo anterior. Para cada

subconjunto de k bolas negras, debemos asociar un subconjunto de n− k bolasrojas. Este conjunto lo formamos de entre las N2 bolas rojas y hay

(N2

n−k

)maneras

de hacerlo. Ası que, si A es el evento que consiste en escoger k bolas negras yn− k bolas rojas, de las N1 +N2 bolas que hay en la caja, entonces

|A|=(

N1

k

)(N2

n− k

)Por lo tanto, la probabilidad de A es

P(A) =

(N1k

)(N2

n−k

)(

N1+N2n

) (1.13)

1.5. Problemario I1. Supongamos que Ω = A∪B y P(A∩B) = 0,2. Hallar:

a) El maximo valor posible para P(B), de tal manera que se cumplaP(A)≥ P(B).

b) P(Ac), sabiendo que P(B) = 0,7

c) P(Ac∩Bc)

2. Dado que: Ω = A∪B∪C, P(A) = P(B) = P(C) = p,P(A∩B) = P(A∩C) = P(B∩C) = q y P(A∩B∩C) = z . Hallar:

a) P(Ac∩Bc∩C)

b) P((A∩B∩C)c)

c) P(A∪ (Bc∩Cc))

Page 19: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

1.5. PROBLEMARIO I 19

d) P((A∩B)c∪Cc)

3. Se sientan 4 personas, al azar, en 4 sillas que llevan sus nombres (una sillacon cada nombre). ¿Que probabilidad hay de que alguna de las personasquede en la silla con su nombre?

4. La siguiente tabla contiene las probabilidades correspondientes a las inter-secciones de los eventos indicados:

B Bc

A 0.4 0.2Ac 0.15 0.25

a) Hallar P(A | B)

b) Hallar P(B | A)

c) Hallar P(Ac | B)

d) Hallar P(Bc | A)

5. Si n personas se sientan al azar en una fila de 2n asientos, halle la probabi-lidad de que no queden 2 personas en sillas contiguas.

6. En el lanzamiento de un par de dados, encuentre la probabilidad de que:

a) La suma de los dados sea 7

b) La diferencia entre las caras sea mayor que tres.

7. Se lanza una moneda 8 veces, hallar la probabilidad de que:

a) se obtengan exactamente 5 caras,

b) se obtengan a lo sumo 4 sellos.

8. Las barajas de poker constan de 52 cartas (no incluimos los comodines), dis-tribuidas como sigue: se tienen 4 pintas: corazon (♥), diamante (♦), trebol(♣) y pica (♠). De cada pinta hay 13 cartas denominadas 1,2,...,10, J, Q yK. Se reparten al azar 5 cartas (una mano) a cada jugador. Hallar la proba-bilidad de que en una mano el jugador I reciba:

a) ninguna pica,

b) al menos 2 picas,

Page 20: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

20 CAPITULO 1. CONCEPTOS BASICOS

c) 3 cartas del mismo numero (un trıo) y otras dos cartas con numerosdistintos al del trıo y distintos entre sı. Por ejemplo,3♥,3♠,3♣,5♣,Q♦ es una mano incluıda en el evento que nos in-teresa.

9. La urna I contiene r bolas rojas y b blancas. La urna II contiene, inicial-mente, una bola roja y una blanca. Se toma una bola al azar de la urna I yse pasa a la II, luego se extrae una bola al azar de la urna II y resulta serblanca. ¿Cual es la probabilidad de que la bola pasada de la urna I a la IIhaya sido blanca?

10. Las llamadas telefonicas a una empresa son recibidas por tres recepcionistasA, B y C, de tal manera que de las 200 llamadas recibidas en un dıa, 60son atendidas por la recepcionista A, 80 por B y las restantes por C. Larecepcionista A se equivoca al pasar la llamada en un 2 % de las veces,la recepcionista B en un 5 % y la C en un 3 %. Hallar la probabilidad deque al pasar una llamada recibida en la empresa, esta sea pasada al lugarequivocado

11. Una urna contiene inicialmente r bolas rojas y b blancas. Se extraen 5 bolas,una por una, al azar, sin remplazo.

a) Hallar la probabilidad de que la secuencia sea RBRBR (Primera Roja,Segunda Blanca,...).

b) Hallar la probabilidad de que la secuencia sea RRRBB. Compare con(a). Generalize.

c) Ahora se extraen al azar, una por una y sin remplazo, todas las bolasde la urna. Diga porque todas las secuencias de extraccion tienen lamisma probabilidad.

d) ¿Cual es la probabilidad de que la ultima bola extraıda sea roja?

12. Un virus peligroso esta presente en el 0.01 % de la poblacion nacional. Setiene una prueba clınica para detectar la presencia del virus, y esta prueba escorrecta en el 99 % de los casos (es decir, entre los portadores del virus, laprueba da positivo el 99 % de las veces y entre los no portadores da negativoel 99 % de las veces). Un individuo tomado al azar en la poblacion es some-tido a la prueba y el resultado de esta es positivo. Al conocer el resultado dela prueba, ¿cual es la probabilidad de que este individuo sea realmente unportador del virus?. Comente sobre el valor de esta probabilidad.

Page 21: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

1.5. PROBLEMARIO I 21

13. Existen 2 caminos para ir de A hasta B, y 2 caminos para ir desde B a C.Cada uno de los caminos tiene probabilidad p de estar bloqueado, inde-pendientemente de los otros. Hallar la probabilidad de que haya un caminoabierto de A a B, dado que no hay camino de A a C.

14. Se recibe un lote de 1000 artefactos, de los cuales 60 estan danados. Paradecidir si aceptamos o no el lote se seleccionan 200 artefactos al azar, sinremplazo, rechazando el lote si mas de 2 estan danados. Hallar la probabili-dad de aceptar el lote.

15. Consideremos una sucesion de experimentos independientes consistentesen el lanzamiento de dos dados. En este juego se gana si la suma de losdados es 7. Hallar:

a) la probabilidad de ganar por vez primera, en un intento posterior al12do.

b) La probabilidad de haber ganado 2 veces en 20 intentos.

c) en 10 intentos, la probabilidad de haber ganado 3 o mas veces.

16. Una unidad de mantenimiento sabe que cada falla reportada tiene probabi-lidad 0.15 de ser falsa alarma. Si la unidad acepta 25 solicitudes de man-tenimiento por dıa y solo dispone del tiempo para atender 20 fallas reales,determine: ¿Cual es la probabilidad de que todas las fallas reales sean aten-didas?

17. Un estanque contiene 500 peces de los cuales 300 estan marcados. Un pes-cador logra sacar 50 peces. Hallar la probabilidad de que:

a) 20 de los peces esten marcados,

b) ninguno de los peces este marcado.

18. Un lector optico falla en la lectura del codigo de barras, con una probabili-dad de 0.01.

a) ¿Cual es la probabilidad de que el lector falle solo una vez en las pri-meras 10 lecturas?

b) ¿Cual es la probabilidad de que el lector no falle en las primeras 20lecturas dado que en las primeras 10 lecturas, el lector no fallo.

Page 22: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

22 CAPITULO 1. CONCEPTOS BASICOS

19. Un deposito guarda 1000 artıculos, 100 de los cuales son defectuosos. Uninspector toma uno de los artıculos al azar, y si no es defectuoso lo devuelveal lote. Sea N el numero de inspecciones de objetos no defectuosos, que serealizan antes de encontrar el primer objeto defectuoso. Calcular la proba-bilidad de tener 25≤ N ≤ 60.

20. En un colegio de Artes estan matriculados 300 hombres y 700 mujeres. Seeligen 25 estudiantes al azar, hallar la probabilidad de que 15 o mas de loselegidos sean mujeres si el muestreo se hace (a) con reemplazo y (b) sinreemplazo.

Page 23: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

Capıtulo 2

Variables aleatorias discretas

Consideremos el lanzamiento de un dado, Ω = 1,2,3,4,5,6, y supongamosque apostamos al resultado de tal manera que nuestra ganancia es

−1 si el resultado es impar,

0 si el resultado es 2 o 4,

2,75 si el resultado es 6.

Se entiende que ganancias negativas son perdidas positivas. Si el resultado es ω,la ganancia puede expresarse como X(ω), donde X : Ω→ R es la funcion definidapor

X(1) = X(3) = X(5) =−1

X(2) = X(4) = 0

X(6) = 2,75

X es un ejemplo de una variable aleatoria discreta, las cuales son nuestro actualobjeto de estudio.

2.1. Definicion y ejemplosDado un espacio de probabilidad (Ω,F ,P), una variable aleatoria discreta

es una funcion X : Ω→ R tal que

1. Su conjunto de imagenes X(Ω) = x ∈R : X(ω) = x, para algun ω ∈Ω esun conjunto numerable. Es decir, X(Ω) = xi : i ∈ I, para algun conjunto(finito o infinito) de ındices I ⊂ N.

23

Page 24: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

24 CAPITULO 2. VARIABLES ALEATORIAS DISCRETAS

2. Para todo x ∈ R se verifica

ω ∈Ω : X(ω) = x ∈ F . (2.1)

La primera condicion se refiere al hecho de que X toma solamente valoresen un conjunto numerable de R. La segunda condicion puede parecer oscura alprimer vistazo. La idea es que podamos dar probabilidades de que la variabletome cualquiera de sus posibles valores, pero esta probabilidad puede no estardefinida si no se satisface (2.1) para algun x (la probabilidad solo tiene que estardefinida para los eventos pertenecientes a F ). Consideremos Ω = N y σ-algebraF formada por el vacıo, los numeros pares positivos (Pares), los impares posi-tivos (Impares) y N. Sea P : F → [0,1] la medida de probabilidad definida porP(Pares) = P(Impares) = 1/2 y X : Ω→R la funcion identidad X(ω) = ω. Noteque

ω ∈Ω : X(ω) = x = x si x ∈ N= /0 en caso contrario

Ası que no podemos decir con que probabilidad la variable toma el valor 2 o 4,solo sabemos que es par con probabilidad 1/2 y un numero natural con probabili-dad 1. Como mencionamos, nos interesa la probabilidad de que la variable tomecualquiera de sus posible valores. A eso apunta la siguiente definicion.

Funcion de masa de probabilidad. La funcion de masa de probabilidad (fmp) dela variable aleatoria discreta X es la funcion pX : R→ [0,1] definida por

pX(x) = P(X = x) = P(ω ∈Ω : X(ω) = x)

Ya que P(X = x) es la probabilidad de que X tome el valor x, se tiene que

P(X = x)≥ 0 para todo x ∈ R

P(X = x) = 0 para todo x /∈ X(Ω).

Ademas, y esta es otra importante propiedad de las funciones de masa de proba-bilidad,

∑x

P(X = x) = ∑x∈X(Ω)

P(X = x) = P(Ω) = 1. (2.2)

Esta propiedad caracteriza las funciones de masa de probabilidad de las variablesaleatorias discretas en el sentido siguiente:

Page 25: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

2.1. DEFINICION Y EJEMPLOS 25

Si A es un conjunto numerable de R y π : A→ R satisface

π≥ 0 y ∑x∈A

π(x) = 1, (2.3)

entonces π es la fmp de una variable aleatoria X asociada a un espacio de proba-bilidades (Ω,F ,P) tal que X(Ω) = A.

Otro concepto muy importante en teorıa de probabilidades es el de funcion dedistribucion de una variable aleatoria:

La funcion de distribucion de una variable aleatoria X es la funcion FX : R→[0,1] definida por

FX(x) = P(X ≤ x). (2.4)

A partir de la funcion de distribucion de una variable aleatoria discreta podemoscalcular su fmp y viceversa. Especıficamente,

FX(x) = ∑xi≤x

P(X = xi) y P(X = x) = F(x)− lımε→0+

F(x− ε)

En general, basta determinar una de estas dos funciones para calcular probabili-dades de los eventos asociados a una variable aleatoria, que en general son deltipo

P(X ∈ A) = P(ω ∈Ω : X(w) ∈ A) = ∑xi∈A

P(X = xi)

Si F es la funcion de distribucion de una variable aleatoria escribimos X ∼ Fy si X y Y son variables aleatorias con la misma funcion de distribucion decimosque son igualmente distribuıdas y escribimos X ∼ Y . Veamos algunos ejemplosclasicos:

Distribucion Bernoulli. Decimos que X es una variable aleatoria con distribucionBernoulli de parametro p, y escribimos X ∼ Bernoulli(p), si

P(X = 1) = p, P(X = 0) = 1− p, para algun p ∈ [0,1].

En el argot, p se entiende como la probabilidad de exito de un determinado sucesoen un experimento y q = 1− p la del fracaso o exito del complemento.

Distribucion Binomial. Decimos que X tiene distribucion Binomial con parame-tros n y p, X ∼ Bin(n, p), si

P(X = k) =(n

k

)pkqn−k, para k = 0,1, . . . ,n. (2.5)

Page 26: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

26 CAPITULO 2. VARIABLES ALEATORIAS DISCRETAS

Para demostrar que la funcion definida en (2.5) satisface (2.3) es necesario usar laformula del binomio de Newton. Ası,

n

∑k=0

(nk

)pkqn−k = (p+q)n = 1

P(X = k) en (2.5) es la probabilidad de observar un total de k exitos en n experi-mentos independientes, cada uno con probabilidad p de que sea exito.

Figura 2.1: Funciones de masa de probabilidad de Binomiales de parametros n =10 y p = 1/4 (gris), p = 1/2 (negro), p = 3/4 (blanco).

Distribucion Geometrica. Decimos que la distribucion de X es Geometrica conparametro p, X ∼ Geo(p), si

P(X = n) = qk−1 p, para n = 1,2,3, . . . . (2.6)

Note que∞

∑k=1

pqk−1 = p∞

∑k=0

qk = p1

1−q= 1

La probabilidad (2.6) es la de requerir exactamente n repeticiones independientesde un mismo experimento hasta observar el primer exito. Igual que antes, p es laprobabilidad de exito en un experimento y q = 1− p.

Page 27: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

2.2. VECTORES ALEATORIOS DISCRETOS 27

Distribucion Hipergeometrica. X es una variable Hipergeometrica de parame-tros N,NA y n, con N > max(NA,n), si

P(X = k) =

(NAk

)(N−NAn−k

)(

Nn

) , para k = 0,1, . . . ,mın(NA,n) (2.7)

Para demostrar que esta es una funcion de masa de probabilidad, es necesariohacer uso de (1.13). La probabilidad (2.7) es la de extraer k elementos de unconjunto A⊂Ω, cuando se extraen aleatoriamente y sin reposicin n elementos deΩ. Aquı |A|= NA y |Ω|= N.

Distribucion de Poisson. X es Poisson de parametro λ > 0, X ∼ Poisson(λ), si

P(X = k) =1k!

λke−λ, para k = 0,1,2, . . . . (2.8)

Haciendo uso del desarrollo en serie de Taylor de la funcion exponencial, es senci-llo comprobar que la funcion definida en (2.8) satisface (2.3). Cuando n es grandey p pequeno, haciendo λ = np, la aproximacion(n

k

)pkqn−k ≈ 1

k!λ

ke−λ

es buena. De manera que el modelo Poisson puede entenderse como un caso lımitedel Binomial, cuando el numero de experimentos es grande y la probabilidad deexito de cada experimento es pequena. Al final del curso formalizamos esta idea.

2.2. Vectores aleatorios discretos

Sean X e Y variables aleatorias discretas definidas sobre un mismo espacio mues-tral. El vector aleatorio (X ,Y ) toma valores en un subconjunto numerable de R2

y estamos interesados en la probabilidad de que el vector tome esos valores. Lafuncion de masa de probabilidad conjunta de las variables X e Y es la funcionpX ,Y : R2 → [0,1] definida por:

pX ,Y (x,y) = P(X = x,Y = y)= P(ω ∈Ω : X(ω) = x∩ω ∈Ω : Y (ω) = y) (2.9)

Page 28: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

28 CAPITULO 2. VARIABLES ALEATORIAS DISCRETAS

0 2 4 6 8 10 12 14 16 180

0.05

0.1

0.15

0.2

0.25

0.3

Figura 2.2: Funciones de masa de probabilidad de variables Poisson de parametrosλ = 2 (blanco) y λ = 5 (negro).

Similar al caso univariante, si x /∈ X(Ω) o y /∈Y (Ω) entonces P(X = x,Y = y) = 0,y

∑x

∑y

P(X = x,Y = y) = 1.

Las funciones de masa de probabilidad P(X = x) y P(Y = y) las podemos obtenera partir de la funcion de masa de probabilidad conjunta marginalizando de maneraadecuada. Para ello, note que Ω =∪xω : X(ω) = x=∪yω : Y (ω) = y. Usandola aditividad de la medida de probabilidad

P(X = x) = P(ω : X(ω) = x)= P(ω : X(ω) = x∩ (∪yω : Y (ω) = y))= ∑

yP(ω : X(ω) = x∩ω : Y (ω) = y)

= ∑y

P(X = x,Y = y)

Cambiando X por Y en los caculos anteriores obtenemos la fmp de Y a partir dela conjunta,

P(Y = y) = ∑x

P(X = x,Y = y)

En este contexto las funciones P(X = x) y P(Y = y) son llamadas marginales deX y Y respectivamente.

Page 29: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

2.3. INDEPENDENCIA DE VARIABLES ALEATORIAS DISCRETAS 29

Ejemplo. Sea X una variable que toman valores 1,2,3 y Y una que toma valores1,2,3,4. Suponga que la probabilidad de que el par (X ,Y ) tome el valor (x,y)viene dada por la entrada x,y de la siguiente tabla.

1 2 3 41 0,10 0,05 0,05 0,002 0,15 0,10 0,05 0,003 0,20 0,15 0,10 0,05

Entonces la marginal de X se obtiene sumando las columnas y la de Y las filas.

Cuando X ,Y son discretas, la funcion de probabilidad condicional de X da-do Y = y se define por la probabilidad condicional

P(X = x|Y = y) =P(X = x,Y = y)

P(Y = y).

De esta forma, las probabilidades condicionales del tipo P(X ∈ A|Y = y) se cal-culan usando la siguiente identidad:

P(X ∈ A|Y = y) = ∑x∈A

P(X = x|Y = y)

Ejemplo. Siguiendo con el ejemplo anterior,

P(X > 1|Y = 1) = 0,35 y P(X > 1|Y = 2) = 0,25

2.3. Independencia de variables aleatorias discretasRecordemos que dos eventos A y B son independientes si

P(A∩B) = P(A)P(B)

Hablaremos de independencia de variables si una toma valores independiente delos valores que tome la otra. En otras palabras, las variables discretas X e Y sonindependientes si los eventos

ω ∈Ω : X(ω) = x y ω ∈Ω : Y (ω) = y

son independientes para todo x,y ∈ R. Es decir, X y Y son independientes si lafuncion de masa de probabilidad conjunta es el producto de las marginales,

P(X = x,Y = y) = P(X = x)P(Y = y) para todo x,y ∈ R

Page 30: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

30 CAPITULO 2. VARIABLES ALEATORIAS DISCRETAS

Observacion: X ,Y son independientes sı y solamente sı existen funciones f ,g :R→ R tal que

PX ,Y (x,y) = P(X = x,Y = y) = f (x)g(y) para todo x,y ∈ R

aun cuando f ,g no sean las marginales de las variables en cuestion.

Ejemplo. Sean X ,Y variables aleatorias con funcion de masa conjunta definidapor

P(X = x,Y = y) =1

x!y!λ

xµye−(λ+µ) x,y = 0,1, . . .

Factorizando tenemos que

P(X = x,Y = y) =(

λx

x!

)(µy

y!e−(λ+µ)

)= f (x)g(y),

con f (x) = λx/x! y g(y) = µye−(λ+µ)/y!, de manera que X e Y son independientes.Sin embargo, las funciones f y g no son funciones de masa de probabilidad. Dehecho, las marginales de X ,Y son

P(X = k) =1k!

λke−λ y P(Y = k) =

1k!

µke−µ para k = 0,1, . . .

Es conveniente extender el concepto al caso multivariado, pero primero intro-duciremos una practica notacion que es un estandard en teorıa de probabilidades:

Para X1, . . . ,Xn : Ω→ R y A1, . . . ,An ⊂ R escribimos

X1 ∈ A1, . . . ,Xn ∈ An= ∩ni=1ω ∈Ω : Xi(ω) ∈ Ai

Definicion (independencia de variables aleatorias). Las variables aleatorias X1, . . . ,Xnson independientes si para cualquier sucesion de intervalos A1, . . . ,An ⊂R se cum-ple

P(X1 ∈ A1, . . . ,Xn ∈ An) = P(X1 ∈ A1) · · ·P(Xn ∈ An)

Page 31: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

2.4. FUNCIONES DE VECTORES ALEATORIOS 31

2.4. Funciones de vectores aleatoriosMuchas veces estamos interesados en una funcion de un vector aleatorio. Es

comun observar n variables y que nos interesen los valores extremos (el mas pe-queno y el mas grande entre todos los valores observados). Tambien es comunestar interesados en el promedio. En general, dado un conjunto de n variablesaleatorias X1,X2, . . . ,Xn y una funcion g : Rn → R, nos puede interesar calcu-lar la funcion de masa de probabilidad de la variable aleatoria definida por U =g(X1,X2, . . . ,Xn).

Distribucion del mınimo. Sean X1,X2, . . . ,Xn variables aleatorias y denotemospor Un el mnimo de ellas, es decir

Un = mınX1,X2, . . . ,Xn.

Es facil comprobar que

Un > k= X1 > k,X2 > k, . . . ,Xn > k

y en consecuencia, si X1,X2, . . . ,Xn son independientes se tiene

P(Un > k) = P(X1 > k)P(X2 > k) . . .P(Xn > k) (2.10)

Si X1,X2, . . . ,Xn son variables independientes e identicamente distribuıdas (i.i.d.),entonces (2.10) tiene la forma

P(Un > k) = [P(X1 > k)]n (2.11)

Por lo tanto, la fmp de Un la podemos escribir como

P(Un = k) = P(Un > k−1)−P(Un > k)= [P(X1 > k−1)]n− [P(X1 > k)]n (2.12)

Ejemplo. Sean X1,X2, . . . ,Xn variables i.i.d geometricas de parametro p = 1− q(Xi ∼ Geo(p) para 1≤ i≤ n). En este caso

P(Xi > k) =∞

∑j=k+1

pq j−1 = qk, para k = 1,2,3, . . .

Sustituyendo en (2.12) se tiene que

P(mınX1,X2, . . . ,Xn= k) = [qk−1]n− [qk]n = [qn]k−1(1−qn).

Page 32: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

32 CAPITULO 2. VARIABLES ALEATORIAS DISCRETAS

En decir, el mınimo de variables i.i.d, con distribucion geometrica de parametro pes tambien una variable geometrica, pero de parametro 1−qn = 1− (1− p)n.

Distribucion del maximo. Consideremos ahora el maximo

Vn = maxX1,X2, . . . ,Xn

de n variables aleatorias. Note que

Vn ≤ k= X1 ≤ k,X2 ≤ k, . . . ,Xn ≤ k

Si las variables son independientes se tiene entonces que

FVn(k) = P(Vn ≤ k) = P(X1 ≤ k)P(X2 ≤ k) . . .P(Xn ≤ k)

y si son i.i.d.FVn(k) = [P(X1 ≤ k)]n. (2.13)

Ejemplo. Continuando con el ejemplo en el que X1,X2, . . . ,Xn son i.i.d, geometri-cas de parametro p, la funcion de distribucion del maximo Vn = maxX1,X2, . . . ,Xnes

FVn(k) = [1−P(X1 > k)]n = (1−qk)n para k = 1,2, . . .

Suma de variables aleatorias. Consideremos X ,Y variables aleatorias discretasy Z = X +Y . Claramente Z es discreta y toma el valor z sı y solamente sı cuandoX toma el valor x, Y toma el valor z− x. Ası que

P(Z = z) = P(∪xX = x,Y = z− x)= ∑

xP(X = x,Y = z− x)

Formula de convolucion. Si X ,Y son variables aleatorias discretas e indepen-dientes entonces Z = X +Y tiene fmp

P(Z = z) = ∑x

P(X = x)P(Y = z− x)

En el caso particular en que X ,Y son no negativas, P(X = x) = 0 si x < 0 y P(Y =z− x) = 0 si x > z. En ese caso,

P(X +Y = z) =z

∑x=0

P(X = x)P(Y = z− x)

Page 33: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

2.5. ESPERANZA 33

y decimos que la fmp de X +Y es la convolucion de las funciones de probabilidadde X y Y .

Ejemplo. Sean X ,Y v.a. independientes con distribucion de Poisson de parametrosλ y µ respectivamente, Usando la formula de convolucion

P(X +Y = z) =z

∑x=0

(1x!

λxe−λ

)(1

(z− x)!µz−xe−µ

)=

1z!

(λ+µ)ze−(λ+µ)

Es decir, si X ∼ Poisson(λ) y Y ∼ Poisson(µ) son independientes entonces la sumaX +Y ∼ Poisson(λ+µ)

2.5. Esperanza

Consideremos un dado justo. Si este es lanzado un numero grande de veces,cada posible resultado aparecera alrededor de un sexto de las veces y el promediodel numero observado sera aproximadamente

1(1/6)+2(1/6)+ . . .+6(1/6) = 3,5

El concepto en su forma mas general lleva a la siguiente definicion

Definicion Sea X es una variable aleatoria discreta. La esperanza de X , denotadapor E(X) y tambien llamada valor esperado de X , es el numero definido por

E[X ] = ∑x

x P(X = x)

siempre y cuando la serie converja.

Teorema de transferencia. Si X es una variable discreta y g : R→ R entonces laesperanza de Y = g(X) es

E[Y ] = E[g(X)] = ∑x

g(x)P(X = x)

Page 34: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

34 CAPITULO 2. VARIABLES ALEATORIAS DISCRETAS

Prueba

E[Y ] = ∑y

y P(Y = y)

= ∑y

y

[∑

x:g(x)=yP(X = x)

]= ∑

y∑

x:g(x)=yy P(X = x)

= ∑x

g(x)P(X = x)

Otra importante valor asociado a una variable X es su varianza Var(X), la cuales una medida de dispersion de la variable en torno a su esperanza. Formalmente,la varianza de una variable aleatoria X se define como el valor esperado de lavariable (X −µ)2, siendo µ la esperanza de X . Es decir,

Var(X) = E([X −µ]2)= ∑

x(x−µ)2P(X = x)

(2.14)

Proposicion 4. Var(X) = E[X2]− (E[X ])2

Prueba

Var(X) = E([X −µ]2)= ∑

x(x−µ)2P(X = x)

= ∑x

(x2−2xµ+µ2)P(X = x)

= ∑x

x2P(X = x)−2µ∑x

xP(X = x)+µ2∑x

P(X = x)

= E[X2]−2µ2 +µ2

= E[X2]−µ2

= E[X2]− (E[X ])2

El Teorema de transferencia anterior puede extenderse al caso multivariado dela siguiente manera:

Page 35: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

2.6. ESPERANZA CONDICIONAL 35

Sean X ,Y variables discretas y g : R2 → R entonces

E[g(X ,Y )] = ∑x

∑y

g(x,y)P(X = x,Y = y) (2.15)

Usando (2.15) podemos introducir un importante indicador del grado de de-pendencia lineal entre dos variables aleatorias: La covarianza entre las variablesX ,Y es

Cov(X ,Y ) = E[(X −µX)(Y −µY )] siendo µX = E(X) y µY = E(Y ).

Otros resultados importantes que podemos demostrar de forma sencilla con laformula de tranferencia (2.15) son:

1. Linealidad del valor esperado: Si Z = g(X ,Y ) = aX + bY , con a,b ∈ R,entonces

E(Z) = E(aX +bY ) = aE(X)+bE(Y )

2. Formula para la covarianza: Cov(X ,Y ) = E(XY )−E(X)E(Y )

3. Varianza de combinaciones lineales: Para todo a,b ∈ R,

Var(aX +bY ) = a2Var(X)+b2Var(Y )+2abCov(X ,Y ).

En particular, Var(aX +b) = a2Var(X).

4. Esperanza del producto y varianza de la suma de independientes: SiX ,Y son independientes entonces

E(XY ) = E(X)E(Y )

Var(X +Y ) = Var(X)+Var(Y )

2.6. Esperanza CondicionalSea X una variable aleatoria discreta y B un evento asociados al mismo espacio

de probabilidad. Supongamos que P(B) > 0. La Esperanza Condicional de Xdado el evento B, la cual denotaremos por E(X |B), es el valor esperado asociadoa la funcion de masa de probabilidad condicional

P(X = x|B) =P(ω : X(ω) = x∩B)

P(B).

Page 36: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

36 CAPITULO 2. VARIABLES ALEATORIAS DISCRETAS

Esto es,E[X |B] = ∑

xx P(X = x|B)

El siguiente resultado es un version de la formula de probabilidad total (1.3)para valores esperados y de similar utilidad.

Formula de particionamiento. Si X es una v.a. discreta y B1,B2, . . . son unaparticion del espacio muestral, con P(Bi) > 0 para cada i, entonces

E[X ] = ∑i

E[X |Bi]P(Bi)

Prueba de la formula

E[X ] = ∑i≥1

E[X |Bi]P(Bi)

= ∑i≥1

[∑x

x P(X = x|B)]

P(Bi)

= ∑i≥1

∑x

x P(X = x∩Bi)

= ∑x

x P(X = x∩ (∪i≥1Bi))

= ∑x

x P(X = x)

Ejemplo. Una moneda es lanzada repetidamente. Sea p la probabilidad de obtenercara en cada lanzamiento, con 0 < p = 1− q < 1. Vamos a calcular la longitudesperada de la racha inicial (i.e. el numero de resultados iguales y consecutivos alprimero).

Sea H el evento el primer lanzamiento es cara y Hc el evento el primer lanza-miento es sello. El par H,Hc forma una particion del espacio muestral. Si X es lalongitud de la racha inicial, es facil verificar que

P(X = k|H) = pk−1q para k = 1,2, . . .

ya que si H ocurre entonces X = k ocurre sı y solo sı el primer lanzamiento esseguido por exactamente k−1 caras y despues un sello. Similarmente,

P(X = k|Hc) = qk−1 p para k = 1,2, . . .

Page 37: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

2.7. PROBLEMARIO II 37

Es decir, las distribuciones condicionales son geometricas, ası que

E[X |H] =1q

y E[X |Hc] =1p

Usando la formula de particionamiento obtenemos

E[X ] = E[X |H]P(H)+E[X |Hc]P(Hc) =1q

p+1p

q =1pq−2

2.7. Problemario II1. Calcule e interprete el valor esperado de X cuando tiene distribucion:

binomial de parametros n y p

geometrica de parametro p

hipergeometrica

Poisson de parametro λ

2. Calcular la varianza de X cuando tiene distribucion:

binomial de parametros n y p

geometrica de parametro p

Poisson de parametro λ

3. Si X se distribuye Poisson de parametro λ, pruebe que

E[X(X −1)(X −2) . . .(X − k)] = λk+1

4. Si X tiene distribucion geometrica, pruebe la propiedad de perdida de me-moria

P(X > m+n|X > m) = P(X > n)

5. Sea N una v.a. a valores enteros no negativos. Verifique que

E[N] = ∑k≥0

P(N > k) (2.16)

Page 38: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

38 CAPITULO 2. VARIABLES ALEATORIAS DISCRETAS

6. Un dado tiene dos cara azules, dos rojas y dos verdes. Se lanza repetidamen-te. Encuentre la probabilidad de que no todos los colores aparezcan en losprimeros k lanzamientos. Deduzca que si N es la v.a. que toma el valor n siel tercer color aparece en el n-esimo lanzamiento por primera vez, entoncesE[N] = 11/2. Sugerencia, use la formula (2.16) y la formula de inclusionexclusion para la union de tres eventos.

7. Suponga que P(X = i,Y = j) = λ1+i+ j, para i, j = 0,1,2. Pruebe que

E[XY ] = λ3 +4λ

4 +4λ5

8. Sean X ,Y v.a. i.i.d. con P(X = k) = pqk, k ≥ 0. Demuestre que para k =0, . . .n

P(X = k|X +Y = n) =1

n+1

Sugerencia: Use la formula de Bayes y la formula de convolucion.

9. Existen c diferentes tipos de cromos y cada uno tiene el mismo chance de seradquirido en una compra (los cromos se venden por separado en un sobre).Sea Yi el numero adicional de cromos coleccionados despues de obtener itipos de cromos antes de obtener un nuevo tipo. Demuestre que Yi tiene dis-tribucion geometrica con parametro (c− i)/c. Calcule el numero esperadode cromos que necesitas adquirir hasta completar la coleccion.

10. Sean X ∼Geo(p) y , Y ∼Geo(r) variables independientes. Pruebe que mınX ,Ytiene distribucion geometrica con parametro p+ r− pr.

11. Sean X ,Y variables aleatorias independientes con distribucion de Poissonde parametro λ y µ respectivamente. Use el hecho de que X +Y es Poissonpara calcular P(X = k|X +Y = n) para k = 0, . . . ,n. Demuestre que

E[X |X +Y = n] = nλ/(λ+µ)

Sugerencia: Use la formula de Bayes para la primera parte.

12. Sea N el numero de lanzamientos de una moneda hasta que se repita elresultado del primer lanzamiento. Condicionando en el primer lanzamiento,calcule E[N].

Page 39: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

2.7. PROBLEMARIO II 39

13. La funcion generatriz de probabilidades de una variable aleatoria discreta Xesta definida por la serie de potencias

g(s) = E[sX]

=∞

∑k=0

skP(X = k), |s|< 1.

Calcule la funciones generatrices de probabilidades de las siguientes distri-buciones Bernoulli, Binomial y Poisson.

14. A cada fmp le corresponde una unica funcion generatriz de probabilidades.Use la identificacion de las funciones generatrices para probar los siguientesresultados:

Sumas de Bernoulli i.i.d es Binomial.

La suma de Binomiales independientes con el mismo parametros p estambien binomial.

Sumas de Poisson independientes es Poisson.

15. Considere que el numero de veces que una moneda es lanzada es una v.a.Poisson. Sea X el numero de caras y Y el numero de sellos. Verifique queX ,Y son independientes. Sugerencia: Use la formula de particionamientopara calcular la masa de probabilidad de X .

16. Se lanza un dado n veces. Sea Un el mınimo valor observado y Vn el maximovalor observado. Calcular P(Un = 1), P(Vn = 6).

17. Una lınea aerea cubre la ruta CCS-MAD, con un avion que tiene 280 plazas.La polıtica de la aerolınea es aceptar 300 reservaciones para este vuelo.Se supone que todos los pasajeros actuan en forma independiente y que laprobabilidad de que un pasajero se presente es p. El precio del pasaje es G,pero si un pasajero se presenta y no puede ser embarcado, se le reintegra sudinero mas una compensacion de H.

Calcule la esperanza del numero de pasajeros que se presentan a abor-dar.

De una expresion para la esperanza del numero de pasajeros que acu-den y no pueden ser embarcados.

De una expresion para la ganancia esperada por la aereolınea.

Page 40: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

40 CAPITULO 2. VARIABLES ALEATORIAS DISCRETAS

18. El costo de produccion en euros de cierta maquina que se fabrica por encar-go es de 4300 por maquina, cuando se producen menos de cinco unidades.Si se producen de cinco a nueve unidades el costo por maquina baja a 4000.Y cuando se producen diez o mas unidades el costo por unidad baja a 3500.La demanda de estas maquinas fluctua segun una distribucion de Poissoncon valor esperado igual a 8. Hallar el precio de venta unitario, para que laganancia neta esperada por maquina sea de 5000. Si vendemos a ese precio,¿cual es la probabilidad de que la empresa pierda dinero?

Page 41: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

Capıtulo 3

Variables aleatorias continuas

La condicion de que la variable tome valores exclusivamente en un conjuntonumerable de R puede resultar muy restrictiva a la hora de modelar determina-dos fenomenos de naturaleza continua (tiempos, precios, volumenes, pesos). Espor ello que requerimos generalizar la definicion de variable aleatoria vista hastaahora.

Una variable aleatoria (a veces va, por comodidad tipografica) X sobre unespacio de probabilidades (Ω,F ,P) es una funcion X : Ω→ R que cumple

ω ∈Ω : X(ω)≤ x ∈ F para todo x ∈ R. (3.1)

La razon por la cual requerimos que X satisfaga (3.1) es la misma por la cual re-querimos la condicion (2.1) cuando introducimos el concepto de variables aleato-rias discretas. Tal y como ya hemos mencionado, estamos interesados en calcularprobabilidades del tipo P(X ∈ A), con A⊂ R, las cuales estan definidas si

X ∈ A= ω ∈Ω : X(ω) ∈ A ∈ F (3.2)

La condicion (3.1) asegura que (3.2) se satisface para cualquier A⊂R que puedanescribirse como un resultado de operaciones numerables (finitas o infinitas) deintervalos. Esta es una importante coleccion de conjuntos de numeros reales quese conoce como la σ-algebra de Borel. En todo lo sucesivo se sobreentiende quesi A ⊂ R entonces A pertenece a la σ-algebra de Borel. Elementos simples de laσ-algebra de Borel son los intervalos (cerrados, abiertos, finitos, infinitos, etc) ylos conjuntos numerables.

El concepto de funcion de distribucion que introducimos en (2.4) vale para

41

Page 42: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

42 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

cualquier variable aleatoria, sea discreta o no. La funcion de distribucion

FX(x) = P(X ≤ x)

de una variable X tiene varias propiedades elementales que son consecuencia depropiedades que hemos visto de la medida de probabilidad P y que resumimos enla siguiente proposicion.

Proposicion 5. Sea F la funcion de distribucion de una variable aleatoria, enton-ces

1. F es no decreciente.

2. F(x)→ 0 cuando x→−∞ y F(x)→ 1 cuando x→+∞.

3. F es continua por la derecha.

Usando la proposicion anterior, podemos establecer algunas formulas utilespara el calculo de probabilidades de eventos asociados a una variable aleatoria apartir de su funcion de distribucion. En particular se tiene que

P(a < X ≤ b) = FX(b)−FX(a) para todo a < b.

Otra identidad que vale la pena resenar es

P(X = x) = FX(x)− lımy↑x

FX(y) para todo x ∈ R. (3.3)

Es decir, P(X = x) es el salto de la discontinuidad de F en x, si es que la hubiera.

3.1. Variables aleatorias continuasAparte de la caracterısticas comunes que puedan tener distintas funciones de

distribucion, algunas ya mencionadas en la Proposicion 5, a distintas distribu-ciones le pueden corresponder distintos tipos de curva. Hay dos clases que sonparticularmente importantes:

Funciones de distribucion escalonadas, correspondientes a variables aleato-rias discretas. Note que si X es discreta a valores en x1,x2, . . . entoncespara cualquier xi ≤ x < xi+1, la funcion es constante. De hecho,

FX(x) = FX(xi).

Page 43: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.1. VARIABLES ALEATORIAS CONTINUAS 43

1 2 3 4 5 60

0.2

0.4

0.6

0.8

1

−4 −3 −2 −1 0 1 2 3 40

0.2

0.4

0.6

0.8

1

Figura 3.1: Funciones de distribucion de probabilidad de variables aleatorias dis-creta (izquierda) y continua (derecha).

Funciones con una curva suave, asociadas a variables aleatorias que llama-remos continuas y que definimos a continuacion.

Definicion. Una variable aleatoria es continua si su funcion de distribucion Fpuede representarse como

F(x) =Z x

−∞

f (u)du para todo x ∈ R,

para alguna funcion f que satisfaga

1. f (x)≥ 0, para todo x ∈ R,

2.R

−∞f (x)dx = 1,

En ese caso decimos que X tiene densidad de probabilidad f .

Para interpretar la funcion de densidad de probabilidad (fdp) de una variablealeatoria continua, observe que

P(x−δ/2 < X ≤ x+δ/2) = FX(x+δ/2)−FX(x−δ/2)

=Z x+δ/2

x−δ/2fX(u)du≈ f (x)δ,

ası que f (x) esta relacionado con la probabilidad de que la variable tomeun valor cercano a x. Sin embargo, es importante recalcar que f (x) no es una

Page 44: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

44 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

probabilidad, en particular no tiene por que ser menor o igual a 1. Note ademasque, acorde a la definicion dada, la funcion de distribucion de una va continua esuna funcion continua. Es decir, si X es continua, para todo x ∈ R,

lımy→x

F(y) = F(x).

Sustituyendo en (3.3), demostramos que si X es continua

P(X = x) = 0 para todo x ∈ Ry en consecuencia, para todo a < b

P(a < X ≤ b) = P(a≤ X ≤ b) = P(a≤ X < b) = P(a < X < b).

Esta es una significativa diferencia con la variables aleatorias discretas. Veamosalgunos ejemplos de fdp comunes en el modelaje.

Distribucion Uniforme. Decimos que X se distribuye uniformemente sobre elintervalo (a,b), y escribimos X ∼U(a,b), si tiene fdp

f (x) =

1

b−asi x ∈ (a,b)

0 en caso contrario

Distribucion Exponencial y Gamma. Decimos que X tiene distribucion expo-nencial de parametro β > 0, y escribimos X ∼ exp(β), si tiene fdp

f (x) =

e−βx si x > 00 en caso contrario

Este es un importante caso particular (α = 1)de la distribucion gamma. En gene-ral, decimos que X tiene distribucion gamma de parametros α,β > 0, y escribimosX ∼ Γ(α,β), si tiene fdp

f (x) =

βα

Γ(α)xα−1e−βx si x > 0

0 en caso contrario

siendo Γ(α) =R

0 xα−1e−x la funcion gamma, con Γ(n) = n!, para cualquier n∈N.

Distribucion Normal. Decimos que X tiene distribucion normal, o Gaussiana, deparametros µ y σ2 > 0, y escribimos X ∼ N(µ,σ2), si tiene fdp

f (x) =1√

2πσ2exp

−(x−µ)2

2σ2

para todo x ∈ R

Page 45: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.1. VARIABLES ALEATORIAS CONTINUAS 45

Figura 3.2: Funciones de densidad de probabilidad de gammas con parametros(α,β) = (1,1) (solida gruesa), (1,2) (pespunteada fina), (2, 1) (pespunteada grue-sa), (2, 2) (solida fina). El valor que maximiza la funcion se desplaza con α y lacola de la funcion decae con β.

Figura 3.3: Funciones de densidad de probabilidad de variables Normales. La fun-cion es simetrica respecto de µ y el maximo de la funcion densidad decrece conσ

Page 46: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

46 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

3.2. Esperanza y funciones de variables aleatoriasEl valor esperado de una variable aleatoria continua X viene definido por

E[X ] =Z

−∞

x fX(x) dx,

siempre y cuando la integral este bien definida. Esto es, siZ∞

−∞

|x| fX(x) dx < ∞.

El valor esperado de X puede interpretarse como el centro de gravedad del ejex cuando se han distribuıdo pesos segun fX . El concepto es el mismo que el delcaso discreto, solo que hemos sustituıdo funciones de masa por densidades deprobabilidad y sumatorias por integrales. Ası que es natural que las propiedadesdel valor esperado de variables continuas sean las mismas que las de las discretas.Despues de todo la integral no es mas que el lımite de sumatorias.

Si X es una variable aleatoria continua, cualquier funcion de X es una variablealeatoria pero puede ser continua o no. Por ejemplo, Y = X2 tambien sera continuasi X lo es pero Y = signo(X) es una variable discreta. Sin importar cual sea el caso,el valor esperado de g(X) puede calcularse mediante la formula de transferencia

E[g(X)] =Z

−∞

g(x) fX(x) dx, (3.4)

similar a la que demostramos para variables discretas (Teorema de transferenciadel Capıtulo 2). Aunque su demostracion general usa herramientas avanzadas deanalisis matematico, podemos dar una prueba sencilla cuando g es una funcioninvertible y derivable. En ese caso se tiene

Z g−1(b)

g−1(a)fX(x)dx =

Z b

afX(g−1(y))

dg−1(y)dy

dy

Ası que, para todo a < b,

P(a < g(X) < b) =Z b

afX(g−1(y))

∣∣∣∣dg−1(y)dy

∣∣∣∣dy,

En otras palabras,

Page 47: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.3. DENSIDAD CONJUNTA Y DENSIDADES MARGINALES 47

Proposicion 6. Si X es una variable aleatoria continua y g es invertible y deriva-ble, la densidad de probabilidad de la variable Y = g(Y ) es

fY (y) = fX(g−1(y))∣∣∣∣dg−1(y)

dy

∣∣∣∣Usando esta proposicion y la formula de cambio de variable obtenemos que

E[g(X)] =Z

−∞

y fX(g−1(y))∣∣∣∣dg−1(y)

dy

∣∣∣∣dy

=Z

−∞

g(x) fX(x)dx, (3.5)

con lo cual probamos la formula (3.4) para el caso particular en que g es invertibley derivable. Esta es una potente formula con numerosas aplicaciones y consecuen-cias, a continuacion, sumarizamos algunas importantes.

Proposicion 7. Para todo a,b ∈ R,

E[aX +b] = aE[X ]+b

La varianza de una variable continua X es

Var(X) = E[(X −E[X ])2] = E[X2]− (E[X ])2

3.3. Densidad conjunta y densidades marginalesUn par ordenado (X ,Y ) de variables continuas es un punto aleatorio en el

plano. Experimentos aleatorios tales como el lanzamiento de un proyectil u obser-vaciones multivariadas de muestreo aleatorio pueden ser modelados por conjuntosordenados de variables aleatorias.

Extendiendo el concepto de densidad de probabilidad que introducimos parauna variable a un punto aleatorio en el plano; diremos que el vector aleatorio(X ,Y ) es continuo si existe una funcion f : R2 → (0,∞) tal que para cualquierevento D⊂ R2 se cumple

P((X ,Y ) ∈ D) =Z Z

Df (x,y)dydx (3.6)

Page 48: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

48 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

Por supuesto, supondremos tambien que

P((X ,Y ) ∈ R2) =Z Z

R2f (x,y)dydx = 1.

La funcion f es llamada densidad de probabilidad conjunta del vector aleatorio(X ,Y ).

A efecto de identificar la densidad conjunta de (X ,Y ), es suficiente verificar laecuacion (3.6) para conjuntos D ∈R2 que sean de la forma A×B, es decir, f es ladensidad conjunta de(X ,Y ) sı y solo sı

P(X ∈ A,Y ∈ B) =Z

A

ZB

f (x,y)dydx

para cualquier par de eventos A,B⊂ R.

Denotemos por fX la densidad de probabilidad de X . Si f es la densidad con-junta de (X ,Y ), la identidad

P(X ∈ A) = P(X ∈ A,Y ∈ R)

puede reescribirse por ZA

fX(x)dx =Z

A

Z∞

−∞

f (x,y)dydx

es decir,fX(x) =

Z∞

−∞

f (x,y)dy.

En este contexto, fX(x) =R

−∞f (x,y)dy es llamada densidad marginal de X .

De manera simetrica definimos la densidad marginal de Y por

fY (y) =Z

−∞

f (x,y)dx.

3.4. Independencia de v.a. continuasAnteriormente vimos que las v.a. X ,Y son independientes sı y solo sı para

cualquier par de eventos A,B de la recta real

P(X ∈ A,Y ∈ B) = P(X ∈ A)P(Y ∈ B)

Page 49: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.4. INDEPENDENCIA DE V.A. CONTINUAS 49

Para el caso continuo que estamos considerando, la ecuacion anterior se escribeZA

ZB

f (x,y)dydx =Z

AfX(x)dx

ZB

fY (y)dy,

lo que permite probar el siguiente

Teorema de factorizacion. X ,Y son independientes sı y solo sı la densidad con-junta es el producto de las densidades marginales ( f = fX fY ).

Del teorema anterior se desprende que si la densidad conjunta admite la facto-rizacion

f (x,y) = g(x)h(y), (3.7)

aun cuando g,h no sean las marginales de X ,Y respectivamente, es suficiente paraprobar que X ,Y son independientes.

Ejemplo: Consideremos el punto (X ,Y ) con distribucion uniforme en el disco deradio r, Dr = (x,y) : x2 +y2 ≤ r2, el cual modela el resultado de lanzar un dardoa una diana de radio r por un lanzador sin punterıa. Si A⊂ Dr, entonces

P((X ,Y ) ∈ A) =area(A)area(Dr)

=1

πr2

Z ZA

dydx (3.8)

Luego, la densidad conjunta de (X ,Y ) es

f (x,y) =1

πr2 si (x,y) ∈ Dr

= 0 si no

¿Son X ,Y independientes?. Hay que tener cuidado en no usar incorrectamente elcriterio de factorizacion (3.7), y siempre tomar en cuenta que las regiones en lasque la densidad conjunta es positiva deben ser productos cartesianos de subcon-juntos de R. A veces ayuda usar en estos casos la funcion indicatriz de un conjuntoA, la cual definida por

IA(ω) = 1 si ω ∈ A= 0 si no

Continuando con el ejemplo, podemos escribir f (x,y) = 1πr2 IDr(x,y) sin la posi-

bilidad de incurrir en el error de creer que f (x,y) puede ser factorizada como en(3.7).

Page 50: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

50 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

3.5. Cambio de variable y aplicacionesPara el punto (X,Y) distribuıdo uniformemente en el disco Dr, consideremos

ahora las coordenadas polares R =√

X2 +Y 2 y Θ el angulo entre el vector (X,Y)y el eje x. Usando la formula para el area de una rebanada del disco, (3.8) implica

P(0 < R < ρ,0 < Θ < θ) =ρ2θ

r22π=

0

0

2xr2

12π

dvdu

De dondefR,Θ(ρ,θ) =

ρ

r21π

I(0,r)(ρ)I(0,2π)(θ)

y usando (3.7) vemos que R,Θ si son independientes. ¿Cuales son las densidadesmarginales?.El cambio a coordenas polares anterior, ejemplifica un problema general:

Dado un vector aleatorio (X ,Y ) con densidad conjunta f (x,y) y una transfor-macion T (X ,Y ) = (U,V ), ¿cual es la densidad conjunta del nuevo v.a. (U,V )?. Sila transformacion es invertible

P((X ,Y ) ∈ A) = P((U,V ) ∈ T (A))

Usando la formula de cambio de variable, la ecuacion anterior se reescribeZ ZA

f (x,y)dxdy =Z Z

T (A)f (x(u,v),y(u,v))|J(u,v)|dudv

donde (x(u,v),y(u,v)) = T−1(u,v) y J es el jacobiano de T−1. Estas identidadespermiten probar el siguiente

Teorema de cambio de variable: Sea (X ,Y ) un v.a. con densidad conjunta f (x,y),D = (x,y) : f (x,y) > 0 y T : D → S invertible, entonces la densidad conjuntadel v.a. (U,V ) es

f(U,V )(u,v) = f (x(u,v),y(u,v))|J(u,v)|IS(u,v)

Marginalizando, esta formula es de mucha utilidad para calcular densidadesde v.a. que son funciones de puntos aleatorios.

Ejemplo: Sean X ,Y i.i.d con distribucion exponencial de parametro 1. ¿Como sedistribuye X/(X +Y )?.

Page 51: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.6. PROPIEDADES DE LA ESPERANZA 51

Consideremos las v.a. V = X/(X +Y ) y U = X +Y . La variable U es auxiliara fin de poder invertir la transformacion T (x,y) = (x + y,x/(x + y)). Usando elteorema anterior, podemos calcular la densidad conjunta de (U,V )

f(U,V )(u,v) = e−u|J(u,v)|IR+(u)I(0,1)(v) = ue−uIR+(u)I(0,1)(v)

Marginalizando

fV (v) =Z

0f(U,V )(u,v)du = 1

para v ∈ (0,1). es decir X/(X +Y ) es uniforme en (0,1).

3.6. Propiedades de la esperanzaPara g : RR×RR→ RR, probamos que si X ,Y son discretas

E[g(X ,Y )] = ∑x

∑y

g(x,y)P(X = x,Y = y). (3.9)

Tambien hemos visto como la esperanza para el caso univariado discreto, ∑x xP(X =x) tiene su version para el caso continuo

Rx f (x)dx. La intuicion sugiere dar como

version continua de (3.9) a

E[g(X ,Y )] =Z Z

g(x,y) fX ,Y (x,y)dxdy,

aunque la prueba formal de este resultado se escapa de los alcances del curso.

De manera identica a como lo hicimos para el caso discreto, usando las den-sidades conjuntas y marginales, puede probarse la linealidad del valor esperado,formulas para la covarianza y varianza de la suma de variables continuas, obte-niendo el siguiente resultado general:

Proposicion 8. Para cualquier par de variables aleatorias X, Y y par de numerosa, b, se tiene

1. E[aX +bY ] = aE[X ]+bE[Y ]

2. Cov(X ,Y ) = E[(X −EX)(Y −EY )] = E[XY ]−E[X ]E[Y ]

3. Var(aX +bY ) = a2Var(X)+b2Var(Y )+2abCov(X ,Y )

4. Si X ,Y son independientes E[XY ] = E[X ]E[Y ] y en consecuencia

Var(X +Y ) = Var(X)+Var(Y ).

Page 52: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

52 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

3.7. Densidad y esperanza condicionalPara el caso X ,Y discretas, la probabilidad condicional de X dado Y = y viene

dada directamente por la formula de la probabilidad condicional

P(X ∈ A|Y = y) =P(X ∈ A,Y = y)

P(Y = y)= ∑

x∈A

P(X = x,Y = y)P(Y = y)

Para extender esta idea al caso continuo debemos proceder con cuidado, yaque si Y es continua P(Y = y) = 0 para todo y. La idea es considerar eventos deltipo y ≤ Y ≤ y + δ para δ > 0 y hacer luego δ → 0. Para lo que sigue f (x,y)denota la densidad conjunta de (X ,Y ).

P(a≤ X ≤ b|y≤ Y ≤ y+δ) =P(a≤ X ≤ b,y≤ Y ≤ y+δ)

P(y≤ Y ≤ y+δ)

=

R ba

(R y+δ

y f (x,v)dv)

dxR y+δ

y fY (v)dv

Dividiendo y multiplicando por δ y luego haciendo δ→ 0+, observamos que

Z y+δ

yf (x,v)dv→ f (x,y)

y1δ

Z y+δ

yfY (v)dv→ fY (y).

Ası podemos verificar que

P(a≤ X ≤ b|y≤ Y ≤ y+δ)→Z b

a

f (x,y)fY (y)

dx

cuando δ→ 0+. Usando la definicion de densidad de probabilidad, el integrando,es decir f (x,y)/ fY (y), es la densidad condicional de X dado y ≤ Y ≤ y + δcuando δ→ 0, es decir dado Y = y. A la densidad condicional de X dado Y = yla denotaremos por

fX |Y (x|y) =f (x,y)fY (y)

.

Page 53: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.7. DENSIDAD Y ESPERANZA CONDICIONAL 53

Teniendo una formula para la densidad condicional, la esperanza condicionalde X dado Y = y puede ser definida como la esperanza respecto a la densidadcondicional, i.e.

E[X |Y = y] =Z

x fX |Y (x|y)dx

En el caso discreto vimos la utilidad de la esperanza condicional para el calcu-lo de valores esperados vıa formula de particionamiento

E[X ] = ∑y

E[X |Y = y]P(Y = y)

Con las definiciones anteriores es facil probar la version continua de esta impor-tante formula:

E[X ] =Z

E[X |Y = y] fY (y)dy

Un distribucion que sirve para ilustrar buena parte de lo visto en las seccionesanteriores es la normal bivariada. Sea

f (x,y) =1

2π√

1−ρ2exp

(− 1

2(1−ρ2)(x2−2ρxy+ y2)

)donde x,y son numeros reales y |ρ| ≤ 1, la densidad conjunta de (X ,Y ). Verifiqueque

X se distribuye N(0,1)

X dado Y = y se distribuye N(ρy,1−ρ2)

E[X |Y = y] = ρy

X ,Y son independientes sı y solo sı son incorrelacionados. Recuerde queincorrelacion no implica independencia, lo cual hace a la normal bivariadauna distribucion muy especial.

Si X ,Y son independientes, X/Y tiene distribucion de Cauchy, es decir, sudensidad es 1/π(1+ x2).

Page 54: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

54 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

−3−2

−10

12

3

−3−2

−10

12

30

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

Figura 3.4: Normal Bivariada con ρ = 0.

−3−2

−10

12

3

−2

0

2

0

0.1

0.2

0.3

0.4

Figura 3.5: Normal Bivariada con ρ = 0,6.

Page 55: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.8. EXTREMOS Y SUMAS DE VARIABLES INDEPENDIENTES 55

3.8. Extremos y sumas de variables independientesSean X1,X2, . . . ,Xn variables aleatorias independientes. Denotemos el mınimo

y el maximo por Un y Vn respectivamente. Es decir,

Un = mınX1,X2, . . . ,Xn y Vn = maxX1,X2, . . . ,Xn.

Vimos en la seccion 2.4 como calcular las distribuciones de estas variables. Usan-do la independencia, demostramos que

P(Un > k) = P(X1 > k)P(X2 > k) . . .P(Xn > k).

Adicionalmente, si X1,X2, . . . ,Xn son identicamente distribuıdas,

P(Un > k) = P(X1 > k)n,

de donde la funcion de distribucion de Un(k) resulta

FUn(k) = P(Un ≤ k) = 1−P(Un > k) = 1−P(X1 > k)n = 1− [1−FX(k)]n

con funcion de densidad

fUn(k) = n[1−FX(k)]n−1 fX(k)

Para determinar la funcion de densidad del maximo se procede de manera similar.

P(Vn ≤ k) = P(X1 ≤ k)P(X2 ≤ k) . . .P(Xn ≤ k)

y si X1,X2, . . . ,Xn son identicamente distribuıdas,

P(Vn ≤ k) = P(X1 ≤ k)n

Ası queFVn(k) = P(Vn ≤ k) = FX(k)n

con funcion de densidad

fVn(k) = n[FX(k)]n−1 fX(k)

Ejemplo. Sean X1,X2, . . . ,Xn v.a. i.i.d. exponenciales de parametro λ = 1. La fun-cion de densidad del mınimo viene dada por

fUn(u) = n[1−FX(u)]n−1 fX(u)

Page 56: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

56 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

por tanto,fUn(u) = n[1− (1− e−u]n−1e−u = ne−nu.

Es decir, el mınimo Un se distribuye segun una exponencial de parametro λ = n.

Breve comentario sobre la confiabiliad de sistemas. El mınimo y el maximo devariables independientes es la base de la teorıa de confiabilidad de sistemas. Laconfiabilidad de un sistema a tiempo t, R(t), se define como la probabilidad deque el sistema no falle hasta ese instante. Si T es el instante en el que el sistemafalla, entonces

R(t) = P(T > t).

El tiempo de falla de los sistemas con n componentes en lınea se modela conuna variable que representa el mınimo de n variables independientes. El tiempode falla de los sistemas paralelos con n componentes se modela como el maximode n variables independientes. Usando estas dos simples observaciones podemoscalcular la confiabilidad de sistemas mas complejos.

Ejemplo. Calculemos la confiabilidad del sistema representado por el siguientediagrama:

C1

C2

C3

C4

C5

Denotemos por Ti la variable aleatoria que representa el instante en el que elcomponente Ci falla, i = 1,2,3,4,5. Observamos que C3 y C4 trabajan en para-lelo por lo que la variable V 1 = maxT3,T4 representa el tiempo de falla de esesubsistema. Entonces tenemos que,

P(V 1 < t) = P(T3 < t)P(T4 < t)

Page 57: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.8. EXTREMOS Y SUMAS DE VARIABLES INDEPENDIENTES 57

por lo que,P(V1 > t) = 1−P(T3 < t)P(T4 < t)

Adicionalmente, C1 trabaja en serie con C3,C4 por lo que la variable U1 =mınT1,V 1 representa el tiempo de falla para ese subsistema. Por lo cual,

P(U1 > t) = P(T1 > t)P(V 1 > t)

Por otro lado, C2 y C5 trabajan en serie. Ası, la variable U2 = mınT2,T5 repre-senta el tiempo de falla para ese subsistema teniendo que

P(U2 > t) = P(T2 > t)P(T5 > t)

Finalmente, observamos que U1 representa el instante de falla del subsistema su-perior y U2 del inferior. Por lo que la variable V 2 = maxU1,U2 representa eltiempo de falla del sistema completo. Ası,

P(V 2 < t) = P(U1 < t)P(U2 < t)

Luego la confiabilidad del sistema RS(t) viene dada por P(V 2 > t), por lo cual

RS(t) = 1− (P(U1 < t)P(U2 < t))= 1− [1−P(T1 > t)(1−P(T3 < t)P(T4 < t)][1−P(T2 > t)P(T5 > t)]

Formula de convolucion: caso continuo. Para variables continuas X ,Y , vamosa determinar ahora la funcion de distribucion y la densidad de probabilidad de lavariables Z = X +Y .

P(Z ≤ z) = P(X +Y ≤ z)

=Z Z

x+y≤zfX ,Y (x,y)dydx

=Z +∞

−∞

Z z−x

−∞

fX ,Y (x,y)dydx

haciendo un cambio de variables u = x y v = x+ y donde |J|= 1, tenemos

=Z +∞

−∞

Z z

−∞

fX ,Y (u,v−u)dvdu

=Z z

−∞

Z +∞

−∞

fX ,Y (u,v−u)dudv

Page 58: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

58 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

observando que

P(Z ≤ z) =Z z

−∞

fZ(v)dv

tenemosfZ(v) =

Z +∞

−∞

fX ,Y (u,v−u)du ∀v ∈ R

Teorema: Si X ,Y v.a. independientes entonces Z = X +Y tiene funcion de densi-dad:

fZ(z) =Z +∞

−∞

fX(x) fY (z− x)dx

Se dice que la funcion de densidad X +Y es la convolucion de las funciones dedensidad de X y Y .

Ejemplo: Sean X ,Y v.a. independientes con distribuciones Gamma(s,λ) y Gamma(t,λ)respectivamente. Encontraremos la distribucion de Z = X +Y .

En general,

fZ(z) =Z +∞

−∞

fX(x) fY (z− x)dx

Pero en nuestro ejemplo, x solo puede tomar valores en el intervalo [0,z]. Ası,

fZ(z) =Z z

0

(λs

Γ(s)xs−1e−λx

)(λt

Γ(t)(z− x)t−1e−λ(z−x)

)dx

reagrupando,

fZ(z) =Z z

0

λs+t

Γ(s)Γ(t)xs−1(z− x)t−1e−λzdx

=λs+t

Γ(s+ t)zs+t−1e−λz

Z z

0

Γ(s+ t)Γ(s)Γ(t)

xs−1(z− x)t−1

zs+t−1 dx

=λs+t

Γ(s+ t)zs+t−1e−λz

Z 1

0

Γ(s+ t)Γ(s)Γ(t)

us−1(1−u)t−1du

Usando el hecho de queR 1

0Γ(s+t)

Γ(s)Γ(t)us−1(1−u)t−1du = 1, tenemos que

fZ(z) =λs+t

Γ(s+ t)zs+t−1e−λz

Por lo que Z = X +Y ∼ Gamma(s+ t,λ).

Page 59: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.9. PROBLEMARIO III 59

3.9. Problemario III

1. Halle valor esperado y varianza de una variable aleatoria continua con dis-tribucion

Uniforme(a,b)

Exponencial(λ)

Normal(µ,σ)

Gamma(α,β)

2. Suponga que X ,Y son independientes y obtenga las siguientes formulas:

fX+Y (z) =R

fX(u) fY (z−u)du

fXY (u) =R

fX(x) fY (u/x)|x|−1dx

fX/Y (v) =R

fX(vy) fY (y)|y|dy

3. Demuestre que si X ,Y son exponenciales independientes con parametrosµ,λ respectivamente, entonces la distribucion del mınimo es tambien expo-nencial y determine su parametro.

4. Sean X1, . . .Xn v.a.i.i.d con funcion de densidad comun f (x). Sean U,V elmınimo y el maximo de la muestra. Pruebe que la densidad conjunta de(U,V ) es

n(n−1) f (u) f (v)(F(v)−F(u))n−2, para u < v

y calcule las marginales (aquı F ′ = f )

5. Considere el punto aleatorio (X ,Y ) con distribucion normal bivariada ycoordenadas independientes. Sean (R,Θ) las coordenadas polares del puntoaleatorio. Identifique la distribucion marginal de R2 y Θ.

6. Un juego se llama justo cuando la esperanza de la ganancia de los partici-pantes es cero.La flecha lanzada por un experto arquero, caera a una distancia de R pies delcentro de un blanco. Se pagan 5$ como entrada para participar en un juegocuyas reglas son las siguientes: Si R < 0,2 pies, el participante recibe 50$.

Page 60: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

60 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

Si 0,2≤ R < 0,5 pies, el participante recibe 10$. Si 0,5≤ R < 1 pie, el par-ticipante no recibe ningun pago y, finalmente, si R ≥ 1 pies el participantedebe pagar x dolares a la casa (adicionales a los cancelados a la entrada, porsupuesto). Si R tiene densidad f (r) = r exp(−1

2r2) , r > 0, ¿Cuanto debevaler x para que el juego sea justo?

7. (X ,Y ) tienen densidad conjunta

f (x,y) = e−y para 0 < x < y= 0 en otro caso

encuentre E[X |Y = y] y E[Y |X = x]

8. Sean X ,Y v.a. independientes con distribucion Gamma de parametros (n,β)y (m,β) respectivamente. Considere las variables

U = X +Y V =X

X +YDemuestre que U,V son independientes y calcule sus distribuciones. De-duzca la curiosa identidad valida para este caso

E[

XX +Y

]=

E[X ]E[X ]+E[Y ]

9. La variable aleatoria X tiene f.d.a. F(x) = xr, 0≤ x≤ 1, siendo r un numeronatural. Dado X = x, la variable Y tiene distribucion Bin(n,x).(a) Hallar E(Y ).(b) Hallar la f.d.p. de Y . Sugerencias: para esto puede necesitar la integralconocida como funcion β: Si i y j son numeros naturales, se tieneZ 1

0xi(1− x) j dx =

i! j!(i+ j +1)!

.

10. Se toma un punto (X ,Y ) al azar en el triangulo de vertices (0,0), (0,2) y(1,1). Probar que E(Y |X = x) no depende de x. ¿Son X e Y independientes?

11. Debido a la variabilidad en el proceso de produccion, la tasa de vida Γ,de los amplificadores producidos por una fabrica, tiene una distribucionN(µ,σ2) con µ = 1,07×104 seg1/2, σ2 = 1,1×106 seg. A su vez, el tiempode vida T , de un amplificador con tasa de vida Γ, tiene distribucion expo-nencial de parametro λ = 1

Γ2 seg−1. Hallar el tiempo de vida promedio (enmeses) de los amplificadores producidos por esta fabrica.

Page 61: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

3.9. PROBLEMARIO III 61

12. Sea X v.a. con media µ, varianza σ2 y cuarto momento centralµ4 = E((X −µ)4). Pruebe que µ4 ≥ σ4.Ayuda: calcule la esperanza y la varianza de Z = (X −µ)2.

Page 62: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

62 CAPITULO 3. VARIABLES ALEATORIAS CONTINUAS

Page 63: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

Capıtulo 4

Convergencia y funcionesgeneratrices

Para modelar un fenomeno aleatorio que depende del tiempo, podemos consi-derar sucesiones de variables X1,X2, . . . donde Xi modela el estado del fenomeno atiempo i. El conjunto de ındices puede representar unidades de tiempo, iteracionesde un proceso, etc. Es natural que en este tipo de situaciones, si queremos teneruna informacion que no dependa del tiempo, nos preguntemos acerca del com-portamiento de Xn cuando n → ∞. Antes de formalizar esta idea consideremos elsiguiente ejemplo.

Ejemplo. Supongamos que lanzamos un dado n veces, n un numero muy grande,y observamos que el promedio de los numeros observados es an = 3,500867. Alcomparar este valor con el valor esperado de la variable aleatoria que modela elnumero observado al lanzar un dado al azar, 1

6(1+2+ . . .+6) = 3,5, podemos verque estan muy cerca. Es natural conjeturar que

an → 3,5 cuando n→ ∞

4.1. Desigualdad de Chebyshev y Ley de GrandesNumeros

Varios resultados de la teorıa de probabilidad establecen condiciones para pro-bar conjeturas del tipo ”si repetimos un experimento muchas veces entonces elpromedio de los resultados se aproxima al valor esperado”.

63

Page 64: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

64 CAPITULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

Teorema (Desigualdad de Markov). Sea X una variable aleatoria y g una funcionpositiva entonces, para todo ε > 0,

P(g(X)≥ ε)≤ E(g(X))ε

Prueba. Supongamos que X es continua, el caso discreto es similar.

E(g(X)) =Zx:g(x)≥ε

g(x) f (x)dx+Zx:g(x)<ε

g(x) f (x)dx

≥Zx:g(x)≥ε

g(x) f (x)dx

≥ ε

Zx:g(x)≥ε

f (x)dx

= εP(g(X)≥ ε)

Un caso particular de la desigualdad de Markov es la super conocida Desi-gualdad de Chebyshev.

Corolario. Si X es una variable aleatoria con E(X) = µ entonces

P(|X −µ| ≥ ε)≤ 1ε2Var(X)

Prueba

P(|X −µ| ≥ ε) = P(|X −µ|2 ≥ ε2)≤ 1

ε2 E((X −µ)2) =1ε2Var(X)

Esta desigualdad es muy util para aproximar cuan concentrada esta una varia-ble alrededor de su valor esperado.

Sean X1,X2, . . . ,Xn variables i.i.d. con E(Xi) = µ y Var(Xi) = σ2. Denotemosel promedio muestral por

Xn =Sn

n=

X1 +X2 + . . .+Xn

n.

Ya que

Page 65: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

4.1. DESIGUALDAD DE CHEBYSHEV Y LEY DE GRANDES NUMEROS65

E(Xn) = E(

X1 +X2 + . . .+Xn

n

)=

1n

y

Var(Xn) =1n2Var(X1 +X2 + . . .+Xn) =

σ2

n,

usando la desigualdad de Chebyshev se tiene que

P(|Xn−µ| ≥ ε)≤ 1ε2

σ2

n

Decimos que Xn converge en probabilidad a X si para todo ε > 0,

P(|Xn−X | ≥ ε)−→ 0 cuando n−→ ∞.

Teorema (Ley Debil de Grande Numeros). Sean X1,X2, . . . ,Xn variables i.i.d.con E(Xi) < ∞, entonces el promedio muestral Xn converge en probabilidad a µ.

0 100 2000.2

0.3

0.4

0.5

0.6

Figura 4.1: Convergencia de la proporcion de caras con el numero de lanzamientosde una moneda.

La Ley Debil de Grandes Numeros ofrece un potente metodo de estimacionconocido como el Metodo de Monte Carlo. El siguiente ejemplo ilustra la ideabasica del metodo.

Page 66: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

66 CAPITULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

0 100 2002,5

3

3.5

4

5

6

Figura 4.2: Convergencia del promedio de observaciones con el numero de lanza-mientos de un dado.

Ejemplo. Sea (X ,Y ) un vector aleatorio distribuıdo uniformemente en el rectangu-lo B = [0,a]× [0,b]. Sea A un area contenida en B, ası,

p = P((X ,Y ) ∈ A) =|A|ab

Para estimar p, generamos puntos (X1,Y1), . . . ,(Xn,Yn) i.i.d. U [0,a]× [0,b] y con-sideramos la v.a. Bernoulli

Zi = 1 si (Xi,Yi) ∈ A= 0 en caso contrario

Es facil verificar el promedio Zn converge en probabilidad a p.

4.2. Funcion generatriz de momentosHemos visto que la esperanza y la varianza dan informacion acerca de la v.a.

Para obtener esta informacion necesitamos calcular E[X ] y E[X2]. El momento deorden k no es mas que la extension de esta idea para tener mas informacion acercade la variable.

Page 67: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

4.2. FUNCION GENERATRIZ DE MOMENTOS 67

Definicion. El momento de k-esimo orden de una v.a. X es E[Xk] siempre y cuan-do E[|X |k] < ∞.

Ejemplo: Si X tiene distribucion Gamma(n,β) entonces el momento de orden k es

E[Xk] =Z

0xk βn

Γ(n)e−βxdx =

n(n+1) . . .(n+ k−1)βk

Ejemplo: Si X tiene distribucion Cauchy entonces

E[Xk] =Z

−∞

xk 1π(1+ x2)

dx

En vista de que la integral no converge en valor absoluto para ningun k ≥ 1 deci-mos que la distribucion de Cauchy no tiene momentos.

Un criterio util para garantizar la existencia de momentos es:

E[|X |k] < ∞ implica E[|X |r] < ∞ para 1≤ r ≤ k

En particular, cuando digamos que Var(X) < ∞, estaremos diciendo que los mo-mentos de primer y segundo orden existen.

Si lo que estamos buscando es obtener informacion de una variable; formal-mente de la distribucion de probabilidad; a traves de sus momentos, parece naturalconstruir una funcion que reproduzca el valor de todos los momentos si es queexisten.

Definicion. La funcion generatriz de momentos de una v.a. X es la funcion

MX(t) = E[e−tX ] para todo t para el cual la esperanza existe

Ejemplo: Si X tiene distribucion Gamma(n,β) entonces

MX(t) =(

β

β− t

)n

para t ≤ β

Ejemplo: Si X tiene distribucion Cauchy entonces MX(t) solo esta definida parat = 0.

Ejemplo: Si X tiene distribucion Normal(µ,σ2) entonces

MX(t) = eµt+σ2t2/2 para todo t ∈ R

Page 68: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

68 CAPITULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

Ejemplo: Si X tiene distribucion Poisson(λ) entonces

MX(t) = e−λ(1−et) para todo t ∈ R.

Volviendo a nuestro problema, ¿como reproducir los momentos de una v.a. apartir de su funcion generatriz?. El siguiente teorema responde la pregunta.

Teorema. Si MX existe en un entorno de 0, entonces para cualquier k ≥ 1

E[Xk] =dk

dtk MX(0)

La prueba formal de este teorema se escapa del alcance de estas notas. La ideabasica es la siguiente:

La esperanza es una sumatoria o una integral dependiendo cual sea el casoque estemos estudiando. Estos operadores (sumatoria e integral) conmutan, bajocondiciones de regularidad, con el operador derivada (¿puede el lector construirejemplos concretos donde esto ocurre?). Ası resulta que

dk

dtk MX(t) =dk

dtk E[etX ] = E[dk

dtk etX ] = E[XketX ]

evaluando la identidad anterior en t = 0 obtenemos el resultado del teorema.

Mas que reproducir los momentos de una distribucion, la funcion generatrizprovee una manera de caracterizar distribuciones de probabilidad, tal y como loexpresa el siguiente teorema.

Teorema. Si MX existe en un entorno de 0, entonces hay una unica distribucioncon funcion generatriz MX . Ademas, bajo esta condicion todos los momentos exis-ten, no importa el orden, y el desarrollo de Taylor de la funcion generatriz es

MX(t) =∞

∑k=0

E[Xk]tk

k!

Del teorema anterior podemos observar que no basta conocer todos los mo-mentos para caracterizar una distribucion, es necesario que la serie

∑k=0

E[Xk]tk

k!

converja en un entorno de cero, tal como aparece en la hipotesis del teorema.

Page 69: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

4.2. FUNCION GENERATRIZ DE MOMENTOS 69

La prueba de este teorema se basa en propiedades de la transformada de La-place y la omitiremos, sin embargo, su aplicacion es de gran utilidad al conectarlacon las siguientes propiedades:

Para numeros a,b se tieneMaX+b(t) = E[e(aX+b)t ] = ebtE[eatX ] = etbMX(at)

Si X ,Y son independientes entoncesMX+Y (t) = E[et(X+Y )] = E[etX etY ] = E[etX ]E[etY ] = MX(t)MY (t)

Usando recursivamente la propiedad anterior, si X1, . . . ,Xn son independien-tes, entonces MX1+...+Xn = MX1 . . .MXn

Ejemplo: Sean X1, . . . ,Xn v.a.i.i.d. Exponenciales(β). ¿Cual es la distribucion de lasuma Sn = X1 + . . .+Xn?. Sabiendo que la funcion generatriz de una exponenciales

MX1(t) =β

β− tpara t ≤ β

podemos usar las propiedades enunciadas y verificar que

MSn(t) =(

β

β− t

)n

para t ≤ β

que corresponde a la funcion generatriz de una Gamma(n,β). Usando el teoremaanterior podemos concluir que la suma de n exponenciales i.i.d de parametro β

tiene distribucion Gamma(n,β).

El lector puede usar esta tecnica para probar los siguientes resultados:

sumas de normales independientes es normal

sumas de Poisson independientes es Poisson

En general, pruebe que si (MX(t))1/n es la funcion generatriz de una v.a. Z,entonces sumas de n replicas independientes de Z se distribuye como X .

Page 70: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

70 CAPITULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

4.3. Funcion caracterısticaComo vimos, la funcion generatriz ofrece un poderoso metodo para identificar

distribuciones de probabilidad. El problema es que la funcion generatriz no siem-pre existe, como es el caso de la Cauchy. La clase de distribuciones para la cualno existe es suficientemente grande como para necesitar una alternativa. Usandola formula de Moivre

eiω = cosω+ isenω, con i =√−1

es facil ver queMX(iω) = E[cos(ωX)]+ iE[sen(ωX)]

Ya que las funciones coseno y seno son acotadas, la funcion

φX(ω) = MX(iω)

siempre existe y tiene propiedades equivalentes a las de la funcion generatriz. Porlo cual conviene introducir la siguiente definicion

Definicion. La funcion caracterıstica de una v.a. X es la funcion

φX(ω) = E[eiωX ]

En estas notas, suponemos que el lector no esta familiarizado con el calculo envariable compleja. Para calcular φX(ω) = E[eiωX ], se puede usar la identidad

φX(ω) = MX(t) para t = iω

cuando MX(t) existe.

Ejemplo: Si X tiene distribucion Gamma(n,β) entonces

φX(ω) =(

β

β− iω

)n

Cuando MX(t) no existe, por ejemplo para el caso Cauchy, el uso de tablas parala transformada de fourier puede ser muy util. Casi cualquier funcion caracterısticaya ha sido tabulada. En particular, si X es Cauchy,

φX(ω) =12

e−|ω|

Page 71: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

4.4. CONVERGENCIA EN DISTRIBUCION Y TEOREMA CENTRAL DEL LIMITE71

El hecho de que la funcion caracterıstica siempre exista simplifica el criteriode caracterizacion analogo al que estudiamos para la funcion generatriz de mo-mentos.

Teorema. Las v.a. X ,Y tienen la misma distribucion sı y solo sı φX(ω) = φY (ω)para todo ω. Aun mas, si X es continua con densidad de probabilidad f , la siguien-te formula puede ser usada para recobrar f a partir de la funcion caracterıstica

f (x) =1

Z +∞

−∞

e−iωxφX(ω)dω

Esta formula no es mas que la inversa de la transformada de fourier, observandoque la funcion caracterıstica

φX(ω) =Z +∞

−∞

e−iωx f (x)dx

es la transformada de fourier de f .

Para terminar, enunciamos algunas propiedades que el lector puede probar sindificultad, siguiendo las pruebas analogas para la funcion generatriz.

Para numeros a,b se tieneφaX+b(ω) = eiωbφX(aω)

Si X ,Y son independientes entoncesφX+Y (ω) = φX(t)φY (ω)

Usando recursivamente la propiedad anterior, si X1, . . . ,Xn son independien-tes, entonces φX1+...+Xn = φX1 . . .φXn

4.4. Convergencia en distribucion y Teorema Cen-tral del Lımite

Cuando consideramos sucesiones de variables aleatorias X1,X2, . . . es naturalpreguntarse acerca del comportamiento de Xn cuando n→ ∞. En particular, sobrela distribucion de probabilidades de Xn cuando n → ∞. Antes de formalizar estaidea observemos el siguiente ejemplo:

Consideremos la sucesion de variables aleatorias X1,X2, . . . con P(Xn = 1n) = 1.

Es decir, con probabilidad 1, Xn = 1n . Lo natural serıa que Xn converja a una v.a.

Page 72: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

72 CAPITULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

X que tiene probabilidad 1 de valer 0. Veamos que pasa con las funciones dedistribucion de estas v.a.

Fn(x) = P(Xn ≤ x) = 0 si x <1n

= 1 si x≥ 1n

F(x) = P(X ≤ x) = 0 si x < 0= 1 si x≥ 0

Por otro lado

lımn→∞

Fn(x) = 0 si x≤ 0

= 1 si x > 0

Es decir, con la excepcion de 0, que es un punto de discontinuidad de F ,

lımn→∞

Fn(x) = F(X).

Este ejemplo muestra que los puntos de discontinuidad de la distribucion lımitedeben ser ignorados, lo cual nos lleva a la siguiente definicion.

Definicion. Consideremos la sucesion de v.a. X1,X2, . . . con funciones de distri-bucion F1,F2, . . . respectivamente. Sea X una v.a. con funcion de distribucion F .Diremos que Xn converge en distribucion a X , o que Xn → X en distribucion, si

lımn→∞

Fn(x) = F(X)

para todo x donde F sea continua.

Ejemplo: Considere el mınimo Un de n variables i.i.d. uniformes en (0,1). Es facilintuir que pasa con Un cuando n → ∞. Ahora bien, ¿que pasa con nUn cuandon→ ∞?. Primero que nada, como Un ∈ (0,1), entonces nUn ∈ (0,n) y

P(nUn ≤ x) = P(

Un ≤xn

)para x ∈ (0,n)

Usando la definicion del mınimo y la independencia, la probabilidad anterior pue-de escribirse como

1−P(nUn > x) = 1−P(

Un >xn

)= 1−

[P

(X >

xn

)]n

Page 73: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

4.4. CONVERGENCIA EN DISTRIBUCION Y TEOREMA CENTRAL DEL LIMITE73

con X uniforme en (0,1). Sustituyendo,

P(nUn ≤ x) = 1−(

1− xn

)npara x ∈ (0,n)

Usando el hecho de que si nan → a entonces

lım(1−an)n = ea (4.1)

se obtiene

lımP(nUn ≤ x) = lım1−(

1− xn

)n= 1− e−x para x ∈ (0,∞)

que corresponde a la distribucion de una variable exponencial de parametro 1. Esdecir, si X1,X2, . . . son v.a.i.i.d. uniformes sobre (0,1), entonces

nUn → exp(1) en distribucion.

Cuando las variables toman valores enteros la convergencia en distribucion sereduce a la convergencia de la funciones de masa. El lector no tendra dificultad enprobar la siguiente proposicion.

Proposicion 9. Si X ,X1,X2, . . . toman valores enteros y para todo k

lımP(Xn = k) = P(X = k)

entonces Xn → X en distribucion.

Ejemplo. Considere la sucesion de v.a. Xn con Xn binomial(n, pn). Suponga-mos que pn → 0 con npn → λ > 0. Es decir, para n grande, Xn es una binomialcon muchas repeticiones de un experimento que tiene muy poco chance de exito.Podemos probar

lımP(Xn = 0) = e−λ

y que

lımP(Xn = k +1)

P(Xn = k)= λ(k +1)

Usando recurrencia, vemos que

lımP(Xn = k) = e−λ λk

k!

Page 74: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

74 CAPITULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

que es la funcion de masa de una Poisson(λ). Es decir,

Xn → Poisson(λ) en distribucion.

Los dos ejemplos anteriores muestran la dificultad de probar convergencia endistribucion por definicion. El siguiente teorema ofrece un metodo sencillo dehacerlo

Teorema de continuidad: Sean X1,X2, . . . v.a. y φ1,φ2, . . . sus respectivas funcio-nes caracterısticas. Si

lımφn(ω) =: φ(ω) para todo ω ∈ R

y φ(ω) es continua en ω = 0, entonces φ es la funcion caracterıstica de una v.a. Xtal que Xn → X en distribucion.

La prueba de este teorema exige de conocimientos avanzados de analisis ma-tematico, sin embargo el teorema en sı es facilmente intuible, a excepto de lacondicion tecnica φ continua en cero.

Ejemplo: Usar el teorema para probar la convergencia a Poisson del ejemplo an-terior. Debemos probar que

lımφn(ω) =: φ(ω) para todo ω ∈ R

Para el ejemplo anterior

φn(ω) =(qn + pneiω)n

y φ(ω) = e−λ(1−eiω)

Ası,

lımφn(ω) = lım(qn + pneiω)n

= lım(1− pn(1− eiω)

)n

= lım(

1− λ

n(1− eiω)

)n

= e−λ(1−eiω)

La aplicacion por excelencia del teorema de continuidad es el muy famoso

Teorema del Lımite Central. Sean X1,X2, . . . v.a.i.i.d. con varianza finita σ2. De-notemos por µ la esperanza comun de las variables. Entonces

X1 + . . .+Xn−nµ√n

→ N(0,σ2) en distribucion

Page 75: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

4.5. PROBLEMARIO IV 75

4.5. Problemario IV1. El numero de llamadas que llegan a la central telefonica de Sartenejas en

un minuto, es, en promedio, 102. La central puede manejar un maximo de103 llamadas, colapsando si recibe mas de este numero de llamadas en unminuto. Usar la desigualdad de Chebyshev para estimar la probabilidad deque la central colapse en un minuto dado.

2. En el problema de la fabrica del capıtulo anterior, supongase que los ampli-ficadores con Γ < 7,5×103 seg−1/2 son rechazados por control de calidad.(a) Use la desigualdad de Chebyshev para estimar el % de amplificadoresrechazados.(b) Calcule la misma probabilidad de la parte (a) usando la tabla de la dis-tribucion normal. Explique la discrepancia de los resultados.

3. A traves de una encuesta se quiere estimar la fraccion p de adultos de lapoblacion que se interesarıa en un nuevo producto. Se interroga a n perso-nas de la poblacion, y se estima p como p = X/n, siendo X el numero depersonas encuestadas que manifiestan interes en el producto. Utilizando elTeorema del Lımite Central, y suponiendo que el verdadero valor de p es0.35, encuentre, aproximadamente, el menor valor de n para el cual p y p di-fieren en menos de 0.02, con probabilidad mayor que 0,9. ¿Como resolverıael problema en el caso (realista) en que p es desconocido?

4. Tomamos 50 numeros al azar (uniformemente) en el intervalo (1,3).

Utilize la desigualdad de Chebyshev para estimar la probabilidad deque el promedio X de estos numeros se encuentre entre 1,9 y 2,1.

Utilize el Teorema del Lımite Central para aproximar la misma pro-babilidad de la parte (a) Segun la aproximacion que nos da el T.L.C.,¿Cuanto debe ser ε para que X se encuentre en el intervalo (1−ε,1+ε)con probabilidad 0,95.

5. Use la funcion generatriz para calcular el momento de tercer orden de unaNormal(µ,σ2).

2.- Sean Xn v.a.i.i.d. y N una v.a. a valores enteros positivos independientede Xn. Calcule la funcion generatriz de momentos de X1 + . . . + XN ydeduzca la esperanza y varianza de esta v.a.

Page 76: CURSO INTRODUCTORIO DE PROBABILIDAD - …halweb.uc3m.es/esp/Personal/personas/rjjimene/apuntes-rj/libro.pdf · 4 ´INDICE GENERAL 4. Convergencia y funciones generatrices 63 4.1.

76 CAPITULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

6. Xn v.a. con

P(

Xn =k

n+1

)=

1n

para k = 1, . . .n

Pruebe que Xn → U(0,1) en distribucion.

7. Suponga que Xn tiene distribucion Gamma(n,1). Calcule la funcion genera-triz de momentos de Zn = (Xn−n)/

√n y demuestre que

lımMZn(t) = et2/2

¿Que concluye?.