Bertrand. I. - WordPress.com...I. la probabilidad del aximo Bertrand 1889 1 problemas, llamados...

14
Los Axiomas de Kolmogorov. Parte I. 1 El problema de la clase de eventos y de la medida de probabilidad La paradoja del ırculom´aximo de Bertrand Elmatem´aticofranc´ es Joseph Bertrand, plante´o en 1889 1 diversos problemas, llamados paradojas, que hac´ ıan creer que no era posible llegar a una teor´ ıa matem´atica de la probabilidad, a la manera como las geometr´ ıas o el ´algebra por ejemplo. Uno de ellos sucit´o muchas controversias entre los matem´aticos de la ´ epoca y de algunos a˜ nos posteriores. El problema. En una esfera se elige un par de puntos. ¿Cu´al es a proba- bilidad de que la distancia entre ellos sea menor de 10 minutos? 2 Dice Bertrand, Le premier point peut ˆ etre suppos´ e connu, la position qu’iloccupe, quelle qu’elle soit, ne change rien `a la probabilit´ e cherc´ ee. Esto es, podemos suponer que la posici´on de uno de los puntos elegidos es conocida. Soluci´ongeom´ etrica. Esta es la segunda soluci´on que ofrece Bertrand. Con el primer punto fijo, lo que debemos calcular es la proporci´on, con relaci´ on a la superficie total de la esfera, de la regi´on de la superficie de todos los puntos que se encuentran a menos de 10 minutos del punto fijado. Esta regi´ on es un casquete esf´ erico, cuyo arco mide 20 minutos, por lo que, si R es el radio de la esfera, la altura del casquete es 2R sin 2 20 0 4 =2R sin 2 5 0 =2R sin 2 π 2, 160 =2R(2.1154 × 10 -6 ), de modo que la proporci´ on buscada es (2.1154 × 10 -6 ) 3 . Esta es la soluci´ on cl´ asica. 1 Bertrand, Joseph. Calcul des Probabilit´ es. Gauthier-Villars, Paris, 1889. P´ags. 6 y 7. El libro completo puede bajarse en http://gallica.bnf.fr/ark:/12148/bpt6k99602b. 2 Cantidades sexagesimales: 1 (1 grado=1 hora)=60 minutos(60 0 ), 1 minuto=60 segundos(60 00 ). Como arco, 1 minuto es π/10, 800 radianes. 3 La superficie de la esfera es 4πR 2 . La superficie de un casquete esf´ erico de arco θ es 2πRh, donde h =2R sin 2 θ 4 es la altura. 1 El error de Bertrand. Sin embargo Bertrand no dio esta soluci´ on. Escribe, La rapport de la surface de cette zone ` a celle de la sph` ere est 0, 00000042308 = 1 236362 . Esto es 2 × (2.1154 × 10 -6 ). No se sabe con certeza porqu´ e Bertrand cometi´ o este descuido, seg´ un Glenn Shafer y Vladimir Vovk, The formula Bertrand gives is correct, and it evaluates to this number. Unfortunately, he then gives a numerical value that is twice as large, as if the denominator of the ratio being cal- culated were the area of a hemisphere rather than the area of the entire sphere. (Later in the book, on p. 169, he considers a version of the problem where the point is drawn at ran- dom from a hemisphere rather than from a sphere.) Bertrand composed his book by drawing together notes from decades of teaching, and the carelessness with which he did this may have enhanced the sense of confusion that his paradoxes en- gendered. 4 Soluci´ on alternativa de Bertrand. Esta es la soluci´ on controvertida. De nueva cuenta, despu´ es de fijar uno de los puntos, escribe Bertrand, Le grand cercle qui r´ eunit les deux points peut ˆ etre ´ egalment suppos´ e connu, les chances possibles sont les m` emes dans toutes les directions. Es decir, seg´ un Bertrand, podemos asumir que el c´ ırculo m´ aximo que une ambos puntos es conocido, dado que el azar de escoger cualquier c´ ırculo aximo es “igualmente probable”. Es este argumento la fuente de la pol´ emica. Desde el punto de vista geom´ etrico, la superficie de cualquier ırculo sobre la esfera es nula en proporci´ on con la superficie total de la esfera. As´ ı, el azar de elegir cualquiera de ellos tiene probabilidad cero. ¿Qu´ e sentido tiene entonces considerar eventos de probabilidad cero, y as a´ un, c´ omo resolver un problema suponiendo conocido uno de tales eventos de probabilidad cero? Al parecer Bertrand pretend´ ıa extender la idea del modelo cl´ asico de probabilidad, no s´ olo como una proporci´ on 4 The origins and legacy of Kolmogorov’s Grundbegriffe. Glenn Shafer and Vladimir Vovk. 2

Transcript of Bertrand. I. - WordPress.com...I. la probabilidad del aximo Bertrand 1889 1 problemas, llamados...

Los Axiomas de Kolmogorov. Parte I.

1 El problema de la clase de eventos y de lamedida de probabilidad

La paradoja del Cırculo maximo de Bertrand

El matematico frances Joseph Bertrand, planteo en 1889 1 diversos problemas,llamados paradojas, que hacıan creer que no era posible llegar a una teorıamatematica de la probabilidad, a la manera como las geometrıas o el algebrapor ejemplo. Uno de ellos sucito muchas controversias entre los matematicosde la epoca y de algunos anos posteriores.

El problema. En una esfera se elige un par de puntos. ¿Cual es a proba-bilidad de que la distancia entre ellos sea menor de 10 minutos?2 DiceBertrand,

Le premier point peut etre suppose connu, la position qu’iloccupe, quellequ’elle soit, ne change rien a la probabilite chercee.

Esto es, podemos suponer que la posicion de uno de los puntos elegidoses conocida.

Solucion geometrica. Esta es la segunda solucion que ofrece Bertrand. Conel primer punto fijo, lo que debemos calcular es la proporcion, conrelacion a la superficie total de la esfera, de la region de la superficiede todos los puntos que se encuentran a menos de 10 minutos del puntofijado. Esta region es un casquete esferico, cuyo arco mide 20 minutos,por lo que, si R es el radio de la esfera, la altura del casquete es

2R sin2 20′

4= 2R sin2 5′ = 2R sin2 π

2, 160= 2R(2.1154× 10−6),

de modo que la proporcion buscada es (2.1154 × 10−6)3. Esta es lasolucion clasica.

1 Bertrand, Joseph. Calcul des Probabilites. Gauthier-Villars, Paris, 1889. Pags. 6 y 7.El libro completo puede bajarse en http://gallica.bnf.fr/ark:/12148/bpt6k99602b.

2 Cantidades sexagesimales: 1(1 grado=1 hora)=60 minutos(60′), 1 minuto=60segundos(60′′). Como arco, 1 minuto es π/10, 800 radianes.

3 La superficie de la esfera es 4πR2. La superficie de un casquete esferico de arco θ es2πRh, donde h = 2R sin2 θ

4es la altura.

1

El error de Bertrand. Sin embargo Bertrand no dio esta solucion. Escribe,

La rapport de la surface de cette zone a celle de la sphere est

0, 00000042308 =1

236362.

Esto es 2 × (2.1154 × 10−6). No se sabe con certeza porque Bertrandcometio este descuido, segun Glenn Shafer y Vladimir Vovk,

The formula Bertrand gives is correct, and it evaluates to thisnumber. Unfortunately, he then gives a numerical value thatis twice as large, as if the denominator of the ratio being cal-culated were the area of a hemisphere rather than the area ofthe entire sphere. (Later in the book, on p. 169, he considersa version of the problem where the point is drawn at ran-dom from a hemisphere rather than from a sphere.) Bertrandcomposed his book by drawing together notes from decadesof teaching, and the carelessness with which he did this mayhave enhanced the sense of confusion that his paradoxes en-gendered.4

Solucion alternativa de Bertrand. Esta es la solucion controvertida. Denueva cuenta, despues de fijar uno de los puntos, escribe Bertrand,

Le grand cercle qui reunit les deux points peut etre egalmentsuppose connu, les chances possibles sont les memes dans toutesles directions.

Es decir, segun Bertrand, podemos asumir que el cırculo maximo que uneambos puntos es conocido, dado que el azar de escoger cualquier cırculomaximo es “igualmente probable”. Es este argumento la fuente de lapolemica. Desde el punto de vista geometrico, la superficie de cualquiercırculo sobre la esfera es nula en proporcion con la superficie total de laesfera. Ası, el azar de elegir cualquiera de ellos tiene probabilidad cero.¿Que sentido tiene entonces considerar eventos de probabilidad cero, ymas aun, como resolver un problema suponiendo conocido uno de taleseventos de probabilidad cero? Al parecer Bertrand pretendıa extenderla idea del modelo clasico de probabilidad, no solo como una proporcion

4The origins and legacy of Kolmogorov’s Grundbegriffe. Glenn Shafer and VladimirVovk.

2

(que es el caso de las probabilidades geometricas), sino desde el conceptode que cada muestra es igualmente probable, y dar una solucion desdeesta perspectiva que le parecıa igualmente valida.

La solucion de Bertrand continua del siguiente modo: El arco del cırculomaximo que une ambos puntos tiene 360 grados, o bien, 2, 160 arcos de10′ cada uno. Si pensamos el punto fijado previamente como un polode la esfera, entonces el segundo punto debe ser elegido unicamente dealguno de los dos arcos vecinos (de 10′ cada uno), si la distancia entreestos ha de ser menor a 10′. Luego, la probabilidad buscada es 2/2160, oequivalentemente, 9.2593× 10−4. Un numero considerablemente mayorque el obtenido en la solucion geometrica.

El problema radica en dos cosas. Una, Bertrand no precisa lo que debeentenderse por eleccion al azar de un punto en la esfera, de la misma maneraque sus famosas paradojas geometricas (la cuerda y el triangulo inscrito), porlo que las dos interpretaciones las considera igualmente validas. En segundolugar, y mas importante, no hay una clara definicion del concepto de evento,sin este, puede cometerse el equıvoco conceptual de Bertrand.

Modelos de probabilidad con informacion incompleta

El dado cargado. Supongamos que al lanzar un dado cargado, la probabi-lidad de obtener 1 o 6 es 1/5, mientras que la probabilidad de obtener1 o 5 es 1/4. No contamos con ninguna otra informacion. ¿Es posiblecalcular con esta informacion la probabilidad de que el dado caiga en1? ¿Es posible calcular la probabilidad de que el dado caiga en numeropar, o numero impar? Supongamos ahora que obtenemos la informacionextra de que la probabilidad de obtener numero impar es la misma para1, 3 y 5, y es igual a algun numero p. ¿Es posible resolver las mismaspreguntas? ¿Es posible calcular el numero p? ¿Es posible calcular laprobabilidad de que el dado caiga en 2?

Este problema, en apariencia inocente, toca ciertas cuestiones bastanteprofundas. En primer lugar nos hace ver las limitaciones de la teorıa de laprobabilidad. En segundo lugar, nos remite al problema de que entendemospor evento, por modelo de probabilidad y como construir modelos de proba-bilidad cuando solo contamos con informacion incompleta.

3

Analisis del problema

El problema anterior puede expresarse ası: Al lanzar un dado, la probabili-dad del evento 1, 6 es 1/5, la probabilidad del evento 1, 5 es 1/4. Conesta informacion, ¿podemos construir un modelo de probabilidad para estefenomeno? Si es ası, ¿se trata de un modelo clasico? ¿Es un modelo finito?Mas aun, ¿que es un modelo de probabilidad?

En primer lugar, el espacio muestral de este fenomeno es Ω = 1, 2, 3, 4, 5, 6.Ahora bien, hasta donde sabemos, si las preguntas anteriores tienen respuestaafirmativa, deberıa ser entonces posible calcular la probabilidad de eventostales como 2, 4, 6, o 2, 5, y de hecho para cualquier subconjunto A ⊂ Ω.Digamos que P es esta supuesta medida de probabilidad. Definimos A = 1, 6y B = 1, 5. Ademas de que P(∅) = 0 y P(Ω) = 1, las probabilidades trivialesson

P(Ac) = P(2, 3, 4, 5) = 1− 1

5=

4

5.

P(Bc) = P(2, 3, 4, 6) = 1− 1

4=

3

4.

Sin embargo, resulta casi obvio notar que es imposible deducir la probabilidad

P(A ∩B) = P(1),

solo con la informacion original sobre las probabilidades de los eventos A y B.Por otro lado, con la informacion extra, tenemos,

P(1) = P(3) = P(5) = p,

de donde1

4= P(1, 5) = P(1) + P(5) = 2p,

y por tanto p = 1/8. De este modo,

P(6) =1

5− 1

8=

3

40y P(2, 4) = P(2, 4, 6)− P(6) =

5

8− 3

40=

11

20

Luego, con la regla de la aditividad finita, es posible calcular la probabilidad decualquier evento que pueda escribirse como una union disjunta de los eventos,

1, 3, 5, 6 y 2, 4. (1)

Por ejemplo,

P(2, 3, 4, 5) = P(2, 4) + P(3) + p(5) =4

5.

4

Notamos ademas que las probabilidades de los eventos (1) son consistentes.En efecto,

P(Ω) = P(1) + P(3) + P(5) + P(6) + P(2, 4) = 1.

Por otra parte, no hay modo de obtener probabilidad para 2 o 4. Noobstante, si decidimos excluir los conjuntos 2 y 4, el modelo sigue siendoconsistente, en el sentido descrito anteriormente: cualquier evento que puedaexpresarse como uniones de los conjuntos (1), tiene probabilidad.

Como conclusion, dada la informacion adicional, es posible determinar deforma unica un modelo de probabilidad, siempre y cuando los conjuntos 2y 4 no sean tomados como eventos, es decir, no sujetos de probabilidad.Sin esta informacion, no es posible deducir un modelo de probabilidad para elfenomeno en cuestion, aunque vale la pena senalar que esto no significa que noexista ningun modelo apropiado, sino mas bien que no es posible determinarlode forma unica.

2 El sexto problema de Hilbert

Los conceptos de evento y de modelo de probabilidad deben ser ahora masprecisos. Este problema fue planteado por Hilbert, como parte del sextoproblema: Mathematical Treatment of the Axioms of Physics, en el famosoInternational Congress of Mathematicians, de Paris en 1900. Hilbert plantea,

The investigations on the foundations of geometry suggest theproblem : To treat in the same manner, by means of axioms, thosephysical sciences in which mathematics plays an important part ;in the first rank are the theory of probabilities and mechanics.5

Hubo muchos matematicos, antes y despues de esta exposicion de Hilbert,centrados en esta tarea, en cuanto a la probabilidad. En 1933, Kolmogorovculmina este trabajo con la publicacion de su pequeno libro Grundbegriffe derWahrscheinlichkeitsrechnung.6

5 David Hilbert. Mathematical problems. Bulletin of American Mathematical Society,Vol 8. Pags. 437-479, 1902. El texto completo puede encontrarse enhttp://www.ams.org/journals/bull/1902-08-10/S0002-9904-1902-00923-3/.

6 El libro completo en su segunda edicion inglesa puede bajarse enhttp://www.socsci.uci.edu/∼bskyrms/bio/readings/kolmogorov theory of probability small.pdf

5

3 Los Axiomas de Kolmogorov

Sea Ω un conjunto. Recordemos que una clase de subconjuntos de Ω es unconjunto que reune subconjuntos de Ω. Es un conjunto de conjuntos. Porejemplo, en R la clase de todos los intervalos abiertos es la familia

I = (a, b) ⊂ R : a ≤ b.

El conjunto potencia P(Ω) es tambien un ejemplo de clase de subconjuntos deun conjunto Ω. Otras clases tıpicas (sobre todo en logica matematica) son losconjuntos

∅, ∅, ∅, etc.

El concepto de clase de subconjuntos juega un papel fundamental en lateorıa de la probabilidad moderna.

Definicion 1 (Campo de conjuntos). Una clase de conjuntos F es llamadacampo de conjuntos si para cualesquiera dos conjuntos A y B en F, los con-juntos

A ∪B, A ∩B, y A\B,

pertenecen tambien a la clase F. En particular, cualquier campo no vacıocontiene al conjunto nulo ∅.

Axiomas de Kolmogorov para la Teorıa de la Probabilidad.

Sea Ω un conjunto, cuyos elementos seran llamados eventos elementales y seaF una clase de subconjuntos de Ω, cuyos elementos seran llamados eventosaleatorios.

Axioma I La clase F es un campo de conjuntos.

Axioma II Ω ∈ F.

Axioma III Para cada evento aleatorio A ∈ F, existe un numero real no-negativo P(A). Este numero es llamado la probabilidad del evento A.

Axioma IV P(Ω) = 1.

Axioma V (Aditividad finita) Si A y B son eventos aleatorios mutuamenteexcluyentes, entonces

P(A ∪B) = P(A) + P(B).

6

Un sistema compuesto por el conjunto Ω, la clase F y la asignacion P(A)que satisfacen los axiomas I-V es llamado campo de probabilidad.

Observaciones La clase F es no vacıa, puesto que Ω ∈ F. Con ello ∅ ∈ F yen general, para cualquier otro evento aleatorio A ∈ F, Ac = Ω\A ∈ F.

Por otro lado, es facil probar por induccion que para cualquier coleccionfinita de eventos aleatorios A1,...,An, esto es Ai ∈ F, i = 1, ..., n, losconjuntos

A1 ∪A2 ∪ · · · ∪An y A1 ∩A2 ∩ · · · ∩An,

son tambien eventos aleatorios, esto es, estan en F.

Interpretacion de los axiomas.

Supongamos que Ω es el espacio muestral de un fenomeno aleatorio. Ya hemosvisto que no siempre es posible considerar todo subconjunto A de Ω comoun evento, es decir, no todos los resultados posibles forman sucesos sujetosde probabilidad. Nos preguntamos entonces que caracterısticas deben satis-facer los subconjuntos que pueden ser considerados eventos. Obviamente, larespuesta depende de las condiciones particulares del fenomeno en cuestion.Esta pregunta no es relevante si queremos llegar a un modelo abstracto deprobabilidad. La cuestion importante no debe estar relacionada directamentecon las caracterısticas particulares de un fenomeno o experiemento aletorio.Suponiendo que podemos “reunir” en una sola coleccion todos los eventos, ycon ello excluir aquellos conjuntos que no lo son, debemos pensar sobre cualesson las condiciones mınimas que dicha coleccion cumple. Podemos entoncesinterpretar los axiomas del siguiente modo.

Axioma I La clase de eventos F es un campo: Si tenemos en cuenta queF “reune” los sucesos considerados como eventos, entonces cualquiercomposicion entre ellos debe ser a su misma vez un evento. Conside-remos el ejemplo sencillo de las condiciones meterelogicas del dıa dehoy. Pensemos en los siguientes eventos: o bien llueve o bien hay tor-menta electrica; hay tormenta electrica y no llueve; llueve y hay tor-menta electrica. Todos ellos son composiciones de un par de eventosrelacionados con el mismo fenomeno, razon suficiente para ser ellos mis-mos eventos del mismo fenomeno. En lenguaje conjuntista la descripcionde esta propiedad corresponde a las propiedades de campo de la clase F.

Axioma II Ω ∈ F. Esta condicion es una mera formalidad logica. El mo-delo matematico debe ser autorreferente. En otras palabras, si Ω es

7

la descripcion muestral de un fenomeno aleatorio, es en sı mismo unaposibilidad aleatoria, es decir un evento que puede suceder o no.

Axioma III Para cada evento aleatorio A ∈ F, existe un numero real no-negativo P(A). Este numero es llamado la probabilidad del evento A.Un modelo matematico de un fenomeno real debe proporcionar medidascuantitativas (probabilidades, en nuestro caso) de hechos cualitativos(fenomenos aleatorios, en nuestro caso). Una buena elecion es considerarnumeros no-negativos.

Axioma IV P(Ω) = 1. Ciertamente, muchos modelos matematicos contienenvariables cuantitativas infinitas. Sin embargo, a la luz de la experienciaempırica (Principio de Regularidad de las Frecuencias Relativas), unaprobabilidad deberıa por lo menos estar acotada por 1. De modo queun evento A es muy poco probable si P(A) es cercano a cero, y es muyprobable si este numero es muy cercano a 1. Esta idea corresponde ala interpretacion del modelo. Que la probabilidad de Ω sea 1, significaque “algo esta en proceso”. Algo sucede con toda seguridad. No tendrıasentido modelar fenomenos donde nada sucede. Quiza ni siquiera tienesentido hablar de ellos.

Axioma V Aditividad finita. Recordemos que dos eventos son mutuamenteexcluyentes cuando la ocurrencia de cualquiera de ellos excluye la ocur-rencia del otro. Luego si debemos medir la probabilidad de que uno uotro eventos suceda, esta debe ser la probabilidad del uno mas la pro-babilidad del otro. Esta idea tambien es consecuencia de la experiencia.

Algunos Ejemplos.

Ejemplo 1. Si Ω es un conjunto no vacıo, entonces es facil notar que la claseF = ∅,Ω es un campo de subconjuntos de Ω. De hecho es la mınima clase desubconjuntos no vacıa que satisface el Axioma I. Esta clase satisface tambienel Axioma II. Por otro lado, si definimos

P(A) =

1 si A = Ω,

0 si A = ∅,

entonces P satisface el resto de los axiomas. Esta medida de probabilidad esconocida como medida de probabilidad trivial, ya que es el modelo mas sen-cillo que satisface los Axiomas I-V. Sin embargo, puede tener algun referenteempırco, aunque singular. Pensemos por ejemplo el fenomeno de lanzar una

8

moneda que tiene sol en ambas caras. Por otro lado, note que Ω es cualquierconjunto, incluso puede ser infinito.

Ejemplo 2. Para cualquier conjunto Ω, el conjunto potencia P(Ω) es de hechoun campo de subconjuntos de Ω. En particular, si Ω es un conjunto finito novacıo, entonces los modelos de probabilidad discretos que hemos estudiado(el modelo clasico y su generalizacion en los modelos finitos) satisfacen losaxiomas de Kolmogorov.

Ejemplo 3. La idea de los modelos finitos de probabilidad puede extendersea espacios muestrales numerables. Un vector de probabilidad es una sucesionpi, i ∈ N, de numeros no negativos tal que

∞∑i=1

pi = 1.

Sobre el conjunto de los numeros naturales Ω = N, y su potencia F = P(N),definimos la probabilidad,

P(A) =

∑i∈A

pi si A 6= ∅,

0 si A = ∅,

para todo conjunto A ⊂ Ω.

9

4 Version moderna de los axiomas de Kolmogorov

Definicion 2 (Algebra de conjuntos). Sea Ω un conjunto no vacıo. Decimosque una clase F de subconjuntos de Ω es un algebra de subconjuntos si

a1) Ω ∈ F.

a2) Si A ∈ F entonces Ac ∈ F.

a3) Propiedad de cerradura. Si A y B son elementos de F, entonces

A ∪B ∈ F.

Algunos textos toman la anterior definicion como campo (field). En estasnotas solo usaremos la definicion que usa Kolmogorov (Definicion 1) paracampo.

Definicion 3. Sea Ω un conjunto no vacıo, llamado espacio muestral y cuyoselementos seran llamados muestras o eventos elementales. Supongamos queF es un algebra de subconjuntos de Ω, llamado algebra de eventos o clasede eventos y cuyos elementos son llamados eventos. Una funcion P definidasobre F es una medida de probabilidad si

P1) 0 ≤ P(A) ≤ 1, para todo A ∈ F.

P2) P(Ω) = 1.

P3) Aditividad finita. Si A y B son dos eventos mutuamente excluyentes,entonces

P(A ∪B) = P(A) + P(B).

Las propiedades de un algebra de conjuntos ası como las axiomas P1-P2-P3tienen una clara interpretacion practica, de la misma forma que los axiomasoriginales de Kolmogorov. Lo que debe ser claro es que ambas axiomaticasson equivalentes. Para ver esto con mayor certeza, probamos un resultadoimportante sobre las caracterısticas de un algbra de conjuntos.

Proposicion 1. Si F es un algebra de subconjuntos de Ω (segun la Definicion2), entonces es tambien un campo (segun la Definicion 1). Esto es, paracualesquiera dos conjuntos A y B en F,

A ∩B ∈ F y A\B ∈ F.

Inversamente, si la clase F satisface las propiedades de campo (Definicion 1)y Ω ∈ F, entonces F es un algebra (Definicion 2).

10

Demostracion. Por la propiedad a2), Ac ∈ F y Bc ∈ F, de donde Ac ∪Bc ∈ F

en vista de a3). Finalmente, por a2) de nueva cuenta,

A ∩B = (Ac ∪Bc)c ∈ F.

De aquı es claro tambien que A\B = A ∩Bc ∈ F.

Por consiguiente, un algebra de eventos es tambien un campo, Axioma Ide Kolmogorov, y por la propiedad (a1) de algebra, el Axioma II es validotambien. Inversamente, si una clase F satisface los Axiomas I y II, entonceses un algebra. El resto de los axiomas de Kolmogorov son exactamente losaxiomas P1-P2-P3 .

Ejemplo 4. En general, sobre cualquier conjunto Ω, el conjunto potenciaP(Ω) es el “mas grande” algebra de subconjuntos. Los modelos clasicos y sugeneralizacion en el modelo finito de probabilidad son ejemplos de modelos deprobabilidad en donde la medida P esta definida sobre el conjunto potencia.

Ejemplo 5. Sea Ω = 1, 2, 3, 4, 5, 6. La siguiente clase

F =∅,Ω, 1, 2, 3, 4, 5, 6, 1, 2, 3, 1, 4, 5, 6, 2, 3, 4, 5, 6

es un algebra de subconjuntos de Ω (lo que puede comprobarse por simpleinspeccion). Observamos que |F| = 8. Sea el vector de probabilidad de di-mension seis p = (p1, ..., p6), dado por

pi =

2

9si i es par,

1

9si i es impar.

DefinimosP(A) =

∑i∈A

pi,

para cada A ∈ F. Entonces P es una medida de probabilidad sobre F. Porejemplo,

P(2, 3) =2

9+

1

9=

1

3.

Ejemplo 6. Sea Ω un conjunto (como N o R). Definimos la clase

F = A ⊂ Ω : A es finito o bien Ac es finito .

11

Entonces F es un algebra de subconjuntos de Ω. Sobre F definimos

P(A) =

1 si Ac es finito,

0 si A es finito.

Entonces P es una medida de probabilidad sobre F.

Ejemplo 7. Sea Ω un conjunto (como N o R). Sea x ∈ Ω un punto fijo (yarbitrario). Sobre el conjunto potencia P(Ω) definimos

P(A) =

1 si x ∈ A,0 si x /∈ A.

Entonces P es una medida de probabilidad, llamada masa puntual.

Para concluir esta seccion apuntamos un resultado que generaliza la propiedada3) de algebra.

Proposicion 2. Sea Ω 6= ∅ un conjunto no vacıo. Si F es un algebra desubconjuntos de Ω (Definicion 2), y Ai ∈ F para todo i = 1, ..., n, entonces

A1 ∪A2 ∪ · · · ∪An ∈ F y A1 ∩A2 ∩ · · · ∩An ∈ F.

La prueba es por induccion y se deja al estudiante como ejercicio.

Propiedades de P a partir de los axiomas

Teorema 1. Para una medida de probabilidad P sobre un algebra de eventosF de un espacio muestral Ω, se cumple

a) P(Ac) = 1− P(A), para todo evento A ∈ F.

b) P(∅) = 0.

c) Si A y B son eventos aleatorios y A ⊂ B, entonces

P(B\A) = P(B)− P(A) y P(A) ≤ P(B).

d) Si A1,...,An son eventos aleatorios mutuamente exlcuyentes,

P(A1 ∪A2 ∪ · · · ∪An) = P(A1) + P(A2) + · · ·+ P(An).

e) Si A y B son eventos, entonces

P(A ∪B) = P(A) + P(B)− P(A ∩B).

12

Es posible verificar todas las demas propiedades que hemos establecidopara las medidas de probabilidad discretas que hemos estudiado para estemodelo de probabilidad mas general. Es posible incluso definir probabilidadescondicionales del mismo modo y verificar sus propiedades. Las pruebas detales hechos son exactamente iguales. Ahora bien, como modelo matematico,lo axiomas permiten definir nuevos espacios de probabilidad in abstracto, sinnecesidad de referencia alguna de la experiencia, como ya hemos visto en losejemplos anteriores.

13

5 Como construir un algebra de eventos apartir de algunos conjuntos dados y comodeterminar medidas de probabilidad sobreestas algebras.

Primeros casos particulares.

Caso I. Sea Ω un conjunto y sea A ⊂ Ω un subconjunto. Entonces la clase

F = Ω, ∅, A,Ac,

es el algebra mas pequeno (o mınimo) que puede formarse con el conjunto A,en el sentido siguiente: si G es algun otro algebra sobre Ω tal que A ⊂ G,entonces Ac ∈ G, y por supuesto ∅ y Ω tambien estan en G, por lo tantoF ⊂ G. Decimos que F es el algebra generado por el conjunto A. Para definiruna medida de probabilidad sobre este algebra, es suficiente elegir un numerop ∈ [0, 1] y definir p como la probabilidad de A, es decir, P(A) = p, en cuyocaso P(Ac) = 1− p.

Caso II. Sea Ω un conjunto y sean A,B ⊂ Ω un par de subconjuntos.¿Como formar un algebra de subconjuntos de Ω que contenga a los conjuntosA y B? Llamemos F a este algebra. Primero, los conjuntos ∅ y Ω deben serparte de esta clase. Segundo, los conjuntos A y B deben ser parte tambien deesta clase. Tercero, composiciones y complementaciones de estos eventos sontambien partes de la clase F. Esto es,

F = Ω, ∅, A,B,Ac, Bc,A ∪B,A ∩B,A ∪Bc, A ∩Bc, Ac ∪B,Ac ∩B,Ac ∪Bc, Ac ∩Bc,

(A ∩Bc) ∪ (Ac ∩B), ((A ∩Bc) ∪ (Ac ∩B))c. (2)

Decimos que F es el algebra generado por los conjuntos A y B (o bien, porla clase A,B), dado que F es el algebra mas pequeno que puede formarsecon los conjuntos A y B, en el sentido de que si G es algun otro algebra sobreΩ tal que A ∈ G y B ∈ G, entonces F ⊂ G. Aunque podemos convencernosfacilmente de estos hechos, en realidad necesitamos una prueba formal paratener una idea adecuada de estos argumentos. Para ello es necesario hacer unpar de observaciones fundamentales: Notamos que todos los conjuntos de laclase F pueden expresarse como uniones de los conjuntos

A ∩B, A ∩Bc, B ∩Ac y Ac ∩Bc, (3)

o bien son estos mismos conjuntos.

14

Veamos,

A = (A ∩B) ∪ (A ∩Bc),B = (A ∩B) ∪ (Ac ∩B),

Ac = (Ac ∩B) ∪ (Ac ∩Bc),Bc = (A ∩Bc) ∪ (Ac ∩Bc),

A ∪B = (A ∩Bc) ∪ (Ac ∩B) ∪ (A ∩B),

Ac ∪B = (Ac ∩Bc) ∪ (A ∩B) ∪ (Ac ∩B),

A ∪Bc = (A ∩B) ∪ (Ac ∩Bc) ∪ (A ∩Bc),Ac ∪Bc = (A ∩Bc) ∪ (Ac ∩B) ∪ (Ac ∩Bc),

(A ∩Bc) ∪ (Ac ∩B) = (A ∩Bc) ∪ (Ac ∩B),

((A ∩Bc) ∪ (Ac ∩B))c = (A ∩B) ∪ (Ac ∩Bc),Ω = (A ∩B) ∪ (A ∩Bc) ∪ (Ac ∩B) ∪ (Ac ∩Bc).

(4)

Mas aun, las uniones anteriores son, de hecho, todas las uniones que podemosformar con los conjuntos (3). Por otra parte, los conjuntos (3) forman unaparticion de Ω (son ajenos y la union de todos ellos es Ω).

Estos hechos son sumamente relevantes por dos razones: Uno, para es-tablecer un metodo (de entre muchos otros) para definir probabilidades sobreel algebra generado por dos subconjuntos A y B. Dos: para dar un argu-mento solido de que F es en efecto el algebra mas pequeno que contiene a lossubconjuntos A y B (es decir, el algebra generado por A y B).

Para definir una medida de probabilidad sobre el algebra F es suficienteasignar probabilidades (adecuadamente) a cada conjunto de la particion (3),de manera que la propiedad de la aditividad finita definira la probabilidadpara el resto de los elementos de F. Por ejemplo, supongamos que ninguno delos conjuntos (3) es vacıo. Elegimos la siguiente asignacion

P(A ∩B) =3

12, P(A ∩Bc) =

6

12, P(Ac ∩B) =

2

12, P(Ac ∩Bc) =

1

12.

Entonces podemos calcular la probabilidad del resto de los elementos de laclase F. Por ejemplo,

P(A) = P(A ∩B) + P(A ∩Bc) =3

4,

P(Ac ∪Bc) = 1− P(A ∩B) =3

4,

P(A ∪B) = P(A ∩Bc) + (Ac ∩B) + P(A ∩B) =11

12.

15

Obviamente, no es necesario remarcar que existe un gran numero de medidasde probabilidad que pueden ser definidas sobre F. Un ejemplo trivial es elsiguiente: Definimos

P(A) =

1 si A = Ω,

0 si A 6= Ω.

Con estas consideraciones en mente, mostramos ahora que la clase F es enefecto el algebra mas pequeno que puede formarse con los subconjuntos A yB, a traves del siguiente resultado.

Proposicion 3. Sea Ω un conjunto y A y B dos subconjuntos de Ω. Consi-deremos la clase de subconjuntos

Q = A ∩B, A ∩Bc, Ac ∩B, Ac ∩Bc.

Entonces,

i) Q es una particion de Ω (son ajenos y su union es Ω).

ii) La clase F dada en (2), es un algebra y reune todas las uniones quepueden formarse con los subconjuntos en Q y al conjunto vacıo ∅.

iii) La clase F dada en (2), es el algebra mas pequeno que puede formarsecon los subconjuntos de la particion Q, en el sentido de que si G es otroalgebra que contiene a todos los subconjuntos de la particion Q, entoncesF ⊂ Q.

iv) La clase F dada en (2), coincide tambien con el algebra mas pequenoque puede formarse con los subconjuntos A y B.

Demostracion. Es claro que los conjuntos de la clase Q son ajenos, y comohemos visto en (4),

Ω = (A ∩B) ∪ (A ∩Bc) ∪ (Ac ∩B) ∪ (Ac ∩Bc).

Por lo tanto Q es una particion de Ω.Ahora bien, dado que Q solo tiene 4 conjuntos, solo podemos formar

uniones de 1 conjunto, de dos conjuntos, de tres conjuntos y de 4 conjun-tos, las cuales son los propios conjuntos de la particion Q (es decir, las unionesde 1 conjunto) y las restantes uniones estan dadas por las igualdades (4). Porlo tanto, la clase que reune todas las uniones que pueden formarse con losconjuntos de Q y al conjunto vacıo, es precisamente la clase F dada por (2).

16

Ya hemos visto tambien, por simple inspeccion, que F es un algebra. Sinembargo, el siguiente argumento nos permite dar una prueba mas solida de estehecho. Ademas, con esta explicacion, podremos ilustrar la idea que permitehacer la prueba para los casos mas generales tratados mas adelante. Aquıresulta fundamental que Q es particion y que F reune todas las uniones quepueden formarse con esta particion. En primer lugar, ∅ y Ω estan en F. Porotra parte, si tomamos cualquier subconjunto que esta en F, distinto de ∅ yΩ, debe ser entonces un conjunto de la particion Q, o bien es una union dedos o tres conjuntos de Q. Por lo tanto, si se trata de un elemento de Q,su complemento es la union de los tres restantes elementos de Q (pues Q esparticion), si se trata de la union de dos conjuntos, su complemento es tambienla union de los otros dos conjuntos restantes (pues Q es particion), y si se tratade la union de tres conjuntos, su complemento es igual al conjunto no incluidoen dicha union (de nueva cuenta porque Q es particion). Por ultimo, resultacasi inmediato que la clase F es cerrada para uniones finitas, pues estas unionesson de nueva cuenta uniones de los elementos de la particion Q.

Hay que probar ahora que F es el algebra mas pequeno que contiene a losconjuntos de la particion Q. Supongamos que G es otro algebra que contiene alos conjuntos de la particion Q. Por supuesto ∅ ∈ G (por ser algebra). Como G

es cerrado para uniones finitas (por ser algebra), entonces contiene a cualquierunion formada con subconjuntos de Q, es decir F ⊂ G.

Resta probar que F coincide con el algebra mas pequeno que se puedeformar con los subconjuntos A y B. Con todo lo anterior esta prueba es casitrivial. Supongamos que H es otro algebra tal que A ∈ H y B ∈ H. Entonces,por las propiedades de algebra de H, todos los subconjuntos de la particionQ estan en H y por lo tanto F ⊂ H, puesto que F es el algebra mas pequenoque contiene a la particion Q.

Este resultado nos dice incluso de que tamano es el algebra F generadopor los subconjuntos A y B.

Corolario. Sea Ω un conjunto y A y B dos subconjuntos de Ω. Si F es elalgebra mas pequeno que puede formarse con los conjuntos A y B (esto es, el

algebra generado por A y B), entonces |F| ≤ 222

. La igualdad es valida solosi todos los conjuntos de la particion

Q = A ∩B, A ∩Bc, Ac ∩B, Ac ∩Bc,

son no vacıos.

Demostracion. Por la proposicion anterior, el algebra F esta formada portodas las uniones de los conjuntos de la particion Q y el conjunto vacıo Ω.

17

Tomando en cuenta entonces, que algunos conjuntos de Q pueden ser vacıos,el tamano de F es necesariamente menor o igual a

1 +

(4

1

)+

(4

2

)+

(4

3

)+

(4

4

)=

(4

0

)+

(4

1

)+

(4

2

)+

(4

3

)+

(4

4

)= (1 + 1)4 = 22

2

.

Por otra parte, si |F| = 222

es claro que ninguno de los conjuntos de la particionQ es vacıo (de lo contrario, el conjunto vacıo estarıa “repetido” al menos dosveces).

Por ultimo, apuntamos formalmente el esquema que permite definir unmodelo de probabilidad sobre el algebra generado por los subconjuntos A yB.

Corolario. Sea Ω un conjunto no vacıo y A y B dos subconjuntos de Ω, y seaF el algebra mas pequeno que puede formarse con los conjuntos A y B (estoes, el algebra generado por A y B). Para definir un modelo de probabilidadsobre F, es suficiente elegir adecuadamente 4 numeros pi ∈ [0, 1], i = 1, 2, 3, 4,tales que p1 + p2 + p3 + p4 = 1, definir las probabilidades

P(A ∩B) = p1, P(A ∩Bc) = p2, P(Ac ∩B) = p3 y P(Ac ∩Bc) = p4,

y asumir la propiedad de la aditividad finita. Notamos que si alguno de losconjuntos anteriores es vacıo, obliga definir su probabilidad como cero.

Demostracion. Solo hay que observar que las probabilidades de los elementosrestantes de F podemos obtenerlas con la propiedad de la aditividad finita.

Debemos hacer hincapie en que el corolario anterior solo define un esquemasuficiente y general para construir un modelo de probabilidad sobre el algebragenerado por dos subconjuntos A y B. En cada situacion podemos tener masde una forma de construir modelos de probabilidad. Los tres casos siguientesson ejemplos de ello.

Caso III. Observe que si A ∩B = ∅, entonces

F = Ω, ∅, A,B,Ac, Bc, A ∪B,Ac ∩Bc.

En este caso, es suficiente definir P(A) = p1 y P(B) = p2 para cualquiereleccion (adecuada) de un par de numeros p1, p2 ∈ [0, 1], tal que p1 + p2 ≤ 1,para tener un modelo de probabilidad sobre F (asumiendo la propiedad de laaditividad finita).

18

Caso IV. Si A∩B = ∅ y A∪B = Ω, esto es, los conjuntos A y B formanuna particion de Ω, entonces

F = Ω, ∅, A,B.

En este caso, la eleccion p = P(A), con p ∈ [0, 1], obliga la eleccion 1 − p =P(B). De hecho, B = Ac. Este es el mismo caso que el primero.

Caso V. Si A ⊂ B, entonces

F = Ω, ∅, A,B,Ac, Bc, B ∩Ac, A ∪Bc.

Podemos definir un modelo de probabilidad de diferentes formas. Una de lasmas simples es elegir P(A) = p = P(B), para cualquier p ∈ [0, 1] adecuado. Sialguno de los conjuntos es vacıo, elegimos p = 0 necesariamente. Sin embargo,notamos que la eleccion de p > 0 no es obligada. En efecto, si p = 0, entoncestenemos un modelo de probabilidad trivial dado por

P(F ) =

1 si F = Ω o F = Ac o F = Bc o F = A ∪Bc,0 en otro caso,

para todo F ∈ F. En cualquier caso, para una eleccion adecuada del numerop, tenemos las siguientes probabilidades:

P(∅) = P(B ∩Ac) = 0, P(Ac) = P(Bc) = 1− p, P(Ω) = P(A ∪Bc) = 1.

En estos momentos, deberıa ser claro para el estudiante que un evento deprobabilidad nula, no implica necesariamente que sea vacıo, y que un eventode probabilidad 1, no implica necesariamente que sea el total Ω.

Caso VI. Sea Ω un conjunto no vacıo y supongamos que A, B y C sontres subconjuntos de Ω. De nueva cuenta, la idea es mostrar dos cosas. Enprimer lugar, es claro que la familia de conjuntos

A ∩B ∩ C A ∩B ∩ Cc A ∩Bc ∩ C A ∩Bc ∩ CcAc ∩B ∩ C Ac ∩B ∩ Cc Ac ∩Bc ∩ C Ac ∩Bc ∩ Cc. (5)

es una particion del espacio Ω (son ajenos y la union de todos ellos es Ω).En segundo lugar, deberıamos mostrar que el algebra generado por los sub-conjuntos A, B y C es justamente la clase que reune todas las uniones de losconjuntos (5). Para ello, introducimos una notacion mas adecuada. Primero,si a es un numero en 0, 1, definimos

Aa =

A si a = 1,

Ac si a = 0.

19

Y de forma analoga definimos los conjuntos Ba y Ca. Entonces, para cadaterna de ceros y unos (a1, a2, a3) ∈ 0, 13, definimos el conjunto

E(a1,a2,a3) = Aa1 ∩Ba2 ∩ Ca3 .

Por ejemplo

E(1,0,1) = A ∩Bc ∩ C, E(1,0,0) = A ∩Bc ∩ Cc, E(0,0,0) = Ac ∩Bc ∩ Cc.

Esta notacion permite “enumerar” (o indexar) los conjuntos (5) con las 8ternas ordenadas de ceros y unos que pueden formarse. La familia de conjuntos(5) es entonces la clase

E = Eα : α ∈ 0, 13,

y la clase que reune todas las uniones posibles de estos conjuntos, es decir, elalgebra generado por los subconjuntos A, B y C, es la familia

F = ⋃α∈D

Eα : D ⊂ 0, 13.

Aceptamos la convencion de que la union vacıa es vacıa, esto es, si D = ∅,entonces definimos ⋃

α∈DEα = ∅.

Por ejemplo, si D = (0, 0, 1), (1, 1, 0), (0, 1, 1), entonces⋃α∈D

Eα =[Ac ∩Bc ∩ C

]∪[A ∩B ∩ Cc

]∪ [Ac ∩B ∩ C

].

Ahora bien, |E| ≤ 23 y la igualdad es valida solo si ninguno de los conjuntos

Eα es no vacıo. Y por tanto |F| ≤ 223

, y la igualdad es valida solo si ninguno

de los conjuntos Eα es vacıo. Observe que |0, 13| = 23 y |P(0, 13)| = 223

.Todos estos hechos seran formalizados y probados con todo detalle en los dosapartados siguientes.

20

El algebra de eventos generado por los conjuntos de una particionfinita de subconjuntos de Ω

Primero recordamos formalmente la definicion de particion finita.

Definicion 4 (Particion finita). Sea Ω un conjunto y supongamos que la claseB = Bi : i = 1, ..., n es una particion finita del conjunto Ω, esto es,

(i) Bi 6= ∅ para todo i = 1, ..., n.

(ii) Bi ∩Bj = ∅ si i 6= j.

(iii)

n⋃i=1

Bi = Ω.

Generalmente se prescinde de la propiedad i), y se asume unicamente las dosultimas propiedades como definicion de particion.

Ahora definiremos con mayor precision lo que entenderemos como algebragenerado (o algebra mınimo, o algebra mas pequeno).

Definicion 5 (Algebra generado). Sea Ω un conjunto no vacıo y sea B unaclase de subconjuntos de Ω (finita o no). Decimos que un algebra F de subcon-juntos de Ω es el algebra generado (o tambien algebra mınimo o mas pequeno)por la clase B, si

i) B ⊂ F, y

ii) Si para algun otro algebra G, tenemos B ⊂ G, entonces F ⊂ G.

Probaremos a continuacion que el algebra mınimo formado por una par-ticion finita B = Bi : i = 1, ..., n, es la clase que reune las uniones parcialesde los conjuntos de la particion. Para ello hay que convenir una notacionadecuada: Supongamos que I ⊂ 1, 2, ..., n. Entonces, la union de los con-juntos Bi, con i ∈ I, se escribe

⋃i∈I Bi. Por ejemplo, si I = 3, 8, 11, 12, 21,

entonces ⋃i∈I

Bi = A3 ∪B8 ∪B11 ∪B12 ∪B21.

Si I = k para algun k ∈ 1, ..., n, entonces⋃i∈I

Bi = Bk.

21

Por ultimo, convenimos en que la union vacıa es vacıa. Esto es si I = ∅,entonces definimos ⋃

i∈IBi = ∅.

Teorema 2. Sea Ω un conjunto y supongamos que la clase

B = Bi : i = 1, ...n

es una particion finita de tamano n del conjunto Ω (es decir, satisface laspropiedades (ii) y (iii) de la Definicion 4), entonces la clase

F =⋃i∈I

Bi : I ⊂ 1, 2, ..., n

que reune todas las uniones de los conjuntos Bi, es un algebra y Bi ∈ F paratodo i = 1, ..., n. Ademas, si G es otro algebra de subconjuntos de Ω tal queBi ∈ G, para todo i = 1, ..., n, entonces F ⊂ G. En este sentido, decimosque F es mınimo (o que es el algebra generado por la particion B). Ademas,|F| ≤ 2n, y la igualdad es valida si, y solo si, los conjuntos Bi son todosno vacıos. Por otra parte, para definir un modelo de probabilidad sobre elalgebra F, es suficiente elegir n numeros pi ∈ [0, 1], adecuadamente, tal quep1 +p2 + · · ·+pn = 1 y definir P(Bi) = pi, para todo i = 1, 2, ..., n, asumiendoademas la propiedad de la aditividad finita.

Demostracion. Probaremos primero que la clase F es un algebra. En primerlugar es claro que Ω ∈ F, pues

⋃i∈1,2,...,n

Bi =

n⋃i=1

Bi = Ω.

Ahora bien, si I ⊂ 1, ..., n y F =⋃i∈I Bi, es tambien claro que

F c =⋃i∈Ic

Bi,

de donde se sigue que F es cerrado bajo complementacion. Finalmente, siI, J ⊂ 1, 2, ..., n y F =

⋃i∈I Bi y G =

⋃j∈J Bj son elementos de F, entonces

F ∪G =⋃

k∈I∪J

Bk ∈ F.

Luego, F es tambien cerrado para uniones finitas. Por lo tanto F es un algebra.

22

Por otra parte, es claro que B ⊂ F. Si G es otro algebra tal que Bi ∈ G,para todo i = 1, ..., n, entonces es inmediato que F ⊂ G (pues G es cerradobajo uniones). Por lo que F es el algebra generado por la particion B.

Para contar los elementos de F, debemos contar cuantas uniones puedenformarse con los n conjuntos que conforman la particion B. Suponiendo quehay conjuntos en B que pueden ser vacıos, el numero total de uniones quepodemos formar con n conjuntos B1,..., Bn, es menor o igual a(

n

0

)+

(n

1

)+

(n

2

)+ · · ·+

(n

n− 1

)+

(n

n

)= (1 + 1)n = 2n.

(Esto es: la union vacıa, las uniones de 1 conjuntos, las de dos conjuntos, lasde tres, etc. Hasta la union de todos ellos). De donde |F| ≤ 2n. La igualdades valida solo si Bi 6= ∅ para todo i = 1, ..., n, pues todas las uniones sondistintas.

Finalmente, si elegimos n numeros pi ∈ [0, 1] tal que p1+p2+· · ·+pn = 1 ydefinimos P(Bi) = pi (donde elegimos pi = 0 si Bi = ∅), entonces, asumiendola propiedad de la aditividad finita, para cualquier F =

⋃i∈I Bi ∈ F, definimos

P(F ) =∑i∈I

pi.

La medida P es entonces un modelo de probabilidad sobre F.

Ejemplo 8. Si Ω es un conjunto finito, digamos Ω = 1, 2, ..., n, entoncessi definimos la particion Bi = i para todo i = 1, 2, ..., n, tenemos que elalgebra generada por esta particion es el conjunto potencia P(Ω). En estecaso, cualquier modelo de probabilidad esta unicamente determinado por unvector de probabilidad de dimension n.

Ejemplo 9. Sea Ω = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9. Consideremos los subconjuntos

B1 = 1, B2 = 0, 2, 4, 6, 8, B3 = 3, 5, 7 y B4 = 9.

Entonces el algebra generado por la particion B = Bi : i = 1, 2, 3, 4 es

F =∅, 1, 0, 2, 4, 6, 8, 3, 5, 7, 9,0, 1, 2, 4, 6, 8, 1, 3, 5, 6, 7, 1, 9,0, 2, 3, 4, 5, 6, 7, 8, 0, 2, 4, 6, 8, 9, 3, 5, 7, 9,0, 1, 2, 3, 4, 5, 6, 7, 8, 0, 1, 2, 4, 6, 8, 9, 0, 3, 5, 7, 9, 1, 3, 5, 7, 9,0, 2, 3, 4, 5, 6, 7, 8, 9, Ω

.

23

Podemos considerar por ejemplo la siguiente asignacion:

P(1) =1

3, P(9) =

2

3y P(0, 2, 4, 6, 8) = 0 = P(3, 5, 6, 7).

Ejemplo 10. El teorema anterior no esta restringido a conjuntos finitos,aunque en realidad es mucho mas util en estos casos. En el intervalo, (0, 1),definimos los conjuntos

Bi = x ∈ (0, 1) : el primer dıgito de su expansion decimal es i,

para i = 0, 1, 2, ..., 9. Claramente estos conjuntos forman una particion finitade (0, 1). Podemos elegir una asignacion “uniforme”: P(Bi) = 1

10 , para todoi = 1, ..., n.

Ejemplo 11. En este ejemplo planteamos las limitaciones del teorema ante-rior. Sobre R, los conjuntos singulares x, x ∈ R, generan el algebra

F = A ⊂ R : A es finito o Ac es finito.

En el algebra F la unica medida de probabilidad no trivial esta definida por

P(A) =

1 si Ac es finito,

0 si A es finito.

24

El algebra generado por una familia finita de subconjuntos.

Sea Ω un conjunto no vacıo. La idea es construir una particion a partir de unafamilia de subconjuntos dada B = Bi ⊂ Ω : i = 1, ..., n, la cual no es nece-sariamente una particion. El modelo a seguir es exactamente el mostrado enalgunos de los ejemplos particulares analizados al principio. Primero tenemosque definir algunas convenciones de notacion.

Definicion 6. Sea Ω un conjunto no vacıo y sea B ⊂ Ω un subconjunto deΩ. Si a ∈ 0, 1, defimos el conjunto

Ba =

B si a = 1,

Bc si a = 0.

Notamos que si a ∈ 0, 1 y a ∈ 0, 1, entonces para cualquier conjuntoB ⊂ Ω,

Ba ∩Ba =

∅ si a 6= a,

Bc si a = a = 0,

B si a = a = 1.

Definicion 7. Sea Ω un conjunto no vacıo y sea Bi ⊂ Ω un subconjunto deΩ, para todo i = 1, ..., n. Para cada n-ada α = (a1, a2..., an) ∈ 0, 1n de“ceros y unos”, defimos el conjunto

Eα = Ba1 ∩Ba2 ∩ · · · ∩Ban .

Proposicion 4. Sea Ω un conjunto no vacıo y sea Bi ⊂ Ω un subconjunto deΩ, para todo i = 1, ..., n. Consideremos la familia

E = Eα ⊂ Ω : α ∈ 0, 1n.

Entonces la familia E es una particion de Ω. Ademas |E| ≤ 2n y la igualdadse da si, y solo si, ningun conjunto Eα es vacıo.

Demostracion. Sean α = (a1, ..., an) ∈ 0, 1n y α = (a1, ..., an) ∈ 0, 1n dosn-adas de ceros y unos distintas. Entonces, para algun ındice j, aj 6= aj . Porlo tanto,

Eα ∩ Eα ⊂ Baj ∩Baj = ∅.Lo que prueba que los conjuntos Eα son ajenos. Ahora probaremos que launion de todos ellos es Ω. Sea ω ∈ Ω. Para cada i = 1, ..., n, definimos elnumero

ti =

1 si ω ∈ Bi,0 si ω /∈ Bi.

25

Sea τ = (t1, t2, ..., tn). Es claro entonces que

ω ∈ Bt1 ∩Bt2 ∩ · · ·Btn = Eτ .

Esto prueba que ⋃α∈0,1n

Eα = Ω,

y por tanto E es particion de Ω.Por otro lado, es claro que el numero maximo de conjuntos Eα que pueden

formarse es justamente la cardinalidad del conjunto 0, 1n, es decir, el numerototal de n-adas de ceros y unos, que es justamente igual a 2n.

Con lo anterior, podemos entonces probar el teorema mas importante deesta seccion.

Teorema 3. Sea Ω un conjunto no vacıo y sea Bi ⊂ Ω un subconjunto de Ω,para todo i = 1, ..., n. Consideremos la familia

E = Eα ⊂ Ω : α ∈ 0, 1n.

Entonces el algebra generado por los conjuntos Bi, i = 1, ..., n coincide con elalgebra generado por la particion E, dada por

F = ⋃α∈D

Eα : D ⊂ 0, 1n.

Ademas, |F| ≤ 22n

y la igualdad es valida solo si ningun conjunto Eα es vacıo.Por otra parte, para definir un modelo de probabilidad sobre el algebra F, essuficiente elegir 2n numeros, pα ∈ [0, 1], para cada α ∈ 0, 1n, adecuada-mente, tal que ∑

α∈0,1npα = 1

y definir P(Eα) = pα, para todo α ∈ 0, 1n (si Eα = ∅ obliga la eleccionpα = 0) asumiendo ademas la propiedad de la aditividad finita.

Demostracion. La clase E es un particion de Ω, que contiene un maximode 2n elementos (Proposicion 4), por lo tanto, el algebra generado por estaparticion es justamente la clase F y |F| ≤ 22

n

(Teorema 2). Resta probar queeste algebra coincide con el algebra generado por la familia de conjuntos Bi,i = 1, ..., n. Sea C dicho algebra. Debemos mostrar que F = C. Por un lado,es claro que E ⊂ C, de donde F ⊂ C, debido a las propiedades de algebra de

26

C y dado que Bi ∈ C, para todo i = 1, 2, ..., n. Ahora bien, para cada ındicej ∈ 1, 2, ..., n, consideremos el subconjunto de 0, 1n definido por

Dj = α = (a1, a2, ..., an) ∈ 0, 1n : aj = 1,

esto es, todas las n-adas de ceros y unos cuya coordenada j-esima es fija yes igual a 1. Mostraremos que Bj =

⋃α∈Dj

Eα. Si Bj = ∅, no hay nada

que hacer, la igualdad anterior es inmediata. Supongamos que Bj 6= ∅ y seaω ∈ Bj . De nueva cuenta, definimos los numeros ti ∈ 0, 1, para i = 1, ..., n,dados por

ti =

1 si ω ∈ Bi,0 si ω /∈ Bi.

y sea τ = (t1, t2, ..., tn). Entonces τ ∈ Dj y obviamente

ω ∈ Eτ ⊂⋃α∈Dj

Eα,

lo que prueba que Bj ⊂⋃α∈Dj

Eα. La contension contraria es inmediata, solohay que observar que

Eα ⊂ Bj ,

cuando α ∈ Dj . De este modo, Bj =⋃α∈Dj

Eα, para cada ındice j = 1, ..., n.Por lo tanto, F es un algebra que contiene a la familia de conjuntos Bj ,j = 1, ..., n, entonces C ⊂ F.

27