Reiman Acuña Jorge Chinchilla...y análisis cuantitativo y amplió los campos de la inferencia y la...

54
Reiman Acuña Jorge Chinchilla Estadística y Probabilidad Escuela de Matemática Instituto Tecnológico de Costa Rica 2015 para profesores de matemática

Transcript of Reiman Acuña Jorge Chinchilla...y análisis cuantitativo y amplió los campos de la inferencia y la...

Reiman AcuñaJorge Chinchilla

Estadística y Probabilidad

Escuela de Matemática

Instituto Tecnológico de Costa Rica

2015

para profesores de matemática

Reiman Y. Acuña & Jorge L. Chinchilla.

Compilación

Probabilidadpara profesores de matemática

Alajuela, 27 de junio del 2016

Índice general

1 Estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1 Introducción 5

1.2 Histórica de la Estadística 5

1.3 Medidas de Tendencia Central 81.3.1 La media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.2 Media ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.3 La media para frecuencias simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3.4 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.5 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.6 Media, mediana y moda de subgrupos combinados . . . . . . . . . . . . . . . . . . . . 13

1.4 Comparación de las Medidas de Tendencia Central 14

1.5 Medidas de variabilidad 181.5.1 Recorrido o amplitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.5.2 Desviación estándar y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.5.3 Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1 La enseñanza de la probabilidad en secundaria 272.1.1 Historia de la Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2 Conceptos básicos de probabilidad 292.2.1 Experiencias Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.2.2 Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2.3 Álgebra de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.3 Probabilidad 342.3.1 Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.3.2 Espacio probabilizable o σ−algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.3.3 Regla de la suma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.3.4 Propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.3.5 Regla de multiplicación de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.3.6 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.3.7 Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.3.8 Sucesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.3.9 La ley de los grandes números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502.3.10 Teorema del Límite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

Bibliografía 51

1 — Estadística

1.1 Introducción

Actualmente la Estadística es la ciencia que proporciona instrumentos e ideas que permiten utilizarlos datos obtenidos por algún medio para profundizar en la comprensión de distintos temas. Peroetimológicamente la Estadística es la ?Ciencia del Estado?, porque desde la antigüedad los Estadoshan recogido datos sobre sus habitantes con los principales objetivos, aunque no únicos, comoveremos, de recaudar impuestos o reclutar jóvenes para el ejército.

Pero además de los signifi cados anteriores, la palabra ?estadística? también puede signifi car unacolección de datos. Así pues, en muchas lenguas se usa la misma palabra para referirnos a la cienciaque estudia los datos y también para designar a los datos. Estos dos signifi cados se aprecian mejorsi pensamos por un lado en la Estadística y por otro en las estadísticas. Y así, con las dos palabras,estadísticas y Estadística, llegamos a los dos grandes bloques en que se suele dividir a la CienciaEstadística: la Estadística descriptiva y la Estadística inferencial.

La Estadística descriptiva describe, representa y resume situaciones prácticas en las que existeincertidumbre y que atañen a colectivos con un número importante de individuos. Podrían ser perso-nas, pero también podría tratarse de objetos producidos industrialmente o de resultados de la cosecha.

La Estadística inferencial tiene por objeto obtener conocimiento de la población a partir de obser-vaciones relativas a sólo una parte de ella, lo que se conoce como una muestra de la misma.

1.2 Histórica de la Estadística

Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograronrecopilar, hacia el año 3050 antes de Cristo, datos relativos a la población y la riqueza del país.

6 Estadística

De acuerdo al historiador griego Heródoto, dicho registro se hizo con el objetivo de preparar laconstrucción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con elobjeto de verificar un nuevo reparto.

En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticosobtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab,general del ejército hacer un censo de Israel con la finalidad de conocer el número de la población.

También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censosperiódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos yhombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular losimpuestos, determinar los derechos de voto y ponderar la potencia guerrera.

Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear losrecursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionariospúblicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar losrecuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas.

Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operacionesEstadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compi-ladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. En Inglaterra, Guillermo elConquistador recopiló el Domesday Book o libro del Gran Catastro para el año 1086, un documentode la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendioestadístico de Inglaterra.

Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo,Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al métodocientífico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza elcomercio internacional existía ya un método capaz de aplicarse a los datos económicos.

Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzóa publicar estadística semanales de los decesos. Esa costumbre continuó muchos años, y en 1632estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo.En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó prediccionessobre el número de personas que morirían de varias enfermedades y sobre las proporciones denacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado en su obraNatural and Political Observations...Made upon the Bills of Mortality (Observaciones Políticas yNaturales ... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisisestadístico.

Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursosnacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio ypoderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación

1.2 Histórica de la Estadística 7

y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística.

El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvoa cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se propusodestruir la antigua creencia popular de que en los años terminados en siete moría más gente que enlos restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Despuésde revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personasque en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley,descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Suscálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías deseguros.

Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, Lagran-ge y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, la teoríade las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó aaplicarse a los grandes problemas científicos.

Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística,que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de lanueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra sehalla, por otra parte, en el término latino status, que significa estado o situación; Esta etimologíaaumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo delas más variadas situaciones.

Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de laprobabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios yde la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación prácticade todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia.

Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentalespara la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y lateoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del sigloXIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir lainfluencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente decorrelación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Nor-ton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones.

Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo delcálculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, seha demostrado que el determinismo fue reconocido en la Física como resultado de las investigacionesatómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas.

8 Estadística

1.3 Medidas de Tendencia Central

Las medidas de tendencia central se utilizan con bastante frecuencia para resumir un conjunto decantidades o datos numéricos a fin de describir los datos cuantitativos que los forman.

En nuestra vida diaria, constantemente nos encontramos de manera más común con un concepto esta-dístico, el “promedio” . Continuamente estamos expuestos a reportes de promedios: salario promedio,nota promedio, peso promedio, hasta gol promedio. Sin embargo el promedio es una idea ambigua.Cuando se explora un conjunto desordenado de calificaciones de un examen de matemáticas, porejemplo, para ver si su calificación es alta o baja o por encima o por debajo del promedio, estábuscando información estadística relevante que le permitirá interpretar y evaluar su desempeño conmás precisión y significado. Las medidas de tendencia central son también frecuentemente usadaspara comparar un grupo de datos con otro, por ejemplo: el promedio de ventas obtenido por un grupode vendedores de una zona, comparado con el promedio de ventas otro grupo de vendedores de otrazona, el promedio de reclamos de clientes de una sucursal, comparado con el promedio de reclamosde otra sucursal. Otras características generales de las medidas de tendencia central son las siguientes:

Características

1 Permiten apreciar qué tanto se parecen lo grupos entre sí.

2 Son valores que se calculan para un grupo de datos y que se utiliza para describirlos dealguna manera.

3 Normalmente se desea que el valor sea representativo de todos los valores incluidos enel grupo.

4 Es el valor más representativo o típico de un grupo de datos, no es el valor más pequeñoo el más grande, sino un valor que está en algún punto intermedio del grupo, másexactamente, se acerca a estar al centro de todos los valores, por ello se les llamamedidas de tendencia central.

5 Se utilizan como mecanismo para resumir una característica de un grupo de datos enparticular.

6 También para comparar un grupo de datos contra otro.

Sin embargo, una medida de tendencia central o localización media de los conjuntos de datos estálejos y por mucho del tipo de índice estadístico más ampliamente utilizado.

Las dos medidas de posición más usadas son la media aritmética, o promedio, y la mediana; en menormedida se usa la moda. Los cálculos se pueden hacer para datos simples, para datos ponderados opara datos agrupados en clases.

1.3 Medidas de Tendencia Central 9

1.3.1 La mediaLa media, llamada también media aritmética, es la medida de tendencia central conocida popular-mente como “promedio”. Se define como la suma de todos esos valores dividida por el número deellos. La media aritmética puede ser simple o ponderada.

Definición 1.1 (Media aritmética simple)Sean X1,X2,X3, . . . ,Xn−1,Xn los n valores observados para una variable cuantitativa X . Enton-ces la media aritmética o promedio de la variable X , que se denota con una barra encima de X ,es:

X =X1 +X2 +X3 + . . .+Xn−1 +Xn

nEn notación de sumatoria, la media aritmética se escribe:

X =1n

n

∑i=1

Xi

1.1

Suponga que se tienen las notas obtenidas por un grupo de 20 estudiantes en un examenuniversitario y que sus valores (ordenados de menor a mayor) son: 15, 45, 47, 53, 58, 58, 60,62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92

Entonces la media es:

X =15+45+47+53+58+58+60+ · · ·+75+78+80+80+81+85+85+85+90+92

20

es decir,

X =137020

Por lo tanto, la nota promedio es 68,50.

1.3.2 Media ponderadaA veces interesa dar diferentes pesos o ponderaciones a los diferentes valores de la variable, deacuerdo con su importancia. Ante esto, tenemos la siguiente definición

Definición 1.2 (Media ponderada simple)Sean X1,X2,X3, . . . ,Xn−1,Xn los n valores observados para una variable cuantitativa X,donde los datos están ponderados por los p1, p2, p3, . . . , pn, es decir, estos valores pi dan laimportancia relativa que tiene cada unidad estadística en el estudio.

10 Estadística

Entonces la media ponderada de la variable X es :

X =p1X1 + p2X2 + p3X3 + . . .+ pnXn

p1 + p2 + . . .+ pn

En notación de sumatoria, la media ponderada es:

X =∑

ni=1 piXi

∑ni=1 pi

1.2

Supóngase que un estudiante tiene las siguientes notas en cuatro cursos matriculados uncuatrimestre: 67, 82, 90, 71. El número de créditos que vale cada curso es, respectivamente: 3,2, 2, 4. Entonces la media ponderada de las notas será:

X =(3×67)+(3×82)+(2×90)+(4×71)

3+2+2+4=

82911

= 75,36

1.3.3 La media para frecuencias simples

Cuando los datos recolectados han sido organizados en una tabla de distribución de frecuenciassimples, la media, para poblaciones como para muestras, se puede calcular por medio de la fórmula

x =∑ f x

n

en donde

x = media o promedio

∑ f x = suma de las frecuencias

por su correspondiente

dato nominal.

n = suma de todas las frecuen-

cias (número de datos reco-

lectados)

Calificacionesx f0 21 32 33 64 85 96 177 228 109 610 5

Total 91

1.3 Medidas de Tendencia Central 11

1.3

Las calificaciones de Matemáticas de los grupos ”A” y ”B” se muestran en la tabla de laderecha. Calcular el promedio (la media) obtenido por esos grupos.

Solución: Debe añadirse a la tabla original una columna encabezada por f x en donde se anotaránlos resultados correspondientes a las multiplicaciones de cada valor nominal x por su frecuencia frespectiva.

Por ejemplo, para la primera fila de la tabla: f x = 2×0 = 0La tabla completa con las tres columnasqueda como se muestra a la derecha. Lasuma de los valores de la columna f x es544, de manera que utilizando la fórmu-la para el promedio,recordando que n esla suma de todas las f , se obtiene:

x =54491

x = 5,97

Calificacionesx f f x0 2 01 3 32 3 63 6 184 8 325 9 456 17 1027 22 1548 10 809 6 54

10 5 50Total 91 544

1.3.4 La medianaLa mediana es el valor que esta en el “centro” de todos los valores, si éstos se ordenan. Es decir, esun valor tal que no más de la mitad de las observaciones son mayores que él y que no más de lamitad son menores que él. La mediana se denota Me. Esto es

Definición 1.3 (Mediana)Supóngase que se tienen las observaciones X X1,X2,X3, . . . ,Xn−1,Xn de una variablecuantitativa y que estas observaciones están ordenadas. Entonces el valor de la medianadependerá de si el número n de datos es par o impar:

I Si n es impar, entonces la mediana se encuentra en la posición (n+ 1)÷ 2, que esexactamente la posición que separa los datos en dos grupos de igual cantidad:

Me =X(n+1)

2

12 Estadística

II Si n es par, entonces la mediana estará entre la posición n/2 y la posición n/2+1, paraque los datos se dividan en dos grupos de n/2 valores cada uno.Es usual entonces tomar la mediana como la media aritmética entre los datos Xn/2+Xn/2+1, es decir:

Me = (Xn/2+Xn/2+1)÷2

(Observe que ambos valores pueden coincidir).

1.4

Supóngase que se tienen los siguientes datos ordenados de una variable cuantitativa:−3,−3,−2,0,0,1, 3 ,3,5,8,8,10,10. Como hay n = 13 datos, que es un número impar,entonces la mediana está en la posición (n+1)÷2 = (13+1)÷2 = 7 , es decir, que Me = 3.Esto significa que el 50% de los datos son mayores o iguales que 3 y el otro 50% de los datoson menores que 3. Nótese que a partir de la fórmula se obtiene la posición de la mediana y noel valor de ésta.

1.5

Consideremos las notas obtenidas por un grupo de 20 estudiantes universitarios:

15,45,47,53,58,58,60,62,67, 74 , 75 ,78,80,80,81,85,85,85,90,92

Como el número de datos es 20, que es par, entonces la mediana será la media aritmética entrelos datos que están en la posición n/2 = 10 y la posición n/2+1 = 11. Estos datos son: 74 y75. Entonces la mediana es:

Me = (74+75)÷2 = 74,5

1.3.5 La modaLa moda es la medida de posición más simple de definir:

Definición 1.4 (Moda)Dada una serie de observaciones para una variable cuantitativa, entonces la moda, denotadaMO, es el valor más frecuente (si existe), o los valores más frecuentes (si son varios).

Si un grupo de datos presenta una sola moda, diremos que es unimodal. Si presenta dos modas,diremos que es bimodal.

La moda es la medida de posición que menos se usa por una sencilla razón: en muchas ocasiones noexiste. Peor aún, cuando existe, frecuentemente no es única, sino que existen muchas modas parauna misma serie de datos. Por lo tanto, advertimos al estudiante acerca de su uso y su interpretación.

1.3 Medidas de Tendencia Central 13

1.6

Consideremos de nuevo la siguiente serie de datos, correspondiente a las notas de un grupo deestudiantes:

15,45,47,53,58,58,60,62,67,74,75,78,80,80,81,85,85,85,90,92

Entonces la moda es 85, que tiene frecuencia 3. O sea, que la nota más frecuente es 85.

1.7

Supóngase que se tienen observadas las siguientes estaturas de 10 personas, en centímetros:

168,162,181,180,169,171,175,159,173,160

Como no hay ningún valor que sea más frecuente que los demás, entonces la moda no existe.

1.8

En una pequeña empresa familiar, se tienen los siguientes salarios mensuales de los empleados,en miles de colones:

30,35,35,35,40,90,120,120,120,150

Entonces hay dos modas: 35 y 120, ambas con frecuencia 3.

1.3.6 Media, mediana y moda de subgrupos combinadosSuponga que se conocen la media, la mediana y la moda de calificaciones de examen para cada unade tres escuelas por separado (subgrupos), pero deseamos encontrar las tres medidas de tendenciacentral para el grupo compuesto (es decir, las tres escuelas combinadas en un grupo grande). Dadaslas medidas de los tres subgrupos y sus respectivas n, podemos calcular la media compuesta (llamadamedia mayor simbolizada por X . ), mediante la ecuación:

X .=∑X1 +∑X2 + . . .+∑X j

n1 +n2 + . . .n j

N Advertencia:A La media mayor no sólo es la media de las medias de los subgrupos a menos que los

tamaños de las muestras de los subgrupos sean idénticas. La media mayor (X) de gruposmedida diferente se calcula dividiendo la suma de las sumas de los subgrupos entre lasuma de las n del grupo, como esta implícito en la ecuación anterior.

B Las modas o medianas del conjunto de datos compuesto no puede calcularse a partir delas modas o medianas de los subgrupos. Para la moda y mediana , debemos tener losdatos originales a la mano y formar una distribución de frecuencias combinada simpleantes de que la moda o la mediana de los datos agregados pueda encontrarse.

14 Estadística

C Con muestras de subgrupos pequeños, la media, moda y mediana del grupo compuestoson simples de determinar. Si embargo, en el caso de conjuntos grandes de datos queestán involucrados, solo la media mayor es razonablemente simple de calcular. Sólo lamedia se define algebraicamente por la ecuación

X = ∑X/n

.

1.4 Comparación de las Medidas de Tendencia Central

El propósito de las medidas de posición ( tendencia central) es resumir o representar un conjuntode datos. Dichas medidas se complementan y en conjunto, permiten una mejor descripción de lascaracterísticas de la distribución de los datos. El problema reside en escoger cuál de las medidasrepresenta mejor dicho conjunto de datos, para ello es necesario tener una idea acerca de la forma desu distribución.

Las ventajas y limitaciones de usar la media, la moda y la mediana para describir un conjunto dedatos depende estrictamente de la forma (tipo) de la distribución de datos. Siempre que se pueda usar,en general se prefiere la media para describir la tendencia central, aunque algunas distribuciones sedescriben mejor por medio de la moda y la mediana. A continuación evaluaremos la aplicabilidad denuestros tres “promedios” a diferentes tipos de distribuciones.

Comparaciones

1 En una distribución normal (simétrica), la media, moda y mediana tienen un valoridéntico (Figura 1). Esto en realidad es evidente, dado que una distribución normal esperfectamente simétrica, y la curva tiene un sólo punto máximo (moda) que también seencuentra en el centro. Así, la media debe ser nuestra medida preferida de tendenciacentral para los conjuntos de datos que se distribuyen normalmente, puesto que es másfácil de calcular y de usar en forma matemática.

Figura 1

2 Una distribución bimodal tiene dos puntos máximos (Figura 2). Esto hace que la media

1.4 Comparación de las Medidas de Tendencia Central 15

y la mediana no sean de utilidad, puesto que sus valores estarán en algún lugar entre losdos puntos máximos y distorsionarán enormemente la descripción de la distribución.La moda, y observe que en este caso hay dos modas, pasa a ser la única medida útilde tendencia central. Sin embargo, una distribución bimodal es poco común y engeneral podemos decir que consta de dos distribuciones que se pueden analizar enforma independiente.

Si hay mucha asimetría, se debe evitar usar la media, ya que ésta es muy sen-sible a la presencia de valores extremos.

3 Cuando se describen distribuciones asimétricas (sesgadas) positivas o negativas, lamedia no es la mejor medida de tendencia central disponible. Mientras mayor sea laasimetría o sesgo de los datos, mayor utilidad tendrá la mediana (y más engañosaserá la media), porque la mediana estará más cerca del “valor promedio” real de lasobservaciones. Por ejemplo, en el caso de una distribución asimétrica positiva, la mediase encuentra “inflada” por la minoría de las observaciones que tienen un valor mayor.Esto sucede, por ejemplo, con el ingreso percápita, puesto que las distribuciones delingreso son asimétricas positivas. En las siguientes figuras se muestran las posicionesrelativas de la media, la moda y la mediana en cuatro distribuciones asimétricas.

Figura 2

Observe que cuando la distribución es asimétrica “positiva”, (es decir, el extremo máslargo de la distribución apunta hacia el este o hacia su derecha), la moda está a laizquierda de la mediana, y a su vez, la mediana está a la izquierda del promedio. Sucede

16 Estadística

lo contrario cuando la distribución es asimétrica negativa o sesgada negativamente.Esto nos lleva a una consideración final: si una distribución es asimétrica, es decir,notoriamente sesgada, la mediana será mejor que la media (promedio aritmético)para describir la tendencia central de la distribución de los datos. Observe las figurasanteriores. Note que en todas las distribuciones asimétricas, la mediana efectivamentese acerca más que la media al valor “promedio” o “normal” de las observaciones o, enotras palabras, refleja mejor la existencia de un sesgo en los datos.

Para elegir una medida de posición en un grupo de datos, las siguientes consideraciones pueden serde utilidad:

Consideraciones

1 La media de un conjunto de datos es la medida que conlleva mayores cálculosaritméticos y su valor está afectado por los valores individuales de todos los datos,mientras que la mediana y la moda pueden no ser afectadas por todos los valores. Porejemplo, véase el siguiente conjunto de datos, en el que el último valor es aumentado:

Datos Media Mediana Moda1,2,4,4,4,6,7,8 36÷8 = 4,5 4 4

1,2,4,4,4,6,7,26 54÷8 = 6,75 4 4

Puede observarse que la media cambia (es sensible al valor extremo 26), mientras quela moda y la mediana permanecen iguales.

2 En grupos pequeños, la moda puede ser muy inestable o puede no existir.

3 La mediana no se afecta por el tamaño de los valores por encima o por debajo de ella.

4 La media es influida por el tamaño de cada valor en el grupo de datos.

5 Algunos grupos de datos simplemente no manifiestan una posición en formasignificativa, siendo en este caso engañoso calcular una medida de posición.

6 La posición de grupos de datos con valores extremos se mide probablemente mejor porla mediana, si las observaciones son unimodales. Sin embargo, si lo que se quiere es quela medida utilizada refleje el efecto de los valores extremos, entonces es convenienteutilizar la media.

7 La media aritmética es muy útil para estimar la suma total de las observaciones si seconoce el número de observaciones.

1.4 Comparación de las Medidas de Tendencia Central 17

Ejercicios 1.1

1.1 Los 16 ejecutivos de una empresa ganaron los siguientes salarios para un mes determina-do:

170000 170000 170000 170000 185000 190000205000 215000 250000 250000 280000 280000190000 200000 300000 300000

a.) Calcule la media, la mediana y la moda e interprételas desde el punto de vista delproblema

b.) ¿Qué tipo de asimetría tiene la distribución? ¿Por qué?1.2 En un curso se han hecho 6 exámenes cortos (quices), y tres estudiantes obtuvieron las

siguientes notas:

Estudiantes NotasA 90 85 83 12 75 90B 77 78 82 83 77 85C 88 72 10 90 72 85

a.) Calcule todas las medidas de posición.b.) Si usted fuera el estudiante A, ¿qué medida de posición escogería para tener la nota

máxima?c.) Si usted fuera el estudiante B, ¿qué medida de posición escogería?d.) Si usted fuera el estudiante C, ¿qué medida de posición escogería?

1.3 Repecto a los siguientes datos, que corresponden al tiempo, en minutos, redondeado a launidad inferior, que duran 30 empleados para ensamblar ciertas piezas:

10 14 15 13 17 16 12 14 11 1315 18 9 14 14 9 15 11 13 1112 10 17 16 12 11 16 12 14 15

a.) Construya una distribución de frecuencias completa usando 5 clases, tal que la primeraclase tenga límite inferior 9

b.) ¿Qué porcentaje de empleados duran menos de 15 minutos?c.) Construya el histograma correspondiente a la distribución de frecuenciasd.) Calcule la media, la mediana, la moda, la desviación estándar y la varianza

1.4 Considere la siguiente tabla de frecuencias que muestra el tiempo que se requiere parapocesar órdenes de alimentos en un restaurante

Tempo (minutos) Número de órdenes5 a menos de 8 10

8 a menos de 11 1711 a menos de 14 1214 a menos de 17 617 a menos de 20 2

18 Estadística

a.) ¿Qué porcentaje de órdenes se procesan en menos de 14 minutos?b.) Construya el polígono de frecuancias acumuladas “menos de”.c.) Calcule la media, la mediana, la moda, la desviación estándar y la varianza

1.5 Medidas de variabilidad

En el apartado anterior se estudiaron las medidas de tendencia central, que son un indicador decómo los datos se agrupan o concentran en una parte central del conjunto. Sin embargo, para unainformación completa de dicho conjunto de datos hace falta saber el comportamiento opuesto, esdecir, de qué manera se dispersan o se alejan algunos datos de esa parte central. Para tener una ideade ello, es necesario medir el grado de variabilidad o dispersión de los datos.

Las medidas de variabilidad, también llamadas medidas de dispersión, miden qué tan concentradosestá los datos de una variable cuantitativa alrededor de la medida de posición. Es decir, la variabilidado dispersión nos indica si esas puntuaciones o valores están próximas entre sí o si por el contrarioestán o muy dispersas.Si el valor de la medida de variabilidad es pequeño, entonces los datos se parecen mucho entre sí. Enel caso contrario, hay muchos datos diferentes o están muy dispersos.

Hay varias razones para analizar la variabilidad en una serie de datos. Primero, al aplicar unamedida de variabilidad podemos evaluar la medida de tendencia central utilizada. Una medida devariabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de la media. Lamedia, por lo tanto es considerada bastante representativa de la serie de datos. Inversamente, unagran medida de variabilidad indica que la media no es muy representativa de los datos.

Una segunda razón para estudiar la variabilidad de una serie de datos es para comparar como estánesparcidos los datos en dos o más distribuciones.

Por ejemplo, al tomar las temperaturas en una región “A” durante diferentes épocas del año y adistintas horas del día, se registraron los datos que se muestran en la columna “A” ; por su parte, lasde otra región diferente “B”, son las de la columna “B” .

1.5 Medidas de variabilidad 19

A B19,3 −3

20 0

20,2 6

20,4 22

21 31,5

21,3 34

21,3 36

22 39

Promedio 20,68 20,68

Al obtener la media, en ambos casos resultó que la temperatura promedio fue de 20,68, cuya inter-pretación podría ser que en torno, al rededor o cerca a 20,68 fluctúan los demás valores.

Como puede verse, eso es bastante aproximado para los datos de la columna “A”, no así para los dela “B”. Los datos más alejados en “A” son 19.3º y 22º, que realmente están próximos a 20.68º; encambio, los datos más alejados en “B” son -3º y 39º, que están muy distantes del promedio.

¿Por qué si en ambos casos se tiene igual promedio, no se puede afirmar lo mismo de los valores queestán a su alrededor?. La respuesta está en que no se ha tomado en cuenta la dispersión, es decir, lamanera en que se disgregan los datos respecto de la media, pues en “A” casi no se dispersan mientrasque en “B” sí, .Cabría decir que el conjunto de datos “A” es bastante compacto mientras que el “B”es muy dilatado.

Las medidas de variabilidad más usadas son la amplitud o recorrido, la desviación estándar, lavarianza y el coeficiente de variación. Al igual que las medidas de posición pueden calcularse paradatos simples o datos agrupados en clases.

1.5.1 Recorrido o amplitud

Definición 1.5 (Recorrido o Amplitud)

El recorrido o amplitud de una serie de datos es la diferencia entre el valor máximo (M) y elvalor mínimo (m) de esa serie. También se conoce como rango y se denota como A.Luego,

A = M−m

Cuanto mayor sea la amplitud, mayor será la dispersión de los datos de una distribución. A pesarde lo simple de su cálculo, el recorrido no es muy usado debido a que presenta la dificultad de quesu valor depende de los valores extremos del conjunto de observaciones a que se refiere. En efecto,como sólo se utilizan dos observaciones para su cálculo, puede suceder que todos los valores delas observaciones sean muy homogéneos, excepto los dos extremos, el mayor y el menor, que sonprecisamente los dos casos que se usan para calcular el recorrido. Por otra parte, la introducciónde nuevas observaciones puede afectar su valor ya que entre las nuevas observaciones puede habervalores mayores que M o valores menores que m, por lo que el valor de A se aumentaría.

20 Estadística

En los casos de las temperaturas del ejemplo anterior, el rango de “A” esR = 22−19,3 = 2,7, encambio, el de “B” es B = 39− (−3) = 42.

1.5.2 Desviación estándar y varianza

Definición 1.6 (Desviación Estándar)La desviación estándar es el promedio de desviación o diferencia de las observaciones conrespecto a la media aritmética. Se denota como s. Cuanto mayor es la dispersión de los datosalrededor de la media aritmética, mayor es la desviación estándar.

La desviación estándar es:

s =

√∑

ni=1(Xi−X)2

n−1

donde : Xi son los datos

X es la media

n número total de datos

la fórmula anterior se puede simplificar como:

s =

√1

n−1

n

∑i=1

X2i −

nn−1

(X)2

Definición 1.7 (Varianza)La varianza es una medida muy importante para la inferencia estadística, es el cuadrado de ladesviación estándar y se denota s2. O, lo que es lo mismo, la desviación estándar es la raízcuadrada positiva de la varianza.

1.9

Consideremos el ejemplo de las notas obtenidas por un grupo de 20 estudiantes en un examenuniversitario:

15,45,47,53,58,58,60,62,67,74,75,78,80,80,81,85,85,85,90,92

Teníamos que la media de estos datos es 68,50. Para calcular la varianza, primero calculamosla suma de los cuadrados de los datos:

20

∑i=1

= 152 +452 +472 + . . .+902 +922 = 100714

1.5 Medidas de variabilidad 21

Entonces la varianza (de la muestra) es:

s2 =100714

19− 20

19(68,5)2 = 361,53

Luego, la desviación estándar (de la muestra) es:

s =√

361,53 = 19,01

La desviación estándar se interpreta como “cuánto se desvía -en promedio- con respecto a la mediaaritmética, un conjunto de observaciones”. En el ejemplo, las notas de los estudiantes se desvían-en promedio-en 19.01 puntos con respecto a la media aritmética. El lector debe observar quelas unidades de medida de la varianza son el cuadrado de las unidades de medida de la variableobservada, por lo que su interpretación práctica debe ser cuidadosa. Para una comparación con lamedia o con los datos, debe usarse la desviación estándar.

1.10

Tú y tus amigos han medido las alturas de tus perros (en milímetros):

Figura 3

Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.

Calcula la media, la varianza y la desviación estándar.

X =600+470+170+430+300

5= 394

así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico:

Figura 4

22 Estadística

Ahora calculamos la diferencia de cada altura con la media:

Figura 5

Para calcular la varianza:

s2 =(206)2 +(76)2 +(−224)2 +362 +(−94)2

4= 27130

Así que la varianza es 21 130.

Y la desviación estándar es la raíz de la varianza, así que:s =√

21130 = 145,36 ahora veremos qué alturas están a distancia menos de la desviaciónestándar (145mm) de la media:

Figura 6

Así que usando la desviación estándar tenemos una manera “estándar” de saber qué es normal,o extra grande o extra pequeño.

Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos...

Nota: ¿por qué al cuadrado?

Elevar cada diferencia al cuadrado hace que todos los números sean positivos (para evitar quelos números negativos reduzcan la varianza)

1.5.3 Coeficiente de variación

Las medidas de variabilidad que se han mencionado están afectadas por la unidad de medida enque se expresa la variable. Con frecuencia interesa comparar dos o más series de observaciones en

1.5 Medidas de variabilidad 23

cuanto a su dispersión y para ello se requiere eliminar el efecto de las unidades de medida y de lamagnitud general de los datos que se consideran.

Definición 1.8El coeficiente de variación mide la variabilidad porcentual o relativa de un conjunto de datosrespecto a su media. Se denota CV :

CV =sX×100

El coeficiente de variación sirve para comparar la variabilidad de diferentes conjuntos de datos, y esparticularmente útil cuando:

Utilidad

1 Los datos están en unidades diferentes.

2 Los datos están en las mismas unidades, pero las medias son muy diferentes.

1.11

Dos empresas de la industria electrónica, A y B, tienen en el mercado de valores accionescomunes. El precio medio de cierre en el mercado de valores durante un mes fue, para la acciónA, de ¢15000, con desviación estándar de ¢500. Para la acción B, el precio medio fue de ¢5000,con desviación estándar de ¢300. Haciendo una comparación absoluta, resultó ser superiorla variabilidad en el precio de la acción A debido a que muestra una mayor desviación estándar.

Pero, con respecto al nivel de precios, deben compararse los respectivos coeficientes devariación:

CV (A) =sA

XA×100 = (500/15000)×100 = 3%

CV (B) =sB

XB×100 = (300/5000)×100 = 6%

Por ello, puede concluirse que el precio de la acción B ha sido casi 2 veces más variable queel precio de la acción A (con respecto al precio medio para cada una de las dos acciones).

Ejercicios 1.2

1.5 Calcule la desviación estándar para los datos que se refieren a los salarios de 16 ejecutivosde una empresa del ejemplo ya realizado.1.6 Considere las notas de tres estudiantes del ejercicio visto en este documento. ¿De cuál

de los tres estudiantes podría decirse que tuvo notas más homogéneas?

24 Estadística

1.7 En una empresa, una muestra de 20 trabajadores calificados tienen un salario mensualmedio de ¢55000, con una desviación estándar de ¢67970. En la misma empresa, el salariomensual medio de una muestra de supervisores es de ¢146150, con una desviación estándarde ¢91040. Compare la variabilidad de los salarios de los trabajadores de la empresa.1.8 Tras encuestar a 25 familias sobre el número de hijos que tenían, se obtuvieron los

siguientes datos

Número de hijos 0 1 2 3 4Número de familias 5 6 8 4 2

Calcular la media, la varianza, la desviación típica y el coeficiente de variación de Pearson.1.9 Un fabricante de neumáticos ha recabado, de los diferentes concesionarios, información

sobre la cantidad de miles de kilómetros recorridos por un modelo concreto de esos neumáticoshasta que se ha producido un pinchazo o un reventón del neumático. Los concesionarios lahan proporcionado los siguientes datos:

a.) Construir una taba de frecuencias para esos datos tomando como número de intervalosel que proporciona la fórmula de Sturgessa. Interpretas la tabla.

b.) Construir las tablas de frecuencias acumuladas ascendente y descendente.c.) Dibujar el histograma de frecuencias relativas sin acumular y acumulado.d.) Calcular las principales medidas de tendencia central e interpretarlas.e.) Obtener las medidas de dispersión más importantes e interpretarlas.f.) Analizar la asimetría y el apuntamiento de la distribución de frecuencias resultante.g.) Si el fabricante quiere proponer un kilometraje para realizar el cambio de neumáticos,

1.5 Medidas de variabilidad 25

¿qué valor propondría para que solo 3 de cada 10 coches hayan tenido un pinchazo oreventón antes de ese kilometraje?

aLa fórmula de Sturgess propone como número k de intervalos, para agrupar un conjunto de N observacionesen intervalos por k = 1+[3,3 · logN] En este caso N = 100, luego k = 7. Al ser el valor mínimo 4.3068 se propone4 como límite inferior del primer intervalo, y al ser 7 intervalos se propone como anchura 13 para cada uno deellos, para que sea un valor entero, con lo cual el límite superior del último intervalo es 95

2 — Probabilidad

2.1 La enseñanza de la probabilidad en secundaria

De acuerdo con el enfoque propuesto por el Ministerio de Educación Pública, se enfatiza la ense-ñanza basada en la experimentación y desarrollo de temas con fuerte apego a la contextualizacióndel educando, por lo que la labor del docente no debe ser vista como el de “resolver” todos losproblemas y ejercicios planteados en el salón de clase.

De acuerdo con Batanero(2013), la enseñanza de la probabilidad en el nivel no universitario debe deestar marcado bajo una metodología experimental, en donde se plantea a los estudiantes situacionesprobabilísticas bajo contextos prácticos y cercanos a su entorno. Se espera que ellos anoten lo quesucede a medida que realizan la actividad e ir descubriendo progresivamente que puede saberse“cuando un suceso es más probable” y “cuánto más probable es”.

Esta autora señala que no debe abordarse el conocimiento de las fórmulas, ni que los estudiantesrealicen cálculos probabilísticos desvinculados de la realidad, al contrario, se busca que ellos explo-ren sucesos y situaciones acordes a su entorno.

La propuesta del Ministerio de Educación procura que los estudiantes logren mediante actividadesconcretas alcanzar ciertas nociones básicas de probabilidad, mediante orientaciones y actividadessobre su utilidad en diversos contextos (no sólo juegos de azar), posibilitando el desarrollo deproblemas interesantes respecto a la toma de decisión y previsión, relacionados con problemas a losque tendrán que enfrentarse a lo largo de la vida.

En este sentido, Batanero(2013) nos recuerda tener presente que el azar está en la vida cotidianade muchos contextos en los que aparecen nociones de incertidumbre, riesgo y probabilidad. Haysituaciones en la vida diaria en las que no podemos saber qué resultado va a salir, pero sí sabemoslos posibles resultados; son situaciones que dependen del azar.

28 Probabilidad

Al lanzar una moneda al aire no sabemos si saldrá escudo o corona, pero sí conocemos los posiblesresultados. Cuando lanzamos un dado no sabemos el número que saldrá, pero sabemos que hay seisposibles resultados. El próximo partido de la Selección Nacional, no sabemos el marcador, pero sabe-mos que hay tres posibles resultados, así como el pronóstico del tiempo, diagnóstico médico, estudiode la posibilidad de tomar un seguro de vida o efectuar una inversión, evaluación de un estudiante, etc.

Así pues, consideramos importante que antes de iniciar este tema en nuestros salones de clase enlos distintos colegios del país, es necesario dedicar un tiempo a investigar aspectos relacionadoscon el tema en estudio, que puedan resultar motivadores tanto para nosotros mismos como para losalumnos, de manera que logremos desarrollar el interés y la predisposición a la exploración en eltema de probabilidad.

Sin embargo, debemos señalar que la Probabilidad por su parte, además de ser una disciplina íntima-mente ligada a la Estadística ya que justifica su desarrollo formal y ha aumentado el alcance de susaplicaciones, tiene la enorme cualidad, en sí misma, de ser capaz de representar adecuadamente larealidad de muchos procesos sociales y naturales. Su conocimiento es fundamental para la formaciónde un individuo capaz de comprender el mundo en que vivimos.

A continuación algunos aspectos importantes.....

2.1.1 Historia de la Probabilidad

El azar es inherente a nuestras vidas. Se nos presenta de distintas formas en múltiplessituaciones cotidianas que exigen ser resueltas, recurriendo generalmente a la intuición.Pero las intuiciones en probabilidad con frecuencia nos engañan y una enseñanzaformal es insuficiente para superar los sesgos de razonamiento que pueden llevar adecisiones incorrectas (Batanero, 2006)

La idea de probabilidad surgió con los juegos de azar, como cartas, lanzamiento de dados, etc.Cuando la humanidad se enfrentaba a fenómenos para los que no se conocía su causa, como losasociados al clima, lluvias, tormentas, etc., o a la vida, como el sexo del bebé que va a nacer, lasenfermedades, etc., se atribuían éstos a la voluntad de los dioses. Tal vez por ello los juegos deazar estuvieron prohibidos en muchas culturas antiguas. En el Renacimiento italiano del siglo XV,algunos científicos como Galileo (1564-1642) observaron que se producían regularidades en losresultados de repetir muchas veces el lanzamiento de dados.

Gerolamo Cardano (1501-1576) escribió el primer libro sobre la teoría del azar. Se titulaba El librosobre los juegos de azar. La percepción de Cardano sobre como trabaja el azar la expresó en elconcepto de ?espacio muestral?. En ella se basó la descripción matemática de la incertidumbre enlos siglos posteriores.

Hasta el siglo XVII, hacia el 1651, no se realizó el estudio sistemático de un juego de azar. Lorealizaron Pascal (1623-1662) y Fermat (1601-1675) en Francia. Aunque los juegos de azar estaban

2.2 Conceptos básicos de probabilidad 29

prohibidos en esa época, se practicaban bastante. El Caballero de Meré, amigo de Pascal y jugadorasiduo, preguntó a Pascal la razón por la que al lanzar dos dados ciertas sumas salían con másfrecuencia que otras. Pascal y Fermat desarrollaron un método para calcular las probabilidadesde las apuestas en los juegos de azar. Aunque estos estudios no parecían estar relacionados conlos conocimientos matemáticos de esa época, ambos estaban convencidos de que llegarían a serimportantes en la ciencia que estudiara los fenómenos aleatorios. En los siglos XVIII y XIX loscientíficos se dieron cuenta que se podían estudiar los fenómenos aleatorios con los mismos métodosque se empleaban para estudiar los juegos de azar. Pero el avance más importante de la Estadística sedebió a la necesidad de estimar cantidades desconocidas en la población a partir de los datos de lasmuestras. Este problema llevó a Gauss (1777-1855) a introducir la ?distribución normal? que usaríaQuetelet (1796-1874) para estimar las características medias de los miembros de una comunidad.

En Inglaterra, a finales del siglo XIX, Francis Galton (1822-1911), primo segundo de Darwin, yKarl Pearson (1857-1936) inventaron métodos para medir relaciones entre diversas variables eintrodujeron la idea de regresión y de coeficiente de correlación. Desde mediados del siglo XIX, eldesarrollo de la teoría de la probabilidad está muy relacionada, y en deuda, con los descubrimientosde científicos rusos, entre los que destacan Chevichev, Markov, Lyapunov y Bunyakovsky. Chevichevintrodujo la ley de los grandes números que dice que cuando un experimento se realiza un númerogrande de veces, la frecuencia relativa tiende a la probabilidad del mismo.

Markov introdujo las cadenas de su nombre, que son series de eventos en los que la probabilidadde que ocurra un evento depende del resultado del evento anterior. Lyapunov descubrió el teoremacentral del límite que expresa que para cualquier población (aunque no se distribuya normalmente) ladistribución muestral de la media tiende a distribuirse normalmente cuando el tamaño de la muestraes suficientemente grande. Bunyakovsky desarrolló aplicaciones de la teoría de la probabilidad a laEstadística, en particular en el campo de los seguros y en la demografía. Escribió el primer cursoruso sobre probabilidad.

2.2 Conceptos básicos de probabilidad

Hay situaciones en la vida diaria en las que no podemos saber qué resultado va a salir, pero sísabemos los posibles resultados; son situaciones que dependen del azar.

Al lanzar una moneda al aire no sabemos si saldrá escudo o corona, pero si conocemos los posiblesresultados. Cuando lanzamos un dado no sabemos el número que saldrá, pero sabemos que hay seisposibles resultados. El resultado en el lanzamiento de una moneda o en el lanzamiento de un dadodepende del azar.

El lanzamiento de una moneda o de un dado es un fenómeno aleatorio. Qué el próximo niño quenazca en una clínica sea niño o niña es un fenómeno aleatorio, pero la hora de la salida del sol o lasparadas por las que pasará el bus en la carretera no son fenómenos aleatorios porque conocemos deantemano lo que va a suceder.

Llamamos fenómenos aleatorios a aquellos cuyos resultados dependen del azar. Es decir, son

30 Probabilidad

fenómenos que no se pueden predecir con certeza, mientras que aquellos que son predecibles sellaman determinísticos.

Cada uno de los resultados de un fenómeno aleatorio se llama suceso.

Los sucesos posibles de lanzar dos monedas al aire son los que aparecen en el diagrama de árbol.

Figura 7

2.2.1 Experiencias Aleatorias

La probabilidad es un modelo matemático de los fenómenos aleatorios. Sin embargo, la cantidad defenómenos aleatorios es tan grande que una teoría que los abarque a todos es imposible; con el fin dereducirlos se hablará en este trabajo de experiencias aleatorias.

Definición 2.1 (Experiencia Aleatoria)Una experiencia aleatoria es un fenómeno que tiene tres características

1. Se conocen todos los posibles resultados antes de realizarse el experimento.2. No se sabe cuál de los posibles resultados se obtendrá en un experimento particular.3. El experimento puede repetirse.

Veamos un ejemplo donde se implementas estas definiciones

2.1

El lanzamiento de un dado es un fenómeno aleatorio estudiado por la probabilidad, puessus posibles resultados son 1, 2, 3, 4, 5 y 6. Además no se tiene certeza de cuál resultadose obtiene al lanzar el dado, y el dado se puede lanzar varias veces se desee en condicionessimilares.

2.2 Conceptos básicos de probabilidad 31

Ejercicios 2.1

2.1 Formen equipos de 5 personas y discutan cuáles de los siguientes fenómenos o experi-mentos se pueden repetir en condiciones similares y cuáles se pueden considerar experienciasaleatorias.

1. Se lanza una moneda y se observa la cara (Escudo, corona) que queda hacia arribacuando queda en reposo. Se puede repetir No se puede repetir¿Por qué?¿Es una experiencia aleatoria?

2. Al lanzar un dado de seis puntos anotamos todos los resultados mayores que ocho. Se puede repetir No se puede repetir¿Por qué?¿Es una experiencia aleatoria?

3. En una bolsa metemos seis bolas rojas y seis azules, sacamos una y anotamos su color. Se puede repetir No se puede repetir¿Por qué?¿Es una experiencia aleatoria?

4. Al extraer una carta de la baraja observamos si sale un As. Se puede repetir No se puede repetir¿Por qué?¿Es una experiencia aleatoria?

2.2.2 Espacio muestral y eventos

Definición 2.2 (Espacio Muestral)Es el conjunto de todos los posibles resultados, este se denota: Ω

Definición 2.3 (Eventualidad)Es un resultado particular, es decir un elemento de Ω : x es una eventualidad⇔ x ∈Ω

Definición 2.4 (Evento)Es un conjunto de resultados, es decir un subconjunto de Ω : A es una evento⇔ A⊆Ω

Definición 2.5 (Ocurrencia de un evento)Se dice que un evento ocurre si sucede una y solo una de sus eventualidades.

32 Probabilidad

Definición 2.6 (Evento casi seguro)

Ω

Definición 2.7 (Evento casi imposible)/0

2.2

Considere el experimento “Tirar un dado ” El espacio muestral es:

Ω = 1,2,3,4,5,6

Observe que 6 es una eventualidad. Algunos eventos son: A: el resultado del dado es impar, B: el resultado del dado es mayor a 4

Note que:A = 1,3,5 ⊆Ω, B = 5,6 ⊆Ω

Si el resultado del dado es 3 entonces se dice que el evento A ocurre, el Evento B no ocurre.

Teorema 2.1 (Eventos Compuestos)

Si A y B son eventos entonces: A∪B, A∩B, ArB y A4B son eventos

2.3

Se tiene una canasta con 15 bolas enumeradas del uno al quince. Las bolas con número del 1al 7 son rojas y las demás son verdes. Considere el experimento que consiste en elegir unabola al azar de la canasta. Dados los eventos:

A: la bola elegida es verdeB : la bola elegida es rojaC : la bola elegida tiene un número parentonces: el evento B∪C ocurre si la bola elegida es roja o tiene número par, el evento A∩Cocurre si la bola elegida es verde con número par, el evento CrA ocurre si la bola elegida esroja con número impar y el evento C4B ocurre si la bola elegida tiene número par ó es roja.

2.4

Una bolsa contiene bolas blancas y negras. Se extraen sucesivamente tres bolas.

2.2 Conceptos básicos de probabilidad 33

E = (b,b,b);(b,b,n);(b,n,b);(n,b,b);(b,n,n);(n,b,n);(n,n,b);(n,n,n)

Ejercicios 2.2

2.2 En los mismos grupos formados en los ejercicios 2.1, resuelva lo siguiente:

1. El suceso A = extraer tres bolas del mismo color.

2. El suceso B = extraer al menos una bola blanca.

3. Se lanza un dao una sola vez. Responda las siguientes preguntas:

a) ¿Puede ocurrir el evento formado por los resultados 1, 2, 3, 4, 5, 6? Si No¿Por qué?

b) ¿Puede ocurrir el evento formado por 1 o 2? Si No¿Por qué?

c) ¿Es posible que ocurra el evento sale el número par y sale número primo? Si No¿Por qué?

2.3 Considerar el experimento de lanzar dos dados de forma consecutiva y se registrar losnúmeros que aparecen en cada dado (36 casos posibles).S = (1,1),(1,2),(1,3),(1,4),(1,5),(1,6),(2,1),(2,2),(2,3),(2,4),(2,5),(2,6),(3,1),(3,2),(3,3),(3,4),(3,5),(3,6),(4,1),(4,2),(4,3),(4,4),(4,5),(4,6),(5,1),(5,2),(5,3),(5,4),(5,5),(5,6),(6,1),(6,2),(6,3),(6,4),(6,5),(6,6))

Marcar los resultados que corresponden a los siguientes eventos:I) Evento A = “No sale seis ”.

II) Evento B = “Sale exactamente un seis”.

III) Evento C = “Salen exactamente dos seis”.

IV) Evento D = “Sale al menos un seis”.

34 Probabilidad

2.2.3 Álgebra de eventos

Sean A y B dos eventos de una experiencia aleatoria con espacio muestral Ω; a partir de esos doseventos se pueden definir en términos de la ocurrencia de A y B.

El evento complementario de A es el evento Ac, se dice que Ac ocurre cuando A no ocurre.

Se dice que A y B son eventos mutuamente excluyentes cuando no pueden ocurrir simultáneamente,ésto es A∩B = /0

2.3 Probabilidad

Dado un experimento, la probabilidad o medida de posibilidad de que ocurra un evento determinadoA será un número entre 0 y 1, que se interpreta como un porcentaje. Así si la probabilidad de A es0.8, esto indica que el evento tiene un 80% de posibilidad de ocurrir.

¿Cómo determinar intuitivamente la probabilidad de que ocurra un evento? Para que la probabilidadsea útil debe existir una correspondencia entre la probabilidad y la realidad, es decir si el experimentose repite varias veces, la frecuencia relativa observada con que ocurre un evento debe ser cercanaa la medida de la posibilidad de que ocurra ese evento. Está frecuencia relativa observada se lellamará probabilidad frecuencial, la cual se espera que, bajo ciertas condiciones, se aproxime a laprobabilidad de que ocurra el evento (llamada probabilidad teórica)

Definición 2.8 (Definión clásica de probabilidad)Ley de Laplace: Dado un experimento aleatorio con un espacio de n sucesos elementa-les Ω, la probabilidad del suceso A, que designamos mediante P(A), es la razón entrela cantidad de casos favorables para la ocurrencia de A y la de casos posibles. En otros términos

P(A) =| A ||Ω |

2.5

Dado el fenómeno de lanzar un dado, ¿Cuál es la probabilidad de que salga un 6? Se lanzaun dado 100 veces y se observa que en 15 veces se obtiene un 6, por lo tanto la probabilidad

frecuencial observada de obtener un 6 es15

100= 15% que es cercana a la probabilidad teórica

de16= 16.6%, la que en las próximas secciones veremos cómo obtener. Pero, ¿cuántas veces

debe repetirse el experimento para que la probabilidad frecuencial se acerque a la real?

2.3 Probabilidad 35

2.6 (¿Juegas o no?)

En las fiestas cívicas de Zapote hay un puesto donde por 1000 colones se puede jugar DADOSA SEIS.

Este juego consiste en lazar dos dados distintos, si la suma de los resultados de losdados es menor igual a 6 se gana el juego sino se pierde.

Karla, Jorge y Anthony desean determinar si vale la pena jugar el juego, para ellodeciden que cada uno juegue veinte veces DADOS A SEIS obteniendo los siguientesresultados: # de veces que se ganó Probabilidad frecuencial de ganar ¿Vale la pena Jugar?

# de veces que se ganóprobabilidad frecuencial

de ganar¿Vale lapena

jugar?

Karla 7720

= 35% No

Jorge 101020

= 50% Es Indiferente

Anthony 121220

= 60% Si

Se puede apreciar que los resultados obtenidos utilizando la probabilidad frecuencial son muydistintos. Tal parece que algunas probabilidades frecuenciales no se acercar al valor real de laprobabilidad. ¿Cuál es realmente la probabilidad de ganar DADOS A SEIS?

El último ejemplo revela que no necesariamente la probabilidad frecuencial se va a acercar a la pro-babilidad real. Entonces ¿qué condiciones deben cumplirse para que la frecuencia relativa observadase acerque a la probabilidad teórica? Las condiciones las establece la Ley de los Grandes Números:Dado un experimento, sea A un evento. Si el experimento se repite un número suficientemente grandede veces, entonces la probabilidad frecuencial de A será muy cercana al valor real de la probabilidad.

Curiosidades

1 El naturalista francés Count Buffon (1707-1788) lanzó una moneda 4040 veces.Resultado: 2048 caras, proporción 2048/4040=0,5069 o 50,69% de caras.

2 Alrededor del 1900, el estadístico inglés Karl Pearson ¡lanzó una moneda 24 mil veces!Resultado: 12012 caras, proporción 12012/24000=0,5005 o 50,05% de caras.

3 Durante la II guerra mundial, el matemático australiano John Kerrich, mientrasestaba en prisión lanzó una moneda 10 mil veces. Resultado: 5067 caras, proporción5067/10000=0,5067 o 50,67% de caras.

36 Probabilidad

Definición 2.9 (Condiciones de una Probabilidad)Si Ω es el espacio muestral y A es un evento, entones:

1. 0≤ P(A)≤ 12. P( /0) = 0 y P(Ω) = 13. P(a1)+P(a2)+ . . .+P(an) = 1; donde Ω = a1,a2, . . . ,an

2.7

Lanzamos un dado normal al aire. Consideramos el suceso A= “sale par”. Calcular P(A).Casos posibles hay 6, pues

Ω = 1,2,3,4,5,6

.Casos favorables al suceso

A = 2,4,6

Por tantoP(A) =

36=

12= 0,5

(Notemos que la probabilidad siempre es un número positivo y menor, o a lo sumo, igual a 1).

Ejercicios 2.3

2.4 De una urna que contiene 8 bolas rojas, 5 amarillas y 7 verdes se extrae una bola al azar.Calcula la probabilidad de que la bola extraída sea

a.) rojab.) verdec.) amarilla

2.5 Una caja contiene una bola roja, una negra y una verde. Considerar el experimento sacardos bolas de la siguiente manera: se extrae una bola al azar y sin restituirla se saca otra bola alazar. Considere los siguientes eventos:

A0=no se obtiene ninguna bola rojaA1= se obtiene exactamente una bola rojaA2= se obtienen dos bolas rojas

Encontrar las probabilidades de A0, A1, A2

2.6 Se lanzan dos dados no cargados de manera simultanea, determine:

2.3 Probabilidad 37

a.) ¿Cuál es la probabilidad de obtener dos pares? R/ 14

b.) ¿Cuál es la probabilidad de obtener suma par?R/ 12

c.) ¿Cuál es la probabilidad de obtener suma impar?R/ 12

d.) ¿Cuál es la probabilidad de obtener un 2 o un 5?e.) ¿Cuál es la probabilidad de obtener suma mayor que 4?

2.7 Se arrojan dos dados. Sea A el evento de que la suma de las caras es impar; B el eventode que sale por lo menos un número 1. Describir los eventos:

a.) A∪Bb.) A∩Bc.) A∩Bc

2.8 Una rifa del cole consiste en sacar una ficha al azar de una urna que contiene 100 fichasenumeradas del 1 al 100. Se define el evento A como el número de la ficha extraída quecontenga entre sus dígitos la cifra 5. Calcular:

a.) P(A)b.) P(Ac)

2.3.1 Función de probabilidadPara definir la función de probabilidad, que toma un evento y le asigna un valor que indique laposibilidad de ocurrencia, es necesario poner condiciones sobre su dominio, el cual es un conjuntode eventos o sea un subconjunto de P(Ω).

2.3.2 Espacio probabilizable o σ−algebra

Definición 2.10 (σ−algebra)

Sea A un conjunto de eventos, es decir A⊆ P(Ω)a. Se dice que A es un espacio probabilizableo una σ−algebra sobre Ω si y solo si cumple los siguientes axiomas:

Axioma 1 Ω ∈ AAxioma 2 X ∈ A⇒ X ∈ AAxioma 3 X ,Y ∈ A⇒ X ∪Y ∈ A

aSe denota con P(X) el conjunto de subconjuntos de Ω, para diferenciarlo de P(X), la probabilidad de X

2.8

Los conjuntos

/0,Ω y P(Ω)

son σ−algebra sobre Ω.

38 Probabilidad

2.3.3 Regla de la suma

Teorema 2.2 (Regla de la suma)

La probablidad de la suma de dos sucesos mutuamente excluyentes (incompatibles )A y B esla suma de sus probabilidades, es decir

P(A∪B) = P(A)+P(B)

Decimos que los sucesos A1, . . . ,Am son incompatibles dos a dos cuando todas las parejas posiblesde sucesos distintos son incompatibles, es decir, cuando Ai∩A j = /0.

Si A, B y C son tres sucesos incompatibles no es difícil establecer, teniendo en cuenta el teoremaanterior, que

P(A∪B∪C) = P(A)+P(B)+P(C).

Más en general, si A1, . . . ,An son sucesos incompatibles dos a dos, la regla de la suma es la fórmula

P(A1∪ . . .∪An) = P(A1)+ . . .+P(An) = Xn =n

∑k=1

P(An)

Esta fórmula incluye a las dos anteriores en los casos en que n = 2 y n = 3, y se demuestra mediantela aplicación sucesiva de la fórmula.

2.3.4 Propiedades de la probabilidadLa definición de probabilidad junto a la regla de la suma permiten obtener importantes propiedadespara el cálculo de probabilidades.

Propiedad 1

Para cualquier suceso A se tiene P(A) = 1−P(A).

Propiedad 2

Si A⊂ B, entonces P(A)≤ P(B).

Propiedad 3

Para sucesos A y B arbitrarios vale la igualdad P(A∪B) = P(A)+P(B)−P(A∩B).

N Importante:A Si los sucesos A yB son incompatibles, entonces P(A∩B) = 0, y de la propiedad 3 se

obtiene la igualdad ya conocida P(A∪B) = P(A)+P(B).

B En forma análoga, no es difícil demostrar, que para tres sucesos A, B y C arbitrarios,tiene lugar la igualdad

P(A∪B∪C) = P(A)+P(B)+P(C)−P(A∩B)−P(A∩C)−P(B∩C)+P(A∩B∩C).

2.3 Probabilidad 39

2.9

Se tira una moneda 3 veces. Calcular la probabilidad de obtener alguna cara.

Los problemas de este tipo, en los que se pide la probabilidad de obtener “alguna” cosa, sesuelen resolver muy bien por paso al complementario. En este caso concreto, A = “obteneralguna cara”.

A= “no obtener ninguna cara”= “obtener 3 cruces”.

Entonces, p(A) =18

, pues hay 8 casos posibles (2·2·2, ¡haz el diagrama de árbol!) y sólo unofavorable (XXX, 3 cruces), por tanto:

p(A) = 1− p(A) = 1− 18=

78

2.10

Se lanza un dado dos veces y se suman las dos caras. Sea A el suceso A=“la suma de resultadoses mayor o igual que 10” y B= “la suma de los resultados es múltiplo de 6”. Calcular p(A),p(B) y p(A∩B).

Hay 36 posibles resultados al lanzar dos veces un dado. ¿Cuántos de ellos suman 10 o más?

Que sumen 10: (4,6), (5,5), (6,4)Que sumen 11: (5,6), (6,5)Que sumen 12: (6,6)

Por tanto,

p(A) =6

36=

16

¿Cuántos hay que sumen múltiplo de 6?

Que sumen 6: (1,5), (2,4),(3,3), (4,2), (5,1)Que sumen 12: (6,6)

Por tanto, p(B) =636

=16

En cuanto a A∩B = (6,6), luego

p(A∩B) =16

.

Para la siguiente actividad se solicita reunirse en grupos de 4 personas

40 Probabilidad

Ejercicios 2.4

2.9 Se ha encargado la impresión de una encuesta a una imprenta, que imprime 12 foliosdefectuosos de cada 1000. Hallar la probabilidad de que elegido un folio de la encuesta alazar:

a.) Esté mal impreso.b.) Esté correctamente impreso

2.10 Una bolsa contiene 8 bolas numeradas. Se extrae una bola y anota su número. Sean lossucesos:

A= “salir par”, B= “salir impar”, C= “salir múltiplo de 4”.

Calcular las probabilidades de A∪B, A∪C, B∪C, A∪B∪C.2.11 En el banquete posterior a una boda se sientan en la presidencia 10 personas, entre los

cuales se encuentran los novios. Calcular la probabilidad de que los novios estén juntos en elcentro de la mesa.

2.3.5 Regla de multiplicación de probabilidadesSi se tienen varios eventos sucesivos e independientes entre sí, la probabilidad de que ocurran todosellos a la vez corresponde a la multiplicación de las probabilidades de cada uno de los eventos.

2.11

Si se responden al azar cuatro preguntas con cinco opciones cada una, ¿cuál es la probabilidadde acertar a todas?

La probabilidad de acierto en cada una de las preguntas es 1/5. Por lo tanto, la probabilidad deacertar en las cuatro es:P(A) =

15· 1

5· 1

5· 1

5=

1625

2.12

Suponiendo que la probabilidad de tener un hijo o una hija es12

, ¿cuál es la probabilidad deque al tener tres hijos, 2 solamente sean varones?

Si H representa el nacimiento de un hombre y M el de una mujer, tenemos los siguientescasos favorables: HHM−HMH−MHH

La probabilidad de cada uno de estos eventos es:(

12

)3

=18

2.3 Probabilidad 41

2.3.6 Probabilidad condicionada

Hasta ahora nos hemos limitado a calcular probabilidades únicamente partiendo de un experimentoaleatorio, sin tener más información. Pero, ¿qué ocurre si conocemos alguna información adicional?.

A menudo se requiere calcular la probabilidad de un evento A sabiendo de antemano que ha ocurridootro evento, digamos B.

Esta nueva probabilidad, que se denota por P(A|B), se llama la probabilidad condicional de A dadoel evento B. Estudiaremos un ejemplo antes de dar una definición formal de este concepto.

2.13

Consideremos el lanzamiento de tres monedas. Sabemos que el espacio muestral correspon-diente es:

S = ccc,cce,cec,ecc,cee,ece,eec,eee.

Sean A y B los eventos definidos como A: “ cae a lo más una corona” B: “en la primera moneda caecorona”.

Es claro que A = eee,cee,ece,eec y B = ccc,cce,cec,cee.Véase la Figura 8:

Figura 8

Supóngase que deseamos calcular la probabilidad de que al lanzar tres monedas cae a lo más unacorona, pero por otra parte, en alguna forma nos hemos enterado de que la primera moneda cayócorona. Antes de conocer esta información, cada uno de los eventos eee, cee, ece, eec tenía pro-babilidad 1/8. Pero ahora nuestro espacio muestral se ha “restringido”; es decir, sabemos ya que elevento B ha ocurrido (la primera moneda cayó corona).

Luego, la única forma en que puede ocurrir que cae a lo más una corona es que ocurra el resultadocee, cuya probabilidad es ahora 1/4, pues B consta de 4 resultados únicamente. Así pues, P(A) = 4/8,pero P(A|B) = 1/4.

Analizaremos con más cuidado la situación: si deseamos calcular la probabilidad de A (“cae a lomás un corona”) dado que el evento B (“en la primera moneda cae corona”) ha ocurrido, entoncespodemos suponer que nuestro espacio muestra no es todo S, sino únicamente el conjunto B, y en este

42 Probabilidad

caso, P(A|B)es la probabilidad de los resultados que están en A y en B con respecto al nuevo “espaciomuestral” B. En particular, si el espacio S es equiprobable, entonces B también lo es y tendremos que:

P(A|B) = P(A∩B)P(B)

(1)

Volviendo al ejemplo 2.13, como A∩B = cee, vemos que P(A∩B) = 1/8. Asimismo P(B) = 4/8.Luego se tiene:

(A|B) = 1/84/8

= 1/4

Definición 2.11Sean A y B eventos en un espacio muestral S y supóngase que P(B)> 0. EntoncesP(A|B), laprobabilidad condicional del evento A dado el evento B, se define como

P(A|B) = P(A∩B)P(B)

Aunque esta fórmula es importante en sí misma tiene la ventaja adicional de que nos da una expresiónpara la probabilidad de la intersección de dos eventos. En efecto, de (1),

P(A∩B) = P(B)P(A|B), (2)

o bien, puesto que P(B|A) = P(B∩A)/P(A), también podemos escribir

P(A∩B) = P(A)P(B|A). (3)

Nota: Para evitar repeticiones, al hablar de la probabilidad condicional P(A|B) siempre supondre-mos que P(B)> 0.

La expresión (2) o la (3) se conoce también como teorema de la multiplicación y se puede extendera cualquier número finito de eventos, o sea,

P(A1∩A2∩·· ·∩An) = P(A1)P(A2|A1)P(A3|A1∩A2) · · ·P(An|A1∩A2∩·· ·∩An?1).

Por ejemplo, para n = 3,

P(A1∩A2∩A3) = P(A1)P(A2|A1)P(A3|A1 A2). (4)

2.14

De una clase de 8 varones y 6 mujeres se seleccionan al azar tres estudiantes, uno tras otro.¿Cuál es la probabilidad de que los tres sean varones?

Solución: En otras palabras, deseamos calcular la probabilidad

2.3 Probabilidad 43

P(A1∩A2∩A3),

en donde Ai es el evento: “el i-ésimo estudiante selecionado es varón”, i = 1,2,3.

Como en total son 14 estudiantes, de los cuales 8 son varones, P(A1) = 8/14. Si el primer estudianteseleccionado fue varón, quedan 13 estudiantes, de los cuales 7 son varones. Por lo tanto, P(A2|A1) =

7/13. Análogamente, la probabilidad de que el tercer estudiante seleccionado sea varón dado que losdos primeros eran varones es

P(A3|A1∩A2) = 6/12. (¿Por qué?)

Luego, de (4),

P(A1∩A2∩A3) =814· 7

13· 6

12=

213

2.15

En un aula hay 100 alumnos, de los cuales: 40 son hombres, 30 usan gafas, y 15 son varones yusan gafas. Si sabemos que el alumno seleccionado no usa gafas, ¿qué probabilidad hay de

que sea hombre? R P(h|gc) =5

14

En grupos de 5 personas resuelva los siguientes ejercicios

Ejercicios 2.5

2.12 Consideremos una urna que contiene 4 bolillas rojas y 5 blancas. De las 4 bolillas rojas,2 son lisas y 2 rayadas y de las 5 bolillas blancas, 4 son lisas y una sola es rayada. Supongamosque se extrae una bolilla y, sin que la hayamos mirado, alguien nos dice que la bolilla es roja,¿cuál es la probabilidad de que la bolilla sea rayada? R/ 0.52.13 Consideremos una población en la que cada individuo es clasificado según dos criterios:es o no portador de HIV y pertenece o no a cierto grupo de riesgo que denominaremos R. Lacorrespondiente tabla de probabilidades es:

Portador (A) No portador (Ac)Pertenece a R (B) 0.003 0.017 0.020

No pertenece a R (Bc ) 0.003 .977 0.9800.006 0.994 1.000

Dado que una persona seleccionada al azar pertenece al grupo de riesgo R,a.) ¿cuál es la probabilidad de que sea portador? R/ 0.150b.) ¿Cuál es la probabilidad de que una persona sea portadora de HIV, dado que no pertenece

al grupo de riesgo R?./R 0.003062.14 Se lanzan dos dados:

a.) ¿Cuál es la probabilidad de obtener una suma de puntos igual a 7? R/ 1/6

44 Probabilidad

b.) Si la suma de puntos ha sido 7, ¿cuál es la probabilidad de que en alguno de los dadoshaya salido un tres?R/ 1/3

2.3.7 Teorema de la probabilidad totalSi E es un evento en un espacio muestral S, es posible conocer P(E) en términos de las probabilidadescondicionales de los eventos en una partición de S. Decimos que los eventos en S

A1,A2, · · · ,An

forman una partición de S si estos conjuntos son ajenos por parejas y su unión es S; es decir,a) Ai∩A j = /0 ; si i 6= j,

b) S =⋃n

i=1 Ai = A1∪A2∪·· ·∪An

El nombre de “partición” es muy sugestivo; nos dice que los eventos A1,A2, · · · ,An dividen (particio-nan o “parten”) el espacio S en conjuntos ajenos (Ver figura 9)

Ahora, sea A1,A2, · · · ,An una partición de S, y sea E un evento cualquiera en S. Es claro que E sepuede escribir como una unión de conjuntos ajenos:

E = (E ∩A1)∪ (E ∩A2)∪·· ·∪ (E ∩An).

Figura 9

Entoces por la propiedad aditiva

P(A∪B∪C) = P(A)+P(B)+P(C).

se tiene que

P(E) = P(E ∩A1)+P(E ∩A2)+ · · ·+P(E ∩An).

Finalmente, por el teorema de multiplicación

P(E) = P(A1)P(E|A1)+P(A2)P(E|A2)+ · · ·+P(An)P(E|An),

2.3 Probabilidad 45

o en forma más compacta:

P(E) =n

∑i=1

P(Ai)P(E|Ai)

Este resultado se conoce como teorema de la probabilidad total.

2.16

En una fábrica, tres máquinas, M1, M2, M3 elaboran respectivamente el 30%, el 50% y el20% de la producción total. Los porcentajes de artículos defectuosos producidos por estasmáquinas son 1%, 3%, 2%, respectivamente. Si se selecciona un artículo al azar, calcule laprobabilidad de que sea:(a) Defectuoso(b) No defectuoso

Solución: Si denotamos por Ai el evento: “el artículo seleccionado fue producido por la máquinaMi” , i = 1,2,3, es claro que A1, A2 y A3 forman una partición del espacio muestral que resulta delexperimento de tomar un artículo y ver si es defectuoso (d) o no defectuoso

(d)

. ; E ∩Ai sería elevento: “el artículo es defectuoso y fue elaborado en la máquina Mi”, i = 1,2,3. En la Figura 10aparece un diagrama de árbol que ilustra el problema.(a) Con probabilidades 0.3, 0.5 y 0.2, respectivamente, el artículo puede ser de cualquiera de lasmáquinas M1, M2, M3. Además, dependiendo de la máquina en que se elaboró, el artículo tieneprobabilidades 0.01, 0.03 y 0.02 de ser defectuoso. Entonces

P(d) = P(A1)P(d|A1)+P(A2)P(d|A2)+P(A3)P(d|A3) =

(0,3)(0,01)+(0,5)(0,03)+(0,2)(0,02) = 0,022.

(b) El evento “no defectuoso” es el complemento del evento “defectuoso”. Luego, P(d) = 1−P(d) =0,978.

Figura 10

46 Probabilidad

2.17

En un colegio se imparten sólo los idiomas inglés y francés. El 80% de los alumnos estudianinglés y el resto francés. El 30% de los alumnos de inglés son socios del club musical delcolegio y de los que estudian francés son socios de dicho club el 40%. Se elige un alumno alazar.Calcular la probabilidad de que pertenezca al club musical.

Solución

En estos problemas es importante elegir el sistema completo de sucesos. En este caso: A1= estudiaringlésA2= estudiar francésB= ser del club musical.

Nos piden p(B). Por el teorema anterior:

p(B) = p(A1) · p(B/A1)+ p(A2) · p(B/A2) =80100· 30

100+

20100· 40

100= 8

25 = 0,32

Mediante el diagrama de árbol:

Figura 11

Se obtiene el mismo resultado

2.3.8 Sucesos independientesSi bien el conocer cierta información adicional modifica la probabilidad de algunos sucesos, puedeocurrir que otros mantengan su probabilidad, pese a conocer dicha información.

2.18

En el lanzamiento de un dado, consideremos los sucesos: A=“ sacar un número par” y B=“sacar un número menor o igual que 2”. Es claro que A = 2,4,6 y B = 1,2.

2.3 Probabilidad 47

Calculemos la probabilidad de A conociendo que se ha realizado el suceso B, es decir,p(A/B).

p(A/B) =p(A∩B)

p(B)= 0,5

puesto que p(A∩B)=p(sacar par y menor o igual que 2)=16

y p(B) =13

.

Pero si no conociésemos la información B, ¿cuál sería la probabilidad de A?.

p(A)=p(sacar par)=36= 0,5, es decir que p(A/B)= p(A), y por tanto el conocer la información

B no modifica la probabilidad de A.

Cuando esto ocurre es decir, cuando p(A/B) = p(A), diremos que los sucesos A y B son indepen-dientes (el hecho de que ocurra B no modifica la probabilidad de A).

Propiedad 4

A y B son sucesos independientes⇔ P(A∩B) = p(A) · (B)

Teorema 2.3 (Eventos Independientes)

A y B son eventos independientes si y solo si P(A|B) = P(A)

Teorema 2.4 (Regla del producto 2)

En general se cumple que P(A1 ∩ A2 ∩ ·· · ∩ An) = P(A1) · P(A2|A1) · P(A2|(A1 ∩ A2)) . . . ·P(An|(A1∩A2∩ . . .∩An−1))

48 Probabilidad

Algunos ejemplos de eventos independientes

Figura 12

2.19

Una caja contiene 4 canicas rojas, 3 canicas verdes y 2 canicas azules. Una canica es eliminadade la caja y luego reemplazada. Otra canica se saca de la caja. Cuál es la probabilidad de quela primera canica sea azul y la segunda canica sea verde?

Solución

Ya que la primera canica es reemplazada, el tamaño del espacio muestral (9) no cambia de la primerasacada a la segunda así los eventos son independientes.

P(azul∩ verde) = P(azul) ·P(verde) =29· 3

9=

227

2.20

En una escuela el 20% de los alumnos tiene problemas visuales, el 8% tiene problemasauditivos y el 4% tienen tanto problemas visuales como auditivos, Sean: V los que tienenproblemas visuales y VC los que no lo tienen. A los que tienen problemas auditivos y AC losque no los tienen.

a) ¿Son los dos eventos de tener problemas visuales y auditivos, eventos independientes?b) ¿Cuál es la probabilidad de que un niño tenga problemas auditivos si sabemos que tiene

problemas visuales?

2.3 Probabilidad 49

c) Complete la siguiente tabla

V V c totalA 0,04 0,08Ac

Total 0,20 1,00d) ¿Cuál es la probabilidad de que un niño no tenga problemas auditivos si tiene problemas

visuales?

Solución

a. P(V )P(A) = (0,2)(0,08) = 0,016yP(V ∩A) = 0,04. Como P(V ∩A) 6= P(V )P(A), se concluyeque V y A no son independientes.

b. P(A|V ) =P(A∩V )

P(V ) =0,040,02

= 0,20

c. Por diferencias podemos completar la tabla, ya que P(VC) = 1?0,20 = 0,80 y P(AC) = 1?0,08 =

0,92, por lo tantod.

V V c totalA 0,04 0,04 0,08Ac 0,16 0,76 0,92

Total 0,20 0,80 1,00

e. P(Ac|V ) =P(Ac∩V )

P(V )=

0,160,02

= 0,80

Ejercicios 2.6

2.15 Se tiene una urna con 12 bolas enumeradas del 1 al 8. Considere la experiencia aleatoriade extraer bolas de la urna, al azar y de una en una, de acuerdo con la siguiente regla:

si la bola extraída tiene un número impar se retorna a la urna antes de la siguienteextracción,Se finaliza cuando se halla extraído, con o sin reposición, dos bolas con númerosimpares. en caso contrario no se retorna.

a.) ¿Cuál es la probabilidad de extraer 4 bolas en total?b.) Considere los eventos

Ii : la i-ésima bola extraída es impar.Pi : la i-ésima bola extraída es par.

Calcule la probabilidad:

P((I1P2P3I4)∪ (P1P2I3I4)∪ (P1I2P3I4))

R/ 73/294

50 Probabilidad

2.3.9 La ley de los grandes númerosLa ley de los grandes números, también llamada ley del azar, afirma que al repetir un experimentoaleatorio un número de veces, la frecuencia relativa de cada suceso elemental tiende a aproximarse aun número fijo, llamado probabilidad de un suceso.

Observa la siguiente tabla, en la que se han anotado las frecuencias del suceso “salir cara al lanzaruna moneda”.

Figura 13

Al aumentar los lanzamientos, las frecuencias relativas se aproximan a un valor 0.5. Ésa es laprobabilidad del suceso salir cara al lanzar una moneda.

La probabilidad de un suceso es el número al que se aproxima su frecuencia relativa cuando elexperimento se repite un gran número de veces.

Figura 14

2.3.10 Teorema del Límite CentralEl Teorema Central del Límite dice que si tenemos un grupo numeroso de variables independientesy todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas sedistribuye según una distribución normal.

2.3 Probabilidad 51

La variable “tirar una moneda al aire” sigue la distribución de Bernouilli. Si lanzamos la moneda alaire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye según unadistribución normal.

Este teorema se aplica tanto a suma de variables discretas como de variables continuas.

Los parámetros de la distribución normal son:

Media: n ·µ (media de la variable individual multiplicada por el número de variables independientes)

Varianza: n ·σ2 (varianza de la variable individual multiplicada por el número de variables indivi-duales)

2.21

Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz elvalor 0. Cada lanzamiento es una variable independiente que se distribuye según el modelode Bernouilli, con media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100lanzamientos salgan más de 60 caras.

La variable suma de estas 100 variables independientes se distribuye, por tanto, según una distribu-ción normal. Media = 100 ·0,5 = 50

Varianza = 100 ·0,25 = 25

Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificadaequivalente:

Y =60−50

5= 2

Nota: 5 es la raiz cuadrada de 25, o sea la desviación típica de esta distribución.

Por lo tanto:

P(X > 60) = P(Y > 2,0) = 1−P(Y < 2,0) = 1−0,9772 = 0,0228

Es decir, la probabilidad de que al tirar 100 veces la moneda salgan más de 60 caras es tan sólo del2,28%.

2.22

La renta media de los habitantes de un país se distribuye uniformemente entre 4,0 millonesptas. y 10,0 millones ptas. Calcular la probabilidad de que al seleccionar al azar a 100 personas

52 Probabilidad

la suma de sus rentas supere los 725 millones ptas.

Cada renta personal es una variable independiente que se ditribuye según una función uniforme. Porello, a la suma de las rentas de 100 personas se le puede aplicar el Teorema Central del Límite.

La media y varianza de cada variable individual es:

µ = (4+10)/2 = 7

σ2 = (10−4)2/12 = 3

Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y varianza son:

Media: n ·µ = 100 ·7 = 700

Varianza: n ·σ2 = 100 ·3 = 300

Para calcular la probabilidad de que la suma de las rentas sea superior a 725 millones ptas, comenza-mos por calcular el valor equivalente de la variable normal tipificada:

Y =725−700

17,5= 1,44

Luego:

P(X > 725) = P(Y > 1,44) = 1−P(Y < 1,44) = 1−0,9251 = 0,0749

Es decir, la probabilidad de que la suma de las rentas de 100 personas seleccionadas al azar superelos 725 millones de pesetas es tan sólo del 7,49%

Bibliografía

[1] Barreras, Miguel (2008).¡AH!, EL AZAR? Recopilado el 14 de junio del 2013 de:http://ocw.uniovi.es/file.php/66/Elazar.pdf

[2] Batanero, C. (2013).La comprensión de la probabilidad en los niños. ¿Qué podemosaprender de la investigación? En J. A. Fernandes, P. F. Correia, M. H. Martinho, & F.Viseu, (Eds..) (2013). Atas do III Encontro de Probabilidades e Estatística na Escola.Braga: Centro de Investigação em Educação. Universidade Do Minho.

[3] Hernández, José (2007). EStadística Administrativa I. Instituto Tecnològi-co de Apizaco. México.Recopilado el 16 de junio del 2013 de: http:

//www.itapizaco.edu.mx/~joseluis/apuntes/estadistica/estadistica%

20administrativa%20I.pdf

[4] Hopkins, K.; Hopkins, B.; Glass, G.(1997).Estadística básica para las ciencias socialesy del comportamiento. Prentice-Hall Hispanoamericana, Naucalpán de Juarez. México.

[5] Molina, M; Rodrigo, M. (2010). Estadísticos de dispersión. Universidad de Va-lencia. España. Recopilado el 20 de setiembre del 2014 de: http://ocw.uv.es/ciencias-de-la-salud/pruebas-1/1-3/t_04.pdf

[6] Pajares, A.; Tomeo, V. (2009). Enseñanza de la Estadística y la Probabilidad enSecundaria: experimentos y materiales. En M. J. González; M. T. González y J. Mu-rillo (eds.), Investigación en Educación Matemática. Comunicaciones de los gru-pos de investigación. XIII Simposio de la SEIEM. Santander.Recopilado el 16 dejunio del 2013 de: http://estudiosestadisticos.ucm.es/data/cont/docs/12-2013-02-06-CT03_2009.pdf

[7] Trejos, J.; Moya, E. (2012). Introducción a la Estadística Descriptiva.Ediciones elRoble. Costa Rica.

54 BIBLIOGRAFÍA

[8] Triolla, F.(2013). Estadística.Editorial Pearson. México.

[9] (s.a.). (2013) .Varianza y desviación estándar. La desviación sólo significa quétan lejos de lo normal. Recopilado el 20 de setiembre del 2014 de: http://www.disfrutalasmatematicas.com/datos/desviacion-estandar.html