Capítulo 4 Distribuciones Muestrales -...

31
1 Capítulo 4 Distribuciones Muestrales Objetivos Tomar una muestra de una población para inferir el comportamiento de esa población. Introducir el concepto de distribución muestral. Introducir el Teorema Central del Límite. Introducir la Ley de los Grandes Números. Aplicar estas leyes para estimar la media o la proporción poblacional.

Transcript of Capítulo 4 Distribuciones Muestrales -...

Page 1: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

1

Capítulo 4 Distribuciones

Muestrales

Objetivos • Tomar una muestra de una población para inferir el comportamiento de esa población. • Introducir el concepto de distribución muestral. • Introducir el Teorema Central del Límite. • Introducir la Ley de los Grandes Números. • Aplicar estas leyes para estimar la media o la proporción poblacional.

Page 2: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

2

Contenidos La siguiente tabla de contenidos contiene vínculos que conducen a las páginas correspondientes. Concepto de distribución muestral 3 Sesgo y convergencia 5 Descripción numérica 6 Descripción gráfica: 8 Descripción numérica 18 Descripción gráfica 19 Correlación 27 Regresión 28

Page 3: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Introducción – Concepto de distribución muestral

3

Introducción

El estudiante cuanta ahora con los cimientos conformados por las 3 bases desarrolladas en los capítulos previos. Este capítulo es el nexo entre estas bases y el capítulo 5, en el cual finalizaremos nuestro edificio básico. Con frecuencia se realizan investigaciones para probar alguna hipótesis, teoría o el comportamiento de un procedimiento práctico. Estos estudios se realizan sobre un grupo determinado de personas o elementos llamado muestra que son parte representativa de un total al que se dirige el estudio llamado población (a veces hipotética o sin existencia real). La estadística consiste esencialmente en formular y contrastar hipótesis acerca de la población. Este proceso se denomina inferencia estadística y para ello entonces se requiere: • Muestra

La muestra debe ser representativa de la población, es decir cada elemento de la población debe tener igual probabilidad de ser incluido en la muestra. Si el muestreo no es al azar no es posible aplicar el concepto matemático de probabilidades, el proceso no es válido y cualquier esfuerzo en la toma de datos carece de sentido, obteniendo finalmente resultados que los estadísticos llaman "basura".

• Población De esa población desconocida se debe conocer la distribución de probabilidades de la variable en estudio (o de alguna variable relacionada) y además esa distribución deberá presentar al menos dos propiedades: ser insesgada y convergente (ver página 5). Estas características afortunadamente se pueden obtener a partir del conocimiento de la distribución de probabilidades de algunos estadísticos de interés, a los que llamaremos variables muestrales, cuyo símbolo será en general θ̂ . El esquema ingenioso es el siguiente: supongamos que conocemos la forma de la distribución de probabilidades de las medias (por ejemplo normal) y que la media de esta distribución es la media poblacional μ (desconocida). ¡Bingo!. Contamos con una relación matemática que nos permitirá relacionar el valor desconocido μ a partir de lo conocido. El proceso que nos llevará a ese destino será motivo del capítulo 5.

El muestreo es un instrumento poderoso para poder inferir el comportamiento de un conjunto de elementos a través de un subconjunto del mismo. La razón básica para que esto sea posible es que los datos de los fenómenos masivos presentan, a pesar de su diversidad individual, ciertas regularidades de conjunto. La diversidad se evidencia en el hecho de que difícilmente obtengamos muestras exactamente iguales entre sí. Por su parte la regularidad se manifiesta al observar que las características de la muestra se van asemejando a las de la población, tanto más cuanto más grande sea la muestra.

Concepto de distribución muestral

En este capítulo trataremos el concepto de la distribución muestral de un estadístico θ̂ . Esta distribución es la que resulta del siguiente proceso de 3 pasos, esquemáticamente mostrados en la figura 4-1.

Page 4: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

4

1. Obtener todas las muestras posibles de tamaño n que pueden obtenerse de la población de la v.a x.

2. Obtener θ̂ en cada una de esas muestras. θ̂ es cualquier función de una variable aleatoria, como por ejemplo las medias muestrales, las varianzas, el número de éxitos, la proporción de éxitos, los coeficientes de correlación, etc.

3. Obtener ˆ( )P θ en forma teórica o experimental. La grafica de esta distribución, se llama distribución muestral y su relación con las muestras es lo que da origen al nombre de estas distribuciones.

Observar que en el proceso están involucradas 3 distribuciones: población de X, muestras de X y distribución muestral de θ̂ . Obtendremos de aquí en adelante las distribuciones teóricas muestrales más utilizadas en el proceso de inferencia estadística. En el capítulo 5, veremos cómo realizar la inferencia a partir de una muestra.

Figura 4-1

Esquema de una distribución muestral

Si bien pueden crearse distribuciones muestrales de estadísticos que no son medidas de posición o dispersión, no resultan muy útiles para la inferencia estadística. En este capítulo veremos cómo obtener, en particular, las distribuciones de probabilidades de los primeros estadísticos que se enumeran en la figura 4-2 (media y proporciones). El conocimiento de cómo se comportan las muestras y en particular cuales son las distribuciones muestrales de estas variables, permitirá inferir el comportamiento de algunos parámetros desconocidos de la población, en particular los que se encuentran en la última columna. Observar entonces la importancia de este capítulo en el proceso de pasar de una muestra conocida a una población desconocida.

Page 5: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Introducción – Concepto de distribución muestral

5

Tipo θ̂ (muestra) θ (población)

I Univariables Posición

X μτ̂ τp̂ p

Dispersión 2s 2σ

II Bivariables

Posición XΔ μΔ p̂Δ pΔ τ̂Δ τΔ

Dispersión2122

ss

2122

σσ

Figura 4-2

Distribuciones muestrales de interés

Existen 2 medidas de interés relacionadas con la media y la varianza.

Sesgo y convergencia

Sesgo Esta propiedad se relaciona con la media. Se define el sesgo como:

ˆ( )Sesgo E θ θ= −

Veremos en el capítulo5, que cuando la esperanza de un estadístico, es un parámetro poblacional, ese estadístico tiene una cualidad importante en el proceso de la inferencia y se lo llama estimador insesgado del parámetro poblacional. Este nombre proviene de la definición anterior del sesgo.

Convergencia Esta propiedad se relaciona con la media y con la varianza. Un estimador es convergente si:

ˆn

θ θ→→ ∞

Esto es equivalente (capítulo 5, página convergencia5) a la combinación de:

ˆ( ) 0

ˆ

Vn

insesgado

θ

θ

→⎧⎪ → ∞⎨⎪⎩

En el proceso de inferencia, naturalmente son deseables los estimadores convergentes. El estudio de las distribuciones muestrales, como toda distribución, puede dividirse en 2 partes: 1. Descripción numérica

Obtención de la media y de la varianza 2. Descripción gráfica

Obtención de la PDF. La obtención de los parámetros numéricos requiere el análisis de las sumatorias y es complementario a la obtención de la PDF de θ̂ .

Page 6: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

6

I Una variable

Parámetros de posición

Estadístico: media

El esquema para este caso es el de la figura 4-1, con ˆ Xθ = .

Descripción numérica Supongamos que se han dispuesto los datos en una matriz de m*n de m muestras (filas) de tamaño n (columnas), tal como se muestra en la figura 4-3. Por lo tanto cada fila se corresponde con un diagrama del panel central de la figura 4-1. Primero se deberá calcular la media x de cada fila lo cual dará origen a una nueva columna de medias (columna derecha sombreada de la figura) y luego se obtendrá la media de todas estas medias A esta media de la distribución muestral de medias xx μ= , se la llama también llamada gran media.

Figura 4-3

Si llamamos:

X o más simplemente X al vector columna de las medias muestrales,

1X o más simplemente 1X al vector columna de los valores de la primera columna,

2X o más simplemente 2X al vector columna de los valores de la segunda columna, y así sucesivamente, se puede expresar que:

1 ... nX XXn

+ +=

Page 7: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: media

7

Si se han obtenido todas las muestras posibles, cada columna tendrá la misma distribución de la población original con la misma media μ y varianza σ2 (se comprobará en el problema 4.1). Por consiguiente:

Media 1 1... ( ) ... ( )( ) n nX X E X E X nE X E

n n nμ μ+ + + +⎛ ⎞= = = =⎜ ⎟

⎝ ⎠ Es decir:

xμ μ= Esta relación refleja la propiedad de los errores aleatorios de compensarse cuando se promedian. Cada una de las medias muestrales puede diferir de la media poblacional pero su valor esperado será igual a μ.

Varianza

Población infinita o muestreo con reemplazo 2 2

1 12 2

... ( ) ... ( )( ) n nX X V X V X nV X Vn n n n

σ σ+ + + +⎛ ⎞= = = =⎜ ⎟⎝ ⎠

Es decir:

x nσσ =

La desviación estándar de cualquier estimador, en este caso de la media, suele llamarse también: error estándar o en inglés Standard Error, SE. Esta es la notación elegida por el SPSS.

x xSE σ=

Puede observarse que las desviaciones de las medias muestrales son siempre más pequeñas que las de las observaciones individuales. Esto se relaciona con el hecho de que al tomar la media de cualquier muestra, los extremos tienden a neutralizarse con los extremos de la dirección opuesta.

Población finita o muestreo sin reemplazo Si la población es finita o el muestreo es sin reemplazo se puede demostrar que:

2

( )1

N nV Xn N

σ −=

es decir:

1xN nNn

σσ −=

En donde el factor que involucra a N se denomina cpf, corrección por población finita (ya utilizado en la distribución hipergeométrica).

1N ncpfN

−=

Observar que el factor cpf tiende a 0 cuando n tiende a N (todas las muestras son iguales y por lo tanto la dispersión de la distribución muestral es cero) y tiende a 1 cuando N tiende a infinito (la población es infinita por lo cual no hay corrección). En la práctica se considera que el cpf es 1 si n < 0.05N, criterio ya utilizado en la aproximación hipergeométrica a una binomial. Debe puntualizarse que el muestreo con reemplazo equivale a una población infinita y por lo tanto debe considerarse que N tiende a infinito en la ecuación anterior (obteniendo la expresión del apartado anterior).

Page 8: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

8

Dado que el muestreo con reemplazo conduce a sucesos independientes, más simples de analizar (ver ecuaciones anteriores), muchos procedimientos estadísticos se basan en el muestreo con reemplazo y por lo tanto, a menos que se indique especialmente, se supondrá que: a) el muestreo es con reemplazo, o que b) la población es infinita. Se puede suponer infinita si, a pesar de ser finita, 5%n N< .

Sigma desconocido Finalmente, si no se conoce la desviación estándar de la población, σ, se puede aproximar cualquiera de los casos con la desviación estándar de la muestra, s. En este caso se utilizan, respectivamente, los siguientes símbolos (el símbolo circunflejo .̂ se lee: "estima de").

2

ˆ( ) sV Xn

= ˆ xsn

σ =

2ˆ( ) s N nV X

n N−

= ˆ xs N n

Nnσ −

=

En el factor de corrección, en lugar de N-1 suele usarse N, por razones que se verán al tratar más adelante, el estadístico s2. Es apropiado remarcar que las expresiones anteriores no dependen de la forma de la distribución.

Sesgo y convergencia Como en este caso el sesgo es cero, se dice que la media muestral es un estimador insesgado de la media poblacional. Como además la varianza tiene n en el denominador, es un estimador convergente pues tiende a cero cuando n tiende a infinito.

Descripción gráfica La regularidad planteada anteriormente se manifiesta claramente en la estabilidad que muestran los valores medios de cada una de las muestras. Esto se debe a que los promedios o equivalentemente las sumas de variables aleatorias, presentan más estabilidad que las medidas individuales. Ésta característica experimental no resulta del todo sorprendente, puesto que se presenta habitualmente en nuestro entorno para cualquier variable que se encuentre afectada por multiplicidad (suma) de factores independientes. Por ejemplo los pesos o alturas de las personas son función de la genética, la nutrición, enfermedades, etc. Esto por un lado provoca valores distintos en cada una de las personas, pero por otro, la misma multiplicidad de fuerzas hace que tiendan a la compensación cuando se toman en conjunto. Así se observa que la mayoría de los alumnos tienen alturas que se agruparán alrededor de un valor promedio, y en cambio la minoría se encontrará cerca de los valores extremos. Esto mismo sucede con las notas de los estudiantes de cualquier escuela, con las cuentas bancarias de un banco, con los inventarios de una empresa, con los valores de las acciones, con la hora de llegada a la escuela, lista que podría continuar indefinidamente. Este comportamiento experimental se estudia analizando teóricamente la distribución muestral del estadístico x . Se presentan 5 casos: 1. El tamaño de la muestra n es grande y la desviación estándar σ de la población es conocida. 2. La distribución de la población x es normal y su desviación estándar σ es conocida. 3. El tamaño de la muestra es grande y su desviación estándar es desconocida. 4. La distribución de la población x es normal y su desviación estándar es desconocida 5. Ninguna de las anteriores.

Page 9: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: media

9

La tabla de la figura 4-4, resume las 5 alternativas para detectar que distribución es aplicable si la variable en estudio es la media. La palabra asintótica significa que la distribución no es exacta pero, para muestras grandes, se aproxima asintóticamente. El caso 5 es la negación de los casos anteriores. A los efectos del cálculo se tienen en realidad 3 casos: Normal, t de Student o ninguna de ellas.

Desviación Estándar

Distribución

Casos 1 y 2

n>30 o x normal σ => Normal Asintótica

Exacta Casos 3 y 4

n > 30 o x normal s => t de Student Asintótica

Exacta

Caso 5 n < 30 y x no normal –– => No paramétrica

Figura 4-4

Resumen para la distribución muestral de la media

Caso 1 Teorema Central del Límite, TCL La demostración de este teorema en 1810 se debe al matemático francés Pierre Simon marqués de Laplace (1749-1827) y constituye otra demostración de la función de distribución de Gauss o normal (distinta a demostración de Gauss), estudiada en el capítulo 3. Sea la distribución de una variable x poblacional cualquiera x con media μ y desviación estándar σ. Si el tamaño de la muestra tiende a infinito (y por lo tanto el de la población), entonces la distribución muestral teórica de las medias X , es una distribución normal. Dado que el teorema establece una respuesta teórica definida para la forma y en la descripción numérica de la sección anterior anterior se establecieron los valores de los parámetros numéricos, no será necesario obtener la distribución experimental de medias en cada caso particular que se estudie. Se aprecia además que se requiere un tamaño de la muestra grande (en teoría infinito), por lo cual el resultado será asintótico aproximado, no exacto. ¿Qué valor de n se considera grande? Si la distribución de x ya es normal es probable que con n = 10 sea suficiente. En tanto que si se tratara de una distribución de Bernouilli con p = 10-5 se necesitaría por lo menos n = 500000 para obtener una aproximación normal satisfactoria (recordar los criterios de aproximación, página Aproximaciones3). En general con un valor entre 30 y 100 se obtiene una buena convergencia y en la mayoría de los casos es aceptable la condición:

30n ≥ En los problemas deberán convertirse los valores x en valores estandarizados z, para lo cual deberá conocerse la desviación estándar σ de la población. Si esta se desconoce, se utiliza en general la desviación estándar de la muestra, s, por lo cual esta conversión a la variable z no se distribuirá exactamente como normal. Esta situación corresponde al caso 3, aunque, dado que el error de tratarla como normal es bajo, en los libros de texto suele considerarse como parte del caso1. Este teorema se llama Central pues lo es para la aplicación de la estadística y Límite pues prevé el comportamiento límite de las medias muestrales al aumentar el tamaño n de la muestra.

Aproximación normal de una binomial El enunciado general del TCL se refiere en realidad a la sumatoria de variables aleatorias X., siendo la media un caso particular. Se eligió este formato pues es de mayor utilidad en la inferencia. Un caso particular de esta sumatoria es la variable aleatoria binomial, la cual, recordemos, es la sumatoria de n variables aleatorias de Bernoulli.

BY Y= ∑

Page 10: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

10

Esta consideración justifica la aproximación de una distribución binomial a una normal, utilizada en el capítulo 3.

Caso 2 Propiedad de las distribuciones normales Este caso se presenta cuando la distribución de la población x es normal y su desviación estándar σ es conocida (supuesto no muy realista, pues si conoce σ se deberían conocer los datos, por lo tanto μ y entonces no habría necesidad de estimarla). En esta situación, por una propiedad de las distribuciones normales, la distribución muestral de las medias X , es una distribución normal exacta (no aproximada como en el TCL).

Casos 3 y 4 Distribución t de Student El tercer caso es un aporte de William Gosset, alias Student (capítulo 3). Este matemático demostró que si x es normal o el tamaño de la muestra es grande y la desviación estándar de la población se reemplaza por la de la muestra, entonces la v.a que se expresa a continuación, sigue exactamente una distribución t de Student (no aproximada como en el TCL).

ˆ ( )

XtV x

μ−=

donde, recordemos:

( )2

ˆ s N nV Xn N

−=

o equivalentemente:

ˆ xs N n

Nnσ −

=

Los grados de libertad de la distribución t de Student, se calculan con la expresión:

1nν = −

La lógica de esta expresión surge de observar que se estima la varianza poblacional con la varianza muestral 2 2ˆ sσ = , en cuyo cálculo se debe estimar la media poblacional a partir de la media muestral. Luego, suponiendo este valor fijo y conocido, solo se requieren conocer n–1 datos, pues el enésimo dato se obtendría a partir del conocimiento de esa media. Como se tiene entonces libertad solo para elegir n-1 datos, se dice que se tienen n-1 grados de libertad. En general, los grados de libertad surgen de restar del tamaño n de la muestra, el número k de parámetros poblacionales que se estiman.

n kν = −

Si se utiliza una tabla para el cálculo y el estudio incluyera grados de libertad que se encuentran entre 2 valores de la tabla, para ponerse del lado de la seguridad, utilizar el grado de libertad inferior. Como fue mencionado en el caso 1, si el tamaño de la muestra es mayor que 30, la consideración de la distribución muestral de medias como normal en lugar de t de Student es en general aceptable en el cálculo manual, aunque la generalizada utilización de programas de computación ha provocado que esta aproximación no sea utilizada por los investigadores en la presentación de los informes estadísticos.

Caso 5 Estadística no paramétrica En cualquier otro caso distinto a los anteriores, se deben usar procedimientos que no dependan del conocimiento de la distribución del parámetro a estudiar. Estas técnicas se estudian en el capítulo 7 (aunque algunas de ellas se introducirán en el capítulo 5), pero entre ellas podemos aplicar una ya estudiada: la desigualdad de Tchebysheff (capítulo 1). Recordemos que esta desigualdad permite calcular una cota de cualquier distribución, solo con la media y la varianza, sin conocer la distribución del parámetro e estudiar.

Page 11: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: media

11

Pruebas de normalidad Los modelos teóricos representarán realmente a la distribución real si se demuestra que existe un buen ajuste entre ambas distribuciones. Esto se realiza generalmente a través de un proceso comparativo entre ambas, centrado en cada uno de los siguientes 5 aspectos: • pruebas de comparación • prueba de medias (paramétrica) • prueba de varianzas (paramétrica) • prueba de forma (no paramétrica) llamada de la bondad del ajuste • pruebas de aleatoriedad (no paramétrica). El estudio de las técnicas estadísticas que permiten comparar una distribución experimental obtenida, con la teórica, se realizará en el capítulo 5, prueba de la bondad del ajuste. Mientras tanto, dado que en varias técnicas estadísticas se parte del supuesto de normalidad para alguna de las distribuciones, se podrían recorrer los siguientes métodos preliminares, algunos de los cuales fueron anticipados en el capítulo 1, página transformacion1.

Métodos gráficos (ajuste a la normal) Construir el diagrama de la PDF o de la CDF de los datos y observar si es razonable aproximarlo a una distribución normal (en el SPSS, puede superponerse la curva normal a un histograma, con el botón a tal efecto que se encuentra en la barra de herramientas). Si se requiere un procedimiento más preciso, trazar un gráfico Q-Q, página normalidad1.

Métodos numéricos (ajuste a la normal) • Media y mediana: Revisar si la media y la mediana son casi iguales entre sí. • Desviación estándar: Verificar el acercamiento a los valores de z correspondientes a los

percentiles 68, 95 y 99 (z = 1, 2 y 3 respectivamente). • Sesgo y Curtosis: Verificar si el coeficiente de sesgo es cercano a 0 y controlar además

que la curtosis sea también cercana a 0.

Problema resuelto 4.1 Distribución muestral de medias

Con la población de este problema construiremos a lo largo de la sección de Una Variable, la distribución muestral de la media, de la proporción y de la varianza de una variable discreta. Las distribuciones muestrales que utiliza la estadística son en realidad alguno de los modelos ya vistos en el capítulo 3, pero es sumamente esclarecedor que el estudiante construya, al menos una vez, una distribución muestral. Una urna contiene 4 esferas numeradas con 3, 5, 7 y 8. Se extraen aleatoriamente 2 esferas con reemplazo. a) Hallar la distribución de la población, b) obtener la distribución de todas las m muestras de n = 2 con reemplazo, c) obtener la distribución de los primeros componentes de cada muestra y comprobar que es igual a la de la población progenitora, d) hallar la distribución muestral de medias con su esperanza y desviación estándar. Comprobar que la misma coincide con los valores obtenidos en la teoría., e) repetir para un muestreo sin reemplazo. a)

Page 12: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

12

x 3 5 7 8 p(x) 1/4 1/4 1/4 1/4 μ = 5.75 σ2 = 3.687

Figura 4-5 Distribución poblacional

Muestreo con reemplazo

b) La figura 4-6a contiene la distribución muestral de medias con la estructura espacial que se ha utilizado en la demostración correspondiente a la figura 4-3, pues existen 16 maneras posibles de formar grupos de 2 con 4 elementos, con repetición (P4

2,r =42).

c) La figura 4.6b muestra la distribución de la primera columna, observando que es idéntica a la distribución progenitora. Lo mismo sucede con la restante columna. Esto no es extraño si se observa la construcción del árbol que origina todas las selecciones posibles.

x1° x2° Media 3 3 3 3 5 4 3 7 5 3 8 5.5 5 3 4 5 5 5 5 7 6 5 8 6.5 7 3 5 7 5 6 7 7 7 7 8 7.5 8 3 5.5 8 5 6.5 8 7 7.5 8 8 8

a

b

Figura 4-6 d)

Page 13: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: media

13

Figura 4-7

Distribución muestral de medias 92 5.7516xμ = =

2 21( ) 1.8416 xV X x μ= − =∑

1.35xσ = Esto parámetros son idénticos a los deducidos en la teoría:

5.75xμ μ= = 2 3.687( ) 1.84

2V X

= = =

La PDF no tiene la forma de una distribución normal pero tenderá hacia ésta si n > 30, en lugar de ser n =2.

Muestreo sin reemplazo

Existen 12 maneras posibles de formar grupos de 2 con 4 elementos, sin repetición (P42 =4*3).

e)

Page 14: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

14

x1° x2° Media3 5 4 3 7 5 3 8 5.5 5 3 4 5 7 6 5 8 6.5 7 3 5 7 5 6 7 8 7.5 8 3 5.5 8 5 6.5 8 7 7.5

Figura 4-8

Distribución muestral de medias 6912

5.75xμ = =

2 2

11( ) 1.2

229xV X x μ= − =∑

Esto parámetros son idénticos a los deducidos en la teoría: 5.75xμ μ= =

21

1

3.687 2( ) 1.2291 2 3

N nV Xn N

σ −= = =

Resolución de problemas Recordemos del capítulo 1 que en cualquier distribución de frecuencias conocida, se presentan dos series de datos (x, f) y por lo tanto 2 tipos generales de problemas:

Dato Incógnita x => f f => x

La mayoría de los problemas de este capítulo son similares a los del capítulo 1. En aquel capítulo se conocía por completo la distribución de frecuencias de una muestra y aquí se conoce la de una distribución muestral asociada con parámetros de la población. Por razones didácticas, en todos los problemas resueltos que ilustran este capítulo se incluyen por lo menos las siguientes 2 preguntas, rotuladas como a) y b):

a) Dado x, se pregunta la probabilidad b) Dada la probabilidad, se pregunta x

Por lo tanto, en cada uno de ellos lo único que variará, será el carácter de las distribuciones particulares que le corresponda a cada uno y por lo tanto el estudiante solo deberá concentrarse en el método particular de resolución. Todos los problemas se resolverán de dos formas: a mano y con computadora (SPSS o EXCEL), especialmente cuando las tablas sean demasiado restrictivas. Estos problemas parten del conocimiento de la población y a partir de allí se calcula el comportamiento de una muestra, sin necesidad de la obtención de la misma. El tipo opuesto de problemas se presentará en el capítulo 5 (excepto en la sección de Control de Calidad). Estos serán los problemas típicos de la estadística, en los cuales se desconoce algún parámetro de la distribución de la población, pero luego del conocimiento de una muestra, se buscará inferir ese valor desconocido de la población, a partir del conocimiento de la distribución de probabilidades. Con la

Page 15: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: media

15

misma podremos, en particular, averiguar si el resultado de la muestra es un evento poco común y con esta información establecer conclusiones.

Capítulo 4 Población => Muestra Capítulo 5 Muestra => Población

Problema resuelto 4.2 Gastos de comida

Las cuentas de gastos de comida de los empleados de una empresa tienen una media μ = 20$ y una desviación estándar σ =5$. Si se selecciona una muestra aleatoria de 64 cuentas, a) ¿qué proporción de medias estará comprendida entre 19$ y 22$?, b) ¿por encima de que valor estará el 95% de las cuentas? c) ¿Qué suposiciones deben hacerse para resolver estas preguntas? a)

Parámetros de la distribución muestral 20xμ =

5 0.6258x n

σσ = = =

Distribución muestral Las distribuciones se resuelven utilizando las herramientas del capítulo 3, es decir o bien utilizando tablas o bien usando algún software, como por ejemplo: SPSS o EXCEL. En este ejemplo n > 30 y σ es conocido, por lo tanto la distribución adecuada es la Normal (caso 1).

Figura 4-9

PDF muestral

Tablas Es necesario primero transformar a la variable z:

119 20 1.60.625

z −= = −

Page 16: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

16

222 20 3.20.625

z −= =

Entrando a la tabla de distribución normal, se obtiene: 1 sup(1.6) inf(3.2) 0.94frecuencia cola cola= − − =

SPSS CDF.NORMAL(19,20,0.625)=0.054 CDF.NORMAL(22,20,0.625)=0.999

(22) (19) 0.94frecuencia CDF CDF= − = b)

Tablas z para una cola superior = 0.05 = 1.64 El valor de la media se obtiene de:

20 1.64(0.625) 21.02x = + =

SPSS IDF.NORMAL(0.95,20,0.625)=21.03

95 21.03P = c) Ninguna pues es válido el TCL.

Caso particular Total poblacional Se define por:

Nτ μ=

Por lo tanto se estimará por: ˆ Nxτ =

Observar que se trata ahora de la distribución muestral de totales poblacionales, es decir nos encontramos en el esquema de la figura 4-1, con ˆ ˆθ τ= .

Descripción numérica A partir de la ecuación anterior, se obtienen:

Media

ˆ xN Nτμ μ μ= =

Varianza

2 2 2ˆ xNτσ σ=

ˆ xNτσ σ=

Los valores de la varianza, tanto para población infinita como finita, se obtienen por reemplazo directo de la varianza de la media en las expresiones anteriores. Dada la relación lineal directa entre τ̂ y , x el lector puede preferir seguir trabajando con x y convertir a τ̂ , allí donde sea necesario.

Descripción gráfica En el capítulo 3 vimos que las distribuciones normales tienen la propiedad de linealidad, es decir: la combinación lineal de distribuciones normales, también es normal. Como en este caso la distribución

Page 17: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: media

17

de medias es normal y el total poblacional es el producto de las medias por un factor constante N, entonces la distribución muestral de totales poblacionales es también normal. Esto también se puede aplicar a una t de Student y por lo tanto son válidos los 5 casos ya vistos para la distribución muestral de medias.

Problema resuelto 4.3 Apertura de casa de té

Al revisar las ventas x desde la apertura de una casa de té, el dueño encontró que el número de clientes fue de 95, los cuales gastaron en total 3210$. No conoce la desviación estándar del gasto de la población, pero conoce de una muestra que la desviación estándar de x es 5.65$. Si se selecciona una muestra de 20 clientes, a) ¿cuál es la probabilidad de que el costo total se encuentre entre 3000$ y 3500$, ¿qué suposiciones deben hacerse para resolverlo? b) hallar el percentil 95.

Parámetros de la distribución muestral

En τ̂ : ˆ3210$ ττ μ= = ˆ 107$1

N nNNnτ

σσ −= =

En x : 33.79 xμ μ= = 1.128xσ =

Distribución muestral En este ejemplo n = 20 < 30. Por lo tanto, si se desea resolver en forma paramétrica, deberá postularse la validez de la distribución normal o t de Student y por consiguiente que la distribución de la población sea normal (casos 2 o 4). En este caso la desviación estándar de la población no se conoce y por lo tanto se adopta la t de Student. a)

En τ̂ : 3000 3210 1.96

107It−

= = − 3500 3210 2.71

107St−

= =

En x : 31.58 33.79 1.961.128It

−= = −

36.8 33.79 2.711.128St

−= =

Tablas Por la limitación de las tablas, el resultado deberá obtenerse con el SPSS.

SPSS CDF.T(-1.96,19)=0.032 CDF.T(2.71,19)=0.993 Por lo tanto:

Pr (2.71) ( 1.96) 0.96obabilidad CDF CDF= − − = b)

Tablas El percentil 95 es equivalente a una cola derecha de 5% o 0.05. Entrando a la tabla de la distribución t de Student, se obtiene para ν = 19, t = 1.729. Por lo tanto:

ˆ 3210 1.729(107) 3395τ = + = 33.79 1.729(1.128) 35.74x = + =

SPSS IDF.T(0.95,19)= 1.73

Page 18: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

18

Estadístico: proporción El esquema para este caso es el de la figura 4-1, con ˆ yθ = (y = Número de Éxitos) o ˆ p̂θ = (proporción de Éxitos), el cual se detalla en la figura 4-10. Una particularidad de esta figura, es que además se han agrupado los diagramas centrales de acuerdo a la cantidad y de éxitos E. Se aprecia que la distribución de la población con solo 2 elementos: E y F, es una distribución de Bernoulli y que la distribución muestral del número de éxitos E, no es otra que las conocidas distribuciones binomial o hipergeométrica, según el muestreo sea con reemplazo o sin reemplazo. Es instructivo recorrer en forma simultánea el apartado LGN de la sección Simulaciones de este capítulo, página Error! Bookmark not defined., el cual explica cómo realizar la experiencia en forma virtual con el SPSS. Debe ser claro que para construir la distribución del estadístico y (o p̂ ) se deberán tomar todas las muestras posibles de tamaño n y calcular la proporción de E en cada una. Luego se podrá, por ejemplo, confeccionar el histograma de la distribución.

Figura 4-10

Esquema de la distribución muestral del Número de Éxitos, y

Descripción numérica Para obtener las siguientes fórmulas, se sugiere razonar en forma totalmente equivalente al desarrollo realizado al tratar la media, en el apartado anterior. Una forma alternativa es aprovechar el hecho de que la distribución muestral es una binomial y utilizar las expresiones del capítulo 3.

Media y npμ =

p̂ pμ =

Page 19: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: proporción

19

Varianza Población infinita o muestreo con reemplazo (binomial)

y npqσ =

ˆ ˆp ppqSEn

σ= =

Población finita o muestreo sin reemplazo (hipergeométrica)

1yN nnpqN

σ −=

ˆ ˆ 1p ppq N nSEn N

σ −= =

Recordemos del capítulo 3 que los valores de p y q en estas expresiones de una distribución hipergeométrica, se corresponden con los valores iniciales antes de la primera extracción. Nuevamente se ha colocado también la notación SE (Standard Error) para denotar a la desviación estándar de una distribución muestral.

Sesgo y convergencia Como en este caso el sesgo es cero, se dice que la proporción muestral es un estimador insesgado de la proporción poblacional. Como además la varianza tiene n en el denominador, es un estimador convergente.

Nota El lector observará que en este caso se conoce la distribución poblacional (Bernoulli), pero es evidente que esto es insuficiente para estimar el parámetro p, pues al ser n = 1, se carece de la posibilidad de obtener un estimador convergente de p.

Descripción gráfica Se materializa por la distribución binomial (exacta) respectiva.

Ley débil de los grandes números, LGN La proporción muestral teórica p̂ en una larga serie de un proceso binomial se aproxima a la probabilidad p de la población. Esta forma de la LGN ya fue introducida en el capítulo 2, página LGN2 y tratada en el capítulo 3, página LGN3. Su expresión es intuitiva si se aprecia que la media de la proporción muestral tiende a la proporción poblacional y que la varianza de la proporción muestral tiene al tamaño de la muestra en el denominador. En este apartado calcularemos con el teorema de Tchebysheff, sin mayor esfuerzo, una cota superior de la probabilidad., llamada por esta causa, Ley débil de los Grandes Números. Partimos del teorema de Tchebysheff (capítulo 3, página Tchevy3):

ˆ 11p

p pP zzσ

⎛ ⎞−< ≥ −⎜ ⎟

⎜ ⎟⎝ ⎠

Es decir:

ˆ 2ˆ(| | ) 1 1pP p p z

zσ− < ≥ −

Llamemos (esta nueva magnitud se usará en forma extensiva en el capítulo 5):

Page 20: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

20

ˆ ˆp pB zσ= y recordemos que:

2p̂

pqn

σ =

Por lo tanto:

ˆ 2ˆ

ˆ(| | ) 1pp

pqP p p BnB

− < ≥ −

p̂B es un número fijo y arbitrario. Si lo llamamos ε, para usar una simbología universal:

2ˆ(| | ) 1 pqP p pn

εε

− < ≥ −

Tomado límites para n tendiendo a infinito:

ˆlim (| | ) 1n

P p p ε→∞

− < = ε∀

En palabras: "si el tamaño de la muestra n tiende a ∞, la probabilidad de que la proporción muestral difiera de p en menos de un infinitésimo ε, tiende a uno". Como se mencionó en el capítulo 2, debe notarse nuevamente que, a diferencia de la convergencia que aparece en matemáticas, esta expresión no garantiza que p̂ p− tienda a 0, sino que es probable que esa diferencia sea pequeña. Esto también se expresa diciendo que p̂ es convergente en probabilidad con p:

ˆ(( ) 0) 1n

P p p→∞

− → →

Observar que no excluye la posibilidad de que con n finito, esta probabilidad no sea cercana a 1 (por ejemplo que en 100 tiradas, salgan todas caras), aunque esto es altamente improbable, si n es suficientemente grande. En la sección Simulaciones al final del capítulo, se mostrará la convergencia citada.

Problema resuelto 4.4 Distribución muestral de proporciones

En este problema construiremos la distribución muestral de una proporción de éxitos, en forma experimental. Para ello utilizamos la misma población con la cual construimos la distribución muestral de medias, pero ahora dicotomizamos la misma para crear la distribución muestral de la proporción de pares. a) Obtener la distribución de la población de proporción de números pares. b) Generar la distribución muestral de p̂ de la proporción de números pares, para n = 2, si las muestras son con reemplazo y comprobar lo expuesto en la teoría. c) Repetir para muestras sin reemplazo. a)

S I P y 0 1

p(y) 3/4 1/4 μ = 0.25 σ2 = 0.375

Figura 4-11 Distribución poblacional

Page 21: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: proporción

21

Muestreo con reemplazo

b)

1 Obtención experimental como distribución muestral Seguir los 3 pasos que permitieron construir la siguiente tabla. Nota Existen 16 maneras posibles de formar grupos de 2 con 4 elementos, con repetición (P4

2,r =42).

x1 x2 y p̂3 3 0 0 3 5 0 0 3 7 0 0 3 8 1 0.55 3 0 0 5 5 0 0 5 7 0 0 5 8 1 0.57 3 0 0 7 5 0 0 7 7 0 0 7 8 1 0.58 3 1 0.58 5 1 0.58 7 1 0.58 8 2 1

Figura 4-12

2 Obtención teórica como binomial S 2I 1I 1P 2P Y = y 0 1 2 p̂ 0 0.5 1

p(y) q2 2qp p2

0.5625 0.375 0.0625

Figura 4-13 El estudiante observará que agrupando los valores iguales de y se obtienen las 3 probabilidades de la

distribución binomial: 16

9,

166

y 161

respectivamente para ˆ ˆ ˆ0, 0.5, 1p p p= = = .

Se puede apreciar entonces que es un problema que se responde generando la distribución binomial de p̂

generada con by(2,0.25). Esto es así pues la distribución binomial es una distribución muestral de p̂ con reemplazo. Con cualquiera de los procedimientos, experimental con los datos de la figura 4-12 o teórica con los datos de la figura 4-13, se obtienen:

ˆ

0.25

0.1875p

p

μ

σ

=

=

En las investigaciones reales nunca realizaríamos manualmente una distribución muestral. O bien las mismas ya fueron estudiadas teóricamente por algún científico y se las proporciona en tablas o en ecuaciones (como en este caso), o bien se deja a una computadora que realice todo el proceso.

Page 22: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

22

Muestreo sin reemplazo

c)

1 Obtención experimental como distribución muestral Seguir los 3 pasos que permitieron construir la siguiente tabla. Nota Existen 12 maneras posibles de formar grupos de 2 con 4 elementos, sin repetición (P4

2 =4*3).

x1 x2 y p̂3 5 0 0 3 7 0 0 3 8 1 0.55 3 0 0 5 7 0 0 5 8 1 0.57 3 0 0 7 5 0 0 7 8 1 0.58 3 1 0.58 5 1 0.58 7 1 0.5

Figura 4-14

2 Obtención teórica como hipergeométrica S 2I 1I 1P 2P Y = y 0 1 2 p̂ 0 0.5 1

p(y) 3/4*2/3 (3/3*1/4)2 0 0.5 0.5 0

Figura 4-15 El estudiante observará que agrupando los valores iguales de y se obtienen las 3 probabilidades de la

distribución hipergeométrica:

612

, 6

12 y 0 respectivamente para ˆ ˆ ˆ0, 0.5, 1p p p= = = .

Esto es así pues la distribución hipergeométrica es una distribución muestral de p̂ sin reemplazo. Con cualquiera de los procedimientos se obtienen:

ˆ

0.25

0.125p

p

μ

σ

=

=

Problema resuelto 4.5 Calefacción con gas natural

La Dirección de Escuelas estudia la relación de escuelas públicas que usan calefacción con gas natural. Existen 500 escuelas públicas en su zona y la proporción anterior es del 70%. Si se selecciona una muestra de 50 escuelas,

Page 23: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: proporción

23

a) ¿cuál es la probabilidad de que la proporción de escuelas con gas supere el 60%?, b) hallar el percentil 55.

Distribución muestral La distribución es hipergeométrica pues cumple las propiedades siguientes: 1. Propiedad 1 Dicotómica

Una v.a x tiene solo 2 resultados (dicotómica), G y G'. 2. Propiedad 2 Variable Aleatoria

Se busca la v.a: y = Número de escuelas G. 3. Propiedad 3 Tamaño

Las muestras tienen un tamaño n = 50 > 1 4. Propiedad 4 Independencia

La población se considera finita pues: 5%n N>

En este caso: 50 > 5%500 = 25. Por lo tanto la distribución es hipergeométrica pues la probabilidad en la extracción de una escuela influye significativamente en la probabilidad de la extracción de la siguiente. Si bien no podría aproximarse a una Normal por no ser binomial, en la práctica podría considerarse así, como primera aproximación.

Parámetros de la distribución muestral

ˆ 0.7p pμ = =

ˆ 0.06151p

pq N nn N

σ −= =

a)

Cálculo a mano Se deja este cálculo al lector. El resultado deberá compararse con la obtención siguiente con el SPSS.

SPSS CDF.HYPER(30,500,50,350)=0.074 La respuesta pedida será 1-CDF, es decir 0.926, o en porcentajes 92.6%. En la figura 4-16 y figura 4-17, se muestra la distribución completa.

Figura 4-16

Distribución PDF hipergeométrica (x,500,50,350)

Page 24: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

24

Figura 4-17

Distribución CDF hipergeométrica (y,500,50,350) b)

Cálculo a mano Para obtener el valor de y dado el de la probabilidad (0.55), se debería construir toda la distribución o actuar por ensayo y error hasta acercarse al valor de la probabilidad más cercano. Una alternativa es aproximar a una normal, tomar el valor más cercano y luego actuar por ensayo y error. Se deja al lector obtener por la tabla de la distribución normal que el valor de y para una CDF de 0.55 es 35.5. Si ahora se calculan los valores de la hipergeométrica, se obtienen para: y = 34 => CDF = 0.43 y = 35 => CDF = 0.56 Por lo tanto el percentil 55 es 35.

SPSS No existe la CDF inversa en el SPSS o en EXCEL. Normal De forma similar al párrafo anterior, se obtiene: IDF.NORMAL(0.55,0.7,0.0615)=0.71 Es decir que el valor de y es 0.71*50 = 35.5 Hipergeométrica Construir la CDF de toda la distribución y buscar el percentil 55. En la figura 4-17 se observa que el entero de menor valor para el cual la CDF es mayor o igual a 0.55 es 35.

Problema resuelto 4.6 Mala administración

Durante dos años las ventas han estado disminuyendo en las 2000 sucursales de una cadena de supermercados. Una empresa de análisis de datos ha determinado que un 30% de las sucursales tiene signos de una mala administración. Si se realiza una muestra aleatoria de 95 sucursales, a) ¿cuál es la probabilidad de que la proporción de sucursales con problemas se encuentre entre el 25% y 40%, b) hallar el percentil 80 de la distribución muestral, expresado en número de sucursales.

Page 25: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

I Una variable – Estadístico: proporción

25

Distribución muestral 1. La distribución es binomial pues cumple las propiedades siguientes: 2. Propiedad 1 Dicotómica

Una v.a x tiene solo 2 resultados (dicotómica), M y M'. 3. Propiedad 2 Variable Aleatoria

Se busca la v.a: y = Número de sucursales M. 4. Propiedad 3 Tamaño

Las muestras tienen un tamaño n = 95 > 1 5. Propiedad 4 Independencia

La población se considera infinita pues: 5%n N< En este caso: 95 < 5%2000 = 100. Por lo tanto la probabilidad en la extracción de una sucursal no influye significativamente en la probabilidad de la extracción de la siguiente y la distribución es binomial.

Aproximación a una Normal Dado que:

95(0.30) 28.5 5np = = > la binomial se puede aproximar a una Normal.

Parámetros de la distribución muestral

ˆ 0.30p pμ = =

ˆ 0.047ppqn

σ = =

a)

Cálculo a mano Se deja este cálculo al lector. El resultado deberá compararse con la obtención siguiente con el SPSS.

SPSS

Figura 4-18

Distribución PDF binomial (y,95,0.30)

Page 26: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

26

Figura 4-19

Distribución CDF binomial Y(95,0.30) Como binomial CDF.BINOM(24,95,0.30)=0.19 CDF.BINOM(38,95,0.30)=0.99 Por lo tanto la probabilidad buscada es 0.80 u 80%. Como normal CDF.NORMAL(0.25,0.30,0.047)=0.16 CDF.NORMAL(0.4,0.30,0.047)=0.98 Por lo tanto la probabilidad buscada es 0.82 u 82%. En la figura 4-18 y figura 4-19 se muestra la distribución completa. b)

Cálculo a mano Para obtener a mano el valor de y dado el de la probabilidad, se debería construir toda la distribución o actuar por ensayo y error hasta acercarse al valor de la probabilidad más cercano.

SPSS Como normal IDF.NORMAL(0.80,0.30,0.047)=0.34 Por lo tanto el valor buscado es: 0.34*95=32.30.Tomamos el entero más cercano, es decir, 32.

EXCEL Como binomial CRITBINOM(95,0.3,0.8)=32 Devuelve el entero de menor valor para el cual la CDF es mayor o igual a 0.80 (ver figura 4-19).

Page 27: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

III 1vi–1vd: Asociar variables – Correlación

27

III 1vi–1vd: Asociar variables

En el capítulo 5 utilizaremos modelos de distribuciones poblacionales para realizar la inferencia en problemas de correlación y regresión. Se estudiará que las distribuciones t de Student y chi-cuadrado son las que modelan los estadísticos de interés.

Correlación

1. Escala por escala

La correlación líneal poblacional se simboliza con la letra griega ρ.

Modelado

Normal La distribución del coeficiente de correlación rP es sesgada a la derecha, sin embargo es posible normalizarla con un cambio de variable, utilizando la transformación de Fisher:

11arctanh r ln2 1

PF

P

rrr

+= =

Se demuestra que los parámetros de esta nueva distribución son: ( )F FE r ρ=

1( )3FV r

n=

t de Student A partir de la ecuación de la pendiente de la recta de regresión demostraremos que en el caso particular de que la correlación poblacional ρ sea cero, entonces el estadístico rP sigue una distribución t de Student con:

2nν = − y parámetros:

( ) 0PE r = 21ˆ( )

2P

PrV r

n−

=−

2. Ordinal por ordinal (por lo menos)

• Si n > 30, se podría utilizar el modelo anterior con distribución normal, cambiando rP por rS.

Page 28: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

28

• Si n < 30, se podría utilizar la distribución t de Student.

3. Nominal por nominal (por lo menos) La prueba chi-cuadrado fue introducida en el capítulo 1:

22 ( )o e

e

n nn

χ −= ∑

Si n es grande (valor de la celda total) y la frecuencia esperada de cada celda es mayor o igual a 5, el estadístico χ2 sigue aproximadamente una distribución chi-cuadrado con grados de libertad dados por:

( 1)( 1)r cν = − − siendo r el número de filas (row) y c el número de columnas (column).

Regresión

1. Inferencia sobre los coeficientes de la recta Los coeficientes son función lineal de los valores de la variable y. Como se supone que la distribución de esta variable es normal, entonces serán normales las distribuciones de los coeficientes. En el capítulo 5 se verá como se obtienen las expresiones de la media y la varianza de estas distribuciones. Se estudiará también que, como normalmente la varianza se desconoce, se estima a partir de un valor que se mide en cada muestra (error estándar de la estimación), motivando que la distribución aplicable sea una t de Student.

2. Inferencia sobre los valores de y Como la distribución de los coeficientes es normal, entonces será normal la distribución de la estima de la variable y, pues ésta es una relación lineal de aquellos. Análogamente al caso anterior, se estima la varianza y por lo tanto será la t de Student la distribución aplicable.

Repaso

En este capítulo analizamos el importante concepto de distribución muestral. La distribución muestral de medias es la distribución de probabilidad de las medias muestrales, en la que todas las muestras tienen el mismo tamaño n. La distribución muestral de proporciones es la distribución de probabilidad de las proporciones muestrales, donde todas las muestras tienen igual tamaño n. En este contexto se presentaron el Teorema del Límite Central para las medias y la Ley de los Grandes Números para las proporciones.

Page 29: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Problemas – Regresión

29

Problemas

1. Número de ventas El número de ventas por día de un vendedor de una empresa es 1, 11, 6, y 9. a) Construir el histograma de la población, hallando μ y σ, b) enumerar todas las muestras con reemplazo y sin reemplazo de tamaño dos que se pueden extraer de la población anterior (12 sin reemplazo y 16 con reemplazo), c) calcular la media de cada muestra y construir el histograma de todas las medias muestrales. Hallar μ y σ del histograma muestral por la definición de cada uno de estos valores, d) calcular μ y σ del histograma anterior con las expresiones teóricas. Conclusión. R: a) μ=6.75, σ=3.76, c) con reemplazo, μ=6.75, σx=2.66, sin reemplazo μ=6.75, σx =2.17, d) ídem anterior.

2. Rendimiento medio de trigo Un informe estadístico establece que en 125 granjas el rendimiento medio de trigo fue de 16 toneladas por hectárea con un σ=5 ton. Se escoge una muestra de 36 granjas sin reposición, ¿cuál es la probabilidad de que el rendimiento medio de la muestra sea menor o igual a 14.5 ton? R: 0.0170.

3. Comidas envasadas Un lote de 1000 comidas envasadas tiene un peso medio de 2 kg y una desviación estándar de 0.6 kg. ¿Cuál es la probabilidad de que en una muestra al azar de 100 sin reposición el peso total de la muestra sea, a) menor de 190 kg, b) mayor de 195 kg, c) entre 190 kg y 195 kg. R: a) 0.0392, b) 0.8106, c) 0.1502.

4. Tiempo muerto diario El tiempo muerto diario de una instalación de computación es en promedio 4.0 horas con desviación estándar de 0.8 horas. a) Calcular la probabilidad de que el tiempo muerto promedio en un período de 30 días esté entre 1 y 5 horas. b) Calcular la probabilidad de que el tiempo muerto total en los 30 días sea menor que 115 horas. c) Qué hipótesis son necesarias para que las respuestas de a) y b) sean válidas. R: a) 1. b) 0.123, c) ninguna.

5. Seguridad del teleférico En un teleférico se ve una placa que indica que el peso máximo es de 900 kg (calculado con los principios de Resistencia de Materiales). A partir de este dato la empresa coloca al lado que esto equivale a 12 personas, indicando que esta capacidad se excedería si suben 12 personas con un peso medio mayor a 75 kg. Dado que los hombres suelen pesar más que las mujeres, suponga esta condición más desfavorable asuma que por Internet ha encontrado que los pesos de los hombres se distribuyen normalmente con una media de 78 kg y una desviación estándar de 13.2 kg. a) Calcular la probabilidad de que al seleccionar a un hombre, su peso sea mayor a 75 kg, b) calcular la probabilidad de que 12 hombres seleccionados al azar, tengan una media mayor a 75 kg, c) ¿Cuál resultado es más importante para evaluar la seguridad del teleférico, a) o b)? ¿Qué recomendaría en este caso? R: a) 0.5871, b) 0.7823, c) es más importante el resultado b) e indica que si suben todos hombres, no es poco común que el peso de 900 kg se exceda.

6. Luces estroboscópicas Las luces estroboscópicas de las aeronaves, cuya función es que los pilotos puedan ver a una aeronave cercana, se diseñan de manera que los tiempos entre los destellos se distribuyan

Page 30: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Capítulo 4 Distribuciones Muestrales

Jorge Carlos Carrá

30

normalmente con una media de 3.00 s y una desviación estándar de 0.40 s. a) Calcular la probabilidad de que en forma individual, cada lámpara tenga un tiempo mayor de 4.00 s, b) Calcular la probabilidad de que la media de 60 lámparas tengan un tiempo mayor de 4.00 s, c) ¿Cuál resultado es más importante para evaluar la seguridad de una luz estroboscópica, a) o b)? ¿Qué recomendaría en este caso? R: a) 0.0062, b) 0, c) es más importante el resultado a).

7. Pepe y sus amigas Un experimento de genética se realiza con 4 gatos, un macho que se llama Pepe y tres hembras que se llaman, Susy, Caty y Lulu. Suponga que se seleccionan dos gatos con reemplazo. a) Construir el histograma de la variable proporción de hembras, hallando μ y σ, b) enumerar las 16 muestras de tamaño dos que se pueden extraer de la población anterior, c) calcular la proporción de hembras de cada muestra y construir el histograma de todas las proporciones muestrales de hembras. Hallar μ y σ del histograma muestral por la definición de cada uno de estos valores, d) calcular μ y σ del histograma anterior con las expresiones teóricas. e) Repetir para un muestreo sin reemplazo. ¿Cuál de los dos tipos de muestreo es más lógico? R: a) 0.75, 0.433, d) 0.75, 0.306., e) 0.75, 0.204.

8. Elecciones nacionales En unas elecciones nacionales, 55 % de los electores están a favor del candidato A. Hallar la probabilidad de que, en una muestra de 100 electores, el resultado no muestre mayoría a favor de A. R: 0.1587.

9. Número de ventas El número de ventas por día de un vendedor de una empresa es 1, 11, 6, y 9. a) Construir el histograma de la población, hallando μ y σ, b) enumerar todas las muestras con reemplazo y sin reemplazo de tamaño dos que se pueden extraer de la población anterior (12 sin reemplazo y 16 con reemplazo), c) calcular la varianza de cada muestra y construir el histograma de todas las varianzas muestrales. Hallar μ y σ del histograma muestral por la definición de cada uno de estos valores, d) calcular μ y σ del histograma anterior con las expresiones teóricas. Conclusión. R: a) μ=6.75, σ=3.76, c) 2 14.14

sμ = (con reemplazo), 2 18.85

sμ = (sin reemplazo).

10. Variancia de las distancias al centro del blanco En balística es importante estudiar la variancia de las distancias al centro del blanco a las que cae el proyectil. Si se sabe que estas distancias tienen una distribución normal con σ2=100 m2 y se realizan 25 lanzamientos, a) estimar P(s2 >50), b) hallar P(s2 >150), c) calcular por el teorema de Tchebyscheff el intervalo de s2 en el que por lo menos se encuentren el 75 % de los valores. R: a) 0.975, b) 0.05, c) (42; 158).

11. Efecto del cobre disuelto en el agua Se estudia el efecto letal del cobre disuelto en el agua sobre el salmón. La variancia de las mediciones es aproximadamente 1.9 mg/ml. Se hacen 10 mediciones, y se supone que las mediciones se distribuyen normalmente, a) calcular la probabilidad de que el promedio muestral difiera del promedio real de la población en no más de 0.5 unidades, b) si se desea que el promedio muestral difiera del promedio real de la población en no más de 0.5 unidades con probabilidad 0.95, ¿cuántas pruebas deben hacerse?, c) repetir a) y b) si se desconoce la varianza de la población y la varianza de la muestra resulta 1.9 mg/ml, d) si se hacen 20 mediciones, determinar los números a y b, tales que P(a< S2 <b)=0.90. R: a) 0.7498, b) 29,c) 0.720, 32, d) a = 1.01170, b = 3.01435.

12. Vida promedio Se conectan 25 focos de tal forma que si uno falla, otro toma su lugar en forma automática. Solo hay un foco encendido a la vez. Los focos trabajan en forma independiente, sus distribuciones poblacionales son normales y cada uno tiene una vida promedio de 50 horas y una desviación estándar de 4 horas. Si no se revisa el sistema durante 1300 horas después de haber encendido el primer foco, ¿cuál es la probabilidad de que se halle un foco encendido al final del período de 1300 horas? R: 0.0062.

Page 31: Capítulo 4 Distribuciones Muestrales - aprehender.netaprehender.net/Estadistica/Ch4SPSS/CH4F.pdf · 1 Capítulo 4 Distribuciones Muestrales Objetivos • Tomar una muestra de una

Problemas – Regresión

31

13. Tiempos de recorrido Una empresa de transporte público de pasajeros está evaluando los tiempos de recorrido desde el Centro Cívico hasta la terminal de ómnibus, según 2 alternativas: A: por la costanera, B: por el centro de la ciudad. No solo le interesa el tiempo medio, sino la variabilidad. A partir de experiencias previas conoce que las desviaciones estándares de ambos recorridos es: σΑ = 4.87 y σΒ = 8.59, lo cual es lógico pues el camino por la costanera no tiene semáforos. Si se realizara una muestra aleatoria de 15 vehículos A y 10 vehículos B, a) ¿cuál es la probabilidad de que la varianza A sea al menos la mitad de la varianza B? b) hallar el percentil 80 de la distribución muestral del cociente de varianzas muestrales A/B. Asumir que las variables son independientes y que las distribuciones poblacionales son normales. R: a) 0.998, b) 0.562.

14. Tubos de acero Tubos de acero producidos por cierto proceso tienen un diámetro medio de 5 cm y una σ de 0.1 cm. Cuál es la probabilidad de que 2 lotes de 25 tubos cada uno, difieran en su diámetro medio en a) 0.01 cm o más, b) 0.005 cm o menos, c) 0.005 cm o más. R: a) 0.7264, b) 0.1428, c) 0.8572.

15. Oferta y demanda Cierto artículo tiene un precio de oferta igual a P0, el cual se distribuye normalmente con μ = 50$ y σ = 5$. El precio máximo que están dispuestos a pagar los consumidores es también una variable aleatoria Pd con distribución normal, μ = 45$ y σ = 2.5$. Calcular la probabilidad de que tenga lugar la transacción (es decir cuando el precio de oferta sea menor o igual al de demanda, 0 dy P P= − ). R: 0.1857.

16. Cara o seca Dos amigos A y B juegan a cara o seca. Cada uno tira una moneda 50 veces y gana el juego el que obtiene por lo menos 5 caras más que el otro. ¿Cuál es la probabilidad de que A gane el juego? R: 0.1587.