Investigacion Unidad IV.docx

68
RESUMEN Se discute la utilidad del muestreo y se describen los distintos tipos de muestreo que se pueden aplicar para tomar una muestra de la población. La selección intencionada o muestreo por conveniencia consiste en un muestreo no aleatorio, por lo que suele presentar sesgos. El muestreo aleatorio puede realizar se varias maneras. El muestreo aleatorio simple consiste en elegir cada uno de los individuos al azar mediante números aleatorios. El muestreo sistemático consiste en elegir el primer individuo al azar y el resto de manera sistemática. El muestreo aleatorio estratificado consiste en dividir la población en grupos en función de una característica determinada y realizar a continuación el muestreo proporcionalmente. Finalmente el muestreo por conglomerados consiste en definir grupos de características semejantes e incluir en la muestra varios de estos grupos. Para cada método se discuten las ventajas e inconvenientes.

Transcript of Investigacion Unidad IV.docx

Page 1: Investigacion Unidad IV.docx

RESUMEN

Se discute la utilidad del muestreo y se describen los distintos tipos de muestreo que se pueden aplicar para tomar una muestra de la población. La selección intencionada o muestreo por conveniencia consiste en un muestreo no aleatorio, por lo que suele presentar sesgos. El muestreo aleatorio puede realizar se varias maneras.

El muestreo aleatorio simple consiste en elegir cada uno de los individuos al azar mediante números aleatorios. El muestreo sistemático consiste en elegir el primer individuo al azar y el resto de manera sistemática.

El muestreo aleatorio estratificado consiste en dividir la población en grupos en función de una característica determinada y realizar a continuación el muestreo proporcionalmente. Finalmente el muestreo por conglomerados consiste en definir grupos de características semejantes e incluir en la muestra varios de estos grupos.

Para cada método se discuten las ventajas e inconvenientes.

Page 2: Investigacion Unidad IV.docx

INTRODUCCIÓN

En sanidad animal podemos necesitar información sobre una población para determinar la prevalencia de una enfermedad o infección subclínica, para determinar simplemente la presencia o la ausencia de una enfermedad o bien puede interesarnos conocer posibles causas o factores de riesgo mediante estudios epidemiológicos.

En cualquiera de estos casos, podemos analizar toda la población, es decir, realizar un censo, o bien examinar sólo una parte de ella mediante un muestreo.Si examinamos toda la población, podemos conocer exactamente la distribución que presenta la variable o las variables estudiadas en dicha población. Sin embargo, en la mayoría de los casos, los censos son inviables o como mínimo innecesarios.

Los censos son lentos y caros (hay que examinar una gran cantidad de individuos, lo cual requiere tiempo y dinero) y poco flexibles (debido a su complejidad, es muy difícil modificarlos cuando se han puesto en marcha).

Tratar una gran cantidad de individuos requiere disponer de personal entrenado, instalaciones (laboratorios, centros de tratamientos de datos,...) que no siempre están disponibles, en estos casos un censo puede ser irrealizable, o bien puede realizarse sin los recursos necesarios, de modo que, los datos obtenidos pueden contener errores y por tanto, en contra de lo que parece inicialmente, no necesariamente van a proporcionar una buena información.

Una alternativa a los censos será la medición de estas variables en una parte de la población, es decir, en una muestra. Trabajar con una muestra de la población tiene la ventaja de que es más rápido, más barato y los resultados obtenidos pueden ser más precisos, de modo que, si la muestra se elige correctamente, la información que obtenemos permite una estimación razonable de la situación de la población.

Cuando nos planteamos tomar una muestra, surgen dos preguntas:

¿Qué individuos debo incluir en la muestra? ¿Cuántos individuos debo tomar?

En este capítulo intentaremos responder a la primera pregunta, mientras que en el siguiente trataremos la segunda.

Cuando el objetivo es conocer la cantidad de enfermedad o cuando queremos realizar un estudio epidemiológico cuyos resultados debemos extrapolar a la

Page 3: Investigacion Unidad IV.docx

población general, un requisito indispensable es que la muestra sea representativa de la población general, por tanto la muestra debe tomarse al azar.

Cuando el objetivo es conocer si una enfermedad existe o no en una población, también podemos tomar una muestra aleatoria, pero en la mayoría de los casos, lo más apropiado será tomar una muestra sesgada, de modo que analizaremos aquellos individuos que tienen mayor posibilidad de estar enfermos.

La mejor opción para obtener una muestra representativa es elegir los individuos al azar mediante un muestreo aleatorio, es decir, seleccionando los individuos de manera que todos ellos tenga la misma probabilidad de formar parte de la muestra.

Cuando estos no es posible la alternativa será elegir a los individuos según un muestreo de conveniencia. El método para elegir la muestra recibe el nombre de muestreo.

Para describir el proceso del muestreo, debemos utilizar una terminología precisa que facilitarán la comprensión de algunas partes de estos temas:

Población total o población objetivo. Es el grupo de individuos del que se pretende obtener información.

Población estudiada. A menudo, la población no es accesible en su totalidad, y deberemos trabajar sólo sobre una parte de ella, que será. Por tanto la población estudiada será la población de la que se obtiene la muestra.

Marco de la encuesta. Es el listado de los individuos de la población. A veces, no es necesario disponer de todo el listado, p. ej en el muestreo por conglomerados

Unidad de la encuesta. Es cada individuo de la población estudiada (animales, granjas, municipios, etc.) Según el tipo de muestreo se puede diferenciar entre unidades primarias, secundarias, etc.

Fracción de la encuesta. Es la proporción de individuos de la población estudiada que forma parte de la muestra.

Sesgo. Son los errores sistemáticos (diferentes de los errores de estimación).

Page 4: Investigacion Unidad IV.docx

OBJETIVO

Capacitar al lector para seleccionar el procedimiento de muestreo apropiado, procesar los datos y arribar a conclusiones respecto a la estimación de parámetros de las variables de interés para la evaluación de recursos forestes y de sus productos.

Así mismo, para ayudar a la obtención de conocimiento y entendimiento amplio del mismo.

Page 5: Investigacion Unidad IV.docx

Marco Teórico

4.1 – Definición de muestreo

4.1.1 – Tipos de muestreo aleatorio, sistematizado, estratificado y conglomerado.

4.2 – Concepto de distribución de muestreo de la media.4.2.1 – Distribución muestral de la media con varianza conocida y desconocida.

4.2.2 – Distribución muestral de la diferencia entre 2 medias con varianza conocida y desconocida.

4.2.3 – Distribución muestral de la proporción.

4.2.4 – Distribución muestral de la diferencia de 2 proporciones.

4.3 – Teorema de límites central.

4.4 – Tipos de estimaciones y características.

4.5 – Determinación del tamaño de la muestra de una población.

4.6 – Intervalos de confianza para la media, con el uso de la distribución.

Page 6: Investigacion Unidad IV.docx

UNIDAD 4. MUESTREO

4.1 Definición de muestreo

Es un procedimiento empleado para obtener una o más muestras de una población. Por ejemplo: religión y sexo de los estudiantes de educación del núcleo San Carlos de la UNESR.

Muestra: Es la parte de la población a estudiar qué sirve para representarla.

El muestreo es una herramienta de la investigación científica. Su función básica es determinar que parte de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha población.

El error que se comete debido al hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observación de sólo una parte de ella, de denomina error de muestreo. Obtener una muestra adecuada significa lograr una versión simplificada de la población, que reproduzca de algún modo sus rasgos básicos.

4.1.1 Tipos de muestreo aleatorio, sistematizado, estratificado y conglomerados

Muestreo aleatorio simple

Para población finita: Una muestra seleccionada de tal manera que cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada.

Para población infinita: Una muestra seleccionada de tal manera que cada elemento proviene de la misma población y los elementos sucesivos se seleccionan en forma independiente.

EJEMPLO

Un muestreo aleatorio de todos los profesores de secundaria de California puede resultar en la selección (altamente improbable, por cierto) de 20 profesoras de francés. De hecho, nunca se puede tener la seguridad de que tal muestreo sea representativo o no de la población y lo único que se puede afirmar es que, bajo todo aspecto, es aleatoriamente representativo de ella.

Una característica mas importante del muestreo al azar es que puede determinarse el tipo de “no representatividad” que, a la larga, cabe esperar de numerosos muestreos similares, cosa que no es posible con otros tipos de selección.

Page 7: Investigacion Unidad IV.docx

Muestreo aleatorio simple estratificado

Método para seleccionar una muestra en el que primero se divide a la población en estratos y a continuación se toma una muestra aleatoria simple de cada estrato.

EJEMPLO

Una base de formación de los estratos puede ser por departamentos, ubicación, edad, giro industrial, etc., queda a discreción de quien diseña la muestra, sin embargo los mejores resultados se obtienen cuando los elementos dentro de cada estrato son tan semejantes como sea posible.Después de formar los estratos se toma una muestra aleatoria simple de cada uno. Se dispone de formulas para combinar los resultados para la muestra de estrato individual en un estimado del parámetro poblacional de interés. El valor del muestreo aleatorio estratificado depende de cuán homogéneos sean los elementos dentro de los estratos. Si son similares, los estratos tendrán bajas varianzas. Si los estratos son homogéneos, el procedimiento de muestreo aleatorio estratificado producirá resultados tan precisos como el muestreo aleatorio simple, pero con menor tamaño total de muestra.

Muestreo sistemático

Método para elegir una muestra seleccionando al a los primeros k elementos y a continuación cada k-ésimo elemento.

EJEMPLO

Si se desea una muestra de tamaño de 50 de una población con 5,000 elementos, podríamos muestrear un elemento de cada 5,000/50 = 100 en la población. Una muestra sistemática en este caso implica seleccionar al azar uno de los primeros

Page 8: Investigacion Unidad IV.docx

100 elementos de la lista de la población. Se identifican los demás elementos de la muestra comenzando por el primero obtenido al azar y a continuación seleccionando cada 100˳. elementos. En efecto, se identifica la muestra de 50 recorriendo la población en forma sistemática, e identificando cada 100˳. elemento después del primero que se selecciono al azar.

Muestreo por conglomerados

Método probabilístico de muestreo en el cual primero se divide la población en conglomerados y después se selecciona uno o mas conglomerados para muestrearlos.

EJEMPLO

Cuando se realiza el muestreo de áreas, en los que los conglomerados son manzanas urbanas, u otras áreas, bien definida. Por lo general, el muestreo de conglomerados requiere un tamaño de muestra total mayor que el muestreo aleatorio simple o el muestreo aleatorio estratificado. Sin embargo, puede originar ahorros porque cuando se manda a un entrevistador a aplicar un cuestionario a un conglomerado muestreado (por ejemplo, una manzana urbana), se puede obtener muchas observaciones muéstrales en un tiempo relativamente corto. En consecuencia, se puede obtener un mayor tamaño de muestra con un costo bastante menor por elemento, y por ende, probablemente un costo total menor.

Page 9: Investigacion Unidad IV.docx

Ventajas y desventajas de los distintos tipos de muestreo probabilístico

Page 10: Investigacion Unidad IV.docx
Page 11: Investigacion Unidad IV.docx

4.2 Concepto de distribución de muestreo de la media

Una distribución muestral de medias o una distribución en el muestreo de la media se definen como el conjunto de todas las medias que se pueden calcular en todas las muestras posibles que se pueden extraer, con o sin reemplazo, de una determinada población. Para detectar las relaciones a que nos hemos referido, partiremos de un ejemplo con una población pequeña.

4.2.1 Distribución muestral de la media con varianza conocida y desconocida.

Distribución Muestral de Medias

Si recordamos a la distribución normal, esta es una distribución continua, en forma de campana en donde la media, la mediana y la moda tienen un mismo valor y es simétrica.

Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la variable aleatoria, mediante la siguiente fórmula:

En donde z es una variable estandarizada con media igual a cero y varianza igual a uno. Con esta fórmula se pueden a hacer los cálculos de probabilidad para cualquier ejercicio, utilizando la tabla de la distribución z.

Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier tamaño de una población normal, la distribución muestral de medias tiene un comportamiento aproximadamente normal, por lo que se puede utilizar la

formula de la distribución normal con y , entonces la fórmula para calcular la probabilidad del comportamiento del estadístico, en este caso la media de la muestra , quedaría de la siguiente manera:

y para poblaciones finitas y muestro con reemplazo:

Page 12: Investigacion Unidad IV.docx

Ejemplo:

Una empresa eléctrica fabrica focos que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de menos de 775 horas.

Solución:

Este valor se busca en la tabla de z

La interpretación sería que la probabilidad de que la media de la muestra de 16 focos sea menor a 775 horas es de 0.0062.

Ejemplo:

Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine:

a. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.

b. El número de medias muestrales que caen por debajo de 172 centímetros.

Solución:

Como se puede observar en este ejercicio se cuenta con una población finita y un muestreo sin reemplazo, por lo que se tendrá que agregar el factor de corrección. Se procederá a calcular el denominador de Z para sólo sustituirlo en cada inciso.

Page 13: Investigacion Unidad IV.docx

a.

 

(0.7607)(200)=152 medias muestrales

b.

(0.0336)(200)= 7 medias muestrales

Page 14: Investigacion Unidad IV.docx

4.2.2 - Distribución muestral de la diferencia entre dos medias

La distribución muestral de un estadístico es una distribución de probabilidad constituida por cada uno de los valores que puede asumir el estadístico en todas las muestras de tamaño n posibles de extraer sin reposición en una población de tamaño N. Dados los valores de la población y la muestra el numero de muestras

posibles a extraer se calcula como combinación (Nn ).La distribución muestral de la media puede conocerse empíricamente, según se ha visto, efectuando dos operaciones. A saber, extrayendo todas las muestras posibles de tamaño n de una población de tamaño N y calculando para cada muestra la media y probabilidad asociada.

La distribución muestral de las medias muéstrales asume como la media el valor del parámetro poblacional 𝝁 y la desviación típica de la distribución muestral de medias- denominado error estándar o error típico

Asume el valor: √ σ2

n

En consecuencia, la media muestral se distribuye según una curva normal definida en los siguientes términos:

N (μ;√ σn )Media de las medias muéstrales

Es el promedio de todos los valores posibles de las medias que se pueden generar mediante las diversas muestras aleatorias simples. Se puede demostrar que el valor esperado de las medias muéstrales es igual a la media poblacional

Estadístico de la prueba de la diferencia entre dos medias con muestras grandes.

Formula:

z=x1−x2

√ S12

n1

+S2

2

n2

EJEMPLO 1:

En un estudio de una tienda de departamentos diseñado para probar el saldo promedio en las cuentas de 30 días es el mismo en sus dos sucursales suburbanas, muestras tomadas al azar arrojaron los siguientes resultados:

n1=80 , n2=100 , x1=$64.20 , x2=$71.41 , S1=$16.00 , S2=$22.13

Page 15: Investigacion Unidad IV.docx

z=x1−x2

√ S12

n1

+S2

2

n2

z= 64.20−71.40

√ (16.00 )2

80+

(22.13 )2

100

=−2.53

Y como este valor es menor que -1.96, se deduce que la diferencia observada de $7.21 entre los saldos promedio de las dos sucursales es significativa. El valor de z= -2.53 es de 0.0057.

Estadístico de la prueba de muestra pequeña.

Formula:

t=x1−x2

√∑ (x1−x1 )2+∑ (x2−x2 )2

n1+n2−2∙( 1n1

+ 1n2

)

EJEMPLO 2:

Las siguientes son mediciones de la capacidad de producción (en millones de calorías por tonelada) de muestras aleatorias ejemplares cada una de carbón proviene de dos minas:

Mina 1: 8380 8210 8360 7840 7910Mina 2: 7540 7720 7750 8100 7690

Utilice un nivel de significación de 0.05 para probar si es importante la diferencia entre las medias de estas dos muestras.Las medias de las muestras son x1=8140 y x2=7760y para calcular “t” de acuerdo a la formula anterior, primero se determina.

∑ ( x1−x1 )2= (8380−8140 )2¿+…+(7910−8140 )2=253 800¿Y

∑ ( x2− x2 )2=(7540−7760 )2 ¿+…+ (7690−7760 )2=170600¿

Ahora bien, al sustituir estas sumas junto con n1=5 ,n2=5 , x1=8140 , x2=7760 en la fórmula de “t”, se obtiene:

Page 16: Investigacion Unidad IV.docx

t= 8140−7760

√ 253 800+170 6005+5−2

∙(15+ 1

5 )=2.61

EJEMPLO # 3

Se considera una población de cinco cerdos y un granjero que quería estimar la proporción de los que estaban bajos de peso. Se enfoco el problema en el peso promedio de los cerdos, en cuyo caso resulto apropiada la distribución de los valores medios de la muestra.

Cerdo Peso ParámetrosA 200

media=10305

=206

desviacion estandar=4.24

B 203C 206D 209E 212

1030

Si el granjero desea estimar el peso promedio de los cerdos, deberá tomar muestras de dos, tres, o posiblemente cuatro. Y una vez más, será factible listar cada posible valor medio de la muestra y elaborar una distribución de frecuencia.Además se puede calcular la media y la desviación estándar de cada distribución de muestreo. Los resultados empíricos revelan ciertas propiedades interesantes de las distribuciones de muestreo.

Media Desviación Estándar

Población 206 4.24

Distribuciones de Muestreo

n=2 206 2.60

n=3 206 1.73

n=4 206 1.06

En esta tabla se muestran varias cosas, una de ellas es que la media de la distribución de muestreo parece ser siempre igual a la media de la población. Y no es coincidencia el hecho de que la media de una distribución de muestreo sea exactamente igual a la media de la población en cada caso.

En esencia, calcular la media de una distribución de muestreo es simplemente un método indirecto de calcular la media de la población.

Ejemplo # 4

Page 17: Investigacion Unidad IV.docx

Supóngase que una población está formada por tres elementos; x1 , x2 , x3. La media de la población es (x1 ,+x 2+x3)/3. Si se tomaran todas las muestras de dos elementos, las combinaciones serian x1 yx 2 , x 1 yx 3 yx2 yx 3. Los valores medios de la muestra serian:

x1+x22

x1+x3

2

x2+x32

La media de los valores medios de la muestra (y la media de la distribución de muestreo) sería:

[ x 1+x22 ]+[x 1+ x 3

2 ]+[ x2+ x32 ]

3

¿

12(x1+x 2+x1+x 3+x2+x 3)

3

¿

12(2 x1+2 x2+2 x3)

3

¿ x1+x2+x 33

Que es lamediade la población

Page 18: Investigacion Unidad IV.docx

4.2.3 – Distribución muestral de la proporción

Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar del estadísitico media.

Una población binomial está estrechamente relacionada con la distribución muestral de proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de proporciones contiene las posibilidades o proporciones de todos los números posibles de éxitos en un experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que np 5 y n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número obtenido entre el número de intentos.

Generación de la Distribución Muestral de Proporciones

Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos defectuosos. Se van a seleccionar 5 artículos al azar de ese lote sin reemplazo. Genere la distribución muestral de proporciones para el número de piezas defectuosas.

Como se puede observar en este ejercicio la Proporción de artículos defectuosos de esta población es 4/12=1/3. Por lo que podemos decir que el 33% de las piezas de este lote están defectuosas.

Page 19: Investigacion Unidad IV.docx

El número posible de muestras de tamaño 5 a extraer de una población de 12 elementos es 12C5=792, las cuales se pueden desglosar de la siguiente manera:

Artículos Buenos

Artículos MalosProporción de artículos defectuoso

Número de maneras en las que se puede obtener la muestra

1 4 4/5=0.8 8C1*4C4=8

2 3 3/5=0.6 8C2*4C3=112

3 2 2/5=0.4 8C3*4C2=336

4 1 1/5=0.2 8C4*4C1=280

5 0 0/5=0 8C5*4C0=56

Total 792

Para calcular la media de la distribución muestral de proporciones se tendría que hacer la sumatoria de la frecuencia por el valor de la proporción muestral y dividirla entre el número total de muestras. Esto es:

Como podemos observar la media de la distribución muestral de proporciones es igual a la Proporción de la población.

p = P

También se puede calcular la desviación estándar de la distribución muestral de proporciones:

La varianza de la distribución binomial es 2= npq, por lo que la varianza de la distribución muestral de proporciones es 2

p =(Pq)/n. Si se sustituten los valores en esta fórmula tenemos que:

, este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de corrección para una población finita y un muestreo sin reemplazo:

Page 20: Investigacion Unidad IV.docx

La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada en la aproximación de la distribución normal a la binomial . Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la proporción en la muestra.

A esta fórmula se le puede agregar el factor de corrección de si se cumple con las condiciones necesarias.

Ejemplo:

Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la muestra de la gente que fuma cigarrillos sea menor que 0.55.

Solución:

Este ejercicio se puede solucionar por dos métodos. El primero puede ser con la aproximación de la distribución normal a la binomial y el segundo utilizando la fórmula de la distribución muestral de proporciones.

Page 21: Investigacion Unidad IV.docx

Aproximación de la distribución normal a la binomial:

Datos:

n=800 estudiantes

p=0.60

x= (.55)(800) = 440 estudiantes

p(x 440) = ?

Media= np= (800)(0.60)= 480

p(x 440) = 0.0017. Este valor significa que existe una probabilidad del 0.17% de que al extraer una muestra de 800 estudiantes, menos de 440 fuman cigarrillos.

 

Distribución Muestral de Proporciones

Datos:

n=800 estudiantes

P=0.60

p= 0.55

p(p 0.55) = ?

Page 22: Investigacion Unidad IV.docx

Observe que este valor es igual al obtenido en el método de la aproximación de la distribución normal a la binomial, por lo que si lo buscamos en la tabla de "z" nos da la misma probabilidad de 0.0017. También se debe de tomar en cuenta que el factor de corrección de 0.5 se esta dividiendo entre el tamaño de la muestra, ya que estamos hablando de una proporción.

La interpretación en esta solución, estaría enfocada a la proporción de la muestra, por lo que diríamos que la probabilidad de que al extraer una muestra de 800 estudiantes de esa universidad, la proporción de estudiantes que fuman cigarrillos sea menor al 55% es del 0.17%.

Ejemplo:

Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios tienen tal reacción. Si una muestra aleatoria de 150 personas con malestar estomacal usa el medicamento, encuentre la probabilidad de que la proporción de la muestra de los usuarios que realmente presentan una reacción adversa, exceda el 4%.

a. Resolverlo mediante la aproximación de la normal a la binomial b. Resolverlo con la distribución muestral de proporciones

a. Aproximación de la distribución normal a la binomial:

Datos:

n=150 personas

p=0.03

x= (0.04)(150) = 6 personas

p(x>6) = ?

Page 23: Investigacion Unidad IV.docx

Media = np= (150)(0.03)= 4.5

p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que al extraer una muestra de 150 personas, mas de 6 presentarán una reacción adversa.

b. Distribución Muestral de Proporciones

Datos:

n=150 personas

P=0.03

p= 0.04

p(p>0.04) = ?

Page 24: Investigacion Unidad IV.docx

Observe que este valor es igual al obtenido y la interpretación es: existe una probabilidad del 17% de que al tomar una muestra de 150 personas se tenga una proporción mayor de 0.04 presentando una reacción adversa.

Ejemplo:

Se sabe que la verdadera proporción de los componentes defectuosos fabricadas por una firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga:

a. Menos del 3% de los componentes defectuosos. b. Más del 1% pero menos del 5% de partes defectuosas.

Solución:

 

a. Datos:

n= 60 artículos

P=0.04

p= 0.03

p(p<0.03) = ?

Page 25: Investigacion Unidad IV.docx

La probabilidad de que en una muestra de 60 artículos exista una proporción menor de 0.03 artículos defectuosos es de 0.2327.

 

 

b. Datos:

n= 60 artículos

P=0.04

p= 0.01 y 0.05

p(0.01<p<0.05) = ?

Page 26: Investigacion Unidad IV.docx

4.2.4 Distribución muestral de la diferencia de dos proporciones.

Distribución Muestral de Diferencia de Proporciones

Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando proporciones o porcentajes. A continuación se citan algunos ejemplos:

Educación.- ¿Es mayor la proporción de los estudiantes que aprueban matemáticas que las de los que aprueban inglés?

Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A que presentan una reacción adversa que el de los usuarios del fármaco B que también presentan una reacción de ese tipo?

Administración.- ¿Hay diferencia entre los porcentajes de hombres y mujeres en posiciones gerenciales.

Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos que genera la máquina A a los que genera la máquina B?

Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones muestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1 5,n2p2

5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, así que su diferencia p1-p2 también tiene una distribución muestral aproximadamente normal.

Page 27: Investigacion Unidad IV.docx

Cuando se estudió a la distribución muestral de proporciones se comprobó que

y que , por lo que no es difícil deducir que

y que .

La fórmula que se utilizará para el calculo de probabilidad del estadístico de diferencia de proporciones es:

Ejemplo:

Los hombres y mujeres adultos radicados en una ciudad grande del norte difieren en sus opiniones sobre la promulgación de la pena de muerte para personas culpables de asesinato. Se cree que el 12% de los hombres adultos están a favor de la pena de muerte, mientras que sólo 10% de las mujeres adultas lo están. Si se pregunta a dos muestras aleatorias de 100 hombres y 100 mujeres su opinión sobre la promulgación de la pena de muerte, determine la probabilidad de que el porcentaje de hombres a favor sea al menos 3% mayor que el de las mujeres.

Solución:

Datos:

PH = 0.12

PM = 0.10

nH = 100

nM = 100

p(pH-pM 0.03) = ?

 

Se recuerda que se está incluyendo el factor de corrección de 0.5 por ser una distribución binomial y se está utilizando la distribución normal.

Page 28: Investigacion Unidad IV.docx

Se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte, al menos 3% mayor que el de mujeres es de 0.4562.

Ejemplo:

Una encuesta del Boston College constó de 320 trabajadores de Michigan que fueron despedidos entre 1979 y 1984, encontró que 20% habían estado sin trabajo durante por lo menos dos años. Supóngase que tuviera que seleccionar otra muestra aleatoria de 320 trabajadores de entre todos los empleados despedidos entre 1979 y 1984. ¿Cuál sería la probabilidad de que su porcentaje muestral de trabajadores sin empleo durante por lo menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5% o más?

Solución:

En este ejercicio se cuenta únicamente con una población, de la cual se están extrayendo dos muestras y se quiere saber la probabilidad de la diferencia de los porcentajes en esas dos muestras, por lo que se debe de utilizar la distribución muestral de proporciones con P1= P2, ya que es una misma población.

Otra de las situaciones con la cual nos topamos es que desconocemos la proporción de trabajadores despedidos entre 1979 y 1984 que estuvieron desempleados por un período de por lo menos dos años, sólo se conoce la p1= 0.20 ya que al tomar una muestra de 320 trabajadores se observó esa proporción.

En la fórmula de la distribución muestral de proporciones para el cálculo de probabilidad se necesita saber las proporciones de las poblaciones, las cuales en este ejercicio las desconocemos, por lo que se utilizará el valor de 0.20 como una estimación puntual de P. En el siguiente tema se abordará el tema de estimación estadística y se comprenderá el porque estamos utilizando de esa manera el dato.

Page 29: Investigacion Unidad IV.docx

También debe de comprenderse la pregunta que nos hace este problema, ¿cuál sería la probabilidad de que su porcentaje muestral de trabajadores sin empleo durante por lo menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 5% o más?, la palabra difiera quiere decir que puede existir una diferencia a favor de la muestra uno, o a favor de la muestra dos, por lo que se tendrán que calcular dos áreas en la distribución y al final sumarlas.

Datos:

p1 = 0.20

n1 = 320 trabajadores

n2 = 320 trabajadores

P1 = P2

La probabilidad de que su proporcion muestral de trabajadores sin empleo durante por lo menos dos años, difiera del porcentaje obtenido en la encuesta de Boston College, en 0.05 o más es de 0.1260.

 

Page 30: Investigacion Unidad IV.docx

Ejemplo:

Se sabe que 3 de cada 6 productos fabricados por la máquina 1 son defectuosos y que 2 de cada 5 objetos fabricados por la máquina 2 son defectuosos; se toman muestras de 120 objetos de cada máquina:

a. ¿cuál es la probabilidad de que la proporción de artículos defectuosos de la máquina 2 rebase a la máquina 1 en por lo menos 0.10?

b. ¿cuál es la probabilidad de que la proporción de artículos defectuosos de la máquina 1 rebase a la máquina 2 en por lo menos 0.15?

Solución:

Datos:

P1 = 3/6 = 0.5

P2 = 2/5 = 0.4

n1 = 120 objetos

n2 = 120 objetos

a. p(p2-p1 0.10) = ?

Otra manera de hacer este ejercicio es poner P1-P2:

Page 31: Investigacion Unidad IV.docx

La probabilidad de que exista una diferencia de proporciones de artículos defectuosos de por lo menos 10% a favor de la máquina 2 es de 0.0011.

b. p(p1-p2

0.15)=?

La probabilidad de que exista una diferencia de proporciones de artículos defectuosos de por lo menos 15% a favor de la máquina 1 es de 0.2357.

Page 32: Investigacion Unidad IV.docx

4.3 Teorema del límite central

Sea X1, X2,..., X n una muestra aleatoria de una distribución con media μ y varianza σ 2 Entonces, si n es suficientemente grande, x tiene aproximadamente una

distribución normal con, μx=μ yσ x ²=σ2/n y T0 tiene también aproximadamente una distribución normal con μ¿=n∗μ ,σ¿

2=n∗σ 2. Cuanto mas grande sea el valor de n, mejor será la aproximación.

El Teorema del Límite Central garantiza una distribución normal cuando n es suficientemente grande.

Si n > 30, se puede usar el Teorema de Limite Central.

Si la distribución madre es normal, la distribución de la media muestral también es normal, independientemente del tamaño.

x ≈N (μX ;σ X ) Þx ≈ (μX ; σ X )Ejemplo 1:

Si se sabe que la dureza Rockwell de pernos de cierto tipo tiene un valor medio de 50 y desviación estándar de 1,5.

a) Si la distribución es normal, ¿cuál es la probabilidad de que la dureza muestral media para una muestra aleatoria de 9 pernos sea por lo menos 52?

b) ¿Cuál es la probabilidad (aproximada) de que la dureza muestral media para una muestra aleatoria de 40 pernos sea al menos 52?

x = 50

σ = 1,5

x ≈ N(50; 1,5)

a)

n = 9

x = 52

x ≈ N(50; 1,5.√9)

z =(x−μ)/(σ /√ n) 

La probabilidad de que la media muestral sea superior a 52 es:

P(x ≥ 52) =

P( x−μσ

√n

≥52−50

1.5

√9 )Þ P (Z ≥4 )=0

Page 33: Investigacion Unidad IV.docx

Con el valor de z obtenido de y tablas:

P(x1 ≤ x ≤ x2) =

P ( z1≤x−μσ

√n

≤ z2 ¿Þ P(z1≤ z≤ z2)=φ (z)

Tener en cuenta que los valores para:

Φ (z) = P (z ≤ z1)

b)

n = 40

Con el valor de z obtenido de tablas:

P(x ≥ 52) =

P( x−μσ

√n

≥52−50

5

√40 )Þ P (Z ≥8,4327 )=0

EJEMPLO 2:

En una asignatura del colegio la probabilidad de que te saquen a la pizarra en cada clase es del 10%. A lo largo del año tienes 100 clases de esa asignatura. ¿Cuál es la probabilidad de tener que salir a la pizarra más de 15 veces? Se vuelve a aplicar el Teorema Central del Límite. Salir a la pizarra es una variable independiente que sigue el modelo de distribución de Bernoulli: "Salir a la pizarra", le damos el valor 1 y tiene una probabilidad del 0,10 "No salir a la pizarra", le damos el valor 0 y tiene una probabilidad del 0,9La media y la varianza de cada variable independiente es:

μ=0,10

σ 2=0,10¿0,90=0,09

Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y varianza son:

Media: n * m = 100 * 0,10 = 10

Page 34: Investigacion Unidad IV.docx

Varianza: n * s2 = 100 * 0,09 = 9

Para calcular la probabilidad de salir a la pizarra más de 15 veces, calculamos el valor equivalente de la variable normal tipificada:

Y=15−103,0

=1,67

Luego:

P (X>15 )=P (Y >1,67 )=1−0,9525=0,0475

Es decir, la probabilidad de tener que salir más de 15 veces a la pizarra a lo largo del curso es tan sólo del 4,75%.

Page 35: Investigacion Unidad IV.docx

4.4 Tipos de estimaciones y características.

ESTIMACION

El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de una muestra de una población se quiere generalizar las conclusiones al total de la misma. Como vimos en la sección anterior, los estadísticos varían mucho dentro de sus distribuciones muestrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores.

Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina estimador.

Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que contenga el parámetro.

Propiedades de un Buen Estimador

Insesgado.- Se dice que un estimador puntual es un estimador insesgado de

si , para todo valor posible de . En otras palabras, un estimador insesgado es aquel para el cual la media de la distribución muestral es el parámetro estimado. Si se usa la media muestral para estimar la media

poblacional , se sabe que la , por lo tanto la media es un estimador insesgado.

Eficiente o con varianza mínima.- Suponga que 1 y 2 son dos estimadores insesgados de . Entonces, aun cuando la distribución de cada estimador esté centrada en el valor verdadero de , las dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes.

Entre todos los estimadores de que son insesgados, seleccione al que tenga

varianza mínima. El resultante recibe el nombre de estimador insesgado con

varianza mínima (MVUE, minimum variance unbiased estimator) de .

En otras palabras, la eficiencia se refiere al tamaño de error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cual de ellas es un estimador mas eficiente, escogeríamos la estadística que tuviera el menor error estándar, o la menor desviación estándar de la distribución de muestreo.

Page 36: Investigacion Unidad IV.docx

Tiene sentido pensar que un estimador con un error estándar menor tendrá una mayor oportunidad de producir una estimación mas cercana al parámetro de población que se esta considerando.

Como se puede observar las dos distribuciones tienen un mismo valor en el parámetro sólo que la distribución muestral de medias tiene una menor varianza, por lo que la media se convierte en un estimador eficiente e insesgado.

Coherencia.- Una estadística es un estimador coherente de un parámetro de población, si al aumentar el tamaño de la muestra se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente se vuelve mas confiable si tenemos tamaños de muestras mas grandes.

Suficiencia.- Un estimador es suficiente si utiliza una cantidad de la información contenida de la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población que se esta estimando.

Es decir se pretende que al extraer la muestra el estadístico calculado contenga toda la información de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos. Cuando se calcula la mediana de una muestra sólo se utiliza a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media, la varianza, desviación estándar, etc; se tendrá un estimador suficiente.

Estimación Puntual

La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión acerca de uno o más parámetros (características poblacionales). Para hacerlo, se requiere que un investigador obtenga datos muestrales de cada una de las poblaciones en estudio. Entonces, las conclusiones pueden estar basadas en los valores calculados de varias cantidades muestrales . Po ejemplo, representamos con (parámetro) el verdadero promedio de resistencia a la ruptura de conexiones de alambres utilizados para unir obleas de semiconductores. Podría tomarse una muestra aleatoria de 10 conexiones para

Page 37: Investigacion Unidad IV.docx

determinar la resistencia a la ruptura de cada una, y la media muestral de la resistencia a la ruptura se podía emplear para sacar una conclusión acerca del

valor de . De forma similar, si es la varianza de la distribución de resistencia a la ruptura, el valor de la varianza muestral s2 se podría utilizar para inferir algo

acerca de .

Cuando se analizan conceptos generales y métodos de inferencia es conveniente tener un símbolo genérico para el parámetro de interés. Se utilizará la letra griega

para este propósito. El objetivo de la estimación puntual es seleccionar sólo un número, basados en datos de la muestra, que represente el valor más razonable de .

Una muestra aleatoria de 3 baterías para calculadora podría presentar duraciones observadas en horas de x1=5.0, x2=6.4 y x3=5.9. El valor calculado de la duración media muestral es = 5.77, y es razonable considerar 5.77 como el valor más adecuado de .

Una estimación puntual de un parámetro es un sólo número que se puede considerar como el valor más razonable de . La estimación puntual se obtiene al seleccionar una estadística apropiada y calcular su valor a partir de datos de la muestra dada. La estadística seleccionada se llama estimador puntual de .

 

El símbolo (theta sombrero) suele utilizarse para representar el estimador de

y la estimación puntual resultante de una muestra dada. Entonces se lee como "el estimador puntual de es la media muestral ". El enunciado "la

estimación puntual de es 5.77" se puede escribir en forma abreviada .

Ejemplo:

En el futuro habrá cada vez más interés en desarrollar aleaciones de Mg de bajo costo, para varios procesos de fundición. En consecuencia, es importante contar con métodos prácticos para determinar varias propiedades mecánicas de esas aleaciones. Examine la siguiente muestra de mediciones del módulo de elasticidad obtenidos de un proceso de fundición a presión:

44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1

Suponga que esas observaciones son el resultado de una muestra aleatoria. Se

desea estimar la varianza poblacional . Un estimador natural es la varianza muestral:

Page 38: Investigacion Unidad IV.docx

En el mejor de los casos, se encontrará un estimador para el cual siempre.

Sin embargo, es una función de las Xi muestrales, por lo que en sí misma una variable aleatoria.

+ error de estimación

entonces el estimador preciso sería uno que produzca sólo pequeñas diferencias de estimación, de modo que los valores estimados se acerquen al valor verdadero.

Estimación por Intervalos

Un estimado puntual, por ser un sólo número, no proporciona por sí mismo información alguna sobre la precisión y confiabilidad de la estimación. Por ejemplo, imagine que se usa el estadístico para calcular un estimado puntual de la resistencia real a la ruptura de toallas de papel de cierta marca, y suponga que

= 9322.7. Debido a la variabilidad de la muestra, nunca se tendrá el caso de que = . El estimado puntual nada dice sobre lo cercano que esta de . Una

alternativa para reportar un solo valor del parámetro que se esté estimando es calcular e informar todo un intervalo de valores factibles, un estimado de intervalo o intervalo de confianza (IC). Un intervalo de confianza se calcula siempre seleccionando primero un nivel de confianza, que es una medida de el grado de fiabilidad en el intervalo. Un intervalo de confianza con un nivel de confianza de 95% de la resistencia real promedio a la ruptura podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier valor de entre 9162.5 y 9482.9. Un nivel de confianza de 95% implica que 95% de todas las muestras daría lugar a un intervalo que incluye

o cualquier otro parámetro que se esté estimando, y sólo 5% de las muestras producirá un intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro que se estima está dentro del intervalo.

Una interpretación correcta de la "confianza de 95%" radica en la interpretación frecuente de probabilidad a largo plazo: decir que un evento A tiene una probabilidad de 0.95, es decir que si el experimento donde A está definido re realiza una y otra vez, a largo plazo A ocurrirá 95% de las veces. Para este caso

el 95% de los intervalos de confianza calculados contendrán a .

Page 39: Investigacion Unidad IV.docx

Esta es una construcción repetida de intervalos de confianza de 95% y se puede observar que de los 11 intervalos calculados sólo el tercero y el último no contienen el valor de .

De acuerdo con esta interpretación, el nivel de confianza de 95% no es tanto un enunciado sobre cualquier intervalo en particular, más bien se refiere a lo que sucedería si se tuvieran que construir un gran número de intervalos semejantes.

Encontrar z a partir de un nivel de confianza

Existen varias tablas en las cuales podemos encontrar el valor de z, según sea el área proporcionada por la misma. En esta sección se realizará un ejemplo para encontrar el valor de z utilizando tres tablas diferentes.

Ejemplo:

Encuentre el valor de z para un nivel de confianza del 95%.

Solución 1:

Se utilizará la tabla que tiene el área bajo la curva de - hasta z. Si lo vemos gráficamente sería:

El nivel de confianza bilateral está dividido en partes iguales bajo la curva:

Page 40: Investigacion Unidad IV.docx

En base a la tabla que se esta utilizando, se tendrá que buscar el área de 0.975, ya que cada extremo o cola de la curva tiene un valor de 0.025.

Por lo que el valor de z es de 1.96.

Solución 2:

Si se utiliza una tabla en donde el área bajo la curva es de 0 a z:

En este caso sólo se tendrá que buscar adentro de la tabla el área de 0.475 y el resultado del valor de z será el mismo, para este ejemplo 1.96.

 

Solución 3:

Para la tabla en donde el área bajo la curva va desde z hasta :

Se busca el valor de 0.025 para encontrar z de 1.96.

Independientemente del valor del Nivel de Confianza este será el procedimiento a seguir para localizar a z. En el caso de que no se encuentre el valor exacto se tendrá que interpolar.

Page 41: Investigacion Unidad IV.docx

4.5 Determinación del tamaño de la muestra de una población

El tamaño de la muestra para un diseño de encuesta basado en una muestra aleatoria simple, puede calcularse mediante la siguiente fórmula:

n= z2 pqB2

Donde: n= Tamaño de la muestra,z= 1.96 para el 95% de confianza, 2.56 para el 99%p= Frecuencia esperada del factor a estudiarq= 1- pB= Precisión o error admitidoEl valor de n obtenido por esta fórmula indica el tamaño de la muestra para una población infinita, a efectos prácticos se considera población infinita cuando la muestra supone menos del 5% de la población total.

EJEMPLO 1:

Supongamos que se desea realizar una encuesta sobre la brucelosis ovina. Se estima una prevalencia del 15% y se requiere un 5% de precisión sobre una población de 2.000.000 de cabezas. El nivel de confianza se fija en el 95%.

Formula:

n= z2 pqB2

Datos:

Z= 1.96, p=0.15, q=0.85, B=0.05

n=1.962 ∙0.15 ∙0.850.052

n= .489804.0025

=196

∴n=196animales seleccionados

EJEMPLO 2:

Page 42: Investigacion Unidad IV.docx

En un proyecto realizado en una determinada comunidad se ha calculado que cerca del 30% (0,3) de los niños de la zona del proyecto padecen de malnutrición crónica. Este dato se basa en estadísticas nacionales sobre malnutrición en las zonas rurales. Si el nivel de confianza se fija en el 95%.

Formula:

n= z2 pqB2

Datos:Z= 1.96, p=0.30, q=0.70, B=0.05

n=1.962 ∙0.30 ∙0.700.052

n= .806736.0025

=323

∴n=323niños seleccionados

Page 43: Investigacion Unidad IV.docx

4.5 Intervalos de confianza para la media, con el uso de la distribución Normal y la “t” student

Distribución normal

EJEMPLO 1:

Se encuentra que la concentración promedio de zinc que se saca del agua a partir de la muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre el intervalo de confianza de 95% para la concentración media de zinc en el rio. Suponga que la desviación estándar de la población es de 0.3

Datos:x=2.6n=36 Z = .90/2=.475=1.96σ=.3

Formula:

μ=x ±z σ

√nμ=2.6±

(1.96 ) ( .3 )√36

=2.50 y 2.70

EJEMPLO 2: Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una distribución estándar de 40 horas. Si una muestra de 30 focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la población de todos los focos que produce esta empresa.

Datos:x=780n=30 Z = .96/2=.48=2.06σ=40

FORMULA:

μ=x ±z σ

√nμ=780±

(2.06 ) (40 )√30

=765 y 795

Page 44: Investigacion Unidad IV.docx

“t” student.

EJEMPLO 1:

Un fabricante de llantas desea investigar la durabilidad de sus productos. Una muestra de 10 llantas para recorrer 50000 millas revelo una media muestral de .32 pulgadas de cuerda restante con una desviación estándar de .09 pulgadas. Constituya un intervalo de confianza de 95% para la media poblacional.Datos:n=10x=.32S= .09∝=95 %

Formula:

μ=x ± t 1−∝/2 , n−1S

√nμ=.32± t 1−.95 /2,10−1

.09

√10

μ=.32± t .025,9.09

√10

μ=.32± t 2.262.09

√10μ=.32± .064μ= (.256 ,.384 )

EJEMPLO 2:

El dueño de una tienda de abarrotes desea estimar la cantidad madia que gastan los clientes que le consumen sus productos. Una muestra de 20 clientes revelo que gastan $50, con una desviación estándar de 9.01. Determine un intervalo de 95% de confianza para la media poblacional.Datos:n=20x=50S=9.01∝=95 %

Formula:

μ=x ± t 1−∝/2 , n−1S

√nμ=50± t 1−.95/2 ,20−1

9.01

√20

Page 45: Investigacion Unidad IV.docx

μ=50± t .025,199.01

√20

μ=50± t 2.0939.01

√20μ=50± 4.22μ= (45.78 ,54.22 )

Page 46: Investigacion Unidad IV.docx

4.5.1 Determinación de la muestra con grado de confianza y estimación de μ

Partiendo del primer ejemplo dado con la distribución “z” tenemos:

Datos:μ=2.6n=36 Z = .90/2=.475=1.96σ=.3

Formula:

IC=μ±z σ

√nIC=2.6±

(1.96 ) (.3 )√36

=2.50 y2.70

Para nuestro segundo ejemplo tomaremos los datos del ejemplo N°2 “z”:

Datos:μ=780n=30 Z = .96/2=.48=2.06σ=40

Formula:

IC=μ±z σ

√nIC=780±

(2.06 ) ( 40 )√30

=765 y795

Page 47: Investigacion Unidad IV.docx

4.6 Intervalo de confianza para la diferencia entre dos medias μ1−μ2 con σ 1

2 y σ22σ1

2=σ22 pero conocidas, con el uso de la distribución normal y la “t”

student

Si x1 y x2 son las medidas de muestras aleatorias independientes de tamaño μ1 y μ2 tomadas de poblaciones normales que tienen las medidas μ1y μ2 y la varianza σ 1

2

y σ 22, entonces x1−x2 es una variable aleatoria que tiene una distribución normal

con la media

μx1− x2=μ1−μ2

Y la varianza.

σ x1−x2

2 =σ 1

2

n1

+σ2

2

n2

Se deduce que

z=(x1−x2 )−(μ1−μ2 )

√ σ 12

n1

+σ2

2

n2

Tiene una distribución normal estándar. Sustituyendo esta expresión por z en:

P(−z a2

<z< z a2)=1−a

El método de pivotes nos lleva a

P[ (x1−x2 )−za /2 ∙√ σ12

n1

+σ2

2

n2

<μ1−μ2< (x1−x2 )+za /2 ∙√ σ12

n1

+σ2

2

n2

=1−a ]Y, por consiguiente, al siguiente intervalo de confianza de μ1−μ2 :(Intervalo de confianza para μ1−μ2, σ 1 y σ2 conocidas). Si x1 y x2 son valores de las medias de muestra aleatorias independientes de tamaño n1 y n2 tomadas de poblaciones normales con las varianzas conocidas σ 1

2 y σ22, un intervalo de

confianza del (1-) 100% para μ1−μ2 esta dado por

(x1−x2 )−za /2 ∙√ σ12

n1

+σ2

2

n2

<μ1−μ2<¿

Page 48: Investigacion Unidad IV.docx

Así mismo, en virtud del teorema del límite central, este resultado puede usarse con muestras aleatorias independientes de poblaciones no normales con las varianzas conocidas σ 1

2 y σ22, siempre que n1 y n2 sean lo suficientemente grandes,

esto es, cuando n1 y n2≥30

EJEMPLO 1:

Construya un intervalo de confianza del 94% de la diferencia real entre las duraciones en promedio de dos tipos de focos eléctricos, dado que una muestra tomada al azar de 40 focos de un tipo duro en promedio 418 horas de uso continuo y 50 focos de otra clase duraron en promedio 402 horas. Las desviaciones estándar de las poblaciones, según se sabe, son σ 1=26 y σ2=22.

Solución

Para =0.06, tenemos a partir de la tabla III que z .03=1.88 . por lo tanto, el intervalo de confianza del 94% de μ1−μ2 es

(418−402 )−1.88√ 262

40+ 222

50<μ1−μ2<¿¿

Que se reduce a

6.3<μ1−μ2<25.7

Por lo tanto, tenemos el 94% de confianza en que el intervalo de 6.3 a 25.7 contiene la diferencia verdadera entre las duraciones en promedio de los dos tipos de focos eléctricos. El hecho que ambos limites de confianza sean positivos sugiere que, en promedio, el primes tipo de focos es superior al del segundo tipo.

EJEMPLO 2.

Construya un intervalo de confianza de 94% de la diferencia real entre las duraciones en promedio de dos tipos de pilas, dado que una muestra tomada al azar de 50 focos de un tipo duro en promedio 518 horas de uso continuo y 60 pilas de otra clase duraron en promedio 502. Las desviaciones estándar de las poblaciones, según se sabe σ 1=36 y σ2=32

Solución:

Para = 0.06, tenemos a partir de la tabla z=1.88. Por lo tanto, el intervalo de confianza del 94 % de μ1−μ2 es:

(518−502 )−1.88 ∙√ 362

50+ 322

60<μ1−μ2<(518−502 )+1.88 ∙√ 362

50+ 322

60

Page 49: Investigacion Unidad IV.docx

Que se reduce a

Por lo tanto, tenemos el 94% de confianza en que el intervalo de 7.1 a 64.5 a contiene la diferencia verdadera entre las duraciones en promedio de los dos tipos de pilas. El hecho de que ambos límites de confianza sean positivos sugiere que, en promedio la primera pila es superior al segundo tipo.

Con el fin de sustituir un intervalo de confianza del (1-) 100% para μ1−μ2 cuando se desconoce σ 1 y σ2 pero n1 y n2≥30, sustituimos σ 1 y σ2 por los valores de las desviaciones estándar de la muestra s1 y s2 y continuamos como antes. El procedimiento de estimaciones de la diferencia entre dos medias, cuando se desconoce σ 1 y σ2 y los tamaños de la muestra son pequeños, no es directo a monos que las desviaciones estándar desconocidas de las dos poblaciones normales sean iguales. Si σ 1=σ2, entonces.

z=(x1−x2 )−(μ1−μ2)

σ√ 1n1

+ 1n2

Es una variable aleatoria que tiene una distribución normal estándar y σ 2 puede obtenerse ponderando las desviaciones cuadradas (o elevadas al cuadrado) de las medias de las dos muestras.

sp2 (n1−1 ) s1

2+(n2−1)s22

n1+n2−2

Es en realidad un estimador insesgado de σ 2. Ahora bien, por los teoremas 8.10 y

8.8, las variables aleatorias independientes (n1−1)s1

2

σ 2 y (n1−1)s2

2

σ 2 tiene

distribuciones ji cuadradas con n1−1 y n2−1 grados de libertad, y su sumas

y=(n1−1 ) s1

2

σ 2 +(n2−1) s2

2

σ 2 +(n1+n2−29)s p

2

σ2

Tienen una distribución ji cuadrada con n1+n2−2 grados de libertad. Como se puede demostrar que las variables aleatorias anteriores “z” y “y” son independientes, se deduce del teorema 8.11 que:

t= z

√ yn1+n2−2

Page 50: Investigacion Unidad IV.docx

¿ (x1−x2 )−¿¿

Tiene una distribución t con n1+n2−2 grados de libertad. Al sustituir esta expresión por t en:

P ¿

Y simplificándolo algebraicamente el resultado. Llegamos al siguiente intervalo de confianza del (1-) 100% para μ1−μ2 :

4.7 Una sola muestra: estimación de la proporción

La información de que suele disponerse al estimar una proporción es el número de veces, x, que un evento considerado ocurre en n ensayos, ocasiones y

observaciones. La intimación puntual misma suele ser la proporción muestral xn,

es decir, la proporción de las veces que el evento ocurrió en realidad. Si los n ensayos satisfacen las condiciones fundamentales de la distribución binomial citadas en la página 94, sabemos que la media y la desviación estándar del

número de éxitos están dadas por np y por √np (1−p ) . Si dividimos ambas

cantidades entre n, encontraremos que la media y la desviación estándar de la proporción de éxitos (es decir, de la proporción muestral) están dadas por.

npn

=p y √np(1−p)n

=√ p(1−p)n

El primero de estos resultados señala que la proporción muestral es un estimador insesgado del parámetro binomial p, es decir, de la proporción real que deseamos estimar a partir de una muestra.

Dado que los cálculos necesarios de complican, haremos una aproximación más

al sustituir xn

por p en √np(1−p). Esto produce

xn−zα /2 √ x

n(1− x

n)

n< p< x

n+ zα /2√ x

n(1− x

n)

n

Donde el nivel de confianza es de (1 - a) 100%.

Ejemplo 1:

Si x = 36 de n = 100 entrevistados están familiarizados con los incentivos en los impuestos que se ofrecen por instalar ciertos dispositivos para ahorrar energía,

Page 51: Investigacion Unidad IV.docx

constrúyase un intervalo con un nivel de confianza del 95% para la correspondiente proporción real.

Solución:

Sustituyendo xn= 36

100=0.36 y zα /2=1.96 en la fórmula anterior, se obtiene

0.36−196√ (0.36 )(0.64)100

< p < 0.36+196 √ (0.36 )(0.64)100

O bien

0.266< p<0.454

Tenemos el 95% de confianza de que p puede en el intervalo de 0.266 o 0.454. Nótese que, de habernos valido de la tabla 9ª), habríamos obtenido

0.27< p<0.46

La magnitud de error cometido cuando usamos xn

como una estimación de p está

dada por |xn−p|. Empleando nuevamente la distribución normal, podemos

asegurar con una probabilidad de 1 – a que la desigualdad.

|xn−p|≤ zα /2 √ p (1−p)n

Se cumplirá, es decir, que el error será lo mismo de zα /2 √ p (1−p)n

. Con xn

sustituido

por p, esto produce

Error máximo de Estimación E=Zα /2 √ x

n(1− x

n)

n

Ejemplo 2:

En una encuesta en una gran ciudad, 136 de 400 personas respondieron afirmativamente a la pregunta de si el servicio de transporte público es adecuado. Con una confianza del 99%, ¿qué se puede decir acerca del error máximo, si xn=139

400=0.34 se emplea como una estimación de la correspondiente proporcional

real?

Page 52: Investigacion Unidad IV.docx

Solución

Sustituyendo xn=136

400=0.34 y zα /2=2.575 en la fórmula anterior, se tiene que el error

es a lo sumo

E=2.575√ (0.34 )(0.66)400

=0.061

La fórmula anterior de R puede utilizarse también para determinar el tamaño muestral que es necesario para alcanzar un grado deseado de precisión. Despejando n, obtenemos

n=p (1−p)[ Zα /2

E ]2

Pero esta fórmula no puede utilizarse como se estableció, a menos de que tengamos alguna información acerca de la posible magnitud de p (con base en datos auxiliares; digamos, una muestra previa). Si no se dispone de tal

información, podemos valernos del hecho de que p (1−p ) es a lo sumo 14,

correspondiente a p=12, como puede mostrarse con métodos de cálculo

elemental. Por tanto, si

n=14 [ Zα /2

E ]2

Podemos asegurar con una probabilidad al menos de 1−α que el error al servirnos

de xn

como una estimación de p no excede a E; una vez obtenidos los datos,

podremos asegurar con una confianza al menos de 1−α que el error no sobrepasa E.

4.8 Tamaño de la muestra con una estimación de P y un grado de confianza (1−∎ )100 %

Donde za /2 es el valor z que corresponde a un área /2 en el extremo derecho de una distribución normal estándar z. puesto que se desconocen los valores de p y q, se estiman por medio de los mejores estimadores puntuales: p̂ y q̂ .se considera que el tamaño de la muestra es grande cuando es adecuada la aproximación normal a la distribución binomial; a saber, cuando n p̂>5 y n q̂>5.

Page 53: Investigacion Unidad IV.docx

p̂ ± za /2 √ pqn

EJEMPLO 1:

Una muestra aleatoria de 985 votantes “probables” – aquellos que votarían en las próximas elecciones—fue encuestada un “fonatón o encuesta telefónica” dirigido por el partido republicano. De los encuestados, 592 indicaron que piensan votar por el candidato republicano en la próxima elección. Construya un intervalo de confianza de 90% para p, la proporción de votantes probables en la población, que piensa votar por el candidato republicano. Con base en esta información, ¿concluirá que el candidato ganara la elección?Solución: la estimación puntual para pes entonces

p̂= xn=592

985=.601

Y el error estándar es:

√ p̂ q̂n

=¿√ ( .601 )(.399)985

=.016¿

El valor de z para un intervalo de confianza de 90% es el valor que tiene el área /2 =.05 en el extremo superior de la distribución de z obien z .05 = 1.645 de la tabla. El intervalo de confianza de 90% para p es entonces.

p̂ ±1.645√ p̂ q̂2

.601± .026

O .575< p<.627. Usted estima que el porcentaje de votantes probables del candidato republicano está entre 57.5 y 62.7%. ¿El candidato ganara la elección? Si se supone que necesita más de 50% de los votas para ganar, y puesto que los limites de confianza superior e inferior excede este valor mínimo podría decir que tiene 90% de confianza de que ganara el candidato.

EJEMPLO 2:

Una muestra aleatoria de 999 votantes “probables” aquellos que votarían en próximas elecciones que se van a realizar en el Tecnológico de Estudios Superiores del Oriente del Estado de México de la Licenciatura en Contaduría Pública con motivo del día del contador para elegir a su nueva jefa de carrera fueron encuestadas durante dos días por el grupo 4C11. De los encuestados, 659 indicaron que piensan votar por la jefa de carrera actual en las próximas elecciones. Construya un intervalo de confianza de 90% para p, la proporción de

Page 54: Investigacion Unidad IV.docx

votantes probables en la población, que piensa votar por la jefa de carrera actual. Con base en esta información. ¿Concluirá que la jefa de carrera ganará la elección?

Solución: La estimación para p es:

p̂=659999

=.659 1-.659= .341

Y el error estándar es:

√ p̂ q̂n

=√ ( .659 ) ( .341 )999

=.015

El valor z para un intervalo de confianza de 90% es el valor que tiene el ares /2=.05 en el extremo superior de la distribución de z, o bien z .05=1.645 de la tabla. El intervalo de confianza para p es entonces.

p̂ ±1.645√ p̂ q̂n

1.645 ∙.015=.025.659± .025.659+.025=.684.659−.025=.634O .634< p<.684 . usted estima que el porcentaje de votantes probables del la jefa de carrera está entre 63.4 y 68.4% la jefa de carrera actual será la ganadora.

Page 55: Investigacion Unidad IV.docx

BIBLIOGRAFIA

Estadística para administración y economía David R. Anderson, Dennis J. Sweeney y Thomas A. WilliamsEditorial International Thomson Learning225-227 páginas

Método estadístico aplicado a las ciencias socialesGene V. Glas, Julián C. StanleyEditorial Pretice HallPágina 243

Estadísticas matemáticas con aplicaciones John E. Freund, Ronald E. WalpoleEditorial Prendicehall Hispoamericana S.A380-385 páginas

Técnicas de muestreoWilliam G. CochranEditorial continental S.APágina 149

Probabilidades y aprobaciones y estadísticas Paul L. MeyerEditorial: Addison Wesley IberoamericanaPágina 316

Métodos estadísticos Said Infante G.I Guillermo P. Zarate de LaraEditorial Trillas335-337 páginas

Probabilidad y estadísticas para ingenieros Irwin R. Miller/ John E. FreundEditorial Prentice-Hall Hispoamericana S.A273-277 páginas

Introducción a la probabilidad y estadísticasWilliam Mendenhall, Robert J.Beaver, Barbara M. Beaver

Page 56: Investigacion Unidad IV.docx

Editorial Thomson308-311 Páginas

Page 57: Investigacion Unidad IV.docx