Modulo Version 2 Dani Brito_jorge Rondon

213
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA CONTENIDO DIDÁCTICO DEL CURSO: 100403 INFERENCIA ESTADISTICA 1 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA UNIDAD DE CIENCIAS BÁSICAS AUTOR JORGE ELIECER RONDON DURAN DANIS BRITO ROSADO 100403 INFERENCIA ESTADÍSTICA DANIS BRITO ROSADO (Director Nacional) LIDA ANGELICA VEGA Acreditador BOGOTÁ D.C. MAYO 2008

Transcript of Modulo Version 2 Dani Brito_jorge Rondon

Page 1: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

1

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA

UNIDAD DE CIENCIAS BÁSICAS

AUTOR

JORGE ELIECER RONDON DURAN

DANIS BRITO ROSADO

100403 – INFERENCIA ESTADÍSTICA

DANIS BRITO ROSADO (Director Nacional)

LIDA ANGELICA VEGA Acreditador

BOGOTÁ D.C. MAYO 2008

Page 2: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

2

COMITE DIRECTIVO Jaime Alberto Leal Afanador Rector

Gloria Herrera Vicerrectora Académica

Roberto Salazar ramos Vicerrector de Medios y mediaciones Pedagógicos

Maribel Córdoba Guerrero Secretaria General

Inferencia Estadística

Primera Versión

Copyright Universidad Nacional Abierta y a Distancia

ISBN

2008

Unidad de Ciencias Básicas UNAD

Page 3: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

3

CAMPOS DE FORMACIÓN Básica CRÉDITOS: 2 TRABAJO INDEPENDIENTE: 72 Horas

TIPO DE CURSO Teórico CÓDIGO:100403 ACOMPAÑAMIENTO TUTORIAL: 24 Horas

OBJETIVO GENERAL:

Que el estudiante comprenda, aplique y desarrolle la teoría y las técnicas de la inferencia estadística en diversos campos de su saber formativo, y que dicha aplicación se convierta en una herramienta de uso matemático para la toma de decisiones sobre hipótesis cuantitativas de datos, basado en la información extraída de una muestra.

OBJETIVOS ESPECÍFICOS:

Que el estudiante identifique las técnicas y procedimientos que se deben emplear para que las muestras sean representativas de la población que se pretende estudiar, de forma que los errores en la determinación de los parámetros de la población objeto de estudio sean mínimos.

Que el estudiante comprenda el comportamiento de una población a partir del análisis metódico de una muestra aleatoria de la misma, y que entienda que la inferencia inductiva de los parámetros estadísticos que estime sobre dicha muestra, conlleva un error, el cual es posible de ser cuantificado.

Conocer los criterios técnicos que hay que tener en cuenta antes de seleccionar un tamaño de muestra.

Identificar el tipo de muestreo de acuerdo a los objetivos del estudio.

Diferenciar y analizar las ventajas y desventajas de la estimación por intervalos de confianza y las pruebas de hipótesis.

Determinar la prueba o técnica apropiada a aplicar en las diferentes pruebas de hipótesis paramétricas y No paramétricas.

COMPETENCIA GENERAL DE APRENDIZAJE:

Identificar un procedimiento adecuado para seleccionar de una población una parte de ella, con el fin de obtener resultados confiables y poder generalizar los resultados obtenidos a toda la población.

Determinar los estadísticos necesarios para el análisis y solución de situaciones que implican conjuntos de datos de su disciplina de formación, por medio del

Page 4: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

4

conocimiento de la teoría elemental del muestreo y de las distribuciones muestrales.

Plantear y desarrollar el proceso de la inferencia estadística para resolver problemas concretos de investigación en el ámbito de otras disciplinas.

Aplicar apropiadamente los resultados teóricos y metodológicos de la inferencia estadística de estimación y prueba de hipótesis en el marco de la modelación.

Habilidad para planear una investigación, diseño de instrumentos, definición de variables, recolección de la información, resumen y presentación de los datos.

Page 5: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

5

UNIDADES DIDÁCTICAS:

UNIDAD UNO: MUESTREO, DISTRIBUCION MUESTRAL E INTERVALOS DE CONFIANZA

8

CAPÍTULO 1. TEOREMA GENERAL DE MUESTREO 9

Lección 1: Conceptos Cásicos 10

Lección 2: Clases de muestreo 15

Lección 3: Tipos de selección de muestras 26

Lección 4: Métodos de Inferencia: Paramétrico y No paramétrico 28

Lección 5: Estimadores y propiedades de los estimadores 29

Ejercicios 31

CAPÍTULO 2: DISTRIBUCIÓN MUESTRAL: 34

Lección 6: Distribución muestral de la media y de la Proporción 34

Lección 7: Distribución muestral de la diferencias de medias y de proporciones

40

Lección 8: Teorema Central del Límite 44

Lección 9: Tamaño de la muestra para estimar la media (µ), la Proporción y el total de la Población

50

Lección 10: Tamaño de la muestra para estimar la diferencia de medias y la diferencia de Proporciones

57

Ejercicios 59

CAPÍTULO 3. INTERVALOS DE CONFIANZA PARA UNA Y DOS POBLACIÓNES

61

Lección 11: Nociones Fundamentales 63

Lección 12: Intervalos de confianza para la media y la diferencia de medias y muestras grandes

74

Lección 13: Intervalos de confianza para la proporción y la diferencia de proporciones

81

Lección 14: Intervalos de confianza para medias y diferencia de medias y muestras pequeñas

84

Lección 15: Intervalos de confianza para la varianza 89

Ejercicios 91

Autoevaluación 94

Page 6: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

6

UNIDAD DOS: PRUEBAS DE HIPÓTESIS, ANÁLISIS DE VARIANZA Y ESTADÍSTICA NO PARAMÉTRICA

98

CAPÍTULO 4. PRUEBAS DE HIPOTESIS 99

Lección 16: Nociones fundamentales 100

Lección 17: Pruebas para la media y la diferencia de medias y muestras grandes

102

Lección 18: Pruebas para la proporción y la diferencia de proporciones 112

Lección 19: Pruebas para la media y la diferencia de medias y muestras pequeñas

120

Lección 20: Pruebas para la varianza 129

Ejercicios 131

CAPÍTULO 5. ANÁLISIS DE VARIANZA 144

Lección 21: Generalidades 145

Lección 22: Análisis de varianza de un factor 151

Lección 23: Comparación múltiple de medias maestrales 156

Lección 24: Análisis de varianza con dos factores 156

Lección 25: Análisis de varianza de dos factores con interacción 162

Ejercicios 178

CAPÍTULO 6. ESTADÍSTICA NO PARAMÉTRICA 200

Lección 26: Generalidades 201

Lección 27: Prueba de la Bondad de Ajuste χ2 202

Lección 28: Prueba bondad de ajuste Kolmogorov- Smirnov 202

Lección 29: Prueba de Rango Con signos: Wilcoxon 203

Lección 30: Prueba U de Man Whitney 204

Lección 31: Prueba de Kruskal Wallis. 204

Ejercicios 205

Autoevaluación 206

Page 7: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

7

INTRODUCCIÓN

El presente modulo esta dirigido a estudiantes de programas de pregrado que oferta la UNAD, bajo la modalidad de educación superior a distancia. El material esta estructurado en dos unidades que son las temáticas macro del curso académico. El contenido de cada una de las partes fue seleccionado, teniendo en cuenta los saberes mínimos que se esperaría debe alcanzar un estudiante de la Universidad Nacional Abierta y a Distancia en el campo de la Inferencia estadística. La propuesta permite que los estudiantes reconozcan los conocimientos mínimos del curso en mención, que le permita resolver situaciones propias del mismo y además, abordar posteriores temáticas que requieran de éstos conocimientos. Para el mejor aprovechamiento de este material, se recomienda que el estudiante posea como conocimientos previos: de estadística descriptiva y de la teoría de probabilidad. El modulo se caracteriza porque en cada lección se presentan ejemplos modelos del tema en estudio, al final de cada capitulo se exponen ejercicios con respuesta, que permite a los estudiantes contextualizarse en diversas áreas del conocimiento, con el fin de fortalecer las temáticas propias del curso. Al final de cada unidad se presenta una Autoevaluación de un nivel medio-alto, las cuales permiten verificar los alcances de los estudiantes en las temáticas analizadas y detectar las debilidades y así centrarse en éstas, con el fin de alcanzar las metas propuestas. Finalmente, el Material pretende servir como guía de aprendizaje autónomo, se recomienda apoyar este proceso por medio de lecturas especializadas, ayudas audiovisuales, visitas a sitios Web y prácticas de laboratorio; entre otros, así lograr una efectiva comprensión, interiorización y aplicación de las temáticas estudiadas.

Page 8: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

8

UNIDAD UNO

MUESTREO, DISTRIBUCIÓN MUESTRAL E INTERVALOS DE CONFIANZA

Page 9: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

9

CAPITULO UNO: PRINCIPIOS DE MUESTREO Introducción En los estudios de investigación lo primero que se define es el fenómeno a analizar, luego la población objeto de estudio, la cual puede ser finita cuando se conocen todos los elementos, o infinita cuando no se conocen todos los elementos de la misma. Desde estos puntos de vista analizar la población no es práctico, por tiempo y costos, lo que induce a seleccionar una muestra, cuya importancia radica en el proceso de consecución de datos que proporcionan la información suficiente y necesaria a cerca de la población, además que con la muestra se están utilizando menos recursos, debido a que sólo una parte de la población se encuentra bajo observación, lo que resulta significativamente beneficioso sobre todo cuando se trata de poblaciones grandes y dispersa.

Otro aspecto que justifica la decisión de tomar una muestra es en casos donde se debe destruir los elementos de ésta, por ejemplo cuando se desea identificar el grado de vacío de un producto enlatado, la resistencia de un material y otros.

En las encuestas de opinión sobre la preferencia de un producto se nota más claramente la utilidad de una muestra en contraste con la población, para conocer las preferencias de los consumidores y poder acomodar rápidamente el sistema de producción a dichos cambios. Objetivo general Que los estudiantes identifiquen los principios sobre población y muestra, métodos de muestreo, distribución de muestreo para medias, el teorema central del límite, aplicados al cálculo de tamaños de muestras pertinentes.

Objetivos específicos

Comprender los conceptos de población y muestra.

Identificar los diferentes diseños de muestreo y su utilidad en diferentes campos del saber.

Conceptuar una distribución muestra y calcular las estimaciones requeridas, la varianza y el error de estimación para los mismos.

Conocer y comprender los elementos del teorema central de límite y su utilidad.

Determinar un tamaño de muestra representativo tanto para medias como para proporciones.

Realizar aplicaciones en Excel y SPSS.

Page 10: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

10

Lección No 1: Conceptos Básicos

Dentro de la inferencia estadística, el proceso de muestreo permite que a partir de los resultados obtenidos al analizar una muestra, se pueda obtener conclusiones en cuanto a una o varias de las características o parámetros de una población. Esta área de la Estadística, ayuda a determinar la confiabilidad de la inferencia de que los fenómenos observados en la muestra ocurrirán también en la población de donde se selecciona la muestra. Es decir, sirve para estimar la eficacia del razonamiento inductivo con el cual se infiere que lo observado en una parte ser equivalente a lo observado en la población.

Las técnicas de muestreo son importantes en la medida que se utilice en forma adecuada para la situación que se requiera. De las técnicas más conocidas y utilizadas se tienen el Muestro Aleatorio Simple (M.A.S), Muestreo Aleatorio Estratificado (M.A.E), Muestro Sistemático (M.S) y Muestreo por Conglomerados (M.C). Se tratara de analizar estas técnicas, especialmente el M.A.S y M.A.E.

El Éxito en el desarrollo del curso en mención está en los buenos conocimientos previos en Estadística Descriptiva, Probabilidad y, algebra, Trigonometría y Geometría analítica. Lo anterior debido a que se debe predecir resultados o tomar decisiones que tienen un grado de incertidumbre o un grado de error que se debe definir de antemano. Población y muestra

Existe una serie de términos estadísticos básicos, que son muy utilizados y se requiere sean comprendidos para avanzar en otros temas o unidades, en esta sección se trataron los conceptos de población y muestra.

Figura 2.1 Población y muestra

Page 11: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

11

POBLACIÓN O UNIVERSO

Se considera a todo aquello sobre el que se desea hacer un estudio estadístico. Según el número de unidades, elementos o casos que la constituyen, la población puede ser finita o infinita.

Cuando el número de unidades que integra una población es muy grande, se puede considerar a ésta como una población infinita. La población finita es aquella conformada por un determinado o limitado número de elementos. El investigador define la población objeto de estudio en términos de espacio y tiempo, ya que de esta manera los resultados serán sobre la población definida en el espacio demarcado y en el tiempo definido. Por ejemplo que podemos decir de las siguientes poblaciones:

- Estudiantes del Programa de Ingeniería de Sistemas

- Estudiantes del programa de ingeniería de sistemas de la UNAD - Estudiantes del programa de Ingeniería de sistemas en la UNAD de los años 2.005, 2.006 y 2.007

Cuál de esas poblaciones estarán mejor definida? Analícelo con su grupo colaborativo y realicen las observaciones al respecto. El fin fundamental de la Inferencia Estadística es analizar algunas características de la población denominados parámetros. Entre los más importantes tenemos: N = Tamaño total de la población

Promedio Poblacional

2 Varianza Poblacional

Desviación estándar Poblacional

Total Poblacional p = Proporción Poblacional MUESTRA

Se considera una muestra al subconjunto representativo de la población, que ha sido seleccionada de manera técnica mediante un procedimiento denominado diseño de muestreo, para garantizar que dicha muestra es representativa de la población, es decir, que las unidades seleccionadas en la muestra mediante un proceso aleatorio, hayan tenido igual probabilidad de haber sido seleccionadas para el análisis. Entre los motivos que inducen a tomar una muestra aleatoria están:

Page 12: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

12

1. Naturaleza Destructiva: Existen casos donde se requiere destruir los elementos de la muestra para medir la característica, como es el caso de medir la resistencia de un material, el vacío de un producto enlatado, otros.

2. Imposibilidad Física de Medir Todos los Elementos de la Población: Se sabe que existen poblaciones muy grandes, consideradas infinitas y es casi imposible conocer todos los elementos de la misma.

3. Costos: Estudiar todos los elementos de la población es muy costoso, tanto en

tiempo como en dinero, por lo que es más rentable hacer un estudio Muestra.

4. Confiabilidad del Estudio Muestra: Esta demostrado con soporte matemático que una muestra representativa arroja resultados que permiten inferir sobre la población con una confiabilidad muy alta.

El objetivo fundamental del muestreo es Estimar los parámetros de la población a partir de algunos elementos cuyas mediciones se conocen como Estadísticos. Los estadísticos más utilizados por su importancia son: n = Tamaño de la muestra

X = Promedio de muestra

S 2 Varianza Muestra

S Desviación estándar Muestra

à Total Estimado p = Proporción Muestra

UNIDAD DE OBSERVACION: Son los elementos que se miden; es decir, sobre los que se toman los datos de las variables a medir. En el caso de los hogares, la unidad de observación serán las personas y en el caso de las llantas del automóvil, cada una serán las unidades de observación. MARCO DE MUESTREO: El marco de muestreo se considera el referente para identificar las unidades de observación, éste NO incluye todos los elementos de la población. Ejemplos de marcos de muestreo tenemos el directorio telefónico de una ciudad, como potenciales votantes, el registro de ventas de los últimos 5 años en una compañía comercializadora y muchos otros.

Page 13: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

13

ERROR DE MUESTREO:

En estadística se sabe que existen diferencias entre lo que se obtuvo en el estudio y lo que se esperaba. En el proceso de estimación es poco probable que la media Muestra sea idéntica a la media poblacional, igual para la varianza y la desviación estándar. El error de muestreo es la diferencia entre el estadístico y el parámetro.

à

Es el parámetro y à es el estadístico.

ERROR TOLERABLE:

Se considera el error tolerable al error máximo que se está dispuesto a aceptar y aún considerar que el muestreo ha alcanzado su objetivo. En todo estudio estadístico siempre se considera un error tolerable, partiendo del principio

que a menor error tolerable, mayor será el tamaño de la muestra. Si es el

parámetro y à es el estadístico, el error tolerable está determinado por B, donde:

error

à B

ERROR ESTANDAR

La desviación estándar de una distribución, en el muestreo de un estadístico, es frecuentemente llamada el error estándar del estadístico. Por ejemplo, la desviación estándar de las medias de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la media. De la misma manera, la desviación estándar de las proporciones de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la proporción. La diferencia entre los términos desviación estándar y error de estándar es que la primera se refiere a los valores originales, mientras que la segunda está relacionada con valores calculados.

Page 14: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

14

ESTADSTICO Un estadístico es una medida usada para describir alguna característica de una muestra, tal como una media aritmética, una mediana o una desviación estándar de una muestra. PARAMETRO

Una parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana o una desviación estándar de una población.

Cuando los dos nuevos términos de arriba son usados, por ejemplo, el proceso de estimación en inferencia estadística puede ser descrito como el proceso de estimar un parámetro a partir del estadístico correspondiente, tal como usar una media muestra (un estadístico) para estimar la media de la población (un parámetro). ETAPAS EN LA SELECCION DE LA MUESTRA El todo estudio de muestreo se debe definir las etapas que permiten su desarrollo.

Definición del Objeto de Estudio: Comprende la identificación del problema y el establecimiento de las metas que busca el estudio.

Marco de Muestreo: Establecimiento de una metodología para identificar los elementos que estarán en el muestreo, sus características y el modelo que los identifica.

Identificación de Variables: Es pertinente identificar las variables de estudio, para así definir la forma de medición que se haría.

Tamaño de la Muestra: Por medio del modelo de muestreo pertinente seleccionar la muestra representativa, sobre la que se realizarán las mediciones.

Unidad de Muestreo: Se debe extraer las unidades de muestreo según el modelo definido que determinan las n unidades maestrales de la población N.

Trabajo de Campo: Son todas las acciones necesarias para obtener la información, definiendo los costos, desplazamientos, herramientas física y logísticas para su realización. Análisis de Información: La información obtenida, requiere de un proceso estadístico, el cual puede ser descriptivo o inferencia, para el curso que nos

Page 15: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

15

ocupa se deben hacer los dos.

Resultados: Con el proceso desarrollado sobre los datos obtenidos, se procede a la emisión de los resultados y la confrontación con las metas propuestas para verificar el grado de eficiencia del trabajo realizado. Es pertinente saber presentar los resultados, ya que un buen trabajo que no se presente de la mejor manera, quedaría oscuro en su información.

Lección No 2: Clases de muestreo Con los conceptos previos que se han analizado, ahora corresponde estudiar las clases de muestreo. Los dos grandes grupos están enmarcados en las siguientes clases: - Muestreo probabilístico. - Muestreo no probabilístico.

Muestreo No Probabilístico. Son aquellos muestreos donde los elementos de la muestra se toman al azar, siendo imposible determinar el grado de representatividad de la muestra. Para el caso de una población homogénea, la representatividad de tal muestra puede considerarse satisfactoria. Por otra parte, en problemas comerciales diarios y en la toma de decisiones que a falta de tiempo no permiten disecar métodos de muestreo probabilístico hay que recurrir a este tipo de muestreo, donde el investigador conoce la población. Dentro del muestreo no probabilístico se conoce varios tipos: - Muestreo por conveniencia. - Muestreo por juicio - Muestreo Causa / Efecto - Muestreo por Cuotas - Muestreo de Poblaciones Móviles MUESTREO POR CONVENIENCIA

La muestra se determina por conveniencia, incorporando elemento en la muestra sin probabilidades especificadas o conocida de selección. Por ejemplo un profesor que se encuentra investigando una causa universitaria,

Page 16: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

16

puede usar alumnos voluntarios para formar la muestra, tan solo porque dispone fácilmente de ellos y participan como elementos a un costo pequeño o nulo. Tiene la ventaja de ser de fácil selección y recolección de sus datos. Tiene la desventaja de no poderse evaluar en su bondad de la muestra en función de la representatividad de la población, motivo por el cual se hace imposible inferir a cerca de la población correspondiente. MUESTREO POR JUICIO

En este método la persona por experiencia y capacidad selecciona a los individuos u otros elementos de la población, que supone son los más representativos de esa población. Por ejemplo un reportero puede muestrear uno o dos senadores, por considerar que ellos reflejan la opinión general de todos.

MUESTREO CAUSA / EFECTO Se realiza cuando no hay una población definida y se requiere tomar elementos para el estudio en cuestión, caso por el cual se toman los elementos disponibles.

MUESTREO POR CUOTAS: Cuando es necesario obtener una cantidad dada de elementos que constituyen una muestra proporcional a la población, se toman elementos hasta cubrir dicha cuota. El caso de tomar una cantidad de carros en una esquina para hacer un estudio sobre accidentalidad en dicho sitio. MUESTREO DE POBLACIONES MÓVILES: Método propio de poblaciones móviles como en estudios de migración ocurridos en un sitio determinado. El caso típico es con animales que migran, donde se hace captura-marca- recaptura. Muestreo probabilístico El muestreo aleatorio o muestreo probabilístico, es aquel en que cada uno de los elementos de la población objeto de estudio, tienen una probabilidad matemática conocida, y frecuentemente igual, para ser elegido en la muestra. Dentro del muestreo probabilístico o aleatorio existen cuatro métodos: 1. Muestreo aleatorio simple 2. Muestreo estratificado 3. Muestreo sistemático 4. Muestreo por conglomerados

Page 17: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

17

Una muestra se considera probabilística si cumple con las siguientes condiciones:

a) Se pueda definir un conjunto de muestras M1, M2, M3,Ö posibles derivados

del proceso de selección propuesta. Así se puede identificar que unidades de muestreo pertenecen a la muestra M1, M2,Ö

b) A cada muestra posible le debe corresponder una probabilidad de selección conocida P(S).

c) El proceso de selección garantiza que todos los elementos de la población

tienen una probabilidad P(yi)>0 de ser elegido en alguna muestra. d) La selección es un proceso aleatorio que garantiza que cada muestra

S tenga una probabilidad P(S) de ser elegida. Muestreo aleatorio simple El M A S es la forma más sencilla de muestreo probabilístico y es la base de técnicas más complejas. La muestra se puede tomar de una población finita o infinita, la cantidad de muestras posibles depende del tipo de diseño y la forma de tomar las muestras. Este tipo de muestreo se utiliza cuando se considera que la población es más o menos homogénea. Como ya sabemos el muestreo puede ser con y sin reemplazamiento. El marco de muestreo corresponde a la lista codificada de todas las observaciones que hacen parte de la población. La muestra se elige de tal manera que cada observación tiene la misma probabilidad de ser elegida, la elección de una observación NO tiene influencia sobre la elección de otra. Es de aclarar que en el M. A. S. La unidad de muestreo es igual a la unidad de observación. Para seleccionar los elementos de la muestra se puede utilizar varias técnicas: a) Tabla de números aleatorios: (Ver tabla siguiente). Se enumeran las

unidades que conforman la población objetivo de estudio, partiendo desde 01 hasta 99, desde 001 hasta 999, y así sucesivamente, dependiendo del tamaño poblacional. Luego se define el tamaño de la nuestra y como los elementos de la población están listados y codificados, entonces se establece un punto de partida: Columna ñ Fila y se van leyendo ya sea horizontal o verticalmente los números de la tabla hasta completar el tamaño de la muestra.

Page 18: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

18

Ejemplo 1:

Se desea obtener una muestra aleatoria de tamaño n = 10, los elementos de la población están codificados de 1 a 200. Solución:

Seleccionemos la fila 06 y columna 12345, como punto de inicio y la lectura la hacemos vertical. Se debe escoger los primeros tres dígitos que estén entre 1 y 200, hasta completar el tamaño de la muestra. La lectura será de los tres primeros dígitos de la tabla. Veamos: El primer número es 884, no se incluye, el segundo es 100, se incluye, el tercero es 007, se incluye, así sucesivamente. Por consiguiente la muestra ser·: n = 100, 007, 141, 151, 142, 128, 146, 042, 156, 134

Ejemplo 2:

Obtengamos una muestra aleatoria de 6 elementos de una población cuyos elementos están codificados de 01 a 50. Solución:

Elegimos el punto de inicio de la fila 08 y columna 67890. Lectura del primer dígito y lectura vertical. n = 9, 5, 1, 3, 7, 8

Page 19: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

19

Fuente: Web

Este método de selección permite que todos los elementos que constituyen la población tengan la misma posibilidad de ser incluidos en la muestra. Los

Page 20: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

20

elementos se escogen en forma individual y aleatoriamente de la totalidad de la población. Esta selección puede ser sin reemplazamiento, similar a la que se realiza en la extracción aleatoria de números en el juego denominado baloto. Cada elemento que constituye la muestra se selecciona una sola vez, denominándose extracciones sin reposición.

En otras ocasiones, cada elemento puede ser elegido más de una vez en la misma muestra, como por ejemplo, cuando se selecciona aleatoriamente el número ganador de una lotería, que puede ocurrir ser el mismo número; en estos casos se dice que las extracciones son realizadas con reposición.

Programa de Computador: Utilizando el programa Excel que es el más común se puede desarrollar números aleatorios de la siguiente manera:

Si la población es de N = 1.000 observaciones y se desea una muestra de 20, entonces: Sobre una celda se escribe =ALEATORIO ()*N y se da clic, el sistema genera el primer número aleatorio, se despliega en la parte inferior derecha de la celda del número hasta el tamaño de la muestra definida.

Al dar clic se genera el primer numero aleatorio y desplegando se obtiene los que se desea.

Sintaxis para obtener números aleatorios de una población de 1.000 observaciones

Page 21: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

21

De esta manera se obtiene los números aleatorios que se requieren para tomar la muestra aleatoria de la población objeto de estudio. Si se vuelve a hacer el proceso, se obtendrán nuevos números y cada que se realice un nuevo proceso, se generarán diferentes números; esto por lo de Aleatorio.

b) Método de Fan Muller: Se definen los números aleatorios Ó1, Ó2, Ó3,Ö independientes bajo la distribución uniforme u (0,1). Si Ók=1 < n / N. (Siendo N el tamaño de la población y n el tamaño de la muestra), entonces k = 1 es seleccionado para la muestra, en otro caso no. Para los siguientes números k = 2, 3, 4,Ö, nk los seleccionados deben cumplir

k = <

el proceso termina cuando nk = n. N ñ k + 1 es el marco muestral; es decir, el tamaño disponible. Los Ók son generados bajo la distribución uniforme y se comparan con (n ñ nk) / (N ñ k + 1).

c) Coordinado Negativo: El proceso general es de la siguiente manera:

- Se adiciona una variable aleatoria U con distribución uniforme U (0, 1) - Se ordena el marco muestral según la distribución U. - La muestra se forma de los n primeros elementos del marco ordenado

Muestreo Aleatorio Estratificado

En el diseño de muestreo probabilístico, es pertinente identificar la población

Primer numero aleatorio. Se despliega desde la parte inferior derecha hasta completar 20 elementos

n – n

N – k + 1

Page 22: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

22

objeto de estudio, ya que no siempre la variable de análisis es más o menos homogénea. Si se desea analizar la variable peso; por lo general los hombres pesan más que las mujeres, en estratos altos se paga más arriendo que en estratos bajos. En estos y otros muchos casos el M. A. S. no es adecuado. En casos donde la población es muy heterogénea respecto a la variable de estudio el muestreo estratificado es mejor que el muestreo aleatorio simple. La palabra estratificar hace referencia a formar Capias. Obtenidos los estratos, en cada uno se obtiene la muestra por M. A. S. para el estudio de la variable de interés.

La justificación de seleccionar una muestra por muestreo aleatorio estratificado más que por muestreo aleatorio simple son entre otras.

1. Evitar la obtención de muestras erróneas, tal es el caso de escoger

elementos que podrían sesgar el muestreo, por consiguiente se puede perder representatividad de la población.

2. Obtener información precisa de ciertos subgrupos para hacer comparaciones

3. Producir un límite de error de estimación (B) más pequeño, comparado con el

obtenido en el M.A.S. para un mismo tamaño de muestra. 4. Los costos por observación en las encuestas son más reducidos ya que

se evitan desplazamientos extremos. 5. Las estimaciones se obtienen por subgrupos así los estratos se hacen

identificables. Como los elementos de los estratos son disyuntos, entonces cada unidad de muestreo pertenece solo a un estrato. Las muestras seleccionadas en los estratos deben ser independientes; es decir, la elegida en un estrato no debe afectar la elección de otra muestra en otro estrato. La esencia de la estratificación es que ésta saca provecho de la homogeneidad conocida de las su poblaciones, de tal forma sólo se requieran muestras relativamente pequeñas para estimar las características de cada sub-población, estas estimaciones individuales pueden entonces ser fácilmente combinadas para producir una estimación de toda la población; además, la economía en el tamaño de la muestra, un valioso sub-producto del esquema de

DEFINICIÓN: Una muestra aleatoria estratificada se obtiene mediante la separación de los elementos de la población en subgrupos llamados ESTRATOS, los cuales son disyuntos.

Page 23: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

23

muestreo estratificado es que las estimaciones obtenidas para diferentes partes de la población se pueden usar posteriormente para hacer comparaciones.

Para una descripción general del muestreo aleatorio estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h su poblaciones o estratos de tamaños conocidos N1, N2,...,Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión.

Partiendo de la población o universo U cuyo tamaño es N, se definen NL estratos.

La media poblacional del estrato, la varianza poblacional del estrato, el total poblacional del estrato y el total poblacional, se obtiene de la siguiente manera: µi = 1= ti = t =

pl =µ

N = N1 + N2 +Ö+ NL

Nl = Tamaño del estrato l.

x l j = Valor de la observación j en el Estrato l.

µl = Media poblacional en el estrato l.

Û2

l = Varianza poblacional en el estrato l.

Ù l = Total poblacional en el estrato l.

p l = Proporción poblacional en el estrato l.

1

Nl Nl

j=l Xy (xiy - µi)

Nl - 1

Nl

J=l

Nl

Xy j=l tl

j=l N1

j=l

Xli 1

Nl Donde xli son los elementos j del estrato l que tiene la característica

Page 24: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

24

s

l

l

En cada estrato se obtiene una muestra aleatoria por M.A.S. Si tenemos el estrato l, se puede hacer el siguiente análisis. nl = Tamaño de la muestra en le estrato l

xl = Promedio muestral en el estrato l 2

= Varianza muestral en el estrato l

p = Proporción estimada del estrato l

=

sl=

pl =µ

Muestreo Sistemático Es utilizado por algunos contadores para revisar sumas, cuentas, inventarios, etc., por ser un método directo y económico. Consiste en seleccionar uno a uno, los elementos de la muestra en un orden determinado, dando un inicio aleatorio. La fracción de muestreo se establece por medio de la siguiente relación:

Ejemplo 1 De una población de 1.000 observaciones, se desea tomar una muestra de 10, cuales serían las observaciones que harían parte de la muestra sistemática.

1

Nl

Nl

j=l Xlj Donde lj son los elementos j del estrato l

Nl

j=l

(xij - i)2

Nl - 1

j=l

Xli 1

Nl = Elementos j del estrato l que tiene la característica

Donde: N = Tamaño de la población

N = Tamaño de la muestra

Page 25: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

25

Solución:

La fracción de muestreo es:

El primer elemento se selecciona aleatoriamente en el intervalo cero a cien, por ejemplo seleccionando el número 25, el segundo elemento que se selecciona es 125 (25+100), luego el 225 (125+100) y así sucesivamente, hasta completar la muestra de diez. Un problema específico del muestreo sistemático es la existencia de cualquier factor periódico o cíclico en la lista de la población que pudiera conducir a un error sistemático en los resultados muestrales. Ejemplo: Si en un hospital hay un universo de quince mil cien historias clínicas que están numeradas interrumpidamente y se desea tener una muestra equivalente al 10%, o sea, mil quinientas diez historias, ello significa que ha de tomarse una de cada 10, ya que (15.100 ˜1.510 = 10). La primera historia puede seleccionarse del primer grupo de 10. Si la primera historia seleccionada es la número 8 en la población, teniendo en cuenta que el ocho es un número cualquiera tomado aleatoriamente; la segunda ser· la 18= (8+10) la tercera ser· la 28 = (18 + 10), la cuarta ser· la 38 = (28 + 10), y así sucesivamente. La estimación y tamaño de muestra tiene un análisis similar al muestreo aleatorio simple M.A.S.

Muestreo Conglomerados Este es un método de muestreo aleatorio en el que los elementos de la población se dividen en forma natural en subgrupos, de tal forma que dentro de ellos sean lo más heterogéneo posible y entre ellos sean homogéneos, caso contrario al muestreo estratificado. Este tipo de muestreo se usa en particular cuando no se dispone de una lista detallada y enumerada de cada una de las unidades que conforman el universo y resulta muy complejo elaborarla. Se le denomina así debido a que en la selección de la muestra en lugar de escogerse cada unidad se procede a tomar los subgrupos o conjuntos de unidades, a los que se llama "conglomerados". Aunque quizá por ello se tienda a creer que es lo mismo que el estratificado, ambos se diferencian en que en los conglomerados los subconjuntos se dan en la vida real o ya están agrupados de esa manera; por ejemplo: Escuelas, tipos de Industrias, bloques de casas y otros. En el estratificado el investigador decide las agrupaciones que utilizar según la posible variabilidad de los fenómenos a

Page 26: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

26

estudiar; otra diferencia es que en este el investigador conoce la distribución de la variable, todo lo contrario que en el muestreo por conglomerado. El proceso se indica definiendo los conglomerados, después se seleccionan los subconjuntos a estudiar (o sea, que se realiza un muestreo de conglomerados); de estos seleccionados se procede a hacer el listado de las unidades que componen cada conglomerado, continuando posteriormente con la selección de las unidades que integrarán la muestra, siguiendo algunos de los métodos aleatorios indicados.

Si se desea hacer un estudio en las escuelas de educación primaria sobre un determinado fenómeno, inicialmente se seleccionan las escuelas que se estudiarán, de esas escuelas seleccionadas se determinan los grados o clases que deben incluir y posteriormente se escogen los alumnos, que serán las unidades de observación, utilizando uno de los métodos aleatorios. Se estima que las inferencias que se hacen en una muestra conglomerada no son tan confiables como las que se obtienen de un estudio hecho por muestreo aleatorio. Ejemplo:

Si un analista de la Secretaría de Salud necesita hacer un estudio de los servicios médico-asistenciales que reciben los trabajadores del área metropolitana, sería difícil obtener una lista de todos los trabajadores de la población objetivo. Sin embargo podría obtenerse una lista de las empresas y fábricas del área. Con esta lista, el analista puede tomar una muestra aleatoria de las empresas o fábricas, que representan conglomerados de trabajadores, y obtener la información de los servicios médicos que se les están prestando.

Lección No 3: Tipos de Selección de Muestras En el diseño Muestra hacemos referencia a la probabilidad de selección, la cual consiste en definir el valor de probabilidad de que una muestra dada sea seleccionada. En teoría de probabilidad existen dos tipos de selección: Selección con Reemplazamiento: Consiste en que los elementos seleccionados una vez medidos vuelven a la muestra, lo que hace que el espacio Muestra permanezca constante. Por lo anterior la ocurrencia de un evento no afecta la ocurrencia de otro, por lo que los eventos se consideran independientes.

Page 27: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

27

Ejemplo:

Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual será la probabilidad que al seleccionar dos bolas éstas sean blancas. Solución:

La probabilidad de que la primera sea negra es:

La probabilidad de que la segunda sea negra es:

Selección sin Reemplazamiento: Los elementos elegidos una vez la medición, estos NO vuelven a la muestra, lo que hace que el espacio muestral cambie a medida que se van tomado elementos de la muestra. Ejemplo:

Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual será la probabilidad que al seleccionar dos bolas estas sean blancas, la selección es sin reemplazamiento

Solución: La probabilidad de que la primera sea negra es: 4/9 La probabilidad de que la segunda sea negra es: 3/8

Recordemos que una vez elegida la primera, ésta vuelve a la muestra.

Ejemplo: Suponga que tenemos N = 4 unidades 1, 2, 3 y 5 en una población hipotética y desea seleccionar muestras con reemplazamiento y sin reemplazamiento de tamaño n=2

Solución: Para los propósitos de esta selección, los valores podrían ser el número de las personas que viven en cada una de cuatro unidades habitacionales que constituyen una población. Se realizará una comparación entre el muestreo aleatorio con y sin reemplazamiento para una muestra de tamaño n=2. Primero se listan todas las posibles muestras no ordenadas de tamaño n= 2.

Page 28: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

28

Lección No 4: Métodos de Inferencias: Paramétricos y No Paramétricos

Los procedimientos de inferencia permiten establecer conclusiones acerca de una población, a partir de las propiedades estudiadas en una muestra de ella. Además, como dichas conclusiones dependen de sucesos aleatorios, se les asociará un nivel de confianza o de verosimilitud.

Respecto de los objetivos que resuelven las técnicas de inferencia estadística

se clasifican en:

Métodos Paramétrico

Resuelve objetivos relacionados con parámetros de una población, tales como media, varianza, proporción etc. Estos modelos se apoyan en el conocimiento de la distribución de probabilidad asociada a dicha población aunque se desconozca algún parámetro de dicho modelo. Por ejemplo podemos suponer que el número de clientes atendidos por hora en una entidad bancaria sigue un modelo de Poisson pero de parámetro µ desconocido.

Para resolver un problema de inferencia paramétrico se utilizan dos tipos de

procedimientos:

Estimación: Puntual cuando obtenemos valores aproximados del parámetro

desconocido y una medida de error asociado; por Intervalos cuando obtenemos un rango de valores, que contiene el verdadero valor del parámetro con una probabilidad o confiabilidad prefijada.

Test de Hipótesis: Cuando aceptamos o rechazamos una hipótesis relacionada con uno o varios parámetros de una población desconocidos, con un cierto nivel de error prefijado.

Métodos no paramétrico

Los métodos no paramétricos se refieren a menudo como distribución libremente métodos pues no confían encendido asunciones que los datos están dibujados del dado distribución de la probabilidad. Resuelven situaciones relacionadas con el tipo de distribución de probabilidad asociada a la población de estudio u otros objetivos no relacionados directamente con parámetros.

Lo deseable en estos casos será buscar la inferencia en contrastes que sean válidos bajo un amplio rango de distribuciones de la población. Tales contrastes se denominan no paramétricos.

Page 29: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

29

El término no paramétrico no se significa implicar que tales modelos carecen totalmente parámetros, sino que el número y la naturaleza de los parámetros son flexibles y no fijados por adelantado.

Ventajas y Desventajas

Las pruebas no paramétricas no necesitan suposiciones respecto a la composición de los datos poblacionales. Las pruebas no paramétricas son de uso común:

1. Cuando no se cumplen las suposiciones requeridas por otras técnicas usadas, por lo general llamadas pruebas paramétricas.

2. Cuando es necesario usar un tamaño de muestra pequeño y no es posible verificar que se cumplan ciertas suposiciones clave.

3. Cuando se necesita convertir datos cualitativos a información útil para la toma de decisiones.

Existen muchos casos en los que se recogen datos medidos en una escala nominal u ordinal. Muchas aplicaciones de negocios involucran opiniones o sentimientos y esos datos se usan de manera cualitativa.

Las pruebas no paramétricas tienen varias ventajas sobre las pruebas paramétricas:

1. Por lo general, son fáciles de usar y entender. 2. Eliminan la necesidad de suposiciones restrictivas de las pruebas

paramétricas. 3. Se pueden usar con muestras pequeñas. 4. Se pueden usar con datos cualitativos.

También las pruebas no paramétricas tienen desventajas:

1. A veces, ignoran, desperdician o pierden información. 2. No son tan eficientes como las paramétricas.

Lección No 5: Estimadores y propiedades de los estimadores

El proceso de estimación conlleva a obtener un estimador que tenga ciertas condiciones deseables para hacer inferencia sobre el modelo de probabilidad que ha generado los datos. Entre los métodos de estimación de la estadística paramétrica, se tiene: Momentos, mínimos cuadrados y máxima verosimilitud. En temáticas posteriores se analizará lo referente a la

Page 30: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

30

estimación

Propiedades de un estimador:

El concepto de estimación de parámetros mediante la especificación de las propiedades que deben cumplir los estimadores y el desarrollo de técnicas apropiadas para implementar el proceso de estimación. Se utilizar· el punto de vista práctico de la teoría del muestreo, que considera un parámetro como una cantidad fija pero desconocida. Para evaluar la calidad de un estadígrafo como un estimador este debe cumplir las siguientes propiedades:

1. Insesgado:

El término in sesgado se refiere al hecho de que una media muestra es igual a un estimador no sesgado de la media de una población, porque la media de la distribución muestra de las medias muéstrales tomada de esa misma población es igual a la media de la población. Se puede decir que un estadígrafo es un estimador no sesgado, si en promedio tiende a asumir valores por encima de los valores que se están estimando, tan frecuentes como tienda a asumir valores que están por debajo del parámetro de la población que se estima.

2. Eficiencia:

La eficiencia se refiere al tamaño del error estándar del estadígrafo de la muestra. Si se comparan dos estadígrafos de una muestra del mismo tamaño y se desea decidir cual de los dos es el estimador más eficiente, se escogerá el estadígrafo que tenga el menor error estándar o desviación de la distribución muestra. Supóngase que se escoge una muestra de un tamaño dado y se decide cuando usar la media muestra o la mediana muestra para estimar la media de la población. Si se calcula el error estándar de la media muestra y se encuentra que es igual a 2.15 y luego se calcula el error estándar de la mediana muestra y se encuentra que es de 2.6, se podrá decir que la media muestra es un estimador más eficiente de la media de la población porque su error estándar es menor o con menos variación, tendrá una mayor oportunidad de producir un estimador más cercano al parámetro de la población bajo estudio.

3. Consistencia:

Un estadígrafo es un estimador consistente de un parámetro de la población si en la medida en que el tamaño de la muestra aumenta se está seguro de que el valor del estadígrafo se acerca al valor del parámetro de la población.

Page 31: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

31

Cuando un estimador es consistente, se vuelve más confiable tomando muestras grandes. De esta manera, cuando usted se preocupa por aumentar el tamaño de la muestra para obtener más información acerca de un parámetro de la población, debe primero encontrar si su estadígrafo es un estimador consistente, si no es así, usted desperdiciará dinero y tiempo al tomar muestras grandes. Ejercicios: 1

1. En un estudio por muestreo a un lote de envases para un medicamento, con una población de 8000 unidades, Se desea determinar la media de la capacidad de los envases en centímetros cúbicos. Se ha estimado que la desviación estándar es de 2 centímetros cúbicos. Si queremos tener una precisión de 0.25 centímetros cúbicos, Y un nivel de significación del 5%, equivalente a un nivel de confianza de 1.96. De que tamaño debe ser la muestra: R/ta: 238 frascos 2. En cierta cadena de centros comerciales trabajan 150 personas en el departamento de personal, 450 en el departamento de ventas, 200 en el de contabilidad y 100 en el de servicios al cliente. Con el objeto de realizar una encuesta laboral, se quiere seleccionar una muestra de 180 trabajadores. Qué número de trabajadores tendríamos que seleccionar en cada departamento atendiendo a un criterio de proporcionalidad R/ta: 30, 90, 40, 20 3. Suponga que se quiere estimar el número de días-hombre perdidos debido a accidentes de trabajo en un mes particular. Además se sabe que la mayor parte de dichos accidentes se presentan en los niveles operativo, técnico y administrativo. ¿Cual de los siguientes diseños de muestreo es el más aconsejable?: R/ta: Estratificado, identificando como estrato los niveles de trabajo 4. Supongamos que en la ciudad “T” hay 200 barrios. Si elegimos al azar dos de estos barrios, de manera que la muestra esté compuesta por todos los individuos de esos dos barrios. Se trata de de: T/ta: Por conglomerados 5. Se ha proyectado realizar una encuesta sobre el consumo de leche en las familias. El número de familias de la población es 6000 y el tamaño de la muestra 840, con la siguiente clasificación de profesión u oficio: Profesionales: 100 Comerciantes: 200

Page 32: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

32

Operarios: 2000 Agricultores: 600 Servicios Generales: 1900 Empleados: 1200 Cuantas familias de agricultores deben estar representados en la muestra. R/ta: 84 6. Supongamos que en la ciudad “T” hay 200 barrios. Si elegimos al azar dos de estos barrios, de manera que la muestra esté compuesta por todos los individuos de esos dos barrios. Se trata de de: R/ta: Muestreo por conglomerados 7. Con un nivel de confianza del 95% y un error de muestreo del 3%, se quiere estimar el verdadero promedio de consumo de agua diario y la verdadera proporción de familias compuestas por más de 3 miembros por unidad familiar, de una ciudad con 10.000 unidades familiares, durante un periodo estacional seco. Sí se sabe que en el mismo periodo del año anterior en un estudio realizado a través de un muestreo, el consumo promedio diario fue de 42, 5 metros cúbicos, con una variancia de 12,5. El tamaño de muestra necesario es: R/ta: 965 8. Se quiere obtener una muestra sistemática que seleccione estudiantes de un programa y CEAD de la UNAD que tiene 800 de ellos. La variable clave del estudio es dicotómica y se aduce que la proporción es del 20%, además, se quiere un error del 4% y una confiabilidad del 95%. R/ta: 2; 5; 8; 11; 14; 17;………. 9. Se realiza un estudio para estimar el porcentaje de ciudadanos del Bajo Cauca que están a favor de que su agua se trate con flúor. Qué tan grande debe ser una muestra si se desea tener una confianza de al menos 95% de que la estimación estará dentro del 2% del porcentaje real? Realice las consideraciones necesarias para calcular n R/ta: 2400 habitantes 10.En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de actividades de ocio que gustan más a sus habitantes. Para ello van a ser encuestados 100 individuos elegidos al azar. -Explicar qué procedimiento de selección sería más adecuado utilizar: muestreo con o sin reposición. ¿Por qué? R/ta: Sin reemplazamiento para que sea representativa. -Como los gustos cambian con la edad y se sabe que en el barrio viven 2.500 niños, 7.000 adultos y 500 ancianos, posteriormente se decide elegir la muestra

Page 33: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

33

anterior utilizando un muestreo estratificado. Determinar el tamaño muestral correspondiente a cada estrato. R/ta: 25 niños, 70 adultos y 5 ancianos. 11. En cierta cadena de centros comerciales trabajan 150 personas en el departamento de personal, 450 en el departamento de ventas, 200 en el departamento de contabilidad y 100 en el departamento de atención al cliente. Con objeto de realizar una encuesta laboral, se quiere seleccionar una muestra de 180 trabajadores. -¿Qué tipo de muestreo deberíamos utilizar para la selección de la muestra si queremos que incluya a trabajadores de los cuatro departamentos mencionados? R/ta: Utilizaremos un muestreo aleatorio estratificado, ya que queremos que haya representantes de cada uno de los departamentos. -¿Qué número de trabajadores tendríamos que seleccionar en cada departamento atendiendo a un criterio de proporcionalidad? R/ta: (30,90, 40, 20) 12. Se desea hacer una encuesta para determinar la proporción de familias que carecen de medios económicos para atender los problemas de salud. Existe la impresión de que esta proporción está próxima a 0´35. Se desea determinar un intervalo de confianza del 95% con un error de estimación de 0´05. ¿De qué tamaño debe tomarse la muestra? R/ta: n=350.

Page 34: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

34

CAPITULO DOS: DISTRIBUCIONES MUESTRALES

Como se ha señalado anteriormente, el propósito del muestreo es averiguar las características de la población en estudio, y cuando se diseña una muestra por uno de los modelos dados. Una distribución muestra es una distribución de probabilidad de un estadístico, calculado a partir de una muestra aleatoria de tamaño n, elegida de manera aleatoria de una población determinada, es decir, se está interesado en conocer una o más de las siguientes características:

La forma funcional.

La media

La desviación estándar

Lección No 6: Distribución Muestral de la Media y de la Proporción: Los estadísticos obtenidos en una muestra son variables aleatorias, por lo cual deben tener una distribución de probabilidad, así que la media muestral tiene una distribución. Supongamos que se tiene una muestra aleatoria de tamaño n observaciones,

tomada de una población normal ),( 2N cada observación X1 = 1, 2, 3, …, n

tendrá la misma distribución que la población de donde fue tomada la muestra. Teorema: -------------------------------------------------------------------------------------------------------

Sea n

XXXX n

...21 la media de la muestra aleatoria de tamaño n,

proveniente de una población infinita con media y varianza 2 .

Entonces: --------------------------------------------------------------------------------------------------------- Comentario:

Valor esperado de la media muestral es la media poblacional.

)(XE

)(XEn

XV2

)(

Page 35: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

35

La varianza del estimador es igual a la varianza poblacional dividida por el tamaño de la muestra.

El caso anterior es dado para cuando la población es infinita, pero se pueden presentar los casos donde se conoce la población; es decir, es finita. En estos casos se tiene el siguiente teorema. Teorema: -------------------------------------------------------------------------------------------------------

Sea n

XXXX n

...21 la media de la muestra aleatoria de tamaño n,

proveniente de una población finita de tamaño N con media y varianza 2 .

y Entonces: ---------------------------------------------------------------------------------------------------------

Comentario:

1

N

nN Se conoce como el factor de corrección para poblaciones finitas. Cuando

N es muy grande comparado con n, la diferencia se hace despreciable lo que origina que para poblaciones infinitas dicho factor de corrección se hace uno. Ejemplo:

Un Colegio tiene siete profesores, la retribución por hora cátedra es la que se muestra a continuación: Salario profesores

Profesor Salario $

1 2 3 4 5 6 7

7.000 7.000 8.000 8.000 7.000 8.000 9.000

Cuadro 2.3

nXV

2

)(

)(XE1

*)(2

N

nN

nXV

Page 36: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

36

Cuál es la media de la población?

Solución: Se sabe por los conocimientos de estadística descriptiva que:

N

i

ixN 1

1 Para i = 1, 2, …, 7

Entonces:

3.714.7$7

54000

7

9000800070008000800070007000

Cual será la varianza de dicha población.

Solución:

Al igual que el caso anterior, la varianza poblacional esta dada por:

N

i

ixN 1

22 )(1

Entonces:

85,699)3.77149000(...)3.77147000(7

1

1

222

N

i

Cuál es la distribución muestral de las medias para muestras de tamaño dos? Solución: Para determinar la distribución muestral de las medias, se seleccionaron todas las muestras posibles de tamaño 2, sabiendo que son sin reemplazamiento y que no interesa el orden de selección en la población. Se calculan las medias de cada muestra y se calcula la media de las medias maestrales. Para saber cuantas muestras posibles se pueden tomar, se utiliza la combinatoria, por los preceptos tomados: Sin repetición y no importa el orden.

21

2

42

2!5

!567

!2!5

!7

!2!27

!77

2

x

xx

xC

Page 37: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

37

El valor de 21, es el número de muestras tamaño 2 que se pueden formar de una población de 7 elementos. A continuación se indican las 21 muestras posibles y el valor de la media para cada una de las muestras:

Muestreo sin reemplazamiento y las medias Muestra Prof. Salario Media Muestra Prof. Salario Media

1 1 y 2 7000-7000 7000 12 3 y 4 8000-8000 8000 2 1 y 3 7000-8000 7500 13 3 y 5 8000-7000 7500 3 1 y 4 7000-8000 7500 14 3 y 6 8000-8000 8000 4 1 y 5 7000-7000 7000 15 3 y 7 8000-9000 8500 5 1 y 6 7000-8000 7500 16 4 y 5 8000-7000 7500 6 1 y 7 7000-9000 8000 17 4 y 6 8000-8000 8000 7 2 y 3 7000-8000 7500 18 4 y 7 8000-9000 8500 8 2 y 4 7000-8000 7500 19 5 y 6 7000-8000 7500 9 2 y 5 7000-7000 7000 20 5 y 7 7000-9000 8000

10 2 y 6 7000-8000 7500 21 6 y 7 8000-9000 8500 11 2 y 7 7000-9000 8000

Suma Total 162.000

Cuadro 2.4 En el cuadro siguiente se indica la distribución de probabilidad para el muestreo de medias, donde la sumatoria de todas las probabilidades es igual a uno:

Distribución de probabilidad

Media muestral Número de medias Probabilidad

7000 3 0.1429

7500 9 0.4285

8000 6 0.2857

8500 3 0.1429

Suma 21 1.0000

Cuadro 2.5

Cuál es la media de la distribución Muestral? Solución: La media de la distribución muestral de medias, se determina sumando las diferentes medias muestrales y dividiendo la suma entre el número de muestras. La media de todas las medias muestrales en general se expresa:

Page 38: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

38

muestras de totalNúmero

muestrales medias de Suma1

1

N

i

iXx

N

A partir de los datos:

30.714.7$21

000.162

X

Según lo obtenido podemos concluir: La media de la población es igual a la

media de las medias muestrales. X

Estas características se analizan en el siguiente apartado. Distribución Muestral de Medias: Poblaciones Finitas:

Las poblaciones finitas, tiene la característica de que N es conocido, al hacer la distribución muestral de las medias y muestreo sin reemplazamiento, se obtiene una gráfica de la distribución que presenta forma aproximadamente acampanada, lo cual se puede observar en la siguiente gráfica. Distribución muestral

Figura 2.3

Page 39: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

39

Distribución Muestral de Medias: Poblaciones No Finitas:

La gráfica de la distribución muestras de medias para poblaciones no finitas y muestreo con reemplazamiento tiene una distribución normal, tal como se puede observar a continuación:

Distribución muestral de medias

Figura 2.4 La tercera propiedad del teorema central del límite se expresa: No importa que distribución tenga la población, pero la distribución muestral de medias a partir de esa población, tiene una distribución normal.

Ejemplo:

La altura media de 400 alumnos de un plantel de secundaria es de 1,50 mts. Y su desviación típica es de 0,25 mts. Determinar la probabilidad de que en una muestra de 36 alumnos, la media sea superior a 1,60 mts.

Solución: P( X > 1,60) = ?

40,225,0

60,0

6

25,0

10,0

36

25,0

50,160,1

Z

4918,040,2 AZ

P = 0,5000 – 0,4918 = 0,0082 = 82%

Page 40: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

40

Distribución muestral de proporciones

En el análisis de una característica cualitativa o atributo, se emplea la proporción de éxitos y no el número de éxitos como en la distribución binomial.

Ahora, en vez de expresar la variable en términos de éxitos (X) nos referiremos, al número de atributos en la muestra (a) y lo dividimos por el tamaño de la muestra n:

n

ap i

NPAA i Total de elementos que presentan la característica en la

Población

PPp N

A

N

AP i

Proporción de elementos que presenta la

característica en la población

PN

ANQ

1 Proporción de elementos que no presenta la característica

1QP

PQP 2

Varianza de la proporción en la población

PQp Desviación estándar

n

PQ

n

p

p

Error estándar de la proporción

En muchos casos podemos utilizar la distribución normal para evaluar la distribución muestral de proporciones, siendo:

p

pp

n

PQ

PpZ

Page 41: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

41

Ejemplo:

Cuarenta y seis por ciento de los sindicatos del país están en contra de comerciar con la China Continental; ¿Cuál es la probabilidad de que en una encuesta a 100 sindicatos muestre que más del 52% tengan la misma posición?

Solución: P = 0,46 p = 0,52 n = 100 P(p>0,52) = ?

21,1

100

2484,0

06,0

100

54,046,0

46,052,0

n

PQ

PpZ

1131,03869,021,1 AZ

pP( > %31,11)52,0

Lección No 7: Distribución Muestral de Diferencias de medias y de proporciones

Distribución muestral de diferencias de dos medias

Se tienen dos poblaciones independientes identificadas la primera por X y la

segunda por Y, de tamaño y , cuyas medias se simbolizan por y , y

sus desviaciones típicas son y . Se obtiene un número (M) de pares de

muestras. Las medias muéstrales de la primera población se identifican por ; ; … . Y las muestras de la segunda variable por ; ; … .

Ahora, si consideramos las diferencias para cada par, la media aritmética de

dichas diferencias se simbolizará por , donde:

Se puede demostrar que la media de la diferencia de todos los pares de medias muéstrales posibles, es igual a la diferencia entre las medias poblacionales

La desviación típica de las diferencias entre los pares de medias muéstrales se simboliza por:

Page 42: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

42

Se puede considerar que la desviación típica de las diferencias entre los pares de medias muéstrales, denominado como error estándar de las diferencias entre las medias muéstrales, es igual a:

siendo:

ó

Suponiendo que la distribución de diferencias entre las medias muéstrales tenga un comportamiento similar a la distribución normal, la variante estadística estará dada por la fórmula:

2

2

1

2

nn

yxyxZ

yx

yx

yx

yx

Se puede aplicar esta distribución cuando no se conocen las varianzas

poblacionales 2

x y 2

y , las cuales pueden ser sustituidas por varianzas

muéstrales 2

xs y 2

ys siempre y cuando que 1n y 2n sean mayores que 30.

Ejemplo:

El rendimiento de los autos de la marca A es de 20 kilómetros por galón de

gasolina, con una desviación estándar de 6 k.p.g. las cifras comparables para los autos B son de 25 y 5,5 k.p.g. se supone que el rendimiento de cada una de

ambas marcas está normalmente distribuido. ¿cuál es la probabilidad de que en un concurso, el rendimiento medio para 10 autos de la marca A sea mayor que el de 9 autos de la marca B?

Solución: x = 20 y = 25 x = 6 y = 5,5 1n = 10 2n = 9

P( yx > 0) = ?

Page 43: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

43

90,1

96,6

5

36,36,3

50

9

25,30

10

36

25200

Z

4713,090,1 AZ

P( yx > 0) = 0,5000 - 0,4713 = 0,0287 = 2,87%

Distribución muestral de diferencias de dos proporciones

En el caso de dos poblaciones independientes de tamaño 1N y 2N , distribuidas

binomialmente, con parámetros, medias poblacionales 1P y 2P (también se

pueden representar las medias por 1P y

2P ) y desviaciones proporcionales 1P

y 2P , siendo:

111QPP y 222

QPP .

El error estándar de las diferencias entre las dos medias proporcionales estará dada por:

2

22

1

11

21 n

QP

n

QPPP Cuando son valores poblacionales

Cuando 1n y 2n corresponden a muestras grandes, es decir, ambas superiores

a 30:

2

22

1

11

21 n

qp

n

qps PP

La media de las diferencias entre dos medias proporcionales, se simboliza por:

212121PPPPPP

La variante estadística Z, estará dada en la misma forma en que fue presentada para diferencias entre dos medias muéstrales:

Page 44: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

44

2

22

1

11

2121

2

22

1

11

21 21

n

qp

n

qp

PPpp

n

QP

n

QP

ppZ

PP

cuando 1n y 2n > 30

Ejemplo:

Consideremos dos máquinas que producen un determinado artículo, la primera produce por término medio un 14% de artículos defectuosos, en tanto que otra, produce el 20% de artículos defectuosos; si se obtienen muestras de 200 unidades en la primera y 100 unidades en la segunda, ¿Cuál es la probabilidad que difiera A de B en 8% o más?

Solución: P( 08,021 PP ) = ? 1n = 200 2n = 100 1P = 0,14 2P = 0,20

21 PP = 0,14 – 0,20 = -0.06

21 pp = 8% = 0,08

98,2

047,0

14,0

100

8,02,0

200

86,0014

06,008,0

Z

4986,098,2 AZ

P( 08,021 PP ) = 0,5000 – 0,4986 = 0,0014 = 0,14%

Lección No 8: Teorema central del límite.

En el caso de una población con media y varianza 2 , la distribución muestral

de medias de todas las muestras posibles de tamaño n a partir de la población, tendrá una distribución aproximadamente normal (siendo la media de la

distribución muestral igual a y la varianza igual a n/2 ) considerando que el

tamaño de la muestra es bastante grande. El teorema central del límite es uno de los teoremas más importantes dentro de las ciencias estadísticas, ya que su funcionalidad es muy grande.

Page 45: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

45

Hay que destacar aspectos importantes del teorema central de límite.

Si el tamaño de la muestra n es suficientemente grande, la distribución muestral de las medias será más o menos normal. Esto se cumple ya sea que la población esté o no distribuida normalmente. Esto es, el teorema se verifica, ya sea que la población esté distribuida en forma normal, o bien sea sesgada o uniforme.

Como se mostró con anterioridad, la media de la población, , y la media de

todas las medias muestrales posibles, x , son iguales. Si la población es

grande y se selecciona un número grande de muestras de la población, la media de las medias muestrales se aproximará a la media poblacional.

La varianza de la distribución de medias muestrales se determina de n/2 .

No existe acuerdo general sobre lo que constituye un tamaño de muestra “suficientemente grande”. Algunos estadísticos consideran que es 30; otros piensan que un número pequeño como 12 es adecuado. El ejemplo sobre los salarios por hora de todos los profesores del colegio funcionó bastante bien con una muestra de 2. Sin embargo, a menos que la población sea aproximadamente normal, los tamaños de muestra así de pequeños, por lo general no dan como resultado una distribución muestral que se distribuya normalmente. A medida que el tamaño de la muestra se vuelve cada vez más grande, la distribución de la media muestral se aproxima más a la distribución normal con forma de campana. Ejemplo:

Suponga que se tiene una población conformada por 5 empleados de una empresa (N = 5), y la variable de interés es el número de años de experiencia

laboral de cada empleado. Los datos de la población son: 5,4,3,2,1iX

TEOREMA CENTRAL DEL LÍMITE:

Sea X1, X2,…, Xn una variable aleatoria independiente e idénticamente

distribuida de una población infinita con media µ y varianza σ2. Para σ

2< ∞,

Entonces:

n

XZ

Presenta una distribución Normal estándar.

O sea: )1,0(nZ

Page 46: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

46

Muestreo sin Reemplazamiento:

1. Determine la media y la desviación estándar para la población.

Solución:

a) Para este caso la media poblacional se obtiene así:

35

543211

1

N

i

ixN

Promedio de años de experiencia por empleado. b) La desviación estándar de la población: Primero calculamos la varianza y

luego la desviación:

999.1)35(...)32()31(5

1)(

1 222

1

22

N

i

ixN

Ahora extraemos la raíz cuadrado a la varianza y obtenemos la desviación estándar.

414.1

2. Seleccione ahora todas las muestras posibles de tamaño dos, sin

reemplazamiento (poblaciones finitas): Solución: Recordemos que cuando el muestreo es sin reemplazamiento y no interesa el orden, entonces tenemos una combinatoria.

!!

!

xnnN

NC N

N

Reemplazando:

102!3

!345

!2!3

!5

!2!25

!55

2

x

xx

xC

Se tiene 10 muestras posibles de tamaño dos. Las posibles muestras se indican a continuación:

Page 47: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

47

Posibles muestras y su media

Muestra Media Muestral X Muestra Media Muestral X

1 - 2 1 – 3 1 – 4 1 – 5 2 – 3

1.5 2.0 2.5 3.0 2.5

2 – 4 2 – 5 3– 4 3– 5 4 - 5

3.0 3.5 3.5 4.0 4.5

Cuadro 2.6

3. Determine el promedio de la distribución muestral de medias.

Solución:

En la segunda y cuarta columna del cuadro 2.6 están las medias de todas las muestras posibles, lo que se debe hacer es sumarlas y dividirlas por en número de medias.

310

5.40.45.35.30.35.20.35.20.25.1

X

Con la información anterior se logra demostrar el primer principio del teorema central del límite, que consiste en que el promedio de la población es igual al

promedio de la distribución muestral de medias: 3X

Observe que dicho principio se ha cumplido, en consideración a que el promedio de años de experiencia para la población es de tres y el promedio de la distribución muestral de medias es igual también a tres. 4. Determine la desviación estándar de la distribución muestral de medias. Solución: Como siempre primero calculamos la varianza y luego la desviación estándar.

7499.0

10

0.35.430.235.1222

2

2

n

XX

X

Page 48: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

48

Ahora extrayendo raíz cuadrado a la varianza, obtenemos la desviación estándar.

8660.07499.0 X

Observemos que la desviación estándar de la población (1.4142) es diferente a la desviación estándar de la distribución muestral de medias (0.8660), y una forma de corregir esta diferencia es mediante la siguiente igualdad:

1

N

nN

nX

Donde:

X Desviación estándar de la distribución muestral de medias.

Desviación estándar de la población.

n Tamaño de la muestra.

N Tamaño de la población.

1

N

nN Factor de corrección para poblaciones finitas.

Reemplazando los valores correspondientes se tiene:

8660,015

25

2

4142,1

x

El segundo principio del teorema central del límite para poblaciones finitas se expresa: La desviación estándar de la distribución muestral de medias es igual al factor de corrección poblacional multiplicada por la relación entre la desviación estándar poblacional y la raíz cuadrada del tamaño de la muestra. Dicho principio queda demostrado con la relación anterior. Muestreo con Reemplazamiento: Ahora, cuando el muestreo se realiza para poblaciones finitas, y con reemplazamiento, el número de muestras posibles esta dada por:

nN Para N = Tamaño de la población y n = Tamaño de la muestra

1. Hallar el número de muestras posibles con reemplazamiento de tamaño dos, para el problema anterior.

Page 49: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

49

Solución:

El número de muestras de tamaño dos es: 2552 nN

Número de muestras con Reemplazamiento

muestra Muestra Media muestral muestra Muestra Media muestral

1 2 3 4 5 6 7 8 9

10 11 12 13

1-1 1-2 1-3 1-4 1-5 2-1 2-2 2-3 2-4 2-5 3-1 3-2 3-3

1.0 1.5 2.0 2.5 3.0 1.5 2.0 2.5 3.0 3.5 2.0 2.5 3.0

14 15 16 17 18 19 20 21 22 23 24 25

3-4 3-5 4-1 4-2 4-3 4-4 4-5 5-1 5-2 5-3 5-4 5-5

3.5 4.0 2.5 3.0 3.5 4.0 4.5 3.0 3.5 4.0 4.5 5.0

Cuadro 2.7 2. Determine la media de la distribución muestral de medias.

Solución:

Con lo estudiado:

325

0.55.40.45.20.25.10.1

X

El primer principio se mantiene, en el sentido, que la media poblacional es igual a la media de la distribución muestral de medias. 3. Determine la desviación estándar de la distribución muestral de medias.

Solución:

Como ya conocemos la forma de calcular dicha desviación, procedemos:

Page 50: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

50

0.1

25

0.30.50.35.435.1312222

2

n

XX

X

Observe que la desviación estándar de la población (1.4142) sigue siendo diferente a la desviación estándar de la distribución muestral de medias (1.0) La forma de corregir esta diferencia para poblaciones no finitas es mediante la siguiente igualdad:

nX

Corrección para poblaciones no finitas

Reemplazando en el caso que nos ocupa: 12

41421356.1x

Para poblaciones no finitas, el segundo principio de teorema del límite central se expresa: La desviación estándar de la distribución muestral de medias es igual a la desviación estándar poblacional dividida entre la raíz cuadrada del tamaño de la muestra.

Lección No 9: Tamaño de la Muestra para estimar la media µ, la Proporción y el Total de población: Tamaño de muestra para estima la media µ En el apartado anterior se analizó la forma de estimar los parámetros de la

población: P 2 Promedio, Varianza, total y proporción poblacional

respectivamente. Pero siempre que se realiza una investigación se debe definir el tamaño de la muestra. Tomar observaciones para una muestra cuesta dinero, por lo cual se debe tomar la muestra adecuada, que de la información necesaria y a costos razonables. Una muestra mal tomada arroja información inadecuada, lo que hace perder tiempo y dinero. Determinar el número de observaciones que harán parte de la muestra, para estimar µ, con un límite de estimación B definido, se obtiene a partir de la ecuación del error de estimación. Para poblaciones Finitas y Varianza Poblacional Conocida:

Page 51: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

51

1

2

)2/1(N

nN

nZB

Despejando n, se obtiene:

222

22

)2/1(

)1(

ZBN

NZn

Nota: Estimado Estudiante hacer el ejercicio de despejar n es muy interesante. Para Poblaciones Infinitas y Varianza Poblacional Conocida: Cuando N es muy grande, se asume una población infinita, en estos casos N – 1 se aproxima a N, entonces N – n ~ N, así se puede obtener el tamaño de una muestra para poblaciones infinitas.

nZB

2

)2/1(

Entonces:

2

22

)2/1(

B

Zn

Ejemplo: En un estudio sobre el tamaño de las manos para el diseño de guantes, se estableció que la longitud de estas sigue una distribución normal. Por datos conocidos se sabe que la desviación típica es de 1,5 cm. ¿Cuál será el tamaño de la muestra para estimar el promedio de la longitud de los guantes, si se asume un error de estimación de 0,5 cm. y un nivel de significancia del 5%? Solución: Z(1-α/2)=Z0,975 = 1,96 B = 0,5 y σ = 1,5 Según el problema la población es infinita, entonces:

57,34)5,0(

)5,1()96,1(2

22

2

2

)2/1(

B

Zn

Page 52: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

52

En tamaño requerido para estimar la media de la longitud de los guantes, con un error de estimación de 0,5 cm. y un nivel de significancia del 5% debe ser de n = 35 observaciones. Ejemplo: Un Banco desea identificar el promedio de cuentas por cobrar, estudios previos han determinado que la variación de las cuentas está en $1.000. El Banco cuenta con 1.400 clientes activos. Si el límite de error de estimación es de $50 ¿Cuál debe ser el tamaño de la muestra a un nivel de significancia del 5%? Solución: Se trata de una población finita. Por teoría la amplitud de variación es 4 veces la desviación típica: A = 4σ entonces: σ = A/4 = 1.000/4 = 250 Z(1-α/2) = Z0,975 = 1,96

222

22

222

22

)2/1(

)250()96,1()50)(11400(

400.1)250()96,1(

)1(

ZBN

NZn

93,89100.240500.497'3

000.140'336

)250()96,1()50)(11400(

400.1)250()96,1(222

22

n

En las condiciones dadas, la muestra debe ser de n = 90 cuentas.

Tamaño de la Muestra para estimar P: En muchos estudios el Investigador esta interesado en estimar la proporción de población que tienen la característica, como la proporción de dietas preparadas del total de dietas planeadas, la proporción de aves con un peso definido respecto al total de aves pesadas, el porcentaje de personas que observan un programa de televisión respecto al total de la población potencial que puede ver la televisión. Dichos fenómenos son de tipo binomial.

Se sabe que:

n

i

iyn

p1

1 Para yi = 1.

Page 53: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

53

El número de observaciones necesarias para estimar la proporción poblacional, con un límite de error de estimación asumido B y un nivel de significancia definido, esta dado a partir de la ecuación del error de estimación.

N

nN

n

qpZB

1

*)2/1(

Despejando n se obtiene:

qpZNB

NBNqpZn

*

*2

)2/1(

2

22

)2/1(

NOTA: Cuando no se conoce o no se puede determinar el valor de p, entonces se asume como un caso dudoso y en estos casos p = 0,5 Ejemplo 1: En una ciudad se desea realizar una encuesta para determinar la proporción de habitantes que están de acuerdo con el consumo de cigarrillo. La ciudad tiene 7.500 habitantes y por estudios previos se ha determinado que de cada 100 habitantes, 15 están de acuerdo. ¿Cuál debe ser el tamaño de la muestra para estimar la proporción poblacional P; con un límite de error de estimación de 0,05 y un nivel de significancia del 5%. Solución: Por los datos:

15,0100

15p

Luego 85,015,01 q

Aplicando la ecuación correspondiente:

)85,0)(15,0()96,1()05,0)(500.7(

)05,0)(500.7()500.7)(85,0)(15,0()96,1(

*

*22

22

2

)2/1(

2

22

)2/1(

qpZNB

NBNqpZn

4898,075,18

75,1853,3673

)85,0)(15,0()96,1()05,0)(500.7(

)05,0)(500.7()500.7)(85,0)(15,0()96,1(22

22

n

908,1912398,19

28,3692

4898,075,18

75,1853,3673

n

Page 54: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

54

Por consiguiente se debe tomar una muestra de 192 habitantes para estimar la proporción poblacional, con un límite de error de 0,05 y un nivel de confianza de 95%. Ejemplo: En una compañía de 3.500 empleados, se desea saber la proporción de empleados que están a favor de la organización de un Sindicato. El investigador tomo una muestra de 400 empleados fruto del cálculo respectivo; además, asume un nivel del 5%. Por ser una compañía relativamente nueva, NO hay datos al respecto. ¿De que valor fue tomado el error de estimación del muestreo? Solución: Inicialmente por no conocer proporciones anteriores, entonces se asume un fenómeno dudoso, así p = 0,5 luego q = 0,5. Conocemos el tamaño de la población y de la muestra. Debemos despejar B de la ecuación del tamaño muestral.

qpZNB

NBNqpZn

*

*2

)2/1(

2

22

)2/1(

Despejando B:

500.3500.3*400

000.4*5,0*5,0*)96,1(500.3*5,0*5,0*)96,1(** 222

)2/1(

2

)2/1(2

NnN

nqpZNqpZB

002132,0500.396'1

24,977.2

500.3500.3*400

000.4*5,0*5,0*)96,1(500.3*5,0*5,0*)96,1( 222

B

04617,0002132,0 B

El error de estimación tomado fue casi de 0,04617, es decir casi 0,05

Ejemplos:

1. El mantenimiento de cuentas puede resultar demasiado costoso, si el promedio de compra por cuenta baja de cierto nivel. El gerente de un gran almacén por departamentos desea estimar el promedio de lo comprado mensualmente por los clientes que usan la cuenta de crédito, con un error de $1.500, y una probabilidad aproximada de 0,95. ¿Cuántas cuentas deberá

Page 55: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

55

seleccionar, si sabe que la desviación estándar es de $30.000, la cual fue obtenida de los balances mensuales de la cuenta de crédito?

n = 2

22

E

Z =

2

22

500.1

000.302 = 1.600 cuentas se deben seleccionar

2. Un auditor desea tener un nivel de confianza del 95%, para que la verdadera proporción de error no exceda del 2%. Si la población es muy grande, ¿Qué tamaño tendrá la muestra que va a tomarse, si el auditor estima que la proporción de error es del 5%?

n = 2

2

E

PQZ =

2

2

02,0

95,005,02 = 475 cuentas

Calculo de n en poblaciones finitas

La formula más utilizada para el tamaño óptimo en el muestreo aleatorio simple, cuando la población es finita, se obtiene:

n =

N

n

n

o

o

1

donde: 2

22

E

Zno

En variables

n =

N

n

n

o

o

1

donde: 2

2

E

PQZno En proporciones

Tamaño de la Muestra para estimar Г: El número de observaciones necesarias para estimar Г, el total poblacional, con un límite de error de estimación asumido B y un nivel de significancia definido, esta dado a partir de la ecuación del error de estimación, partiendo que se conoce la varianza poblacional.

1

22

)2/1(N

nN

nNZB

Despejando n se obtiene:

Page 56: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

56

222

)2/1(

2

232

)2/1(

)1( NZBN

NZn

Ejemplo: Una compañía que hace estudios a nivel social, desea estimar el total de ingresos de una población de 3.000 habitantes que tiene ingresos. Por estudios previos se sabe que la varianza poblacional para los ingresos es de $40.000 ¿Cuántas personas se deben tomar como muestra, si se asume un límite de error de estimación de $100.000 y un nivel de confianza del 95%? Solución: Los datos: N = 3.000 σ2 = 40.000 B = 100.000 Entonces:

222

)2/1(

2

232

)2/1(

)1( NZBN

NZn

Para Z(1-α/2) = Z0,975 = 1,96 Reemplazando en la ecuación:

000.40)000.3()96,1()000.100)(1000.40(

000.40)000.3()96,1(222

32

n

281,71001372976,4

109225,2

10382976,1109999,3

10148928,414

15

1214

15

X

X

XX

Xn

Por consiguiente para estimar el promedio de ingresos de la población objeto de estudio, con un nivel de confianza del 95% y el error de estimación de $40.000, se debe tomar una muestra aleatoria de 8 personas.

Page 57: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

57

Lección No 10: Tamaño de muestra para la diferencia de dos medias y para la diferencia de dos proporciones:

Tamaño de muestra para la diferencia de dos medias Para calcular los tamaños de muestras en estos casos, se presentan dos situaciones:

Tamaños de muestras iguales

Tamaños de muestras diferentes Para el primer caso no se tiene ningún problema porque al ser n1 sería igual n2 Se calcula una sola muestra de tamaño “n” n = Z**2(S1**2 + S2**2)/E**2 Para el segundo caso se calcula una “n” en función de la otra así. n2 = Z**2(S1**2 + KS2**2)/KE**2 y n1 se obtiene reemplazando en la siguiente ecuación: n1 = Kn2

Tamaño de muestra para la diferencia de dos proporciones

En este caso se calculan los tamaños con los mismos criterios anteriores, es decir para muestras de igual tamaño y tamaños desiguales, así:

Tamaños iguales n= Z**2(P1Q1 + P2Q2)/E**2

Tamaños desiguales n2 = Z**2(P1Q1 + KP2Q2)/KE**2 y se obtiene n1 de la siguiente ecuación n1 = Kn2

Tamaño de muestra con muestreo estratificado

La asignación del tamaño de la muestra a cada estrato definido en este método se puede hacer por tres formas diferentes. Asignación: igual, proporcional y óptima.

Asignación Igual: Es la más elemental, porque asigna tamaños iguales de

muestra a cada estrato, es decir ni = nj = nk = etc.

Page 58: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

58

i = 1…..h

Asignación proporcional:

En la asignación proporcional asignación se hace proporcional a los tamaños de los estratos.

Asignación óptima: La asignación se hace proporcional al tamaño de la

desviación estándar

Esto requiere que el tamaño de la muestra sea proporcional al producto del tamaño del estrato y la desviación estándar del estrato. Cuando todas las desviaciones estándares de los estratos son iguales, la asignación óptima coincide con la asignación proporcional.

Ejemplo. Los tamaños de tres pequeños pueblos son: N1 = 40,000, N2 = 20,000 y N3 = 30,000. Se va a tomar una muestra aleatoria estratificada aleatoria con un tamaño total de muestra de n = 400. Determine el tamaño de la muestra que debe ser tomada de cada pueblo utilizando (a) asignación proporcional y (b) asignación óptima cuando de un estudio previo se conocen estimativos burdos

de las desviaciones estándares, que son 1 = 20, 2 = 12 y s3 = 14.

(a) asignación proporcional:

=400(4/9)=178; = 400(2/9)=89; =400(3/9)=133

(b) asignación óptima:

N11 = 800,000

N22 = 240,000

N33 = 420,000 ---------------- Total = 1,460,000

Page 59: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

59

n1 =

n2 =

n3 =

Concluimos esta discusión planteando las situaciones para las cuales la estratificación es una técnica de muestreo beneficiosa. Primero, la estratificación generalmente crea una reducción en la varianza del estimador de una característica de una población. Esta reducción puede ser sustancial si cada estrato es homogéneo pero difiere de los otros con respecto a la característica. Segundo, si se requieren estimativos para ciertas subdivisiones de una población, puede ser útil tratar las subdivisiones como estratos para obtener estos estimativos. Por ejemplo, podemos querer estimar los ingresos de los miembros de cierto grupo minoritario mientras realizamos un estudio de los ingresos de una población urbana.

Ejercicios: 2 1. Un fabricante de muebles produce un espejo en una línea de montaje. Cuando opera adecuadamente, el proceso de montaje consigue elaborar una media de 140 espejos por día con una desviación estándar de 20 espejos. Para controlar el proceso de montaje, se seleccionan 100 días aleatoriamente y se anotan los espejos producidos cada día. Después se utiliza la distribución muestral de la producción media para comprobar si el proceso de montaje funciona adecuadamente. Explique como se genera teóricamente la distribución muestral. R/ta: Seleccionando repetidamente muestras de 100 días y se calcula la media de cada muestra. Las diferentes medias obtenidas forman la distribución muestral 2. Usted es el coordinador de logística de una gran compañía que el tempo promedio en el que reciben los pedidos los clientes tiene una distribución normal con una media de 30 horas y una desviación estándar estándar de 3 horas. Si usted revisa el tiempo de entrega de 25 clientes seleccionados al azar, la distribución del tiempo promedio de entrega es

Page 60: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

60

R/ta: T-Student 3. La altura de los hombres de un país se distribuye normalmente, con media 180 cm y desviación típica 8 cm. La altura de las mujeres también se distribuye normalmente, con media 168 cm y desviación típica 8 cm. La distribución de la diferencia de alturas entre un hombre y una mujer es: R/ta: Normal (12; 4) 4. Sea la población de elementos: {22,24, 26}. -Escriba todas las muestras posibles de tamaño dos, escogidas mediante muestreo aleatorio simple. R/ta: M1 = {22, 24}, M1 = {22, 26}, M1 = {24, 26} -Calcule la varianza de la población. R/ta:8/3 -Calcule la varianza de las medias muestrales. R/ta:2/3 5. La variable altura de las alumnas que estudian en una escuela de idiomas sigue una distribución normal de media 1,62 m y la desviación típica 0,12 m. ¿Cuál es la probabilidad de que la media de una muestra aleatoria de 100 alumnas sea mayor que 1.60 m? Rta: 0951 6. Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han encontrado los siguientes precios: 95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110. Suponiendo que los precios de este producto se distribuyen según una ley normal de varianza 25 y media desconocida: -¿Cuál es la distribución de la media muestral?Rta:N(104; 1.25) -Determine el intervalo de confianza, al 95%, para la media poblacional. R/ta:(101.55; 106.45) 7. ¿Cuál sería el mínimo tamaño muestral necesario para que pueda decirse

que la verdadera media de las estaturas está a menos de 2 cm de la media muestral, con un nivel de confianza del 90%? Rta: La muestra debe tener al menos 1083 personas. 8. Las ventas mensuales de una tienda de electrodomésticos se distribuyen según una ley normal, con desviación típica 900 €. En un estudio estadístico de las ventas realizadas en los últimos nueve meses, se ha encontrado un intervalo

Page 61: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

61

de confianza para la media mensual de las ventas, cuyos extremos son 4 663 € y 5 839 €. - ¿Cuál ha sido la media de las ventas en estos nueve meses? R/ta: x =5251 9. Si el contenido en gr. de un determinado medicamento X sigue una distribución N(7.5,0.3), calcular la probabilidad de que para una muestra de tamaño n=5, se obtenga medio menor que 7, Pr ( X ≤ 7). R/ta: Pr ( X ≤7) = 0.0001 10. Un ascensor limita el peso de sus cuatro ocupantes a 300Kg. Si el peso de un individuo sigue una distribución N( 71,7 ), calcular la probabilidad de que el peso de 4 individuos supere los 300Kg R/ta: 0.1265

11. En una universidad se desea conocer la opinión de los estudiantes acerca de ciertas medidas que han tomado las directivas. De 120 estudiantes consultados, 90 estuvieron a favor. Estime la proporción de estudiantes que están a favor de las medidas. R/ta: 75%.

12. En el estudio de cierta característica X de una población se sabe que la desviación estándar es 3. Se va a escoger una muestra de tamaño 100, halle el error estándar de la media muestral. R/ta:(0,3).

Page 62: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

62

CAPITULO TRES: INTERVALOS DE CONFIANZA

Introducción

El problema que presenta la estimación puntual de un parámetro reside en que no garantiza ni mide la precisión de la estimación. Sólo la bondad de ajuste y el tamaño de la muestra pueden proporcionar una mayor o menor confianza en la estimación obtenida. Por esta razón es necesario dar, junto a la estimación, una medida del grado de confianza que se merece, la cual se consigue mediante un intervalo de confianza que proporcione unos límites dentro de los cuales se confía esté el valor desconocido del parámetro. Esta confianza de inclusión se mide mediante un porcentaje.

Con frecuencia se encuentra información como la siguiente: El peso de un objeto es 104 más o menos 2 gramos. El diámetro de un tornillo es de 8 mas o menos 0.05 milímetros. El contenido de proteínas de la carne de pollo es de 20.2 mas o menos 1%. En estos casos y otros similares se quiere indicar que la media verdadera se encuentra en algún lugar entre el intervalo. Lo anterior indica que existe la probabilidad de error en la medición y además no se puede estar absolutamente seguro que el verdadero valor se encuentre dentro del intervalo obtenido. Nótese que si el intervalo se hace más amplio aumenta la posibilidad que se incluya el verdadero valor de la media. Objetivo general Mostrar los diferentes métodos para calcular los intervalos de confianza, a partir de muestras grandes y pequeñas, para estimar los parámetros poblacionales de una media y proporción, así como para la diferencia de medias y proporciones. Objetivos específicos

Calcular el intervalo de confianza para estimar el parámetro poblacional a partir de muestras pequeñas, para una media y una proporción.

Calcular el intervalo de confianza para estimar el parámetro poblacional a partir de muestras grandes, para una media y una proporción.

Calcular el intervalo de confianza para la diferencia de dos medias y dos proporciones.

Exponer el uso de cálculo de intervalos de confianza utilizando paquetes de Excel y SSPS.

Page 63: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

63

Lección No 11: Nociones Fundamentales.

En estadística muchos problemas exigen construir conjuntos (intervalos) que contengan el verdadero valor del parámetro en estudio con una probabilidad dada generalmente alta. Si por ejemplo X representa los grados de grasa de una margarina se puede estar interesado en encontrar los límites bajos y altos aceptables para este tipo de producto; pero no se puede asegurar con probabilidad de uno que el verdadero valor se encuentre entre estos dos límites, lo máximo que se puede lograr es elegir un número uno menos alfa ( )1 que

esté muy próximo a uno (recuerde que alfa es el nivel de significación o error tipo uno) tal que la probabilidad que el verdadero valor se encuentre entre estos dos límites inferior y superior sea mayor o igual a uno menos alfa. En la práctica se elige un alfa fijo generalmente pequeño 0.01 o 0.05. La probabilidad que la afirmación del intervalo incluya al parámetro sea cierta es por lo menos )1( ; por lo tanto la probabilidad que la afirmación sea falsa es

por lo más un alfa. Un intervalo de confianza dado que incluya o no el verdadero valor del parámetro, esto nunca se conoce con exactitud al menos que se conozca el parámetro, pero se sabe que se tendrá éxito en encontrar el valor verdadero del parámetro dentro de este tipo de intervalos por lo menos en el

)1( 100% de las veces.

Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y contraste de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a una población. Estas técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se dispone de muestras aleatorias, por la tanto la situación habitual es la que se esquematiza en la figura

Page 64: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

64

Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la denominada población de muestreo: población (la mayor parte de las veces no definida con precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la generalización está amenazada por dos posibles tipos de errores: error aleatorio que es el que las técnicas estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral, pero también de la variabilidad de la variable a estudiar y el error sistemático que tiene que ver con la diferencia entre la población de muestreo y la población diana y que sólo puede ser controlado por el diseño del estudio.

Estimación El proceso de estimación conlleva a obtener un estimador que tenga ciertas condiciones deseables para hacer inferencia sobre el modelo de probabilidad que ha generado los datos. Entre los métodos de estimación de la estadística parametrica, se tiene: Momentos, mínimos cuadrados y máxima verosimilitud. En temáticas posteriores se analizará lo referente a la estimación Estimación de la Media Poblacional:

Al seleccionar una muestra aleatoria por M. A. S. sin reemplazamiento y pesos iguales, se tiene:

n

i

ixn

X1

1

A partir de este planteamiento se tiene que la media muestral es un estimador insesgado de mínima varianza de la media poblacional. Entonces:

Demostración: A partir de las propiedades del valor esperado:

n

i

i

n

i

i

n

i

i xEn

xEn

xn

EXE111

)(111

)(

)(11

)(1

11

nnn

xEn

n

i

i

n

i

i

)(XE

Page 65: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

65

Varianza del Estimador:

El valor de X indicaría muy poco sobre al menos que se evalúe la bondad del

estimador, lo que se hace por medio de la varianza del estimador, la cual nos indica el grado de variabilidad que tiene dicho estimador, así un estimador con varianza pequeña tiene más valor que un estimador con varianza grande. Cuando se desea hallar la varianza del estimador y se conoce la varianza poblacional, la ecuación que nos permite hacer dicho cálculo es:

N es el tamaño de la población, n es el tamaño de la muestra, σ2 es la varianza poblacional. Cuando no se conoce la varianza poblacional, ésta se estima por medio de la varianza muestral S2.

n

i

i xxn

S1

22 )(1

1 Por definición: 22

1)(

N

NSE

Con estos argumentos, se puede determinar la varianza estimada del estimador:

En la ecuación:

N

nN Es el factor de corrección para poblaciones finitas, se puede despreciar si

95,0

N

nN o cuando n

N

20

Para poblaciones infinitas:

1)(

2

N

nN

nXV

N

nN

n

SXV

2

)(

n

SXV

2

)(

Page 66: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

66

Error de Estimación: (B)

En toda estimación se debe establecer un error de estimación, denominado con

B, el cual se calcula de la siguiente manera:

Donde α es el nivel de significancia que asume el investigador. Con el valor de B se puede establecer un intervalo de confianza (1- α)100% de que la media

esta en el intervalo: BX Ejemplo 1: Sea la población compuesta por los elementos U = (2, 4, 6, 8) Hallar los parámetros µ y σ2. Solución:

Solucionémoslo por el principio del valor esperado. )()( xxpxE

Como x = 2, 4, 6, 8 entonces: p(x) = ¼ así:

4

1

522/312/1)4/1(8)4/1(6)4/1(4)4/1(2)(i

ii xpx

Ahora la varianza:

n

i

ii xpxxExV1

222 )()()()(

Reemplazando:

)4/1()58()4/1()56()4/1()54()4/1()52()()()( 2222

1

22

n

i

ii xpxxV

54/94/14/14/9)(2 xV

Ejemplo 2: Utilizando muestras de tamaño 2 sin reemplazamiento hallar

)()( xVyxE Además el error de estimación para α = 1%

Solución: Como la población tiene 4 elementos y se requieren muestras de dos si reemplazamiento, entonces:

)()2/1( XVZB

Page 67: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

67

6)!24(!2

!424

C Muestras posibles, cada una tendrá como probabilidad 1/6

MUESTRA P(xi) x S2 )(xV

n1 = 2, 4 1/6 3 2 1/2

n2 = 2, 6 1/6 4 8 2

n3 = 2, 8 1/6 5 18 9/2

n4 = 4, 6 1/6 5 2 ½

n5 = 4, 8 1/6 6 8 2

n6 = 6, 8 1/6 7 2 1/2

Veamos cómo fueron los cálculos:

32

421

x ----- 2)34()32(

12

1 222

s ----- 2

1

4

24

2

2)(

xV

Ahora si podemos calcular la media y la varianza.

4

1

5)6/1(7)6/1(6)6/1(5)6/1(5)6/1(4)6/1(3)()(i

ii xpxxE

n

i

ii xpxxExV1

22 )()()()(

Reemplazando:

3

5)6/1()57()56()55()55()54()53()()( 2222222 xExV

Si utilizamos la ecuación de varianza del estimador tenemos:

3

5

3

24

2

5

1)(

2

N

nN

nxV

Vemos que la varianza calculada por el principio de valor esperado es igual a la obtenida por la ecuación de varianza del estimador. Con lo anterior lo que se esta mostrando es que:

)(xE y

1)(

2

N

nN

nxV

El error de estimación se calcula así:

Page 68: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

68

)()2/1( xVzB

Como α = 0,01 entonces: 1 – α/2 = 0,995 Para esta probabilidad z0,995 = 2,575

324,33/5575,2 B

Estimación del Total Poblacional:

Cuando de una población se obtiene una muestra aleatoria para estudiar una característica de la primera, uno de los parámetros a obtener es el total poblacional . Por ejemplo a partir de una muestra de personas, se puede

estimar la edad total de una población, la partir de una muestra de cuentas de ahorro, se puede estimar el capital total del banco, otros.

Sea N

ni Donde πi la probabilidad de selección del elemento i-ésimo

elemento en una muestra dada n. En el M. A. S. sin reemplazamiento. El es

estimado por

obtenido en la muestra, de la siguiente manera:

n

i

n

i

iin

i

in

i i

i XNn

XN

n

NX

Nn

XX

1 111 /

Así el estimador del total poblacional:

Análogamente:

Varianza del Estimador: Al igual que en la estimación de la media poblacional, para el total poblacional

también se requiere identificar la bondad de ajuste del estimador, con el fin de identificar el error de estimación. La varianza del estimador se obtiene con la siguiente expresión:

XN

N

Page 69: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

69

1)()(

22

N

nN

nNNVV

Cuando NO se conoce la varianza poblacional σ2, entonces ésta se estima por medio de S2, así se obtiene la varianza estimada del estimador.

N

nN

n

SNXNVV

22)()(

Error de Estimación: El error de estimación B nos permite obtener un intervalo de confianza para un

nivel de significancia α para el total poblacional.

Como )()2/1(

VZB Entonces:

N

nN

n

SNZB

22

)2/1(

Con un nivel de significancia α, el parámetro estará entre B

Ejemplo 1: En un centro de investigación se desea saber el tiempo que dedican los investigadores a tareas administrativas, para lo cual se toma una muestra de 60 investigadores que al tomarles el tiempo de actividades se obtuvo un promedio de 15 hr/semana, con una varianza de 5 hr2. El centro cuento con 800 investigadores. Estimar el total de horas utilizadas en tareas administrativas por parte de los investigadores y el error de estimación para un nivel de significancia del 1%. Solución: Los datos: Población N = 800 Muestra n = 60 Promedio muestral 15x

Varianza muestral 52 s

Page 70: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

70

La estimación de total poblacional:

000.1215800 xxN

En le centro de investigación los investigadores gustan un total de 12.00 horas por mes en trámites administrativos. Para hallar el error de estimación, primero calculamos la varianza del estimador. Como no conocemos la varianza poblacional, sino la muestral; entonces calculamos la varianza estimada del estimador.

N

nN

n

sNxV

22)(

Reemplazando:

2,331.4907708,0000.640800

60800

60

5800)( 2

xxV

Ahora si podemos calcular el error de estimación:

)()2/1( xVzB

Pero z(1-α/2) = Z0,995=2,575

92,5712,331.49575,2)()2/1( xVzB

El total estimado de tiempo que los investigadores dedican a labores administrativas esta entre: 92,5712,331.49

Ejemplo 2: En una granja avícola hay 250 gallinas, el avicultor desea saber el total de huevos que producen semanalmente, para lo cual tomo una muestra de 20 gallinas, cuyo promedio de huevos producidos es de 16 huevos / gallina / semana, con una varianza de 28 huevos2. Además hallar el error de estimación. Solución: A partir de los datos se puede estimar el total de huevos:

00.416250 xxN

Page 71: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

71

Se estima que la producción de huevos por semana en la granja es de 4.000 unidades. Como tarea se debe verificar que el error de estimación B = 556,10 Estimación de la Proporción Poblacional: Cuando se desea determinar la proporción de un atributo en una población, el experimento es binomial.

Sea

atributotienenoysi

atributotieneysiy

i

i0

1

Los elementos que tienen el atributo son

N

i

iya1

Donde yi = 1.

Entonces: N

aP Pero como no se conoce P, éste se puede estimar a partir

de la proporción muestral. Si n es grande, p

es aproximadamente normal,

donde:

PpE )(

y n

qxppV

)(

Para el M. A. S. el estimador de la proporción poblacional P esta dado por:

n

i

iyn

p1

1 Donde yi son los elementos que tiene el atributo.

Varianza del Estimador:

Al igual que en la estimación de la media poblacional, para la proporción poblacional P, también se requiere identificar la bondad de ajuste del estimador, con el fin de identificar el error de estimación. Para poblaciones infinitas:

n

qxppV

)( Varianza estimada del estimador.

Para poblaciones finitas:

N

nN

n

qxppV

)(

Page 72: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

72

Error de Estimación:

Como en los caos anteriores, el error de estimación B nos permite obtener un

intervalo de confianza para un nivel de significancia α para la proporción

poblacional. Para poblaciones infinitas:

n

qxpzB

)2/1(

Para poblaciones finitas:

N

nN

n

qxpzB

1)2/1(

Ejemplo En un estudio de fallas que presenta una maquina empacadora, se tomo una muestra de 120 unidades, de las cuales 32 presentaron fallas. Estimar la proporción poblacional de fallas en la maquina, además del error de estimación para un nivel de significancia del 5%. Solución:

Como 321

n

i

iy Entonces: 267,0120

32p

La proporción de fallas en la maquina es del 26,7% En seguida calculamos la varianza del estimador, como la población es infinita, entonces:

00163,0120

733,0267,0)(

x

n

qxppV

Ahora calculamos el error de estimación:

0791,000163,096,1)()( 975,0)2/1( pVzpVzB

Page 73: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

73

Por consiguiente la proporción de fallas en la maquina esta en el intervalo de proporciones: 18,8% - 34,6% Ejemplo La gerencia de una multinacional desea conocer la tendencia de sus empleados a capacitarse, la compañía cuenta con 650 empleados, para el estudio se toma una muestra de 80 empleados obteniéndose los siguientes resultados: xi = 1 Empleados que desean estudiar Ingeniería xi = 0 Empleados que No desean estudiar Ingeniería yi = 1 Empleados que desean estudiar Administración yi = 0 Empleados que No desean estudiar Administración

3580

1

i

ix y 2580

1

i

iy

Estimar la proporción de empleados que desean estudiar Ingeniería, Administración. Además del error de estimación al 1% Solución: Calculamos las proporciones estimadas:

4375,080

35xp y 3125,0

80

25yp

Calculamos la varianza, pero tengamos en cuenta que la población es finita.

00273,0650

80650

180

5625,04375,0

1)(

x

N

nN

n

qxppV x

00208,0650

80650

180

75,025,0

1)(

x

N

nN

n

qxppV y

El error de estimación:

1345,000273,0575,2)()( 995,0)2/1( xxx pVzpVzB

1174,000208,0575,2)()( 995,0)2/1( yyy pVzpVzB

Page 74: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

74

Por consiguiente el 43,75% de empleados desean estudiar Ingeniería con un error de estimación del 13,45%. El 31,25% desea estudiar Administración con un error de estimación del 11,74%. Estimación por intervalos de Confianza.

En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada.

La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1- . La probabilidad de equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1- =95% (o significancia

=5%). Menos frecuentes son los intervalos con =10% o =1%.

Lección No 12: Intervalos de confianza para la media y la diferencia de medias con muestras grandes Intervalos de confianza para la media con muestras grandes

30n Recordemos que para obtener un intervalo de confianza se procese como sigue: 1. Se determina el riesgo de error que se quiere asumir al afirmar que el

parámetro (en este caso la media) se encuentra en el interior del intervalo. 2. El intervalo de confianza se obtiene separando a izquierda y derecha de la

estimación del parámetro (en este caso la media) un múltiplo de error

estándar ( )n

. El múltiplo está determinado por el valor del estadístico Z

asociado al nivel de confianza escogido.

Suponga por ejemplo que Ud. está dispuesto a aceptar un riesgo de error de 05.0 ; entonces 95.01 , luego se trata de un intervalo de confianza del

nivel 0.95. Dado que esta probabilidad se distribuye simétricamente a los dos lados de la media, se obtiene 0.475 a cada lado. Ahora bien, el valor de Z asociado a una probabilidad de 0.475 es de 1.96 (de acuerdo a la tabla de la distribución normal) a la derecha de la media y de –1.96 a la izquierda, como se puede apreciar el la siguiente grafica:

Page 75: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

75

Figura 4.2 Intervalo de confianza para grandes muestras

El intervalo de confianza está dado por la siguiente relación:

nX

nX

96.1;96.1

Expresado en forma generalizada, para poblaciones infinitas o si se muestrea sin reemplazamiento una población finita, la relación es:

nX

96.1

Si la población es finita o si se muestrea sin reemplazamiento una población finita, la relación es la siguiente:

1N

nN

nZX

Recuerde que Z depende del nivel de confianza que se fije y que si la

desviación estándar poblacional es desconocida, se utiliza como estima la

desviación muestral (S).

Page 76: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

76

Podrá darse cuenta las semejanzas con los procedimientos utilizados para las pruebas de hipótesis, vistas anteriormente para pruebas unilaterales y bilaterales. Ejemplo 4.2 El contenido de proteínas de una muestra de 100 pollos criados en una determinada granja dio una media de 20.2 gramos con una desviación estándar de 1.14 gramos. Obtener el intervalo de confianza del 99% para el contenido medio de proteína de todos los pollos de la granja. Como el intervalo de confianza se distribuye simétricamente a los dos lados de la media, en este caso a cada lado le corresponde una probabilidad de 0.495 (0.99/2 = 0.495). El valor de Z asociado a una probabilidad de 0.795 es 2.58. El intervalo para la media será:

294.02.20100

14.158.22.20

nZX

El contenido medio de proteína de toda la población de pollos de la granja esta dentro de un intervalo de 19.91 y 20.49 gramos con un nivel de confianza del 99%, y se expresa de la siguiente forma:

99.049.2091.19 P

Ejemplo 4.3 Se toma una muestra al azar de 40 vasos de kumis de un lote de 500, dieron un promedio de 76 calorías por cada 100 gramos con una desviación estándar 2.9 calorías. Obtener el intervalo de confianza del 95% para el contenido medio de calorías para todo el lote. Nótese que se trata de una población finita y muestreo sin reemplazamiento. El valor de Z asociado a un nivel de confianza del 95% es 1.96 (0.95/2 = 0.475) de acuerdo a la tabla de la distribución normal. El intervalo de confianza en este caso está dado por:

87.076499

40500

40

9.276

1

N

nN

nZX

Page 77: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

77

Por tanto el contenido medio de calorías del lote esta dentro del intervalo de 75.13 y 76.87 calorías con un 95% de nivel de confianza, y expresado matemáticamente es:

95.087.7613.75 P

Intervalo de confianza para la diferencia entre dos medias.

El intervalo de confianza para la diferencia de medias de poblaciones infinitas está dado por:

2

2

2

1

2

121

nnZXX

Ejemplo 4.5

Se analizó el contenido de vitamina A de una muestra de mantequilla y de una muestra de margarina enriquecida. En la muestra de mantequilla formada por 40 potes de 100 gramos, el contenido medio de vitamina A fue de 4.86 unidades con una desviación estándar de 0.06. En la muestra de margarina enriquecida formada por 50 potes de 100 gramos el contenido medio de vitamina A fue de 5.0 unidades con una desviación estándar de 0.08 unidades. Encontrar el intervalo de confianza del 95% para la diferencia de contenido medio de vitamina A para el experimento en mención.

Generalmente el mayor valor de la media se toma como 1X .

El nivel de confianza del 95% corresponde un Z = 1.96. Aplicando la fórmula se tiene:

029.014.000009.0000128.096.114.0

40

06.0

50

08.096.186.40.5

22

2

2

2

1

2

121

nn

ZXX

Page 78: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

78

Por lo tanto se puede afirmar con un nivel del 95% que la diferencia de los dos contenidos de vitamina A de la mantequilla y la margarina enriquecida se encuentran entre 0.111 y 0.169 unidades.

Intervalos diferencias de medias y varianzas desconocidas e

iguales ( = = )

Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadística para verificar si éstas son iguales o diferentes. Para realizarlo debemos hacer uso de la distribución F, bien sea mediante el cálculo de la probabilidad de que la muestra tomada provenga de dos poblaciones con varianzas iguales, o mediante el uso de un intervalo de confianza para la relación de dos varianzas, según se estudiará más adelante.

a) Si mediante el uso de la distribución F se llega a la conclusión de que las varianzas son iguales, el procedimiento a seguir para el cálculo del intervalo de confianza para la diferencia de dos medias será el siguiente:

El estadístico usado como estimador puntual de la diferencia de medias µ1 -

µ2 será T = , que es un estimador suficiente.

b) La variable aleatoria asociada con el estimador será la variable T definida como:

donde es un estimador combinado de ², mejor que por separado, y

c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente probabilidad:

Page 79: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

79

De nuevo, manipulando la expresión anterior en forma similar a los casos se llega al siguiente teorema que nos define el intervalo de confianza para la

diferencia entre dos medias µ1 - µ2 con varianzas desconocidas ²1 y²2, pero iguales:

Teorema. Si son las medias y las varianzas de dos muestras aleatorias de tamaños n1 y n2, respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas pero iguales, entonces

un intervalo de confianza del 100(1- µ1 - µ2 es:

Ejemplo. La siguiente tabla presenta los resultados de dos muestras aleatorias para comparar el contenido de nicotina de dos marcas de cigarrillos.

Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones normales con varianzas desconocidas, construya un intervalo de confianza del 95% para la diferencia real de nicotina de las dos marcas.

Solución. Inicialmente mediante la distribución F debemos verificar si las

varianzas son iguales

( = = )

Page 80: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

80

Buscando en la tabla de la distribución F para 7 grados de libertad en el numerador y 9 en el denominador, vemos que el valor de la probabilidad está entre 0.10 y 0.25 (aproximadamente 0.19, mediante interpolación lineal). Como esta probabilidad es muy alta, concluimos que no hay evidencia para rechazar la hipótesis de que las varianzas sean iguales.

Como las varianzas son iguales, calculamos que está dado por:

El intervalo de confianza del 95% está dado por (t0.025,16 = 2.12):

Debido a que la diferencia real puede ser cero, no se puede concluir que existe una diferencia en el contenido de nicotina de las dos marcas de cigarrillos.

Ejemplo: El gerente de una refinería piensa modificar el proceso para producir gasolina a partir de petróleo crudo. El gerente hará la modificación sólo si la gasolina promedio que se obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su valor con respecto al proceso en uso. Con base en experimentos de laboratorio y mediante el empleo de dos muestras aleatorias de tamaño 12, una para cada proceso, la cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviación estándar de 2.3, y para el proceso propuesto fue de 28.2 con una desviación estándar de 2.7. El gerente piensa que los resultados proporcionados por los dos procesos son variables aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en esta evidencia, ¿debe adoptarse el nuevo proceso?

Intervalos para diferencias de medias y varianzas desconocidas y desiguales 1 2

Si mediante el uso de la distribución F se llega a la conclusión de que las varianzas son diferentes, el procedimiento a seguir para el cálculo del intervalo de confianza para la diferencia de dos medias será el siguiente:

Page 81: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

81

a) El estadístico usado como estimador puntual de la diferencia de medias µ1 -

µ2 será T = , que es un estimador suficiente.

b) La variable aleatoria asociada con el estimador será la variable T definida como:

donde

c) El intervalo de confianza esta dado por el siguiente teorema, basado en la distribución t con n grados de libertad.

Teorema. Si son las medias y las varianzas de dos muestras aleatorias de tamaños n1 y n2, respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas y desiguales, entonces

un intervalo de confianza aproximado del 100(1-

medias µ1 - µ2 es:

Problema. Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un nuevo proceso en el que se añade una aleación a la producción del metal. Los fabricantes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 12 ejemplares y cada uno de éstos se somete a una tensión hasta que se rompe. La siguiente tabla muestra las tensiones de ruptura de los ejemplares, en kilogramos por centímetro cuadrado:

Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e independientes, obtener los intervalos de confianza estimados del 95 y 99% para la diferencia entre los dos procesos. Interprete los resultados

Page 82: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

82

Lección No 13: Intervalos de Confianza para Proporciones y para diferencias de proporciones.

Intervalo de confianza para proporciones.

Recuerde las propiedades de la distribución binomial y de las pruebas de hipótesis vistan anteriormente. El intervalo de confianza para la proporción de la población infinita y muestreo con reemplazamiento está dada por:

n

PQZP

En tanto que el intervalo de confianza para la proporción de la población finita y muestreo con reemplazamiento está dada por:

1

N

nN

n

PQZP

donde el valor de Z depende del nivel de confianza deseado. Ejemplo 4.4 De un lote de 500 frascos de jugo se extrae una muestra de 50 frascos de los cuales 43 cumplen con las especificaciones exigidas y 7 fueron rechazados. Hallar el intervalo de confianza del 95% para la proporción de frascos de jugo aceptados del lote de estudio. Para un nivel de confianza de 95% el valor de Z = 1.96 (tabla de distribución normal) Aplicando la fórmula se tiene:

Page 83: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

83

09.086.095.0049.096.186.0

499

450

50

)14.0)(86.0(96.186.0

1500

50500

50

50431

5043

96.150

43

1

N

nN

n

PQZP

Con un nivel de confianza del 95% la proporción de frascos aceptados fue de 0.77 y 0.95, es decir el nivel de aceptación está entre 380 y 480 frascos de lujo de un lote de 500 frascos

Intervalo de confianza para la diferencia de dos proporciones.

El intervalo de confianza para la diferencia de proporciones de poblaciones infinitas está dado por:

2

22

1

1121

n

qp

n

qpZPP

Ejemplo 4.6

En un supermercado se vende queso de dos marcas diferentes. En el mismo período de tiempo se vende 380 de un total de 500 unidades de la marca A y 333 de un total de 450 unidades de la marca B. Hallar el intervalo de confianza del 99% para la diferencia entre las proporciones de los quesos A y B que salen al mercado y se venden.

Page 84: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

84

Aplicando la formula de la diferencia de proporciones se tiene:

073.002.0450

)26.0)(74.0(

500

24.0)(76.0(58.274.076.0

450

450

117

450

333

500

500

120

500

380

58.2450

333

500

380

2

22

1

1121

n

qp

n

qpZPP

Por lo cual es de esperar con un nivel de confianza del 99% que la verdadera diferencia de proporción de venta de los quesos A y B se encuentre entre –0.053 y 0.093. La diferencia de proporción negativa del límite inferior del intervalo indica que en esta región la diferencia está a favor del queso B cuya proporción de venta es menor en las muestras estudiadas.

Lección No 14: Intervalos de confianza para medias y para diferencia de medias con muestras pequeñas 30n

El caso anterior se estudió intervalos de confianza aplicados a la media poblacional suponiendo que se conocía la desviación estándar de la población

. Cuando no se conoce la desviación estándar de la población y la muestra

es pequeña, se utiliza la distribución t cambiando los valores críticos del estadístico t asociados al nivel de confianza. En este caso el intervalo de confianza esta dado por:

n

StX

con n – 1 grados de libertad y el valor de t depende del nivel de confianza. Ejemplo Una muestra de 10 cajas de atún dio un peso neto medio de 184 gramos y una desviación estándar de 3.0 gramos. Encontrar los límites de confianza con un 95% para el verdadero peso promedio de todas las latas de atún.

Page 85: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

85

La siguiente grafica nos ayuda a comprender la presente situación: Figura 4.1 Intervalo de confianza para pequeñas muestras

En la tabla de la distribución t con 9 grados de libertad y un nivel de significancia del 10% para dos colas, se registra un valor de 2.26 como valor crítico. El intervalo de confianza para la media de peso de todas las cajas de atún esta dado por:

14.218410

0.326.2184

n

StX

Se interpreta que las cajas de atún tienen un promedio de peso entre 181.86 y 186.14 gramos con un nivel de confianza del 95% y expresado matemáticamente es:

95.014.18686.181 P

Intervalos de confianzas para diferencias entre dos medias con muestras relacionadas o dependientes.

Cuando se comparan las medias de dos niveles es deseable que las observaciones dentro de cada nivel sean lo más homogéneas posibles. Si existe un efecto debido a factores externos éstos pueden neutralizarse mediante la aplicación del principio de la aleatoriedad. Esto se logra tomando las observaciones en pares. Se supone que las condiciones exteriores son las mismas para cada par, pero pueden variar de un par a otro. Por ejemplo,

Page 86: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

86

suponga que se tiene un grupo de personas que se someten a una dieta para reducción de peso, y para cada persona se lleva el registro del peso, en kgs, antes de la dieta, y un tiempo razonable después de haber empezado la dieta. En este caso, el peso de cada persona después de la dieta no es independiente del peso de la misma persona antes de la dieta; por lo tanto estas dos variables están correlacionadas, y si se quiere examinar el efecto de la dieta, se debe llevar el registro del peso para la misma persona antes y después de la dieta. Sean (X11, X21), (X12, X22),...(X1n,X2n) los datos consistentes de n pares;

supondremos que las variables aleatorias X1 y X2 tienen medias µ1 y µ2, y

varianzas , respectivamente. Podemos suponer que el conjunto de datos apareados son observaciones de un conjunto independiente de parejas de variables aleatorias provenientes de una distribución normal bivariada (X1 X2)

~f(X1, X2), y que las diferencias D = X1 - X2 se distribuyen normalmente con

valor esperado D y varianza .

Sea Dj la diferencia entre las variables aleatorias del j-ésimo par, es decir, Dj = X1j-X2j. El valor esperado y la varianza de la diferencia entre las variables está dado por:

Si las variables X1 y X2 se distribuyen normalmente, las diferencias estarán

distribuidas también de manera normal con media µD y varianza

Para estimar la media y la varianza de la diferencia, se debe tomar una muestra aleatoria de tamaño n, antes y después, calcular la diferencia, y luego la diferencia promedio y la varianza muestral de las diferencias, como se ilustra en el siguiente cuadro.

Page 87: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

87

Dada la muestra aleatoria se calculan los siguientes estadísticos que servirán

para estimar la media y la varianza de la diferencia, , respectivamente:

Sabemos que la siguiente variable aleatoria sigue una distribución normal estándar:

Sin embargo, como no es conocido, lo podemos estimar mediante la

varianza muestral , en cuyo caso la siguiente variable aleatoria sigue una distribución t con n-1 grados de libertad. Usando la distribución t podemos calcular el intervalo de confianza para la media de observaciones pareadas, el cual está dado por el siguiente teorema.

Teorema. Si son la media y la desviación estándar muéstrales de la diferencia de n pares aleatorios de mediciones normalmente distribuidas,

entonces un intervalo de confianza del 100(1-) % para la diferencia de medias

µD = µ1 -µ2 es:

Ejemplo: Se está investigando la utilidad de dos lenguajes de diseño para mejorar las tareas de programación. Se le ha pedido a 12 programadores expertos, familiarizados con los dos lenguajes, que codifiquen una función estándar con ambos lenguajes, y se registra el tiempo requerido, en minutos, para realizar estas dos tareas. Los datos obtenidos son los siguientes:

Page 88: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

88

Encuentre un intervalo de confianza para la diferencia en los tiempos medios de codificación. Use un nivel de confianza del 95%. Existe alguna evidencia que indique una preferencia por alguno de los dos lenguajes?

Tenemos que:

El intervalo de confianza está dado por:

Dado que la diferencia puede ser cero, se concluye que no hay evidencia para rechazar la hipótesis de que ambos lenguajes requieren el mismo tiempo de programación, y por lo tanto no hay preferencia por ninguno de los dos lenguajes.

Lección No 15: Intervalos de confianza para la varianza poblacional.

Para ver cómo se aplica un intervalo de confianza para la varianza poblacional, suponga que se está interesado en estimar la varianza poblacional para el mecanismo de llenado de tal modo que la media de la cantidad de llenado sea de 16 onzas y es crítica la varianza de los llenados. Para el efecto se toma una muestra de 20 envases llenos y se encuentra que la varianza de las cantidades

de llenado es 0025.02 s Sin embargo, no se puede esperar que esa varianza

que procede de una muestra de 20 envases, proporcione el valor exacto de la varianza de la población de recipientes llenos con dicho producto. En

Page 89: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

89

consecuencia el interés está es determinar un estimado de intervalo de la varianza poblacional.

Se utiliza el símbolo 2

para representar el valor de la distribución ji cuadrado

que da como resultado un área, o probabilidad, de a la derecha del valor ji

cuadrado establecido. Por ejemplo en la siguiente figura, se observa la

distribución ji cuadrado con 8523,322

025.0 que indica que el 2.5% de los valores

de ji cuadrado esta a la derecha de 32,8523, y 90655,82

975.0 que indica que el

97.8% de los valores de ji cuadrado esta a la derecha de 8,90655. Consultan con la tabla del anexo “G” que hace relación a la tabla de distribución de ji cuadrado, los resultados son iguales. En la gráfica se puede observar que 0.95 o el 95% de los valores de la ji

cuadrada están entre 2

975.0 y 2

025.0 . Significa esto que existe una probabilidad

del 95% de obtener un valor de 2 tal que:

2

025.02

22

975.0

1

Sn

Esta ecuación define un estimado de intervalo, porque el 95% de todos los

valores posibles de

2

21

Sn se encuentran en el intervalo de 2

975,0 a 2

025.0 .

Figura 4.3 Distribución ji cuadrado con 19 grados de libertad

Ahora se requiere llevar a cabo algunas operaciones algebraicas de la ecuación,

para determinar un estimado de intervalo de 2 de la varianza poblacional.

Realizando operaciones del extremo izquierdo de la ecuación se tiene:

Page 90: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

90

2

22

975.0

1

Sn despejando la varianza se tiene:

2

975.0

22 1

Sn

realizando operaciones semejantes con la desigualdad del extremo derecho de la ecuación se tiene:

2

2

025.0

21

Sn despejando la varianza se tiene:

2

025.0

22 1

Sn

Por último combinando los resultados de las operaciones se llega a:

2

975.0

22

2

025.0

2 11

SnSn

Esta relación representa el estimado del intervalo de confianza para la varianza

2 .

Ejemplo 4.7. Regresando al problema para determinar un estimado de intervalo de la varianza poblacional de las cantidades de llenado, recuerde que la muestra es

de 20 envases que presenta una varianza de 0025.02 S . Con un tamaño de

muestra de 20, los grados de libertad son de 19. En la figura presentada

anteriormente, se determina que 90655,82

975.0 y 8523,322

025.0 . Con dichos

valores, reemplazando en la ecuación del intervalo para la varianza poblacional se tiene:

90655,8

0025.0120

8523,32

0025.0120 2

O sea que el intervalo se encuentra dentro de los límites: 0728.00374.0 2 .

Con lo anterior se ha ilustrado el proceso de aplicar la distribución ji cuadrado para establecer estimados de intervalo de una varianza y de una desviación

estándar de una población. Específicamente observe que como se usó 2

975,0 y

2

025.0 el estimativo tiene un coeficiente de confianza de 0.95. Cuando la

ecuación se amplia a un caso general de cualquier coeficiente de confianza, el estimativo del intervalo de confianza es:

Page 91: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

91

2

21

22

2

2

2 11

SnSn

En donde los valores de 2 se basan en una distribución ji cuadrado con (n-1)

grados de libertad, y en donde 1 es el coeficiente de confianza.

Ejercicios: 3.

1. Se cálculado el intervalo de confianza al 95% para una muestra en la que x = 10, s = 4 y n= 100. Si el resultado con una muestra de 225 fuera el mismo y calculáramos el intervalo de confianza al 99%, Cómo debería ser la amplitud del intervalo: R/ta: Más grande 2. Si el intervalo de confianza al 95% para la media de una población es (52; 68). ¿Cuál podría ser el intervalo al 99% de confianza? R/ta: (51; 69) 3. Suponga que el intervalo de confianza al 98% es (0,60; 0,84). ¿Cuál es su interpretación R/ta: Estamos convencidos, al 98% de confianza, de que la verdadera proporción estará incluida en el intervalo (0,60; 0,84) 4. En una empresa se obtuvo, mediante una encuesta a 36 de sus empleados de la parte operativa y un intervalo de confianza del 95%, que el salario promedio estaba entre ($450 mil, $600 mil). Si se desea cambiar el nivel de confianza al 99%, el intervalo sería: R/ta: Más ancho, pero con un riesgo más pequeño de ser incorrecto. 5. Un corredor de la bolsa de valores siente curiosidad por saber el tiempo promedio que trascurre entre la colocación y ejecución de una orden en el mercado. Construyo un intervalo de confianza del 95% para el tiempo medio de ejecución encontrando que: los extremos del intervalo obtenido son (15 y 25), con una confiabilidad de 95%. Con base en este intervalo de confianza se puede concluir que: R/ta: El verdadero tiempo promedio que trascurre entre la colocación y ejecución de una orden en el mercado esta entre 15 y 25 días, con una confiabilidad de 95%

Page 92: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

92

6. Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han encontrado los siguientes precios: 95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110. Suponiendo que los precios de este producto se distribuyen según una ley normal de varianza 25 y media desconocida: -Determine el intervalo de confianza, al 95%, para la media poblacional. R/ta:(101.55; 106.45) 7. La media de las estaturas de una muestra aleatoria de 400 personas de una ciudad es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es una variable aleatoria que sigue una distribución normal con varianza σ2 = 0,16 m2. -Construye un intervalo, de un 95% de confianza, para la media de las estaturas de la población. R7ta: (1.7108, 1.7892) 8. Las ventas mensuales de una tienda de electrodomésticos se distribuyen

según una ley normal, con desviación típica 900 €. En un estudio estadístico de las ventas realizadas en los últimos nueve meses, se ha encontrado un intervalo de confianza para la media mensual de las ventas, cuyos extremos son 4 663 € y 5 839 €. -¿Cuál ha sido la media de las ventas en estos nueve meses? R/ta: x =5251 -¿Cuál es el nivel de confianza para este intervalo? R/ta: 95% 9. Se desea estimar la proporción, p, de individuos daltónicos de una población a través del porcentaje observado en una muestra aleatoria de individuos, de tamaño n. 1. Si el porcentaje de individuos daltónicos en la muestra es igual al 30%, calcula el valor de n para que, con un nivel de confianza de 0,95, el error cometido en la estimación sea inferior al 3,1%. R/ta: Al menos 840 individuos. 10. Si el tamaño de la muestra es de 64 individuos, y el porcentaje de individuos

daltónicos en la muestra es del 35%, determina, usando un nivel de significación

Page 93: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

93

del 1%, el correspondiente intervalo de confianza para la proporción de daltónicos de la población. R/ta(0.196;0.504) 11. En una población una variable aleatoria sigue una ley normal de media desconocida y desviación típica 2. -Observada una muestra de tamaño 400, tomada al azar, se ha obtenido una media muestra al igual a 50. ¿Calcule un intervalo, con el 97 % de confianza, para la media de la población. R/ta:(49,783 y 50,217) - Con el mismo nivel de confianza, ¿qué tamaño mínimo debe tener la muestra para qué la amplitud del intervalo que se obtenga sea, como máximo, 1? R/ta: n ≥ 76 12. La cantidad de hemoglobina en sangre del hombre sigue una ley normal

con una desviación típica de 2g/dl. -Calcule el nivel de confianza de una muestra de 12 extracciones de sangre que indique que la media poblacional de hemoglobina en sangre está entre 13 y 15 g/dl. R/ta:91.64 13. Si X ~ N (40,10), calcular Pr (39≤ X ≤41) para n=10. ¿En qué intervalo se obtendrán el 95% de los resultados? R/ta : (33.802,46.198)

14. Se desea cambiar una máquina en una cadena de producción. Se toman muestras con la máquina actual y con la nueva máquina para determinar si se van a producir mejoras en el sistema. 75 de 1.000 artículos del procedimiento actual presentaron defectos y lo mismo sucedió con 80 de 2.500 partes del nuevo, determine un intervalo de confianza del 90% para la verdadera diferencia de proporciones de partes defectuosas. R/ta: (0,0281, 0,0579).

15. Una marca de lavadoras quiere saber la proporción de amas de casa que

preferirían usar su marca. Toman al azar una muestra de 100 amas de casa y 20 dicen que la usarían. Calcula un intervalo de confianza del 95% para la verdadera proporción de amas de casa que preferirían dicha lavadora.

Page 94: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

94

R/ta: (0,122; 0,278)

Autoevaluación. 1 Para determinar el tamaño muestral de un estudio, debemos considerar diferentes situaciones y verificar el cumplimiento de varios factores:

Si deseamos estimar una proporción, debemos saber:

a. El nivel de confianza o seguridad (1-α). El nivel de confianza prefijado da lugar a un coeficiente (Zα). Para una seguridad del 95% = 1.96, para una seguridad del 99% = 2.58.

b. La precisión que deseamos para nuestro estudio. c. Una idea del valor aproximado del parámetro que queremos medir

(en este caso una proporción). Esta idea se puede obtener revisando la literatura, por estudio pilotos previos. En caso de no tener dicha información utilizaremos el valor p = 0.5 (50%).

Ejemplo: ¿A cuantas personas tendríamos que estudiar para conocer la prevalencia de diabetes?

Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede ser próxima al 5%; si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valor p = 0,5 (50%) que maximiza el tamaño muestral:

donde:

Z 2 = 1.962 (ya que la seguridad es del 95%) p = proporción esperada (en este caso 5% = 0.05) q = 1 – p (en este caso 1 – 0.05 = 0.95) d = precisión (en este caso deseamos un 3%)

Si la población es finita, es decir conocemos el total de la población y deseásemos saber cuántos del total tendremos que estudiar la respuesta seria:

Page 95: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

95

donde:

N = Total de la población Z 2 = 1.962 (si la seguridad es del 95%) p = proporción esperada (en este caso 5% = 0.05) q = 1 – p (en este caso 1-0.05 = 0.95) d = precisión (en este caso deseamos un 3%).

¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para conocer la prevalencia de diabetes?

Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede ser próxima al 5% ; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que maximiza el tamaño muestral.

Según diferentes seguridades el coeficiente de Z varía, así:

Si la seguridad Z fuese del 90% el coeficiente sería 1.645 Si la seguridad Z fuese del 95% el coeficiente sería 1.96 Si la seguridad Z fuese del 97.5% el coeficiente sería 2.24 Si la seguridad Z fuese del 99% el coeficiente sería 2.576

Si deseamos estimar una media: debemos saber:

El nivel de confianza o seguridad (1-α). El nivel de confianza prefijado da lugar a un coeficiente (Zα). Para una seguridad del 95% = 1.96; para una seguridad del 99% = 2.58.

La precisión con que se desea estimar el parámetro (2 * d es la

amplitud del intervalo de confianza). Una idea de la varianza S2 de la distribución de la variable

cuantitativa que se supone existe en la población.

Page 96: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

96

Ejemplo: Si deseamos conocer la media de la glucemia basal de una población, con una seguridad del 95 % y una precisión por un estudio piloto o revisión bibliográfica que la varianza es de 250 mg/dl

Si la población es finita, como previamente se señaló, es decir conocemos el total de la población y desearíamos saber cuantos del total tendríamos que estudiar, la respuesta sería:

Estimación de la media de la población por intervalos de confianza

Los tiempos de reacción, en mili segundos, de 17 sujetos frente a una matriz de 15 estímulos fueron los siguientes: 448, 460, 514, 488, 592, 490, 507, 513, 492, 534, 523, 452, 464, 562, 584, 507, 461 Suponiendo que el tiempo de reacción se distribuye Normalmente, determine un intervalo de confianza para la media a un nivel de confianza del 95%. Solución: Mediante los cálculos básicos obtenemos que la media muestral vale 505,35 y la desviación típica 42,54. Buscando en las tablas de la t de Student con 16 grados de libertad, obtenemos que el valor que deja por debajo una probabilidad de 0,975 es 2,12 Sustituyendo estos valores en la expresión del intervalo de confianza de la media tenemos: (505,35 - 2,12 • 42,54 / 4 = 505,35 + 2,12 • 42,54 / 4) Operando: ( 482,80 ,, 527,90 )

Page 97: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

97

UNIDAD DOS

PRUEBAS DE HIPÓTESIS, ANÁLISIS DE VARIANZAS Y ESTADÍSTICAS NO PARAMÉTRICAS

Page 98: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

98

CAPITULO CUATRO: PRUEBAS DE HIPÓTESIS Introducción.

En casos relacionados con situaciones especiales en las cuales se desea comprobar la efectividad de estándares preestablecidos, la técnica de prueba de hipótesis resultaba bastante apropiada, por cuanto permite comprobar con bastante certeza el grado de acierto en la fijación de éstos.

Una hipótesis estadística se define como un supuesto hecho sobre algún parámetro de la población. Por ejemplo, los siguientes enunciados podrían ser tomados como hipótesis:

- El ingreso promedio de los trabajadores de la fábrica es de $X. - El rendimiento promedio de los empleados de dos fábricas es

diferente. - El promedio de duración de las bombillas es de 1.000 horas. - El promedio de duración de las llantas es de 100.000 kilómetros.

Ya se ha recabado en muchas ocasiones, que el objetivo es tomar muestras para extraer alguna conclusión o inferencia sobre la población y que el único objetivo de examinar muestras, es que las poblaciones suelen ser demasiado grandes y costosas de estudiar. Objetivo general.

Contrastar la validez de una hipótesis o conjetura que se haya planteado en relación con una situación determinada de la empresa, analizando errores estadísticos posibles en las pruebas de hipótesis Objetivos específicos.

Examinar que se entiende por hipótesis y qué por prueba de hipótesis.

Describir los pasos que se siguen para demostrar una hipótesis.

Describir los errores estadísticos que se pueden presentar.

Realizar pruebas en relación con una y dos medias poblacionales, con una y dos colas.

Realizar pruebas con una y dos proporciones poblacionales.

Realizar pruebas de hipótesis para datos que se encuentran en una escala nominal u ordinal con aplicación de la distribución chi cuadrado.

Page 99: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

99

Lección No 16: Nociones fundamentales.

La prueba de hipótesis consiste en aplicar técnicas estadísticas que permitan aceptar o rechazar una hipótesis. Este procedimiento se conoce como contraste de hipótesis. Las pruebas de hipótesis utilizan un procedimiento de cinco pasos, los cuales se mencionan a continuación:

1. Plantear las hipótesis nula y alternativa. 2. Determinar el nivel de significancia. 3. Estimar el valor estadístico de prueba.

4. Establecer la regla de decisión. 5. Tomar la decisión.

Tipos de pruebas.

En la prueba de investigación, o de validez de una afirmación, se conocen las siguientes clases de pruebas:

Pruebas para grandes muestras. Pruebas para pequeñas muestras. Pruebas de varianza.

En las pruebas de grandes muestras se realizan para los siguientes casos:

Pruebas de medias y de proporciones. Pruebas de diferencias de medias y proporciones.

En las pruebas de pequeñas muestras se realizan para los siguientes casos:

Pruebas para medias y diferencias de medias. Nivel de significancia.

Una vez planteada la hipótesis nula y la alternativa, el siguiente paso es definir el nivel de significancia. Es la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera. El nivel de significación se denota mediante alfa ( ), también se denomina nivel

de riesgo, y es el riesgo de rechazar un planteamiento cuando en realidad es cierto. Tradicionalmente se ha escogido un nivel de significancia del 0.05 (5%) para proyectos de investigación de consumo, el 0.01 (1%) para control de calidad y el 0.10 (10%) para encuestas políticas.

Page 100: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

100

Clases de hipótesis.

Una hipótesis estadística es un enunciado provisional referente a uno o más parámetros de una población o grupo de poblaciones. En el proceso de estadística inferencial hay dos tipos de hipótesis: 1. Hipótesis nula, designada mediante Ho y se lee “H subcero”. La letra H

significa hipótesis y el subíndice cero indica “no hay diferencia”. Por lo general en la hipótesis nula se plantea en términos de “no hay cambio”, “no hay diferencia”, se plantea con el objetivo de aceptarla o rechazarla.

2. Hipótesis alternativa, describe lo que se considerará si se rechaza la

hipótesis nula. A menudo también se le denomina hipótesis de investigación, y se designa por H1, que se lee “h subuno”

Tipos de error. La hipótesis nula y alternativa son entonces aseveraciones sobre la población que compiten entre sí, en el siguiente sentido: ó la hipótesis nula (Ho) es verdadera, o lo es la hipótesis alternativa (H1), pero no ambas. En el caso ideal, el procedimiento de prueba de hipótesis debe conducir a la aceptación de Ho cuando sea verdadera y al rechazo de H1. Desafortunadamente no siempre es posible puesto que como las pruebas de hipótesis se basan en la información de la muestra, se debe considerar la posibilidad de cometer errores. La siguiente cuadro muestra los dos tipos de errores que se pueden cometer:

Cuadro 3.1 Tipos de errores

DECISIÓN SOBRE Ho

VERDADERA FALSA

Aceptar H0 Correcta 1

Error tipo I I

Rechazar H0 Error tipo I

Nivel de significancia

Correcta 1

Potencia de la prueba

Cuando se tiene una hipótesis esta puede ser verdadera o falsa y la decisión que se toma en la prueba es aceptar o rechazar la hipótesis. Si la decisión que se toma está de acuerdo con la realidad no se cometen errores, en este caso las dos buenas decisiones son: aceptar la hipótesis nula cuando es cierta o rechazar la hipótesis nula cuando es falsa. Pero cuando la decisión no está de acuerdo con la realidad se pueden cometer dos tipos de errores vistos anteriormente: rechazar la hipótesis nula cuando en realidad es cierta, llamado error tipo I representado por alfa ( ); aceptar la

hipótesis nula cuando en realidad es falso, llamado error tipo II representado por

Page 101: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

101

beta ( ), llamados también nivel de significancia. El procedimiento utilizado

consiste en limitarlos a un nivel preestablecido pequeño, generalmente 0.01 ó 0.05. Este planteamiento se le denomina la potencia de la prueba y se representa así:

Probabilidad de cometer el error tipo I Probabilidad de rechazar Ho cuando es verdadera.

(1 - ) Probabilidad de acertar la Ho cuando es verdadera.

Probabilidad de cometer el error tipo II Probabilidad de aceptar Ho cuando es falsa.

(1 - ) Probabilidad de rechazar Ho cuando es falsa.

Toda prueba de hipótesis determina una región de rechazo de la hipótesis llamada región crítica, la cual depende del tipo de hipótesis que se pruebe y se

determina utilizando un nivel de significancia .

El p-valor

Es el mínimo nivel de significancia en el cual Ho sería rechazado cuando se utiliza como procedimiento de prueba específico con un conjunto dado de información. Si el p-valor es menor que el nivel de significancia, la hipótesis nula se rechaza.

Lección No 17: Pruebas para la Media y la Diferencia de medias con grandes muestras.

Este procedimiento de formulas dos hipótesis es muy similar al de un juicio en donde se supone que el acusado es inocente hasta que se le demuestre su culpabilidad. Por tanto se hace una hipótesis de culpabilidad cero, lo cual también ayuda a explicar el nombre de la hipótesis. Sin embargo una evidencia contraria hace que la hipótesis nula sea descartada y aceptar la única alternativa posible de declararlo culpable. El procedimiento de los cinco pasos indicado en líneas arriba, se empieza a

aplicar para muestras grandes: 30n pero con 05.0N

n para pruebas en

donde intervienen una o dos medias, por lo tanto se supone que la distribución muestral del estadístico de prueba se aproxima por la curva normal.

Page 102: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

102

Prueba para la media (muestra grande).

En las pruebas para la media de población de muestra grande se distingue dos situaciones:

Conocida la desviación estándar de la población. Desconocida la desviación estándar de la población.

CONOCIDA LA DESVIACIÓN ESTANDAR POBLACIONAL.

Las pruebas de hipótesis utilizan un procedimiento de cinco pasos, los cuales se recuerdan a continuación:

a. Plantear las hipótesis nula y alternativa. b. Determinar el nivel de significancia. c. Estimar el valor estadístico de prueba. d. Establecer la regla de decisión. e. Tomar la decisión. Dependiendo del planteamiento de la hipótesis alternativa (H1) se distingue dos tipos de pruebas:

Pruebas bilaterales. Pruebas unilaterales

PRUEBA BILATERAL

El procedimiento de prueba de hipótesis para pruebas bilaterales a cerca de la media de una población, cuando se considera el caso de muestra grande

)30( n , en que el teorema del límite central permite suponer que la media de la

distribución muestral de medias se puede aproximar a una distribución normal de probabilidad, y la desviación estándar de la población es conocida, sigue la siguiente forma general:

Muestra grande )30( n

Planteamiento de hipótesis:

01

00

:

:

H

H

Estadístico de prueba para desviación estándar poblacional

conocida:

Page 103: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

103

n

xZ

Regla de rechazo a un nivel de significancia :

220 Z Zsi o -Zz si HRechazar

Ejemplo

La empresa coca cola ha establecido como política general para su producción en pequeña escala, un promedio ( ) de llenado para sus envases de 200

centímetros cúbicos con una desviación estándar ( ) de 16 centímetros

cúbicos. Dado que recientemente se han contratado y diseñado nuevos métodos de producción, utilizando un nivel de significancia del 0.01, se desea probar la hipótesis, que el promedio de llenado sigue siendo de 200 centímetros cúbicos. Para tal efecto se tomó una muestra de 100 envases llenos, los cuales mostraron una media de llenado de 203.5 centímetros cúbicos. Paso 1 Planteamiento de la hipótesis nula: la media poblacional es 200 Planteamiento de la hipótesis alternativa: La media poblacional es diferente a 200. Estas hipótesis se expresan como sigue:

200:

200:

1

0

H

H

Esta es una prueba de dos colas, debido a que la hipótesis alternativa ( 0H ) es

planteada en palabras de diferencia, es decir, la hipótesis no indica si la media es mayor o menor que 200. Paso 2 El nivel de significancia es de 0.01 que es el alfa ( ), la probabilidad de

cometer el error de tipo uno, es decir la probabilidad de rechazar la hipótesis siendo verdadera. Para éste tipo de problema se utiliza la distribución normal estandarizada en Z. Paso 3 El valor estadístico de prueba para este tipo de problema es utilizando la distribución normal estandarizada en Z:

Page 104: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

104

19.26.1

5.3

100

16

2005.203

n

XZ

Paso 4 La formulación de la regla de decisión consiste en hallar el valor crítico de Z con una prueba de dos colas. En el anexo C (tabla de la distribución normal) se identifica el valor de Z correspondiente a una probabilidad igual a 0.4950 (0.5 – 0.01/2). El valor más cercano a 0.4950 es 0.4951 que corresponde a una valor de Z igual a 2.58, que es el valor crítico para la prueba de hipótesis. Dado que es una prueba de dos colas, se tendrán dos valores críticos, tal como se indica en la siguiente figura: Figura 3.1 Prueba de dos colas

La regla de decisión es aceptar la hipótesis nula (Ho), puesto que el valor estadístico de prueba (2.19) ha caído en la zona de aceptación de dicha hipótesis. Paso 5 Se concluye que el llenado de los envases cumple con las políticas generales de la empresa, y la diferencia de promedios se atribuye a variaciones aleatorias.

Page 105: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

105

PRUEBA UNILATERAL

Con anterioridad de dijo que la hipótesis alternativa indica una dirección ya sea “mayor que” o “menor que”, la prueba es de una cola. El procedimiento para demostrar la hipótesis es por lo general igual a la prueba de dos colas, excepto que el valor crítico es diferente. Ahora se modificará la hipótesis alternativa del problema anterior, sobre el llenado de los envases de una factoría de coca cola Paso uno:

200:

200:

1

0

H

H

Paso dos: igual. Paso tres: igual Paso cuatro: El valor crítico cambia. En el anexo C (tabla de la distribución normal) se identifica el valor de Z correspondiente a una probabilidad igual a 0.490 (0.5 – 0.01). El valor más cercano a 0.4900 corresponde a una valor de Z igual a 2.33, que es el valor crítico para la prueba de hipótesis. Dado que es una prueba de una cola, se tendrá el valor crítico, tal como se indica en la siguiente gráfica:

Figura 3.2 Prueba una cola a la derecha

La región de rechazo para una prueba de una extremidad se ubica en la cola de la derecha, y el valor crítico es +2.33. Paso cinco: Igual, puesto que el valor estadístico de prueba está ubicado en la zona de aceptación de la hipótesis nula, es decir, se está diciendo que el promedio de llenado es de 200, tal como está planteada la hipótesis nula.

Page 106: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

106

A continuación se presentan un ejemplo para que Ud. lo aborde y aplique los métodos de pruebas de hipótesis vistos anteriormente. Ejercicio El análisis del contenido de grasa de una muestra de 40 tarros de leche en polvo de una determinada marca dio como resultado un contenido promedio de grasa de 27.5% en peso. Si asume que la varianza es de 0.85 y se pide un nivel de significancia del 5%; probar la hipótesis que el contenido promedio de grasa de la leche es de 28% contra la hipótesis:

a. El contenido de grasa es mayor que 28%. b. El contenido de grasa es menor que 28%. c. El contenido de grasa es diferente que 28%.

Sugerencia: Utilice el siguiente estadístico de prueba:

n

XZ

DESCONOCIDA LA DESVIACIÓN ESTANDAR POBLACIONAL

En la mayoría de los casos se desconoce la desviación estándar de la población ( ) , la cual debe calcularse en estudios previos o se estima utilizando la desviación estándar de la muestra (s). En estos casos se utiliza la desviación estándar de la muestra, quedando la formula para el estadístico de prueba así:

n

S

XZ

Ejemplo Una cadena grande de almacenes expide su propia tarjeta de crédito y Ud. desea saber si los saldos promedios por créditos de los clientes son mayores que 400 unidades monetarias. El nivel de significancia se fija en 0.05. Una revisión aleatoria de 172 clientes, reveló que el promedio por crédito de los clientes es de 407 unidades monetarias y la desviación estándar de la muestra es de 38 unidades monetarias. ¿Concluye UD. que la media poblacional es mayor que 400 unidades monetarias?

Page 107: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

107

Las hipótesis se enuncian como sigue:

400:

400:

1

0

H

H

Dado que la hipótesis alternativa se enuncia “mayor que”, se aplica una cola a la derecha, y como la muestra es grande ( n >= 30), se aplica la distribución normal estandarizada en Z. El estadístico de prueba es:

42.2

172

38

400407

n

S

XZ

La regla de decisión es:

Figura 3.3 Prueba de una cola a la derecha

El valor crítico es 1.645 y la ubicación del estadístico de prueba se encuentra en la zona de rechazo de la hipótesis nula, por lo tanto se acepta la hipótesis alternativa. La decisión a tomar por Ud. es que el promedio de los créditos es mayor que 400 unidades monetarias con un grado de confianza del 95%.

Page 108: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

108

Prueba para diferencia de medias (muestra grande).

En la mayor parte de los casos no se conoce la varianza o desviación estándar real de ninguna población. En general la única información que es posible

obtener se relaciona con las medias muestrales 21 XyX , las varianzas

muestrales 2

2

2

1 ySS y las desviaciones estándar de las muestras 21ySS . Si se

hacen las suposiciones que las muestras se obtienen de manera aleatoria e independiente a partir de las poblaciones respectivas que tiene una distribución

normal y que las varianzas poblacionales son iguales, es decir, 2

2

2

1 , se

puede utilizar una prueba de distribución normal de varianzas combinadas para determinar si existe una diferencia significativa entre las dos poblaciones.

Recordemos que para diferencias de medias se utiliza el siguiente estadístico de prueba:

2

2

2

1

2

1

2121 )(

nn

XXZ

Ejemplo

Una obra de construcción requiere un gran número de bloques de concreto. Dos empresas abastecedoras A y B licitan para su adjudicación, y dentro del pliego de condiciones se estipula que la resistencia mínima es de 1.000 unidades métricas a la resistencia, y el contrato se adjudicará a la empresa que mayor resistencia presente su producto. Paso 1: Se plantea la hipótesis nula (Ho) que no existe diferencia entre las resistencias medias a la compresión de los bloques de concreto. La hipótesis alternativa se plantea en términos que hay alguna diferencia significativa entre las dos resistencias medias a la compresión. Simbólicamente se expresa así:

BA

BA

H

H

:

:

1

0

Dado que la hipótesis alternativa no indica una dirección específica, la prueba es de dos colas Paso 2: Se elige un nivel de significancia de 0.01. Esto equivale a cometer un error de tipo I. Se usará una distribución normal estandarizada en Z, razón por la cual se debe seleccionar una muestra que al menos contenga como mínimo 30 unidades de bloque, cada una de las empresas licitantes.

Page 109: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

109

Paso 3: El estadístico de prueba a aplicar está dado por la siguiente fórmula:

2

2

2

1

2

1

21

n

S

n

S

XXZ

Suponga que Usted seleccionó una muestra de cada una de las empresas licitantes y determinó la resistencia a la compresión, con los siguientes resultados: Cuadro 3.2 Resultados de muestra

Licitante A Licitante B

X = 1.070 X = 1.020

n = 81 n = 64

S = 63 S = 57

El valor del estadístico de prueba es:

01.5

98827.9

50

64

57

81

63

020.1070.122

2

2

2

1

2

1

21

n

S

n

S

XXZ

Paso 4 Recuérdese que se seleccionó un nivel de significancia del 0.01 y se utilizará una prueba de dos colas. Los valores críticos y zonas de aceptación para las hipótesis se presentan en la siguiente figura:

Page 110: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

110

Figura 3.4 Toma decisión para prueba de hipótesis

Paso 5 El valor Z calculado queda en el área de rechazo de la hipótesis nula, por lo tanto se concluye que la media poblacional de la resistencia a la compresión es diferente en las dos empresas y la diferencia no se debe al azar del muestreo, con un grado de confianza del 99%.

Ejercicio de pruebas de medias Se analizó el contenido de calorías de dos lotes de leche condensada de diferente marca. El lote A constituido por 45 tarros de 100 gramos su contenido promedio de calorías fue de 320 y una desviación de 3. El lote B constituido por 55 tarros igualmente de 100 gramos el promedio de calorías fue de 321.5 con una desviación de 2.5. ¿Existe diferencia entre los contenidos calóricos de las dos marcas de leche al nivel de significación de 0.05? Sugerencia: Plantear las hipótesis en función de hay diferencia ó no existe diferencia de contenido promedio de calorías. Ejercicio de prueba de medias

El contenido medio de carbohidratos de 50 litros de leche de vaca entera cruda fue de 4.6% con un desviación de 0.5 y el de 50 litros de leche pasteurizada fue de 3.9% con una desviación de 0.4. Probar la hipótesis que el contenido de carbohidratos de la leche cruda es mayor que el la leche pasteurizada con un alfa de 0.01. Sugerencia: Se concluye que el contenido de la leche cruda es significativamente mayor que el la pasteurizada con un nivel de confiabilidad del 99%

Page 111: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

111

Lección No 18: Prueba de hipótesis para proporciones y diferencias de proporciones. Se entiende por proporción, la porción relativa o porcentaje que expresa la parte de la población o muestra que tiene un atributo particular de interés como el resultado comparativo de contar algo, Se cuenta el número de partes defectuosas; se cuenta el número de votantes por la preferencia de un candidato. Así la prueba de proporción implica niveles nominales de medida. Prueba para una proporción

Para demostrar una proporción muestral se requiere cumplir con ciertos principios binomiales, tales como:

1. Los datos recolectados son el resultado de un conteo. 2. El resultado de un experimento se clasifica en una de las dos

categorías mutuamente excluyentes: un éxito o un fracaso. 3. La probabilidad de éxito se mantiene constante. 4. Los intentos para realizar cada experimento son independientes. 5. El tamaño de la muestra debe ser tan grande para que se dé la

siguiente condición: (n)(p)>5 y (n)(1-p)>5 Para realizar una prueba de hipótesis a fin de evaluar la magnitud de la

diferencia entre la proporción muestral p y la proporción poblacional ( P ), se

puede usar el siguiente estadístico de prueba:

n

PP

PPZ

)1(

donde:

P es la proporción muestral. P es la proporción poblacional. n es el tamaño de la muestra.

De otra manera, en lugar de examinar la proporción de éxitos en una muestra como en el caso anterior, es posible estudiar el número de éxitos en una muestra, para determinar el número de éxitos esperados o hipotéticos en la población, se utiliza el siguiente estadístico de prueba:

Page 112: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

112

qpn

pnXZ

donde: X es el número de éxitos en la muestra. P es la proporción hipotética de éxitos.

PRUEBA UNILATERAL Ejemplo Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al menos el 80% de los votos del barrio donde vive. Dado su interés decide hacer una encuesta en el barrio con una muestra de 2.000 personas, para ver la posibilidad y 1.550 dieron respuesta favorable por sus aspiraciones. Pruebe la hipótesis de favorabilidad, con un nivel de significancia del 0.05. Antes de realizar el procedimiento de los cinco pasos, veamos si cumple la condición de:

(n)(p)>5 (2.000)(0.8)>5 1.600>5 Cierto (n)(1-p)>5 (2.000)(0.2)>5 400>5 Cierto

Paso 1 La hipótesis nula se plantea diciendo que Ud. sí tiene el 80% de favorabilidad de voto en su barrio y la hipótesis alternativa en que no alcanza a tener este porcentaje de favorabilidad de voto. Simbólicamente se expresa como sigue:

80.0:

80.0:

1

PH

PHo

Paso 2 La distribución de probabilidad a utilizar es la normal estandarizada en Z, con un nivel de significancia del 5%, con una cola a la izquierda. Paso 3 El estadístico de prueba a utilizar es:

n

PP

PPZ

)1(

donde:

P es la proporción muestral.

Page 113: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

113

P es la proporción poblacional. n es el tamaño de la muestra.

Pn

PP

)1( es el error estándar de la proporción poblacional.

Reemplazando los diferentes valores en la ecuación se tiene:

80.20089443.0

025.0

00008.0

80.0775.0

000.2

)80.01(80.0

80.0000.2

550.1

)1(

n

PP

PPZ

Paso 4 La regla de decisión se toma sobra la base de un valor critico calculado a partir de la tabla de distribución Z, con un área de 0.4500 (0.5000-0.0500)

Cuadro 3.7 Prueba de hipótesis de una proporción

Paso 5 Como el valor Z (-2080) está en la región de rechazo de la hipótesis nula, entonces se acepta la hipótesis alternativa y se concluye la favorabilidad de voto es menos al 80%.

Page 114: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

114

PRUEBA BILATERAL

Ejemplo Probar al nivel de significancia del 0.01 la aseveración que el 55% de las familias que planean adquirir una residencia en Melgar desean su ubicación en un condominio. Para su estudio Ud. toma una muestra aleatoria de 400 familias que planean comprar una residencia en Melgar, de las cuales 228 familias desean en un condominio. Paso 1 La hipótesis nula se plantea diciendo que el 55% de las familias desean adquirir residencia en un condominio en Melgar.

55.0:

55.0:

1

PH

PHo

Paso 2 La distribución de probabilidad a utilizar es la normal estandarizada en Z, con un nivel de significancia del 1%, con dos colas.

Paso 3 80.00248747.0

02.0

400

)55.01(55.0

55.0400

280

)1(

n

PP

PPZ

Paso 4 La regla de decisión se toma sobre la base del siguiente grafico: Figura 3.9 Prueba de proporción de dos colas

Page 115: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

115

Paso 5 La hipótesis nula que la proporción verdadera es del 55% no es rechazada a un nivel de significancia del 1%, concluyendo que el 55% de las familias planean adquirir residencia vacacional en Melgar lo desean en un condominio. A continuación se proponen dos ejercicios para que los desarrolle aplicando las sugerencias propuestas: Ejemplo 3.12 Se lanza una moneda 200 veces y se obtienen 105 caras. Si el nivel de significancia es de 1% probar la hipótesis que la probabilidad de caras es de ½ contra la hipótesis:

a. Que es mayor de ½. b. Que es menor de ½. c. Que es diferente de ½.

Sugerencia: En este caso utilice las propiedades de la distribución binomial donde:

1002

1200 np 07.72

12

1200 qpn

qpn

pnXZ

Ejemplo

Un fabricante de un empaque para harinas garantiza que tiene una efectividad de 95% en la protección contra la humedad durante un período de 6 meses. Se observó una muestra de 100 paquetes encontrándose resultados positivos en 85 paquetes. Comprobar si la afirmación del fabricante es verdadera con un nivel de significancia de 0.05.

Sugerencia: Utilizar prueba de una proporción.

Prueba de hipótesis para diferencias entre dos proporciones Se presenta a continuación un ejemplo donde se emplea la prueba de proporción para dos poblaciones, utilizando el siguiente estadístico de prueba:

Page 116: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

116

21

2121

)1()1(

)(

n

PP

n

PP

PPPPZ

CCCC

Donde:

1n Es la cantidad seleccionada en una muestra.

2n Es la cantidad seleccionada en la otra muestra.

21

21

nn

XXPC

Es la media ponderada de las proporciones muestrales.

1X Es la cantidad de éxitos de la primera muestra.

2X Es la cantidad de éxitos de la segunda muestra.

21yPP Proporción de éxitos de la población uno y dos respectivamente.

Ejemplo Una fábrica de perfumes ha desarrollado un nuevo producto. Varias pruebas de comparación indican que el perfume tiene un buen potencial en el mercado. Sin embargo el departamento de mercadotecnia y publicidad quieren planear una estrategia de manera que el producto llegue e impresione al sector más grande posible del público comprador. Una de las preguntas es si prefiera el perfume una proporción mayor de mujeres jóvenes o una proporción mayor de mujeres maduras. Por tanto, existen dos poblaciones: una que consta de mujeres jóvenes y otra de damas maduras. Se usó una prueba estándar de aroma. Se seleccionaron aleatoriamente damas y se les pidió que olieran varios perfumes, incluyendo el que suelen usar, y por supuesto el nuevo perfume. La persona que realiza la prueba es la única que conoce el nombre de los perfumes. Cada mujer selecciona el perfume que le agrada más. Paso 1 La hipótesis nula se plantea diciendo que no hay diferencia entre la proporción de mujeres jóvenes y maduras que prefieren el nuevo perfume. La hipótesis alternativa se plantea que las dos proporciones no son iguales.

211

21

:

:

PPH

PPHo

Se designa P subuno como la proporción de mujeres jóvenes y P subdos como la proporción de mujeres maduras. Paso 2: Se decidió un nivel de significancia del 0.05.

Page 117: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

117

Paso 3: Los planes son tomar una muestra al azar de 100 mujeres jóvenes designada por n subuno y una muestra de 200 mujeres mayores designada como n subdos. Los resultados una vez hecha el experimento dio los siguientes resultados: de las 100 mujeres jóvenes 20 eligieron el nuevo perfume, designando este valor como X subuno; y de las 200 mujeres maduras 100 prefirieron el nuevo perfume, designando este valor como X subdos. La proporción ponderada, da como resultado:

40.0300

120

200100

10020

21

21

nn

XXPC

0.506.0

30.0

200

)40.01(40.0

100

)40.01(40.0

200100

10020

)1()1(

21

21

n

PP

n

PP

PPZ

CCCC

Paso 4 Los valores críticos para un nivel de significancia del 5% son –1.96 y +1.96. Igual que en los otros casos, la siguiente grafica establece la regla de decisión:

Figura 3.10 prueba de dos proporciones

Paso 5 El valor de Z calculado de –5.0 se encuentra en el área de rechazo de la hipótesis nula. Por tanto, la hipótesis que las proporciones son iguales se rechaza a un nivel del 5% de significancia.

Page 118: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

118

Ejercicio 3.15 de diferencia de proporciones Dos lotes de frutas conformados cada uno por 250 unidades son tratados y almacenados en iguales condiciones salvo que el lote No 1 está a temperatura ligeramente inferior que el lote No 2. Pasado un tiempo se encuentra que el lote No 1 hay 225 frutas sanas y en el lote No 2 hay 200 sanas. Probar la hipótesis que la temperatura más baja favorece la conservación de las frutas al nivel de significación de 0.05.

Paso 1: 211

21

:

:

PPH

PPHo

Paso 2: Utilizando la distribución de probabilidad normal con ensayo unilateral a la derecha con un nivel significativo de 0.05, el valor critico es de 1.645. Paso 3:

13.30319.0

10.0

250

)15.0)(85.0(

250

)15.0)(85.0(

80.090.0

)1()1(

21

21

n

PP

n

PP

PPZ

CCCC

85.0250250

200225

21

21

nn

XXPC

Figura 3.11 Prueba de dos proporciones

Page 119: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

119

Como 3.12>1.645 se rechaza la hipótesis nula y se acepta la hipótesis alternativa. Paso 5 La temperatura más baja favorece la conservación de las frutas.

Lección No 19: Pruebas de hipótesis para la media y la Diferencia de medias con pequeñas muestras. Ahora veamos el caso en que las muestras son pequeñas, 30n , pero donde la

distribución muestral del estadístico de prueba se puede aproximar a una distribución t student. Dicha aproximación es posible cuando los valores subyacentes de la población son casi normalmente distribuidos, y cuando intervienen poblaciones donde las desviaciones estándar, aunque desconocidas, se sabe que son iguales. Habiendo estudiado pruebas para muestras grandes con todo detalle, podemos restringirnos a ejemplos en donde se aplique este tipo de distribución.

Prueba para media (pequeña muestra)

Si también es razonable suponer que la población tiene una distribución normal de probabilidad, con la distribución t se puede hacer inferencia a cerca del valor de la media de la población.

Ejemplo Una compañía de seguros revela que en promedio la investigación por demandas en accidentes y todos los trámites tiene un costo promedio de 60 unidades monetarias. Este costo se considera exagerado comparado con el de otras compañías del mismo tipo. A fin de evaluar el costo se seleccionó una muestra aleatoria de 26 demandas recientes y se realizó el estudio de costos. Se concluyó que el costo promedio es de 57 unidades monetaria con una desviación estándar de 10 unidades monetarias. Con un nivel de significancia del 0.01 se puede decir que ¿el estudio reveló un costo menor al establecido por la empresa?

Paso 1 La hipótesis nula se plantea en el sentido que el costo promedio es de 60 unidades monetarias. La hipótesis alternativa que el costo es menor a 60 unidades monetarias. Esto se expresa en la siguiente forma:

Page 120: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

120

600:

600:

1

0

H

H

La prueba es de una cola a la izquierda, según el planteamiento de la hipótesis alternativa. Paso 2 Se usa un nivel de significancia del 0.01 con una distribución “t”, en consideración a que la muestra en menor a 30, es decir, es una pequeña muestra. Paso 3 Utilizando los datos de la muestra, se utiliza la siguiente fórmula como estadístico de prueba:

530.1

26

10

6057

n

S

Xt

Paso 4 Los valores críticos para la distribución “t” se encuentran en la tabla correspondiente (anexo D), con 25 grados de libertad (26 – 1), prueba de una cola a un nivel de significancia de 0.01, correspondiendo un valor crítico de 2.485. En el siguiente figura se indica el presente planteamiento:

Figura 3.5 Prueba de una cola

Paso 5 Puesto que –1.53 se encuentra en la región de aceptación de la hipótesis nula a un nivel del 1% de significancia, se concluye que los costos para los tramites de

Page 121: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

121

seguros de accidente no se han disminuido y se mantiene a un nivel promedio de costo de 60 unidades monetarias. Ejemplo

Una empresa produce elementos con un promedio de 43 mm de largo. Un ajuste en las máquinas de producción supone que dicho estándar ha cambiado. Se quiere probar ésta hipótesis con un nivel de significancia del 0.02. Para afrontar el problema Ud. selecciona una muestra aleatoria de 12 elementos y procede a medir su largor con los siguientes resultados: Cuadro 3.3 Selección muestra aleatoria

Elemento 1 2 3 4 5 6 7 8 9 10 11 12

Medida 42 39 42 45 43 40 39 41 40 42 43 42

Paso 1 Plantea sus hipótesis:

43:

43:

1

0

H

H

Como hipótesis nula que no se ha producido un cambio en las dimensiones del producto. Como hipótesis alternativa que se ha producido un cambio en las características internas del producto debido a los ajustes en las máquinas. Paso 2 Se dispone a probar la hipótesis con un nivel de significancia del 0.02, utilizando la distribución “t” porque es una pequeña muestra, con 11 grados de libertad aplicando el principio de ( n- 1) y calculo para dos colar puesto que la hipótesis alternativa está planteada desde el punto de vista de “diferente”. Paso 3 El estadístico de prueba a utilizar es el siguiente:

n

S

Xt

Page 122: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

122

Procede al calculo de la media y la desviación estándar muestral:

5.4112

498

n

XX

78.1

11

35

1

2

n

XXS

Con la información anterior, aplica la fórmula del estadístico de prueba:

92.2

12

78.1

0.435.41

n

S

Xt

Paso 4 Para aplicar la regla de decisión, muestra en el siguiente gráfico el planteamiento anterior: Figura 3.6 Prueba de dos colas

Paso 5 La hipótesis nula que la media poblacional es 43 mm se rechaza a un nivel de significancia del 0.02 y se acepta la hipótesis alternativa, concluyendo que los ajustes en las máquinas sí causaron un cambió en la calidad de control en el largor de los diferentes elementos que se producen. Anteriormente se analizó ampliamente la prueba de hipótesis para cuando las muestra son pequeñas, es decir, el tamaño de la muestra es menor a 30. A continuación se propone un ejercicio de aplicación, para que Ud. los desarrolle atendiendo las sugerencias dadas.

Page 123: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

123

Ejemplo Un fabricante de pastas alimenticias sostiene que el contenido medio de proteínas del producto es de 10.7. Un análisis de una muestra de 8 paquetes dio como resultado un contenido medio de 10% con una desviación de 1. ¿Se puede aceptar como verdadera la afirmación del fabricante a un nivel de 0.01? Sugerencia:

Utilizar el siguiente estadístico de prueba:

n

S

Xt

Un ensayo unilateral con cola a la izquierda con un nivel significativo de 0.01 el valor critico con 7 grados de libertad es igual a –3.0 ( Anexo D)

Prueba para dos medias maestrales (pequeñas muestras) Una prueba que utiliza la distribución t también puede aplicarse para comparar dos medias muestrales que tienen las siguientes características:

1. Las poblaciones deben de distribuirse normalmente. 2. Las poblaciones deben de ser independientes. 3. Las varianzas de las poblaciones deben de ser iguales. 4. Las muestras tienen menos de 30 observaciones. 5. Las desviaciones estándar de las poblaciones no se conocen.

Cuando se está frente a estas características, el estadístico de prueba a utilizar es el siguiente:

2121

2

2

21

2

1

2121

11

2

11

)(

nnnn

nSnS

XXt

Donde:

21 XyX Las medias de las muestras

21ynn Los tamaños de las muestras

2

2

2

1 ySS Las varianzas de las muestras

G.L. Grados de libertas, igual a = 221 nn

Page 124: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

124

Ejemplo

Se ha propuesto realizar un examen de estadística a dos grupos de estudiantes, con el propósito de saber si los grupos tienen similares conocimientos sobre pruebas de hipótesis. Para ello Ud. seleccionó el grupo A compuesto de 5 estudiantes de educación a distancia y el grupo B compuesto por 6 estudiantes de educación presencial, y los sometió a la prueba, dando como resultado los siguientes tiempos en minutos: Cuadro 3.4 prueba para dos grupos

Educación a distancia

Educación presencial

2 4 9 3 2

3 7 5 8 4 3

Probar con un nivel de significacia del 0.10 si existe alguna diferencia de habilidad en los conocimientos de los dos grupos. Paso 1: Las hipótesis las plantea en los siguientes términos:

211

21

:

:

H

Ho

La hipótesis nula consistente en que los dos grupos no tienen alguna diferencia en la habilidad de conocimiento, y la hipótesis alternativa en que existe diferencia entre los grupos sobre la habilidad en la aplicación de los conocimientos. Paso 2: Prueba la hipótesis con un nivel de significancia del 10%, utilizando la distribución t student porque las muestras son menores que 30, con 9 grados de libertad (5+6 – 2) y prueba de dos colar porque la hipótesis alternativa está planteada en función de “diferente”. Paso 3 Para el cálculo del estadístico de prueba se requiere estimar las medias de los grupos y sus varianzas, los cuales se presentan en el siguiente cuadro:

Page 125: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

125

Cuadro 3.5 Resultados para los grupos de estudiantes

Grupo estudiantes a distancia Grupo presencial

Media = 4 Media = 5

Varianza = 8.5 Varianza = 4.4

Muestra = 5 Muestra = 6

6620.0

6

1

5

1

265

164.4155.8

54

11

2

11

2121

2

2

21

2

1

21

nnnn

nSnS

XXt

Paso 4: La regla de decisión se presenta en la siguiente gráfica: Figura 3.7 Pruebas para comparación de dos medias

Paso 5: La decisión es no rechazar la hipótesis nula debido a que el valor del estadístico de prueba –06620 ha caído en la zona de aceptación de dicha hipótesis, concluyendo que no existe diferencia en la habilidad de aplicación de conocimientos entre los estudiantes a distancia y los estudiantes de presencial, con un nivel de significancia del 10%.

Prueba de hipótesis para observaciones pareadas o relacionadas (con muestras pequeñas) La característica principal para aplicar este tipo de prueba, es que las muestras sean dependientes y el tamaño de cada muestra sea inferior a 30 elementos seleccionados.

Page 126: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

126

Ejemplo 3.9:

Un grupo de alumnos registra un índice de puntuación en estadística, que se considera muy bajo para aceptarlos al siguiente nivel. Proceden a tomar un curso de nivelación, obteniendo los siguientes registros antes y después del curso. Con un nivel de significancia del 0.05 probar si el curso de nivelación mejoró las condiciones del grupo.

Antes 128 105 119 140 98 123 127 115 122 145

Después 135 110 131 142 105 130 131 110 125 149

En estas condiciones hay un par de índices de eficiencia para cada miembro del grupo, antes y después del curso,; éste conjunto de pares es lo que se denomina muestra por pares. La prueba de hipótesis que se realiza para determinar si hay diferencia entre los índices antes y después del curso de nivelación, es lo que denomina prueba de diferencia por pares. Obsérvese que las dos muestras, una antes y una después, dependen entre sí, debido a que los mismos alumnos están en ambas pruebas, por tanto son dependientes. La muestra está constituida por la diferencia entre los registros de puntuación antes y después del programa. Así, la media de las diferencias entre los

registros de rendimiento, se designa mediante d . Se presenta a continuación

el procedimiento de la prueba:

Paso 1: 0:

0:

1

d

d

H

Ho

La hipótesis nula plantea que no hay diferencia de eficiencia después del curso. La hipótesis alternativa plantea que el programa de nivelación mejoró el nivel de los estudiantes. Paso 2 Se usa un nivel de significancia del 5%, la muestra seleccionada es de 10 estudiantes considerada pequeña muestra, la distribución de probabilidad a utilizar es la “t” student , con n – 1 grados de libertad. Paso 3 El estadístico de prueba a utilizar es:

n

S

dt

d

Page 127: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

127

donde:

d :es la media de la diferencia entre las observaciones por pares.

dS :es la desviación estándar de las diferencias entre las

observaciones por pares. n :es el número de observaciones por pares. G.L :son los grados de libertad (n –1)

Para determinar el calculo del estadístico de prueba se requiere conocer la media de las diferencias y su desviación estándar, para lo cual procedemos a su cálculo utilizando el siguiente cuadro: Cuadro 3.6 Calculo estadístico sobre diferencia de medias

Muestra Registro antes

Registro después

Diferencia d Diferencia al cuadrado

1 2 3 4 5 6 7 8 9 10

128 105 119 140 98 123 127 115 122 145

135 110 131 142 105 130 131 110 125 149

7 5 12 2 7 7 4 -5 3 4

49 25 144 4 49 49 16 25 9 16

Sumas 46 386

60.410

46

n

dd

40.4110

10

46386

1

22

2

n

n

dd

Sd

Aplicando la fórmula, se obtiene:

30.3

10

4.4

6.4

n

S

dt

d

Page 128: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

128

Paso 4 El valor crítico de t para esta prueba de una cola a la derecha, es 1.833 que se obtiene en la tabla de la distribución “t” (anexo D), ubicando en la columna de la izquierda 9 grados de libertad y recorriendo a la derecha hasta la columna de una cola con 0.05 nivel de significancia. En la siguiente gráfica se indica lo expuesto:

Figura 3.8 Prueba de hipótesis por pares

Paso 5 Como el valor t (3.30) está en la región de rechazo de la hipótesis nula, entonces se acepta la hipótesis alternativa y se concluye que el programa de adiestramiento para los alumnos fue eficaz para aumenta su eficiencia.

Lección No 20: Pruebas de hipótesis para la varianza

Como su nombre lo indica, consiste en comparar tres o más medias de una muestra para identificar su homogeneidad o variabilidad. esta técnica estadística, normalmente es utilizada para analizar resultados en la investigación con diseños experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos o más distribuciones que corresponden a variaciones de una misma variable dependiente, afectada por una o más variables independientes.

Page 129: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

129

COMPARACIÓN DE DOS VARIANZAS POBLACIONALES

Su utilidad radica en determinar si una población normal tiene más variación que otra población que se considera también normal. Como ejemplo se pueden mencionar, si dos máquinas dedicadas a producir cierto artículo de precisión pueden ser confiables en el control de calidad, es decir, el producto tiene el mismo largor, el mismo diámetro y las variaciones presentadas son similares. Ejemplo 16

La tasa media de rendimiento de dos tipos de acciones se pueden apreciar en el siguiente cuadro, se desea saber si el rendimiento promedio es diferente a un nivel de significancia del 0.10.

Acciones Rendimiento promedio

Desviación estándar

Tamaño de la muestra

Tipo A Tipo B

56 58

12 5

7 8

Paso 1: 2

2

2

11

2

2

2

1

:

:

H

Ho

La variación de los rendimientos promedios de las acciones es igual como la hipótesis nula. La variación de los rendimientos de las acciones es diferente como hipótesis alternativa. Paso 2: Se selecciona un nivel de significancia de 0.01 utilizando la distribución F. Paso 3: El valor del estadístico de prueba sigue una distribución F, con la siguiente relación:

76.55

122

2

2

2

2

1 S

SF

Se acostumbra a colocar el mayor valor en el numerador, de tal forma que la relación siempre será por lo menos igual a uno.

Page 130: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

130

Paso 4 El valor crítico se obtiene del Anexo F, para lo cual se reproduce una parte de la tabla. Debido a que utiliza una prueba de dos colas, el nivel de significancia para

cada cola será de: 05.02

10.02

.

Grados de libertad para el numerador : n – 1 = 7-1 = 6 Grados de libertad para el denominador : n – 1 : 8 – 1 = 7 Para encontrar el valor crítico, se incorpora parte de la tabla del Anexo F: Cuadro 3.8 Grados libertad numerador denominador

GRADOS LIBERTAD NUMERADOR

G.L Denominador

5 6 7 8

1 2 3 4 5 6 7 8 9 10

230 19.3 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33

234 19.3 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22

2.7 19.4 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14

239 19.4 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07

Paso 5: Dado que el valor de la distribución F (5.76) se encuentra a la derecha del valor crítico (3.87), se acepta la hipótesis alternativa y se concluye que los rendimientos promedios de las acciones son diferentes. Ejercicios: 4 1. Suponga que se va efectuar una prueba de hipótesis para un proceso en el cual un error de tipo II sería muy costoso, no así el error tipo I que sería bastante más barato y tendría poca importancia. Cual sería entonces de los siguientes valores la mejor opción para el nivel de significación de cometer un error tipo I en esta prueba?: 0.01; 0.1; 0.25; 0.5 R/ta: 0,25

Page 131: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

131

2. Un grupo de investigadores de una escuela introdujeron un programa de preparación para el ingreso a la universidad. Al finalizar el año, 125 estudiantes tomaron los exámenes de admisión de la universidad obteniendo en la prueba un promedio de 590 puntos con una desviación estándar de 35 puntos. En años anteriores el puntaje promedio obtenido en esta misma prueba fue de 580 puntos. Si se quiere probar a un nivel de significación del 5%, si el programa mejora el puntaje. Las Hipótesis a Probar son: R/ta: H0 µ ≤ 580 H1: µ > 58 3. A fin del mes de marzo de 2007 la empresa brasilera compro el 51% de las acciones de Paz del Rio S.A a razón de $120 la acción. En el mes de junio de 2007, en una muestra de 500 acciones, la razón promedio de las acciones cotizadas en la bolsa de valores de Bogotá fue de $95, con una desviación estándar de $20. ¿Si queremos saber si se puede afirmar que esta muestra ofrece suficiente evidencia en un nivel de significancía de 0.05, que durante el mes de junio de 2007 el precio de estas acciones en la bolsa de valores de Bogotá se desmejoraron, ¿las hipótesis a probar son?: R/ta: Ho: µ = 120 H1 : µ < 120. 4. El puntaje promedio tradicional de una prueba de admisión a una universidad es de 580 puntos. Se realizó una prueba con 125 aspirantes cuyo promedio fue 590 puntos, con una desviación estándar de 35 puntos. Si se quiere probar a un nivel de significación de 5% si el promedio ha mejorado. Las hipótesis a probar son: R/ta: H0 µ = 580 H1: µ > 580 5. Un fabricante asegura a una empresa que le compra regularmente un producto que el porcentaje de defectuosos no es mayor del 5%. La compañía decide comprobar la afirmación del fabricante, seleccionando de su inventario 50 unidades de ese producto y probándolas. Deberá sospechar la empresa de la afirmación del fabricante cuando el intervalo de confianza de la verdadera proporción de artículos defectuosos sea: R/ta: (0.08 y 0.12) 6. Una marca de nueces afirma que, como máximo, el 6% de las nueces están vacías. Se eligieron 300 nueces al azar y se detectaron 21 vacías. 1.Con un nivel de significación del 1%, ¿se puede aceptar la afirmación de la marca? R/ta: Aceptamos la hipótesis nula H0. Con un nivel de significación del 1%.

Page 132: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

132

7. La duración de la bombillas de 100 W que fabrica una empresa sigue una distribución normal con una desviación típica de 120 horas de duración. Su vida media está garantizada durante un mínimo de 800 horas. Se escoge al azar una muestra de 50 bombillas de un lote y, después de comprobarlas, se obtiene una vida media de 750 horas. Con un nivel de significación de 0,01, ¿habría que rechazar el lote por no cumplir la garantía? R/ta: Rechazamos la hipótesis nula H0. Con un nivel de significación del 1% 8. Un fabricante de lámparas eléctricas está ensayando un nuevo método de producción que se considerará aceptable si las lámparas obtenidas por este método dan lugar a una población normal de duración media 2400 horas, con una desviación típica igual a 300. Se toma una muestra de 100 lámparas producidas por este método y esta muestra tiene una duración media de 2320 horas. ¿Se puede aceptarr la hipótesis de validez del nuevo proceso de fabricación con un riesgo igual o menor al 5%? R/ta: Rechazamos la hipótesis nula H0, con un nivel de significación del 5%. Aplicaciones en Excel y SPSS.1

A. Excel

Excel dispone de funciones que permiten realizar contrastes de hipótesis de igualdad de medias y varianzas, de independencia y ajuste de la chi – cuadrado y otros contrastes. A continuación se presenta la sintaxis de estas funciones: Cuadro 3.9 Funciones de pruebas de hipótesis

PRUEBA. CHI (rango 1; rango 2)

Realiza las pruebas de independencia y ajuste de la CHI – CUADRADO para los valores actuales (definidos por rango 1) y esperados dados (definidos por rango 2). Calcula el valor de la CHI – CUADRADO y el p-valor del contraste.

PRUEBA F (x, y) Realiza la prueba de igualdad de varianzas para dos muestras x e y, calculando la probabilidad de la igualdad.

PRUEBA T( x; y) Realiza la prueba T de Student de igualdad de medias para dos muestras x e y, calculando la probabilidad de la igualdad. El parámetro n puede valer 1 ó 2, según el número de colas de la T. El parámetro tipo vale 1 si los datos son pareados, vale 2 si las varianzas de las muestras se suponen iguales, y vale

Page 133: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

133

3 si las varianzas de las muestras se suponen desiguales.

PRUEBA Z (x; a; b) Realiza la prueba de que la observación a provenga de la población cuya muestra es x, siendo b la desviación típica. La función devuelve la probabilidad de dicho evento.

B. SPSS Ejemplo 2.17

Un agente de seguros vende pólizas a cinco individuos todos de la misma edad. De acuerdo con las tablas actuariales, la probabilidad de que una persona con esa edad viva 30 años más es de 3/5. Determine la probabilidad que dentro de 30 años vivan:

a. Al menos 3 individuos. b. Como mucho dos individuos.

Dado que la situación de cada individuo es que viva o que no viva, y una de las dos alternativas se debe de presentar, la situación de cada individuo se ajusta a una variable de Bernoulli con probabilidad de éxito (vivir 30 años más) igual a 3./5 = 0.6. Al considerar los 5 individuos, se esta ante una variable X Binomial con n = 5, p = 0.6. Se designa F(X) como la función de distribución, en donde para el literal a, habrá de calcularse P(X>=3). Para calcular la probabilidad pedida se selecciona transformar, calcular (previamente es necesario tener cargado un fichero cualquiera en memoria como se indica en la siguiente figura.. Figura 3.10

Page 134: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

134

Se trata de identificar la distribución Bernoulli, que solicita la cantidad y la probabilidad para calcular la probabilidad acumulada para los parámetros solicitados. En la figura siguiente se detalla la función desplegada en la ayuda. Figura 3.11

En la siguiente figura se muestra la pantalla como resultado de haber seleccionado la figura 3.10 relacionada con el cálculo de la variable. Figura 3.12

Page 135: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

135

Actividades de aprendizaje.

Excel contiene varias herramientas de análisis útiles para realizar contrastes de hipótesis. La opción análisis de datos del menú herramientas le lleva al cuadro de dialogo de la siguiente figura: Figura 3.12 Ventana de análisis de datos

Observe que puede realizar contrastes de pruebas t para medias de dos muestras emparejadas, para dos muestras suponiendo varianzas iguales, para dos muestras suponiendo varianzas desiguales y prueba z para medias de dos muestras. PRUEBA T PARA MEDIAS DE DOS MUESTRAS ENPAREJADAS

Page 136: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

136

Es posible ejecutar una prueba T de Student de dos muestras pareadas para determinar si las medias de las dos muestras son iguales suponiendo que las varianzas de ambos conjuntos de datos son iguales. Esta prueba generalmente se utiliza cuando un par natural de observaciones en las muestras, como por ejemplo, cuando un grupo de muestra se somete dos veces a prueba, antes de un experimento y después de este. Si elige dicha opción en el cuadro de dialogo aparece la siguiente figura: Figura 3.13 ventana de prueba t de dos muestras

Rango para la variable 1 y 2: Se introduce la referencia de celda correspondiente al primer y segundo rango de datos que desea analizar. El rango debe constar de una única fila o una única columna. Diferencia hipotética entre medias: Se introduce el número cero para indicar, que según la hipótesis, las medias de las muestras son iguales. Rótulos: Activa la casilla si la primera fila o columna del rango de entrada contiene rótulos y la desactiva si carece de rótulos. El programa genera los rótulos de datos correspondientes para la tabla de resultados. Alfa: Se introduce el nivel de significancia para la prueba, valor que debe estar comprendido entre el rango de cero y uno. El nivel alfa es un nivel de importancia relacionado con la probabilidad de que haya un error de tipo I (rechazar una hipótesis verdadera). Rango de salida: Se introduce la referencia correspondiente a la celda superior izquierda de la tabla de resultados y el programa determina el tamaño del área de resultados y muestra un mensaje si la tabla de resultados reemplaza datos ya existentes.

Page 137: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

137

En cuanto a las opciones de salida, se presenta “En una hoja nueva” para insertar una hoja en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja de cálculo. “En un libro nuevo” para crear un nuevo libro y pegar los resultados en una hoja del libro creado. En el siguiente ejemplo de muestras emparejadas suponga que en un experimento de 6 lotes de terreno, la mitad de cada lote fue sembrado con una semilla resistente y la otra mitad con semilla corriente. Los resultado al momento de la recolección fue el siguiente en Kilos:

Semilla resistente Semilla corriente

84 76 104 103 91 90

72 70 90 94 93 90

Se desea probar si existe alguna diferencia significativa entre las semillas. En el presente ejemplo de muestras apareadas se tiene la opción de salida utilizando después de haber registrado la información: Figura 3.14 Resultados de prueba de muestras pareadas

De acuerdo con los resultados se rechaza la igualdad de medias para el contraste de una cola puesto que el valor crítico de T (2,01504918) es menor

Page 138: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

138

que el valor del estadístico de prueba t (2,47152458), es decir, esta ubicado en la región critica o de rechazo de la hipótesis nula. Además, la probabilidad o p-valor (0.02821228) es menor que el nivel alfa propuesto de 0.05. Observando los resultados para el contraste de dos colas, se acepta la igualdad de medias, puesto que el valor crítico de t (2.57057764) es mayor que el valor del estadístico de prueba t (2.47152458), es decir, cae fuera de la región crítica o de rechazo, además, la probabilidad o p-valor (0.05642456) es mayor ligeramente al nivel alfa estipulado de 0.05. PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS IGUALES Y DESCONOCIDAS. En Excel es posible ejecutar una prueba t de Student en dos muestras para determinar si sus medias son iguales suponiendo que las varianzas de ambos conjuntos de datos son desconocidas e iguales. Esta prueba se conoce con el nombre de prueba t homocedástica. En el cuadro de diálogo de “Análisis de datos” se elige prueba t para dos muestras suponiendo varianzas iguales. El siguiente ejemplo permite entender el contraste, suponga que se están utilizando ampollas de la marca A durante muchos años, pero se contempla el cambio a la marca B debido a un mejor precio. Se afirma que la marca B es tan bueno como el A y a fin de contrastar dicha afirmación se toman las siguientes muestras de cada una de las marcas y se verifica el tiempo en horas de efecto y si se admite que no existe competencia entre las dos marcas, se trata de probar la hipótesis de que el efecto en horas de las ampollas de la marca B es igual a las de la marca A. El cuadro de dialogo para la prueba se muestra a continuación: Figura 3.15 Prueba t para dos muestras

Page 139: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

139

La salida correspondiente a las opciones de la prueba t para dos muestras suponiendo varianzas iguales se muestran en la siguiente figura: Figura 3.16 Resultados prueba t dos muestras

Page 140: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

140

En el ejemplo de las ampollas marca A y B se puede apreciar en el cuadro anterior que se rechaza la igualdad de medias, tanto para el contraste de una cola como para el contraste de dos colas, puesto que ambos valores críticos de t (1.7396064 y 2.1098185) son menores que el valor del estadístico de prueba t (2.5235223), es decir, caen dentro de la región crítica o de rechazo. Además las dos probabilidades o p-valores (0.0109339 y 0.0218678) son menores que el alfa propuesto de 0.05. PRUEBA T PARA DOS MUESTRA SUPONIENDO VARIANZAS DESIGUALES Y DESCONOCIDAS. En Excel es posible ejecutar una prueba t Student en dos muestras para determinar si sus medias son iguales, suponiendo que las varianzas de ambos conjuntos de datos son desconocidas y desiguales. Esta prueba se conoce con el nombre de prueba t heterocedástica. Si en el cuadro de dialogo de “Análisis de datos” se elige la prueba t para dos muestras suponiendo varianzas desiguales, se obtiene el siguiente cuadro de diálogo: Figura 3.17 Ventana para prueba t de dos muestras

Para entender la prueba de t para dos muestras suponga que un ingeniero químico quiere analizar la cantidad de nicotina de dos marcas diferentes de cigarrillos (X y Y) para lo cual dispone de la información que se presenta junto con el cuadro de salida de la prueba:

Page 141: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

141

Figura 3.18 resultados para prueba t de dos muestras

En el ejemplo del contenido de nicotina para las dos marcas de cigarrillos, se rechaza la igualdad promedio de nicotina, tanto para el contraste de una cola como para el contraste de dos colas, puesto que ambos valores críticos de t (1.7396064 y 2.1098185) son menores que el valor estadístico de prueba t (2.5156445), es decir, caen dentro de la región crítica o de rechazo. Además las dos probabilidades o p-valores (0.011112 y 0.0222241) son menores que el nivel alfa propuesto de 0.05. CONTRASTE Z PARA DIFERENCIAS DE MEDIAS SUPONIENDO VARIANZAS CONOCIDAS. En Excel también es posible ejecutar una prueba Z de la normal en dos muestras para determinar si sus medias son iguales, suponiendo que las varianzas de ambos conjuntos de datos son conocidas. Si en el cuadro de diálogo “Análisis de datos” se elige la opción Prueba Z para medias de dos muestras, suponiendo que las cifras que se registran corresponden al análisis de proteínas realizadas a una misma variedad de trigo cosechada en dos distritos diferentes, y se desea contrastar si existe alguna diferencia significativa en la cantidad promedio de proteína en los dos distritos, se obtiene el siguiente cuadro de diálogo:

Page 142: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

142

Figura 3.19 Ventana para prueba z de dos muestras

La opción de salida se muestra en el siguiente cuadro u corresponde a las opciones de la prueba Z para medias de dos muestras: Figura 3.20 Resultados de una prueba Z para dos muestras

En el presente ejemplo de las muestras de trigo de los dos distritos, se acepta la igualdad del contenido promedio de proteínas, tanto para el contraste de una

Page 143: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

143

cola como para el contraste de dos colas, puesto que ambos valores críticos de Z ( 1.64485348 y 1.95996279) son mayores que el valor estadístico de prueba Z (0.19377279), es decir, cae fuera de la región crítica o de rechazo. Además, la probabilidad o p-valor (0.42317692) es mayor que el nivel alfa preestablecido de 0.05. Auto evaluación Información de retorno al final del módulo. 3.1 ¿Qué es una prueba de hipótesis? 3.2 Enumere el procedimiento de los cinco pasos para probar una hipótesis? 3.3 Se dispone del producto XX para agregarlo al maíz durante la etapa de

crecimiento con el propósito de agregar peso a la mazorca. Para determinar si el producto fue eficaz, se seleccionaron aleatoriamente 400 mazorcas que recibieron el tratamiento; se pesó cada mazorca y su peso medio fue de 16 onzas con una desviación estándar de 1 onza. De igual manera , se pesó 100 mazorcas de maíz no tratado y la media fue de 15.2 onzas con una desviación estándar de 1.2 onzas.

3.3.1 Utilizando una prueba de una cola y el nivel de 0.05, ¿es posible decir que el producto XX actuó eficazmente para dar más peso al maíz?.

3.3.2 Muestre la regla de decisión gráficamente. 3.4 Una persona cree que las latas de 16 onzas de un determinado enlatado

se están llenando en exceso. El departamento de control de calidad tomó una muestra aleatoria de 50 envases y encontró que el peso promedio es de 16.05 onzas, con una desviación estándar de 0.03 onzas. En el nivel de significancia de 5%.

3.4.1 ¿Puede rechazarse la hipótesis de que el peso promedio es igual a 16 onzas?

3.4.2 Determine el p valor. Resumen Cuando las personas toman decisiones lo hacen con base en creencias que tienen en relación a su concepto de realidad. Cada una de estas creencias origina una hipótesis, que es una proposición avanzada con posibilidad de ser verdadera. La prueba de hipótesis es un método sistemático de evaluar creencias sobre la realidad que requiere de la confrontación de una creencia con una evidencia y decidir si puede mantenerse como razonable o descartarse por insostenible, e intervienen 5 pasos principales. El primer paso es la formulación de dos hipótesis opuestas, la hipótesis nula

simbolizada por 0H y la hipótesis alternativa simbolizada por 1H siendo ambas

Page 144: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

144

mutuamente excluyentes y también colectivamente exhaustivas, las cuales se pueden expresar en varias formas, mientras que la hipótesis nula puede ser expresada como exacta o inexacta, la alternativa siempre se expresa como inexacta de dos o una cola. El paso dos es la determinación del nivel de significancia y por supuestamente el tipo de distribución de probabilidad a utilizar, con el propósito de fijar los puntos críticos de la prueba, sea para una prueba de una cola o de dos colas. El paso tres es la selección del estadístico de prueba a calcular a través de una muestra aleatoria simple tomada de la población de interés para establecer la probable verdad o falsedad de la hipótesis nula. El paso cuatro es la confrontación con la regla de decisión, que consiste en aceptar o rechazar la hipótesis nula. El rechazo erróneo de una hipótesis nula que en realidad es verdadera se llama error tipo I y ocurre con una probabilidad de . La aceptación errónea de una hipótesis nula que en efecto es falsa se

llama error tipo II y ocurre con una probabilidad . Dado el tamaño muestral de

n, cualquier cosa que reduzca hará aumentar en forma automática. Las

dos probabilidades complementarias 1 con respecto a y 1 con

respecto a , se conocen respectivamente como el nivel de confianza y la

potencia de la prueba de hipótesis. La relación entre los errores tipo I y tipo II se pueden describir con ayuda de la correspondiente curva. El paso 5 es la toma de la decisión con relación a la hipótesis nula planteada. Los procedimientos modernos de pruebas de hipótesis aún están sujetos a controversia considerable y los críticos presentan preocupaciones por las violaciones serias de suposiciones. Aplicaciones en Excel y SPSS. A. Excel

GENERACIÓN DE NÚMEROS ALEATORIOS

Excel dispone de funciones para la obtención de números aleatorios independientes, extraídos según una distribución dada, utilizando herramientas de análisis. Si en el cuadro de diálogo “Análisis de datos” de la figura 2.5 elige “Generación de números aleatorios” de la figura 2.6.

Page 145: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

145

Figura 2.5 Ventana de análisis de datos

Figura 2.6 Generación de números aleatorios

En el cuadro de número de variables introduzca el número de columnas de valores que desee incluir en la tabla de resultados; si no introduce valor alguno, el programa rellenará todas las columnas del rango de salida que se haya especificado. En el cuadro de “Cantidad de números aleatorios” introduzca el número de puntos de datos que dese ver; si no introduce algún número el programa rellenará todas las columnas del rango de salida que haya especificado. En el cuadro de “Distribución” haga clic en distribución estadística que desee utilizar para crear los valores aleatorios

Las distribuciones posibles son:

Page 146: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

146

Uniforme: caracterizada por los límites inferior y superior. Se

extraen las variables con probabilidades iguales de todos los valores del rango.

Normal: Caracterizada por una media y una desviación estándar.

Una aplicación normal utiliza una media cero y una desviación estándar de uno para la distribución estándar normal.

Bernoulli: Caracterizada por la probabilidad de éxito (valor P) en un

ensayo dado. Las variables aleatorias de Bernoulli tiene un valor cero ó uno; por ejemplo, puede trazarse una variable aleatoria uniforme en el rango 0...... Si la variable es menor o igual que la probabilidad de éxito, se asigna el valor uno a la variable aleatoria de Bernoulli; en caso contrario se le asigna el valor de cero.

Binomial: Caracterizada por una probabilidad de éxito (valor P)

durante un número de pruebas; por ejemplo, se puede generar varables aleatorias de Bernoulli de número de pruebas, cuya suma es una variable aleatoria binomial.

Poisson: Caracterizada por un valor lambda, igual a Media

1. La

distribución de Poisson se utiliza con frecuencia para caracterizar el número de incidencias por unidad de tiempo; por ejemplo, el ritmo promedio al que llegan los vehículos a una garita de peaje.

Frecuencia relativa: Caracterizada por un límite inferior y superior,

un incremento, un porcentaje de repetición para valores y un ritmo de repetición de la secuencia.

Discreta: Caracterizada por un valor y el rango de probabilidades

asociado. El rango debe contener dos columnas. La columna izquierda debe contener valores, y la derecha probabilidades asociadas con el valor de esa fila. La suma de las probabilidades debe ser igual a uno

En el campo de parámetros introduzca un valor o varios valores para caracterizar la distribución seleccionada.- En el campo “Iniciar con” escriba un valor opcional a partir del cual se generan los números aleatorios. En el cuadro de “Rango de salida” introduzca la referencia correspondiente a la celda superior izquierda de la tabla de resultados. Haga clic en aceptar y se muestra la salida correspondiente a la opción de generación de números aleatorios

Page 147: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

147

OBTENCIÓN DE MUESTRA ALEATORIA SIMPLE

Adicionalmente Excel permite obtener una muestra aleatoria simple con reposición de una población numerada dada como rango de entrada. En el cuadro de diálogo “Análisis de datos” se elige “Muestra como se indica en el cuadro 2.7, se obtiene el cuadro de diálogo de la muestra de la figura 2.8. A continuación se explica la funcionalidad de todos los campos del cuadro de diálogo de la muestra.

Figura 2.7 Ventana de análisis de datos

Figura 2.8 Ventana del dialogo para la muestra

Page 148: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

148

Rango de entra: Introduzca la referencia correspondiente al rango de datos que contenga la población de valores de los que desee extraer una muestra. Rótulos: Active ésta casilla si la primer afila y la primera columna del rango de entrada contiene rotulo. Desactive si el rango de entrada carece de rotulo. Método de muestreo: Haga clic en el periódico o aleatorio para indicar el intervalo de muestreo que desee.

Periodo: Introduzca el intervalo en el que desee realizar la muestra. El valor n del período del rango de entrada y cada valor n del período siguiente se copian en la columna de resultados. El muestreo termina cuando se llegue al final del rango de entrada.

Número de muestra: Introduzca el número de valores aleatorios que desee en la columna de resultados. Cada valor se extrae de una posición aleatoria del rango de entrada, y puede seleccionarse cualquier número más de una vez.

Rango de salida: Introduzca la referencia correspondiente a la celda superior izquierda de la tabla de resultados. Los datos se escriben en una sola columna debajo de la celda. Si selecciona “Periódico”, el número de valores de la tabla de resultados es igual al número de valores del rango de entrada dividido por la tasa de muestreo. Si selecciona “Aleatorio”, el número de valores de la tabla de resultados es igual al número de muestras.

En hoja nueva: Hace clic en ésta opción para insertar nueva hoja en e libro actual y pegar los resultados, comenzando por la celda A1 de la nueva hoja de cálculo. Para darle un nombre a la nueva hoja de cálculo, escríbalo en el cuadro.

En libro nuevo: Haga clic en ésta opción para crear un libro nuevo y pegar los resultados en una hoja nueva del libro creado.

Al pulsar aceptar en la figura 2.8, se obtiene la muestra aleatoria simple con ó sin reposición.

B. SPSS

Ordenar casos

Para ordenar una variable aleatoria de un archivo en SPSS, elija en los menús: datos, seleccionar casos como se indica en la figura:

Page 149: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

149

Figura 2.9

Al hacer clic en ordenar datos aparece la siguiente figura que permite ordenar por la variable en que se esté interesado, para el caso se ha seleccionada la edad.

Figura 2.10

Seleccionar una muestra aleatoria

En la barra de menú elija datos, y selecciona casos como se indica en la figura:

Page 150: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

150

Figura 2.11

Al pulsar clic en seleccionar casos se logra la siguiente figura:

Figura 2.12

Al lado derecho de la figura selecciona muestra aleatoria de casos y pulsando muestra le obtiene la siguiente figura:

Page 151: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

151

Figura 2.13

El método de muestreo le permite introducir el porcentaje o el número de casos, que para el caso se selecciona el 10% y hace clic en aceptar, donde se puede observar en la vista de datos la selección de la muestra correspondiente al 10% del total de la muestra.

Actividades de aprendizaje.

Ejercicio 2.15 Generar 20 números aleatorios distribuidos uniformemente en el intervalo (0,1). Generar igualmente 20 números aleatorios entre 50 y 100. Desarrollo: En la primera fila escribe en A1 “número de orden”; En A2 escribe ALEATORIO (0,1) y en A3 ALEATORIO (50,100), como se indica en la siguiente pantalla: Figura 2.14 Ventana Excel de entrada de información

Page 152: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

152

Aunque no es necesario en este caso, se inicia introduciendo los 20 primeros números naturales en el rango A2:A21 aunque solo sea para usarlos como referencia. En la celda B2 introduce la fórmula =ALEATORIO(), y en la celda C2 introduce la fórmula =ALEATORIO.ENTRE(50;100). En la figura 2.14 se presentó la estructura de fórmulas, y los resultados obtenidos al arrastrar hacia abajo 20 lugares ambas fórmulas. Ejercicio 2.16: Generar 15 números aleatorios distribuidos según una variable de Poisson de media 4 y según una binomial(40,1/10) Desarrollo: En el menú Herramientas de Excel elige “Análisis de datos”, a continuación selecciona “Generación de números aleatorios” y rellena la pantalla de entrada como se indica en la figura 2.7 y 2.8, obteniendo los resultados de la figura 2.9. Se observa que los rangos de los dos conjuntos de números aleatorios son parecidos, puesto que una binomial (n,p) puede aproximarse por una Poisson

de parámetros np, siempre que 5np y 10

1p para el caso del enunciado.

Figura 2.15 Ventana variable Poisson

Page 153: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

153

Figura 2.16 Ventana variable binomial

Figura 2.17 Resultados ejercicio 2

Auto evaluación Información de retorno al final del módulo. 2.1 ¿Qué es una muestra probabilística? 2.2 Una población consiste en los cuatro valores siguientes: 12, 12, 14, 16. 2.2.1 ¿Cuántas muestras de tamaño dos sin reemplazamiento son posibles? 2.2.2 Liste todas las posibles muestras de tamaño dos y calcule la media de

cada muestra? 2.2.3 Determine la media de las medias maestrales y la media de la población.

Compare los dos valores. 2.3 ¿En qué consiste el Teorema del límite central?

Page 154: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

154

2.4 Suponga que un candidato a la alcaldía desea una estimación de la proporción de la población de la localidad que apoya su política. Es postulante desea que la estimación este dentro del 0.04 de la proporción verdadera. Considere que se usa un nivel de confianza de 0.95. El partido del candidato estima que la proporción que apoya la política actual es de 0.60.

2.4.1 ¿Qué tan grande debe ser la muestra? 2.4.2 ¿Cuán grande debe ser la muestra si no se contara con la estimación del

partido del candidato? Resumen.

Cuando se realiza una investigación se trata de buscar información sobre características numéricas de un conjunto de elementos, al que se le denomina población. Por lo general debido a problemas de tiempo y costo es difícil o imposible estudiar cada individuo o elemento de la población, y es necesario examinar solamente una parte de la población seleccionada adecuadamente a la que se le da el nombre de muestra.

Para extraer conclusiones sobre las características desconocidas de la población se procede a aplicar uno de los métodos probabilisticos de muestreo, entre los cuales se tiene el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el muestreo sistemático, los cuales son aplicados dependiendo de las características que tiene los elemento de la población.

Una población se conoce cuando se logra identificar su función de probabilidad o función de densidad de la variable aleatoria asociada; por lo general dicha función no se conoce y tampoco sus parámetros (media y desviación estándar), entonces se hace necesario estimarlos con base en la información suministrada por el estudio de muestras aleatorias de la población. Los valores obtenidos de una muestra con el propósito de estimar los parámetros de la población se le conoce como estimadores o estadísticos. Un estadístico muestral, es una variable aleatoria cuya distribución se conoce con el nombre de distribución muestral, para la cual se puede calcular la media y la desviación estándar (conocida también como el error típico).

Para ilustrar lo anterior se considera estudiar todas las posibles muestras de un determinado tamaño que se pueden tomar de una población y se calcula el estadístico para cada muestra, obteniendo tantos valores cuantas muestras haya y por tanto se obtiene la distribución del estadístico o distribución muestral.

Si se tiene una muestra de cierto tamaño y se obtiene tantos valores estadísticos como muestras se logren obtener, la distribución muestral de medias tiene una distribución normal, en donde la media de la población es igual

Page 155: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

155

a la media de la distribución muestral de medias; la varianza de la distribución muestral de medias es igual a la varianza poblacional dividida entre el tamaño de la muestra, para poblaciones infinitas o muestreo con reemplazamiento. Este planteamiento se le conoce como el teorema central del límite, de amplia aplicación dentro de la teoría del muestreo.

Cuando se trabaja con muestras siempre se presentan algunos errores de muestreo debidos a que las muestras varían de una a otra y los riesgos pueden ser apreciados gracias a la teoría de probabilidad. El error de muestreo depende del tamaño de la muestra, y entre más grande sea la muestra menor será el error, pero en términos económicos es más costosa, por lo que es importante tener criterio para el cálculo del tamaño de muestra, utilizando formulas basadas en las propiedades de la distribución normal y el error estándar, las cuales permiten calcular tamaños de muestra para medias y para proporciones, teniendo en cuenta si el muestreo es con o sin reemplazamiento.

Finalmente se ponen en práctica algunas aplicaciones sobre la generación de números aleatorios y tamaños de muestra generados por Excel y SPSS.

CAPITULO CINCO: ANÁLISIS DE VARIANZA Introducción. En esta unidad se prosigue con el análisis de pruebas de hipótesis. Recuerde que en capítulo anterior se examinó la teoría general de la prueba de hipótesis y se describió el caso en el que fue seleccionada una muestra grande a partir de la población. Se empleó la distribución Z como base para determinar si es razonable concluir que una media calculada a partir de una muestra, proviene de una población hipotética. Además se probó si dos medias muestrales provienen de poblaciones iguales. También se efectuaron pruebas de una y dos muestras para relaciones proporcionales utilizando la distribución normal como entidad estadística de prueba. Se utilizó la distribución t como entidad estadística de prueba para muestras pequeñas (con menos de 30 observaciones) Cuando se desea conocer la homogeneidad que existe entre tres o más medias muestrales, se procede a determinar la variabilidad entre esas medias, técnica que se conoce como “análisis de varianza”. Es decir, cuando productos o individuos son sometidos a tratamientos determinados para ver cómo éstos influyen en resultados o comportamientos, lo más aconsejable es utilizar la técnica de análisis de varianza.

Page 156: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

156

El objetivo del análisis de varianza es determinar cuales son las variables independientes de importancia en un estudio, y en qué forma interactúan y afectan la respuesta. Objetivo general.

Reconocer la importancia principios en que se basa y campos de aplicación de la técnica de Análisis de Varianza.

Objetivos específicos.

Comprender la noción general del análisis de varianza. Realizar una prueba de hipótesis para determinar si dos varianzas

muestrales provienen de poblaciones iguales. Probar e interpretar hipótesis aplicando el análisis simple de varianza. Establecer y organizar datos en una tabla de ANOVA de una y de dos

direcciones. Plantear, probar e interpretar hipótesis de análisis de varianza de dos

factores de diseño de bloque aleatorizado. Plantear, probar e interpretar hipótesis de análisis de varianza de dos

factores con interacción o diseño de factorial. Definir los términos tratamientos y bloques. Dar a conocer el manejo de la herramienta de Análisis de varianza en

Excel.

Lección No 21: Generalidades. Como su nombre lo indica, el ANALISIS DE VARIANZA, consiste en comparar tres o más medias de una muestra para identificar su homogeneidad o variabilidad. Del análisis de varianza, podemos decir que esta técnica estadística, normalmente es utilizada para analizar resultados en la investigación con diseños experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos o más distribuciones que corresponden a variaciones de una misma variable dependiente, afectada por una o más variables independientes. Teóricamente es posible dividir la variabilidad del resultado de un experimento en dos partes: la originada por factores o tratamientos que influyen directamente en el resultado del experimento, y la producida por el resto de factores desconocidos o no controlables, que se conoce con el nombre de error experimental

Page 157: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

157

Un modelo de análisis de varianza es de efectos fijos cuando los resultados obtenidos sólo son válidos para esos determinados niveles del factor estudiado y lo que ocurra a otros niveles del factor puede ser diferente. Un modelo de análisis de varianza es de efectos aleatorios cuando los resultados obtenidos son válidos para cualquier nivel del factor estudiado. Un modelo es replicado si el experimento se repite varias veces para cada nivel del factor; en caso contrario se dice que el modelo es por unidad de casilla. SUPUESTOS DEL ANÁLISIS DE VARIANZA Para cada población la variable de respuesta está normalmente

distribuida. La varianza de la variable respuesta es la misma para todas las

poblaciones. Las observaciones deben ser independientes.

- Comparación múltiple de medias muestrales. El análisis de varianza se usa para probar la igualdad de K medias poblacionales y la forma general del planteamiento de las hipótesis es:

KoH ...: 21

iguales.son población la de medias las todasNo:1H

Donde: j = Media de la j-ésima población.

Si supone que se ha tomado una muestra aleatoria simple de tamaño jn de

cada una de las K poblaciones, se tiene:

to. tratamienésimo-j del muestra la deestándar DesviaciónS

to. tratamienésimo-j del muestra la de VarianzaS

to. tratamienésimo-j del muestra la de MediaX

to. tratamienésimo-j elen nesobservacio de Cantidadn

j. to tratamienel para in observació cada deValor

j

2

j

j

j

ijX

La media general de las muestra, está representada por X , y es la suma de todas las observaciones divida entre la cantidad total de las mismas, expresada de la siguiente forma:

Page 158: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

158

t

K

j

n

i

ij

n

X

X

j

1 1

Donde: Kt nnnn ...21

Si el tamaño de cada muestra es knnn T , , la ecuación de la media general se

reduce a:

K

X

K

n

X

n

X

X

K

j

j

K

j

n

i

ij

t

K

j

n

i

ij

jj

11 11 1

En otras palabras, cuando los tamaños de muestra son iguales, la media general muestral es justamente el promedio de las medias de las K muestras. Ejemplo 1 Suponga que una empresa tiene tres dependencias diferentes en donde produce tubos de iluminación, y desea verificar el control de calidad en cuanto a duración se refiere de las bombillas, y para ello toma una muestra de 6 unidades de cada factoría y las somete a desgaste hasta que dejan de iluminar con los siguientes resultados en horas:

Observación Planta 1 Planta 2 Planta 3 total

1 2 3 4 5 6

85 75 82 76 71 85

71 75 73 74 69 82

59 64 62 69 75 67

JX 79 74 66 73

2

JS 34 20 32

JS 5.83 4.47 5.66

Jn 6 6 6 18

n

J

iJX!

474 444 396 1314

Page 159: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

159

La media general es igual a:

733

219

18

667479

3

1

J

J

J

n

X

X

Se observa que se obtienen las medias para cada tratamiento (79,74,66) y una media general (73). Para llevar a cabo la prueba de la igualdad de las medias de la población, se subdivide la variación total en dos mediciones: Diferencia entre los grupos. Diferencia dentro de los grupos.

La varianza de la muestra total se particiona en la varianza dentro de las plantas y la varianza entre las plantas, tal como se indica en el siguiente gráfico:

Figura 5.1 Componentes de la variación total

Variación total (VT) = 2

1 1

k

j

n

i

ij XX = VT

6

1 22

22222

3

194673647359

...73757371...73757385

i

ij

J

XXVT

n

X

X

K

j

n

i

ij

1 1

La gran media o media general.

ijX es la i-ésima observación del grupo, nivel o tratamiento j.

jn es el número de observaciones del grupo, nivel o tratamiento j.

Variación

total (VT)

Variación

dentro del

grupo (VDG)

Variación entre

grupo (VEG) = +

Page 160: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

160

n es el total del número de observaciones en todos los grupos

combinados. K es el número de grupos, niveles o tratamientos del factor de interés.

Variación dentro del grupo (VDG) =

k

j

n

i

jij XX1 1

2

= VDG

3

1

6

122

2222

430....66646659

...74757471...79757985

j I

VDG

ijX es la i-ésima observación del grupo, nivel o tratamiento j.

jX es la media de la muestra del grupo, nivel o tratamiento j.

Variación entre grupos (VEG) =

K

j

jj XXn1

2

= VEG

3

1

2222

6 516736667374673796J

XXnVEG

K= es el número de grupos, niveles o tratamientos que se están comparando.

jn es el número de observaciones del grupo, nivel o tratamiento j.

jX es la media de la muestra del grupo, nivel o tratamiento j.

X es la media general o gran media.

Compruebe que la variación total sea igual a la sumatoria de la variación entre y dentro de los grupos. Puesto que K niveles están siendo comparados, existen (K-1) grados de libertad asociados con la suma de cuadrados entre los grupos, niveles o tratamientos.

Como cada uno de los K niveles contribuye con ( 1jn ) grados de libertad,

Page 161: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

161

existen (n–k) grados de libertad asociados con la suma de cuadrados dentro de los grupos. Si cada suma de cuadrados se divide entre sus grados de libertad asociados, se obtienen tras varianzas o términos cuadráticos medios, como se indica en el siguiente cuadro:

Cuadro 5.1 Componentes del análisis de varianza

Variación Suma cuadrados

Grados libertad

Cuadrado medio

Distribución F

Entre tratamiento

K

j

jj XXn1

2

(K-1)

A

K

VET

1

B

A

Dentro o error

k

j

n

i

jij XX1 1

2

(n-K)

B

kn

VDT

Total 2

1 1

k

j

n

i

ij XX (n-1)

Los resultados para el problema de análisis es el siguiente: Cuadro 5.2 Resultados del análisis de varianza

Variación Suma cuadrados

Grados libertad

Cuadrado medio

Distribución F

Entre tratamiento

516 (K-1)= 2 00.258

2

516 99.8

67.28

258

Dentro o error 430 (n-K)=15 67.28

15

430

Total 946 (n-1)=17

En el anexo “F” Tabla de Distribución F determina el correspondiente valor crítico para el numerador (k-1= 3-1=2) y el denominador (n-K = 18-3=15), con una probabilidad de error tipo 1 o un nivel de significancia del 5%, que

corresponde a 68.305.0 F , significando que si se tuviera que seleccionar un

valor al azar de una distribución F con 2 grados de libertad en el numerador y 15 en el denominador, sólo el 5% de las veces se obtendría un valor mayor que 3.68. Además la teoría del análisis del varianza indica que si es cierta la hipótesis nula, la relación entre los cuadrados medios entre y dentro de los tratamientos seria un valor dentro de esa distribución, tal que se rechaza si, el valor de dicha relación es mayor que el valor crítico:

1n

VT

Page 162: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

162

críticoValor B

A si H Rechaza 0

Para el caso la relación es igual a 8.99 mayor que el valor crítico 3.68, entonces se tienen pruebas suficientes para rechazar la hipótesis nula consistente en que las medias de las tres poblaciones son iguales. En otras palabras el análisis de varianza apoya la conclusión que las medias para la duración de las bombillas es diferente en las tres plantas. El gráfico para dicho planteamiento es el siguiente: Figura 5.2 Decisión del análisis de varianza

El valor de la relación es superior al valor crítico, por tal razón se rechaza la hipótesis nula consistente en que las medias poblacionales sean iguales.

Lección No 22: Análisis de varianza de un factor.

El análisis de varianza simple se presenta cuando se tiene un solo factor estudiado en sus distintos niveles que influyen sobre una variable respuesta que mide el resultado del experimento, y el resto de los factores conforman el error experimental influyendo sobre la variable respuesta de manera no controlable. El factor se presenta con I niveles, y dentro de cada nivel se analiza una serie de observaciones del experimento en control (unidades experimentales) y su efecto sobre la variable respuesta, es decir, para cada nivel se repite el experimento varias veces (replicación).

El análisis de varianza descompone la variabilidad del resultado de un experimento en componentes independientes (variación total descompuesta en variaciones particulares). Como ejemplo se puede considerar los rendimientos

Page 163: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

163

de un mismo cultivo en parcelas diferentes, que aunque labradas en las mismas condiciones, producen cosechas que son distintas. La variabilidad de rendimientos es producida por factores o tratamientos controlables (abono, riego, etc.), donde cada factor o tratamiento puede presentar diferentes niveles (diferentes cantidades o calidades de abono, distinta intensidad de riego); también puede ser producida por otros factores o tratamientos no controlables (humedad relativa, clima, plagas, etc.).

Así, ijX es la observación j-ésima de la variable respuesta relativa al j-ésimo

nivel de factor, y en el ejemplo anterior, ijX es el rendimiento obtenido (variable

respuesta) bajo el nivel i del factor (abono) en la observación j-ésima (Para cada

nivel i de factor se repite el cálculo de rendimiento in veces para recoger el

efecto del error experimental).

Se representa por iu la parte de ijX debida a la acción del factor.

Se representa por iju la variación causada por todos los factores no controlables

(error experimental).

En consideración a lo anterior el valor de la variable respuesta ijX , se debe a la

variación debida al factor que se esta analizando y a la variación de los otros factores no controlables, por tanto se puede expresar que:

ijiij uuX

Se supone que iju es una variable normal de media cero y varianza constante.

En esta sección se considera el análisis de varianza de un solo factor , en el cual solo interviene en el experimento un solo tipo de tratamiento. Cuando se desea contrastar las hipótesis sobre la diferencia global entre tres o más medias de población, se aplica la distribución de probabilidad F encontrando en cociente de dos varianzas calculadas a partir de los datos experimentales. El modelo lineal en que se basa el método de análisis de varianza de un solo factor es:

ijiiJX donde:

Page 164: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

164

j.población la de to tratamienden observació ésima-í la a asociado aleatorioerror

ntes.independie aleatorias lesSon variab j.población laen to tratamiendel efecto

constante una nto.Es tratamiedel j spoblacione las todasde mediagran la

al.experiment grupo ésimo-j deln observació ésima-i la es :

iJ

i

ijX

Entre estas tres componentes, la gran media se comprende por sí misma. El

efecto i del tratamiento o factor es la diferencia entre la gran media y la media

J de la población en tratamiento J, esto es: Ji .

Por consiguiente, si hay J tratamientos en un experimento, la suma de todos los J efectos de los tratamientos debe ser igual a cero:

0111

JJ

J

J

J

J

J

J

J

i

El último término iK refleja la variabilidad dentro de cada una de las

poblaciones en tratamiento, y su presencia se atribuye al proceso aleatorio, y se interpreta como lo resultante de la diferencia entre el resultado observado y la media de la población del tratamiento:

jiijiJ X

El valor esperado o la esperanza de ij es igual a cero.

El modelo se basa en las siguientes suposiciones:

Admite que los errores aleatorios ij tienen una distribución normal

para cada población en tratamiento J.

Admite que los errores iJ se distribuyen independientemente

tanto entre poblaciones en tratamiento como dentro de ellas.

Acepta que la varianza 2 del error permanece constante para

cada una de las poblaciones.

Un ejemplo numérico sencillo contribuye a la comprensión de las relaciones anteriormente expresadas en las fórmulas.

Ejemplo 2

Suponga que dispone de un conjunto de árboles clasificados por altura (en metros) y por especie, según los siguientes datos:

Page 165: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

165

Cuadro 5.3 Registro de altura de un conjunto de árboles

Especie Altura Especie Altura Especie Altura

A

B

C

A

B

D

E

D

C

C

8.52

6.45

7.41

7.15

8.73

7.55

6.54

7.74

8.65

8.81

B

A

A

E

B

B

D

C

C

B

8.52

6.43

6.21

7.07

8.83

8.53

7.84

8.59

7.41

8.94

A

E

A

C

A

B

C

D

B

B

8.13

7.17

8.40

8.87

6.12

8.91

8.81

7.40

8.19

8.56

Para ajustar la información a un modelo de análisis de varianza, se considera como variable respuesta la altura de los árboles en metros, y como único factor la variable cualitativa especie con cinco niveles (A, B, C, D, E). Dado que se tiene un modelo de un solo factor, se desea probar si las variadas especies de árboles tienen igual o diferente promedio de altura con un nivel de significancia del 1%.

Primero se estiman las medias para cada una de las especies y la media total, conforme al siguiente cuadro:

Cuadro 5.4 Registro de estadísticos para diferentes especies

Especie A

Especie B

Especie C

Especie D

Especie E

Total

8.52 7.15 6.43 6.21 8.13 6.12

6.45 8.73 8.52 8.83 8.53 8.94 8.40 8.91 8.19 8.56

7.41 8.65 8.81 8.59 8.87 8.81

7.55 7.74 7.84 7.41 7.40

6.54 7.07 7.17

Page 166: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

166

Sumas 42.56 84.06 51.14 37.94 20.78 236.48

Promedio 7.093 8.406 8.523 7.588 6.926 7.707

Observaciones 6 10 6 5 3 30

882666.730

48.236

30

.......65.841.7...76.845.6...15.752.8

5

1 1

t

j

n

i

ij

n

X

X

j

Variación total (VT) = 2

1 1

k

j

n

i

ij XX

0741867.2488.717.788.707.7...88.712.6...88.752.82222VT

Variación dentro del grupo (VDG) =

k

j

n

i

jij XX1 1

2

9584533.11926.617.7....523.841.7...406.845.6...09.752.82222VDG

Variación entre grupos (VEG) =

K

j

jj XXn1

2

1157333.1288.7926.6....88.7406.888.7093.7222VEG

Para calcular el estadístico de prueba perteneciente a la distribución F , se resume en el siguiente cuadro:

Cuadro 5.5 Cálculos del cuadro de análisis de varianza

Variación Suma cuadrados

Grados libertad

Cuadrado medio

Distribución F

Entre tratamiento

12.1157333 (K-1)= 4 3.0289 6.332

Dentro o error 11.9584533 (n-K)=25 0.4783

Total 24.0741867 (n-1)=29

Page 167: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

167

En el anexo “F” Tabla de Distribución F determina el correspondiente valor crítico para el numerador (k-1= 5-1=4) y el denominador (n-K = 30-5=25), con una probabilidad de error tipo 1 o un nivel de significancia del 1%, que

corresponde a 18.401.0 F . Para el caso la relación es igual a 6.332 mayor que

el valor crítico 4.18, entonces se tienen pruebas suficientes para rechazar la hipótesis nula consistente en que las medias de las cinco variedades de árboles son iguales. En otras palabras el análisis de varianza apoya la conclusión que las medias para la altura de las diferentes especies de árboles es diferente.

Lección No 23: Comparación Múltiples de medias (Pruebas “a posteriori”)

Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las posibles medias que podría ser diferente al rechazar la hipótesis.

Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el rango (diferencia entre medias) de todos los pares de muestras como estadístico y dicho rango debe superar un cierto valor llamado mínimo rango significativo para considerar la diferencia significativa.

La principal diferencia con respecto a la t de Student radica en que usan MSE como estimador de la varianza, es decir un estimador basado en todas las muestras.

Lección 24: Análisis de varianza con dos factores (diseño de bloques aleatorizados). Con frecuencia interesa analizar los efectos de dos tipos de factores o tratamientos. Suponga que un experimento incluye dos tipos de factores: el uno llamado C (lo que sugiere columna) consistente en K tratamientos diferentes, y el otro, denominado F (lo que sugiere fila) consistente en J tratamientos diferentes. Se admite que respecto al j-ésimo tratamiento de F y el K-ésimo tratamiento de C, existen cuatro componentes así:

ijkjiijKX donde:

Page 168: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

168

k.y j to tratamiendeln combinació laen n observació ésima-i la a asociado aleatorioError

j. to tratamiendel Efecto

i. to tratamiendel Efecto

to. tratamiendel nteindependie X de mediagran La

ijk

j

i

La varianza total de la muestra se particiona en la varianza entre las filas, varianza entre columnas, varianzas entre la j x k, y las varianzas del error aleatorio. Para este modelo, los cálculos del análisis de la varianza para las sumas de los cuadrados son idénticos a los realizados en el modelo de un solo factor, tan solo que se calculan variaciones para el factor de fila, de columna y para el error aleatorio. De manera análoga, los grados de libertad y los cuadrados medios son los mismos. A continuación se indica el cuadro resumen para el análisis de varianza de dos factores:

Cuadro 5.6 Análisis de varianza para dos factores

Fuente de variación

Suma de los cuadrados, SC Grados de Libertad, gl

Media cuadrática, MC

Relación F

Entre los grupos o columnas (j)

C

j

j XXrVEC1

2

.

1c

1

c

VECMCA

MCE

MCAF

Entre los bloques o filas (i)

r

i

i XXcVEF11

2

.

1r

1

r

VEFMCB

MCE

MCBF

Error de muestreo, E

c

j

r

i

ijij XXXXVE1 1

2

..

11 cr

11

cr

VEMCE

Total, T

c

j

r

i

ij XXVT1 1

2

1rc

La definición de los términos del cuadro son los siguientes:

Page 169: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

169

nes.observacio de totalNúmeron

grupos. de número Elc

bloques. de número Elr

.gran total al eequivalent

grupos, los todosdey bloques los todosde valoreslos de sumatoria La X

j. grupo del to tratamienel para valoreslos todosde media LaX

i. bloque elen valoreslos todosde media La

ésimo.-i grupo del to tratamienel para ésimo-i bloque delValor

1 1

ij

j

X

X

X

c

j

r

i

i

ij

Para contrastar los efectos de los factores en el modelo, se construye un estadístico que se compara los cuadrados medios, que bajo la hipótesis nula sigue una distribución F. Ejemplo 3

Suponga que existen cuatro parcelas diferentes las cuales son sometidas sucesivamente a seis tipos de insumos y se piensa que la producción es afectada por el tipo de insumo y mantenimiento a que es sometida. Se desea probar los diferentes tratamientos afectan la producción por parcela, y la producción es la siguiente:

Cuadro 5.7 Rendimientos en kilos por parcela

Tratamiento RENDIMIENTO EL KILOS

Parcela 1

Parcela 2

Parcela 3

Parcela 4 Total Medias

A B C D E F

70 77 76 80 84 78

61 75 67 63 66 68

82 88 90 96 92 98

74 76 80 76 84 86

287 316 313 315 326 330

71.75 79.00 78.25 78.75 81.50 82.50

Totales 465 400 546 476 1.887

Medias 77.50 66.67 91.00 79.33 78.625

Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y los promedios por tratamientos o bloques (insumo y manteniendo), así como la gran media se indican en el cuadro.

Page 170: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

170

Además de las estadísticas representadas en el cuadro, se tiene:

24rcn 4;c ;6 r

625,7824

887.11 1

rc

X

X

c

j

r

i

ij

Para determinar los resultados del experimento de diseños de bloques aleatorizados con fines ilustrativos, se hacen los siguientes cálculos:

Variación Total de Cuadrados:

c

j

r

i

ij XXVT1 1

2

63,295.2625,7886...625,7877625,7870222VT

Variación entre grupos o columnas:

C

j

j XXrVEC1

2

.

46,787.1625,7833.79...625,7867.66625,785.776222VEC

Variación entre bloques o filas:

r

i

i XXcVEF11

2

.

38,238625,785.82...625,7879625,7875.714222VEF

Variación del error de muestreo:

c

j

r

i

ijij XXXXVE1 1

2

..

Page 171: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

171

244.79

78,62582.50-79.33-86

.

.

625,7800.7950.7777

625,7875.715.7770

2

2

2

VE

Para calcular los medios o promedios cuadráticos, se calculan así:

82,59514

46,787.1

1

c

VECMCA

676,5616

38.283

1

r

VEFMCB

986,14

15

79.224

1416

79.224

11

cr

VEMCE

Los cálculos anteriores se pueden resumir en el siguiente cuadro:

Cuadro 5.8 Resultados del análisis de varianza para dos factores

Fuente Suma de cuadrados

Grados libertad

Cuadrado medio (varianza)

F

Entre grupos

1.787.46

4-1=3

595,820

3

46.787.1

VEC

39,758

986,14

82.595

F

Entre Bloques

283.38

6-1=5

56,676

5

38.283

VEF

3,782

986,14

676,56

F

Error 224.79

(6-1)(4-1)=15

Total 2.295.63 (6)(4)-1=23

14,986

15

79.224

VE

Page 172: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

172

Además de los registros anteriores, en las tablas ANOVA de los diferentes paquetes de software estadísticos, incluyen el p-valor que consiste en la probabilidad de obtener un estadístico F igual o mayor a la obtenida dado que la hipótesis nula sea verdadera, es decir, si el p- valor es menor que el nivel especificado de significancia , la hipótesis nula es rechazada. Para nuestro

caso se utiliza la información contenida en el cuadro anterior. Si se desea probar las diferencias entre los rendimientos de las parcelas con un nivel de significancia del 5%, la regla de decisión consiste en rechazar la

hipótesis nula 4321: oH si el valor F calculado es mayor que 3.29

(Ver anexo F con 3 grados de libertad en el numerados y 15 grados en el denominador). Para el caso F = 39,758 es mayor que el valor crítico 3.29, entonces se rechaza la hipótesis nula y se llega a la conclusión que existe evidencia de una diferencia entre la producción promedio de las diferentes parcelas, como se puede apreciar en el siguiente gráfico: Figura 5.3 Región de aceptación de hipótesis

Como una verificación de la efectividad de la utilización de insumos, se puede probar la diferencia de efectividad de los diferentes insumos aplicados. La regla de decisión utilizando un nivel de significancia del 5%, sería la de rechazar la

hipótesis nula 654321: oH si el valor F calculado excede a

2.90 (Ver anexo F con 5 grados de libertad en el numerados y 15 grados en el denominador). Para el caso el valor F = 3,782 es mayor al valor crítico, lo que se concluye que la utilización de los diferentes insumos, produce diferencia significativa entre los promedio de producción para las parcelas, y que la conformación de dichos bloques es ventajosa para reducir el error experimental, situación que se presenta en el siguiente gráfico:

Page 173: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

173

Figura 5.4 Región de aceptación de hipótesis

Lección 25: Análisis de varianza de dos factores con interacción. (Diseño factorial). Se ha visto hasta ahora el análisis de varianza de una dirección o el modelo de diseño completamente aleatorizado, después el modelo de diseño de bloque aleatorizado, y en la presente sección el análisis de varianza de dos factores con interacción. Con el propósito de desarrollar el procedimiento de la prueba F, se define a continuación los siguientes términos:

'

'

.j.

i..

ij

r.c.nn(con oexperiment del nesobservacio de totalNúmeron

celda. cada para replicas) valores(de Númeron

B.factor del niveles de Númeroc

A.factor del niveles de Númeror

columnas.y hileras las en todas valoreslos todosde Gran totalGT

B.factor del j columna la de valoreslos de SumaX

A.factor del i hilera la de valoreslos de SumaX

B.factor del j nivel dely A factor del i nivel del nesobservacio (las ij celda la de valoreslos de SumaX

B.factor del j nivel delA t factor del i nivel deln observació ésima-k la deValor

ijkX

Con fines ilustrativos se hacen planteamientos tanto conceptuales como de cálculos para la descomposición de la variación total necesaria para el desarrollo del procedimiento de la prueba F. Debido a la gran cantidad de cálculos se recomienda que dicho proceso sea llevado por el paquete de software analizado más adelante.

Page 174: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

174

Tabla resumen para el análisis de varianzas de dos vías con más de una observación por célula se resume en el siguiente cuadro:

Cuadro 5.9 Resumen de análisis de varianza de dos vías

Fuente de variación

Suma de los cuadrados, SC

Grados de libertad, gl

Media cuadrática, MC

Relación F

Entre grupos de tratamiento A

'

2

1'

2

..

rcn

GT

cn

XVEGA

r

i

i

1r 1

r

VEGAMCA

MCE

MCAF

Entre grupos de tratamiento, B

'

2

1'

2

..

rcn

GT

rn

XVEGB

c

j

j

1c 1

c

BEGBMCB

MCE

MCBF

Interacción entre factores A y B.

'

2

1'

2

..

1'

2

..

1 1'

2

rcn

GT

rn

X

cn

X

n

XVEAB

c

j

j

r

i

ir

i

c

j

ij

11 cr

11

cr

VEABIMCC

MCE

MCIF

Error de muestreo, E

1' nrc 1'

nrc

VEMCE

Total, T

r

i

c

J

n

K

ijkrcn

GTXVT

1 1 1'

2

2

'

1' rcn

Ejemplo 4 Para ilustrar el modelo factorial de dos factores, suponga que UD como dueño y propietario de una cadena de supermercados esta interesado en saber el efecto de la colocación de los estantes en la venta de un producto. Para ello estudia 4 posibles lugares distintos donde colocar los estantes: Colocación normal entre el pasillo(A), colocación ingreso del pasillo (B), colocación a la entrada del pasillo con impulsadora (C) y colocación normal con propaganda (D). Se toman ventas aleatorias en las jornadas de la mañana, tarde y noche y los resultados de las ventas semanales se resumen en la siguiente tabla:

r

i

c

j

n

k

r

i

c

j

ij

ijkn

XXVE

1 01 1 1 1'

2

.2

'

Page 175: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

175

Cuadro 5.10 Colocación de productos en un estantes durante jornadas

JORNADA COLOCACIÓN ESTANTE

A B C D Totales Medias

Mañana 45 50

56 63

65 71

48 53

451 56,375

Tarde 57 65

69 78

73 80

60 57

539 67,375

Noche 70 78

75 82

82 89

71 75

622 77,750

Totales 365 423 460 364 1.612

Medias 60.83 70.50 76.67 60.67 67,167

Se tiene las siguiente información:

2

4

3

'

n

c

r

622

539

451

..3

..2

..1

X

X

X

364

460

423

365

.4.

.3.

.2.

.1.

X

X

X

X

101

136

119

95

.14

.13

.12

.11

X

X

X

X

117

153

147

122

.24

.23

.22

.21

X

X

X

X

146

171

157

148

.34

.33

.31

.31

X

X

X

X

612.1GT

r

i

c

j

n

k

ijkX1 1

222

1

2 550.11175...5045

'

75,100.110

24

622539451 222

1'

2

..

r

i

i

cn

X

375.109

23

364460423365 2222

1'

2

..

c

j

j

rn

X

292.111

2

146...11995 222

1 1'

2

.

r

i

c

j

ij

n

X

66.272.108243

612.1 2

'

2

rcn

GT

Page 176: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

176

Variación Total de Cuadrados:

34.277.366.272.108550.111

1 1 1'

2

2

'

r

i

c

J

n

K

ijkrcn

GTXVT

Variación entre grupos del tratamiento A:

09.828.166.272.10875.100.110

'

2

1'

2

.. rcn

GT

cn

XVEGA

r

i

i

Variación entre grupos del tratamiento B:

34.102.166.272.108375.109

'

2

1'

2

..

rcn

GT

rn

XVEGB

c

j

j

Variación entre los factores A y B:

88.91108.272.66109.375-110.100.75-111.292

'

2

1'

2

..

1'

2

..

1 1'

2

rcn

GT

rn

X

cn

X

n

XVEAB

c

j

jr

i

ir

i

c

j

ij

Variación del error de muestreo:

258292.111550.111

1 1 1'

2

2

'

r

i

c

J

n

K

ijkrcn

GTXVT

Para el cálculo de las varianzas se utilizan las siguientes relaciones:

045.91413

09.828.1

1

r

VEGAMCA

447.36714

34.102.1

1

c

BEGBMCB

818,14

1413

91.88

11

cr

VEABIMCC

5.21

1243

258

1'

nrc

VEMCE

Page 177: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

177

Los cálculos anteriores se resumen en el siguiente cuadro:

Cuadro 5.11 Resumen de análisis de varianza de dos vías

Fuente de variación

Suma de los cuadrados, SC

Grados de libertad, gl

Media cuadrática, MC

Relación F

Entre grupos de tratamiento A

1.828.09

213 914.045

42.51

Entre grupos de tratamiento, B

1.102.34

314

367.447

17.09

Interacción entre factores A y B.

88.91

61413

14.818

0.69

Error de muestreo, E

258 121243 21.5

Total, T 3.277.34 231243

Si utiliza un nivel de significancia del 0.05 y se prueba la diferencia entre las ventas en las diferentes jornadas (mañana, tarde, noche), la regla de decisión

es la rechazar la hipótesis nula ( rH ...: 210 ) si el valor calculado para

F (42.51) es mayor que 3.49 (observar anexo F para 2 grados de libertad en el numerador y 12 grados de libertad en el denominador); se rechaza la hipótesis nula y se llega a la conclusión que existe evidencia que entre las diferentes jornadas las ventas en promedio son diferentes. Así mismo si utiliza un nivel de significancia de 0.05 para probar si existe alguna diferencia entre la ubicación de los estantes, la regla de decisión es rechazar la

hipótesis nula ( cH ...: 210 ), si el valor calculado F (17.09) es mayor

que 3.49 (observar anexo F para 3 grados de libertad en el numerador y 12 grados de libertad en el denominador); se rechaza la hipótesis nula y se concluye que existe una diferencia entre los promedios de ventas para la colocación de los diferentes estantes en el almacén. Finalmente se puede probar si existe algún efecto de interacción entre el factor A (ventas en las diferentes jornadas) y el factor B (colocación de los estantes). Utilizando un nivel de significancia del 5%, la regla de decisión es rechazar la

hipótesis nula ( jy i todopara ,0ijAB ), si el valor calculado F (0.69) es mayor

que 3.0 (observar anexo F para 6 grados de libertad en el numerador y 12 grados de libertad en el denominador); no se rechaza la hipótesis nula y se

Page 178: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

178

concluye que no existe evidencia de un efecto de interacción entre las jornadas del día y la colocación de los estantes. INTERPRETACIÓN DE LOS EFECTOS DE LA INTERACCIÓN Se ha realizado hasta ahora las pruebas para la significación del factor A, del factor B y de la interacción, corresponde entender en mejor forma el concepto de interacción, si se grafica las medias, empleando la siguiente fórmula:

'n

XX

ij

ij

5.502

101

2

136

2

119

5.472

95

.14

.13

.12

.11

X

X

X

X

5.582

117

5.762

153

5.732

147

0.612

122

.24

.23

.22

.21

X

X

X

X

0.732

146

5.852

171

5.782

157

0.742

148

.34

.33

.32

.31

X

X

X

X

Se procede a graficar las ventas semanales promedio de cada jornada y de cada colocación de la estantería, como se indica a continuación: Figura 5.5 Ventas de producto en tres jornadas

Las cuatro líneas representan las colocaciones de las estanterías aparecen apuntando casi representando en la misma dirección, lo que significa que la diferencia en las ventas entre las cuatro colocaciones de los estantes es

4045505560657075808590

Mañana Tarde Noche

Ven

tas

Jornada

Ventas Jornada mañana-tarde-noche

A

B

C

D

Page 179: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

179

virtualmente la misma para las ventas de las diferentes jornadas. En otras palabras, no existe interacción entre los dos factores (jornada y estantería), como claramente se evidenció en la prueba F vista anteriormente. ¿Cual es la interpretación si se presenta el efecto de interacción? En tal situación, algunos niveles del factor A responden mejor con ciertos niveles del factor B; por ejemplo, suponga que algunas colocaciones en los estantes fueran mejor para las jornadas. Si este fuera el caso, las líneas de la figura no estarían apuntando en la misma dirección que las hace casi paralelas y el efecto de interacción sería estadísticamente significativo, y por consiguiente, las diferencias entre las diferentes localizaciones de estantes no serían las mismas para las diferentes jornadas Ejercicios: 5 1. En el modelo de análisis de varianzas de un factor con (i = 3), niveles del factor y (J = 10), unidades experimentales, el número de grados de libertad con el cual deberá estimarse la varianza residual es: R/ta: 27 2. Queremos comprobar si el número de horas (medido a través de la variable # horas) que pasan los estudiantes del Politécnico en la Biblioteca guarda alguna relación con su hábito de lectura (medido a través de la variable lectura). Ejecuta un ANOVA, utilizando un nivel de significación del 5 % R/ta: Si guarda relación, porque se acepta la hipótesis nula. 3. Los miembros de un equipo ciclista se dividen al azar en tres grupos que

entrenan con métodos diferentes. El primer grupo realiza largos recorridos a

ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el

tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta

frecuencia. Después de un mes de entrenamiento se realiza un test de

rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos

empleados fueron los siguientes:

Método I Método II Método III

15 14 13 16 13 12 14 15 11 15 16 14 17 14 11

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen resultados equivalentes? O por el contrario ¿Hay algún método

Page 180: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

180

superior a los demás?

R/ta: Los tres métodos de entrenamiento producen diferencias significativas 4. En el diseño de análisis de Varianza de un factor completamente aleatorizado (DCA) con 3 niveles del factor y 10 unidades experimentales. Cál debe ser el número de grados de libertad con el cual debemos estimar la varianza residual? R/ta: 27 4. Deducir el valor del estadístico de prueba de la tabla ANOVA siguiente:

F. de Variación S:C G.L C.M

Explicada 54 2 27

Residual 180 10 18

Total 234 12

R/ta: F= 1.5 5. En un estudio de ANOVA para tres grupos y 5 observaciones cada uno de ellos, encontramos los siguientes resultados. SCE = 310 SCT = 358 G.L de la SCD = 12 Qué valores deben obtenerse de los grados de libertad de V.T de la SCD? R/a: 15 y 51.6 6. Se realiza un diseño experimental para estudiar la diferencia en la resistencia de 5 materiales. Se toma una muestra de 4 especímenes de cada material a los que se le mide la resistencia. Si la suma de cuadrados de los tratamientos es de 800 y la de los errores de 200. Cuál debe ser el estadístico F para el análisis de varianzas. R/ta: 15

Page 181: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

181

- Aplicaciones en Excel y SPSS.

A. ANOVA EN EXCEL

Siguiendo con el mismo ejercicio desarrollado anteriormente y que hace relación con el rendimiento de las acciones, se tiene nuevamente el enunciado:

Ud. como analista financiero desea determinar si hay diferencia en la tasa promedio de rendimiento de cuatro tipos de acciones: de servicios públicos, de comercio, de industria y de la banca. Para ello se obtuvo la siguiente la información muestral:

Cuadro 5.12 Rendimientos de 4 tipos de acciones

Rendimientos Promedios por tipo de acción

Meses Servicios(A) Comercio(B) Industria(C) Banca(D)

1 2 3 4 5 6 7

94 90 85 80

75 68 77 83 88

70 73 76 78 80 68 65

68 70 72 65 74 65

Utilizando un nivel de significancia del 0.01, pruebe si existe diferencia en la tasa media de rendimiento de los cuatro tipos de acciones.

Paso 1. Ingrese la siguiente información en una hoja Excel: Figura 5.6 registro de información

Page 182: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

182

Paso 2:En el menú de Excel haga clip en herramientas y seleccione análisis de datos.

Figura 5.7 Ventana desplegada de herramientas

Paso 3: Selecciona análisis de varianza de un factor y hace clip en aceptar.

Figura 5.8 Ventana de análisis de datos

Page 183: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

183

Paso 4: Aparece un cuadro de dialogo como el siguiente: Figura 5.9 ventana de análisis de varianza de un factor

Paso 5:En rango de entrada selecciona los valores registrados en la hoja de excel:

Figura 5.10 Registro de información

Page 184: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

184

Paso 6: Selecciona rótulos en la primera fila. Figura 5.11 Registro de información

Paso 7: Seleccione un alfa de 0.01 y rango de salida en donde quiere ubicar la información: Figura 5.12 Selección del nivel alfa

Page 185: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

185

Paso 8: Hace clip en aceptar y le aparece la siguiente información: Figura 5.13 Resultados del análisis de varianza

Observe que la información aquí registrada es igual a la que se calculo en la tabla ANOVA realizada en los cuadros anteriores: El valor de la distribución F es igual a 8.99 y el valor crítico es igual a 5.09. La suma de los cuadrados toman el nombre de “entre grupos” denominados anteriormente tratamientos. y “dentro de los grupos” denominados anteriormente errores. De esta forma el análisis de varianza de un factor aplicando la hoja electrónica de Excel resulta ser muy sencillo. B. ANOVA en SPSS

Page 186: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

186

Para obtener un análisis de varianza de un factor elija en los menú Analizar; Comparar medias; ANOVA de un factor como se indica en la siguiente figura. Figura 5.14

Seleccione una o más variables independientes y seleccione una sola variable de factor independiente, como se indica en la figura. Se pretende analizar el precio actual según el factor de titulación del estratro. Figura 5.15

Haciendo clic en el botón contrastes permite dividir las sumas de cuadrados Inter. – grupos en componentes de tendencia. En polinómico se puede contrastar la existencia de tendencia en la variable dependiente a través de los niveles ordenados de la variable de factor. Por ejemplo se puede contrastar si existe una tendencia lineal (creciente o decreciente) de un precio a través de los niveles ordenados del estrato. En coeficientes se pueden elegir contrastes a

Page 187: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

187

priori especificados por el usuario que serán contrastados mediante el estadístico T; si introduce un coeficiente para cada grupo (categoría) de la variable factor y se pulsa añadir después de cada entrada. Cada nuevo valor se añade al final de la lista de coeficientes. Para especificar conjuntos de contrastes adicionales, pulse en siguiente para desplazarse entre los conjuntos de contrastes. Figura 5.16

Haciendo clic en continuar y aceptar se presenta la tabla de ANOVA, como se indica en la siguiente figura con un valor F de 1.148 ANOVA Precio

Suma de

cuadrados gl Media

cuadrática F Sig.

Inter-grupos 198123,716 5 39624,743 1,148 ,335

Intra-grupos 10144438,614

294 34504,893

Total 10342562,330

299

Actividades de aprendizaje.

Las actividades de aprendizaje están orientadas a desarrollar los ejercicios vistos anteriormente pero no en forma manual, sino utilizando las herramientas de Excel para el análisis de varianza de un factor, análisis de varianza con dos factores o de diseño de bloques aleatorizados y finalmente análisis de varianza de dos factores con interacción o de diseño factorial. Análisis de varianza de un factor:

Page 188: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

188

Suponga que dispone de un conjunto de árboles clasificados por altura (en metros) y por especie, según los siguientes datos: Cuadro 5.13 Registro de información sobre alturas en metros de árboles

Especie A

Especie B

Especie C

Especie D

Especie E

Total

8.52 7.15 6.43 6.21 8.13 6.12

6.45 8.73 8.52 8.83 8.53 8.94 8.40 8.91 8.19 8.56

7.41 8.65 8.81 8.59 8.87 8.81

7.55 7.74 7.84 7.41 7.40

6.54 7.07 7.17

Sumas 42.56 84.06 51.14 37.94 20.78 236.48

Promedio 7.093 8.406 8.523 7.588 6.926 7.707

Observaciones 6 10 6 5 3 30

Ingrese los datos en la hoja como se indica en el siguiente cuadro: Figura 5.14 Registro de información en hoja de Excel

En el cuadro de dialogo de análisis de datos elija “Análisis de varianza de un factor” y rellene el cuadro de dialogo como se indica en la siguiente figura: Figura 5.15 Registro de información en ventana

Page 189: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

189

Pulse aceptar y obtiene los siguientes resultados: Figura 5.16 Resultados del análisis de varianza de un factor

Como el p-valor del test de Fisher (0.00115963) de igualdad de todas las medias de os niveles es menor que 0.05, existen diferencias significativas entre las alturas medias de los árboles de diferentes especies al 95% de confianza. Por otra parte el valor crítico (2.75871059) es menor que el valor del estadístico F (6.33220127), lo que corrobora la aceptación de la hipótesis de alturas medias distintas para las diferentes especies de árboles al 95% de confianza y corrobora los mismos valores calculados en igual ejemplo visto anteriormente en análisis de varianza de un solo factor, el cual se muestra a continuación: Cuadro 5.14 Resultados de análisis de varianza de un factor

Page 190: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

190

Variación Suma cuadrados

Grados libertad

Cuadrado medio

Distribución F

Entre tratamiento

12.1157333 (K-1)= 4 3.0289 6.332

Dentro o error

11.9584533 (n-K)=25 0.4783

Total 24.0741867 (n-1)=29

Podrá darse cuenta que los resultados son idénticos, teniendo como ventaja el uso de la herramienta, un ahorro considerable de tiempo y menor riesgo a equivocarse.

Análisis de varianza con dos factores (diseño de bloques aleatorizados). Suponga que existen cuatro parcelas diferentes las cuales son sometidas sucesivamente a seis tipos de insumos y se piensa que la producción es afectada por el tipo de insumo y mantenimiento a que es sometida. Se desea probar los diferentes tratamientos afectan la producción por parcela, y la producción es la siguiente: Cuadro 5.15 Registro de información sobre rendimientos en parcelas

Tratamiento RENDIMIENTO EL KILOS

Parcela 1

Parcela 2

Parcela 3

Parcela 4

Total Medias

A B C D E F

70 77 76 80 84 78

61 75 67 63 66 68

82 88 90 96 92 98

74 76 80 76 84 86

287 316 313 315 326 330

71.75 79.00 78.25 78.75 81.50 82.50

Totales 465 400 546 476 1.887

Medias 77.50 66.67 91.00 79.33 78.625

La herramienta realiza un análisis de varianza de dos factores con una sola muestra por grupo, comprobando la hipótesis según la cual las medias de dos o más muestras son iguales (extraídas de poblaciones con la misma media). En el cuadro de dialogo de “Análisis de datos” elige la opción “Análisis de varianza de dos factores con una sola muestra por grupo”, se obtiene el siguiente cuadro de dialogo: Figura 5.17 Venta de ANOVA de dos factores

Page 191: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

191

Después de dar la opción de aceptar se tienen los siguientes resultados: Figura 5.18 Resultados sobre análisis de varianza de dos factores

El p-valor es menor a un nivel de significancia del 0.05, por tal razón los

rendimientos medios son diferentes para las parcelas como para la utilización de los diferentes tipos de insumos. De otra parte el valor estadístico de prueba F es superior al valor crítico afirmando la conclusión anterior. Los resultados son los

Page 192: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

192

mismos a los calculados anteriormente y que nuevamente se muestran a continuación: Cuadro 5.16 Resultados de análisis de varianza de dos factores

Fuente Suma de cuadrados

Grados libertad

Cuadrado medio (varianza)

F

Entre grupos 1.787.46

4-1=3

595,820

3

46.787.1

VEC

39,758

986,14

82.595

F

Entre Bloques

283.38

6-1=5

56,676

5

38.283

VEF

3,782

986,14

676,56

F

Error 224.79

(6-1)(4-1)=15

Total 2.295.63 (6)(4)-1=23

Análisis de varianza de dos factores con interacción. (Diseño factorial): Suponga que UD como dueño y propietario de una cadena de supermercados esta interesado en saber el efecto de la colocación de los estantes en la venta de un producto. Para ello estudia 4 posibles lugares distintos donde colocar los estantes: Colocación normal entre el pasillo(A), colocación ingreso del pasillo (B), colocación a la entrada del pasillo con impulsadora (C) y colocación normal con propaganda (D). Se toman ventas aleatorias en las jornadas de la mañana, tarde y noche y los resultados de las ventas semanales se resumen en la siguiente tabla: Cuadro 5.17 Colocación de productos

JORNADA COLOCACIÓN ESTANTE

A B C D Totales Medias

Mañana 45 50

56 63

65 71

48 53

451 56,375

Tarde 57 65

69 78

73 80

60 57

539 67,375

Noche 70 78

75 82

82 89

71 75

622 77,750

Totales 365 423 460 364 1.612

Medias 60.83 70.50 76.67 60.67 67,167

14,986

15

79.224

VE

Page 193: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

193

El problema se relaciona con un diseño de dos factores con medidas repetitivas o replicas de dos veces, puesto que se toman dos muestras en cada jornada de cada una de las colocaciones de los estantes. La variable respuesta son las ventas semanales obtenidas, y los dos factores son la jornada y la colocación del estante. Para resolver el problema se introducen los datos tal como se indica a continuación: Figura 5.19 Registro de información

A continuación en el cuadro de dialogo de análisis de datos elige la opción “Análisis de varianza de dos factores con varias muestras por grupo, y rellena el cuadro de dialogo como se indica en la siguiente figura: Figura 5.20 Ventana de análisis de varianza

Pulsa aceptar y obtiene los siguientes resultados:

Page 194: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

194

Figura 5.21 Resultados de análisis de varianza de dos factores

A la vista de los p-valores obtenidos, se concluye que es significativa la diferencia entre las jornadas porque el p-valor (3.5787E-06) es menor que 0.05; igualmente es significativa la diferencia entre la colocación de los estantes porque el p-valor (0.00012489) es menor que el nivel e significancia 0.05; no es significativa la diferencia entre la interacción de los factores porque el p-valor (0.66276957) es mayor al nivel de significancia del 0.05. Podrá darse cuenta, que los resultados utilizando la herramienta de Excel son idénticos, a los trabajados manualmente en el ejercicio desarrollado anteriormente, como se indica en el siguiente cuadro:

Page 195: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

195

Cuadro 5.18 Resultados de análisis de varianza de dos factores

Fuente de variación

Suma de los cuadrados, SC

Grados de libertad, gl

Media cuadrática, MC

Relación F

Entre grupos de tratamiento A

1.828.09 213 914.045 42.51

Entre grupos de tratamiento, B

1.102.34 314 367.447 17.09

Interacción entre factores A y B.

88.91 61413 14.818 0.69

Error de muestreo, E

258 121243 21.5

Total, T 3.277.34 231243

Cuadro elaborado manualmente en ejercicio anterior para análisis de varianza de dos factores. 5.1 Auto evaluación 5.1 Para los siguientes enunciados indique si es cierto o falso. Si es falso, corríjalo 5.1.1 La distribución F esta positivamente sesgada 5.1.2 La distribución F se basa en dos conjuntos de grados de libertad. 5.1.3 Un tratamiento es una fuente de variación en los datos. 5.1.4 Para el procedimiento de ANOVA, las poblaciones deben ser positivamente sesgadas. 5.1.5 Rechazar la hipótesis nula en un procedimiento ANOVA, indica que difieren todos los pares de medias. 5.1.6 Si el nivel de significancia es de 0.05 y existen 3 grados de libertad en el numerador y 12 en el denominador, el valor crítico de F es iguala 3.49 5.1.7 Si existen 4 tratamientos, el número de grados de libertad en el numerador de F es también de 4. 5.1.8 Una variable de bloque es una fuente de variación similar a una variable de tratamiento. 5.1.9 Existe una familia de distribuciones F, es decir, hay una distribución para 17 y 14 grados de libertad, y otra para 6 y 4 grados de libertad.

1. 5.2 Durante los últimos meses el operario A ha producido un promedio de 9 componentes defectuosos con una desviación estándar de 2 piezas defectuosas. El operario B ha tenido un promedio mensual de 8.5

Page 196: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

196

componentes defectuosos con una desviación estándar de 1.5 piezas en el mismo período.- Al nivel de significancia de 0.05, ¿es posible concluir que hay más variación mensual en el número de componentes defectuosos que se atribuye al operario A?

5.3 Se han seleccionado 20 personas las cuales aleatoriamente se han distribuido en 4 grupos de 5 personas cada uno, para adelantar una instrucción con 4 profesores diferentes. Al final se cada sesión se aplicó una prueba con una calificación de hasta 10 puntos y los resultados fueron los siguientes:

Instructor A Instructor B Instructor C Instructor D

6 7 6 5 6

8 5 8 6 8

7 9 6 8 5

8 5 6 6 5

Pruebe al nivel de significancia del 0.05 que no hay diferencia entre los promedios para los 4 grupos. 5.4 Se distribuyen 3 clases de jabones: A, B y C. Las ventas mensuales en unidades monetarias se indican en la siguiente tabla:

Mes Jabón A Jabón B Jabón C

Enero Febrero Marzo Abril Mayo

7 11 13 8 9

9 12 11 9 10

12 14 8 7 13

Utilizando un nivel de significancia de 0.05, aplique el procedimiento ANOVA para demostrar si: 5.4.1 Las ventas medias para los diferentes tipos de jabones son iguales. 5.4.2 Las ventas medias son iguales para cada uno de los cinco meses. Resumen.

Se ha indicado cómo se usa el análisis de varianza para ver si existe diferencias significativas entre las medias de varias poblaciones o tratamientos. Además se introdujo el diseño de experimentos para un factor, el análisis de varianza de dos factores mediante el diseño de bloques aleatorizados y finalmente el análisis de varianza de dos factores con interacción mediante el diseño factorial. El objetivo principal de formar bloques en el diseño de bloques aleatorizado es eliminar fuentes extrañas de variación a partir del término de error. Ese agrupamiento da como resultado un mejor estimado de la varianza verdadera

Page 197: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

197

del error, y una mejor prueba para determinar si las medias de población o tratamiento del factor difieren apreciablemente. En el análisis de varianza de un solo factor, la estimación se basa en la variación entre los tratamientos; ese estimador permite contar con un estimado insesgado sólo si todas las medias poblacionales son iguales. Calculando la relación de ese estimador mediante el estadístico F, se llega a establecer una regla de rechazo para determinar si se rechaza la hipótesis nula que hace relación a que si las medias poblacionales o de tratamientos son iguales. En todos los diseños de experimento vistos, el agrupamiento o repartición de la suma de cuadrados y de los grados de libertad en sus diversas fuentes permite calcular los valores adecuados para el análisis de varianza y sus pruebas.

Algún Glosario

TABLA DE ANÁLISIS DE VARIANZA: Tabla que se usa para resumir los cálculos y resultados del análisis de varianza. En las columnas se indican la fuente de variación, la suma de cuadrados, los grados de libertad, el cuadrado medio y los valores F. REPARTICIÓN O PARTICIÓN: Proceso de asignar la suma total de cuadrados y los grados de libertad a los diversos componentes. PROCEDIMIENTO DE COMPARACIÓN MÚLTIPLE: Procedimientos estadísticos para llevar a cabo comparaciones estadísticas entre pares de medias poblacionales o de tratamientos. FACTOR: Sinónimo de la variable de interés en un experimento. TRATAMIENTO: Distintos niveles de un factor. EXPERIMENTO DE UN SOLO FACTOR:Un experimento donde solo interviene un factor con k poblaciones o tratamientos. UNIDAD EXPERIMENTAL: Los objetos de interés en el experimento. DISEÑO TOTALMENTE ALEATORIZADO: Diseño de experimento en el que los tratamientos se asignan aleatoriamente a las unidades experimentales. CUADRADO MEDIO: La suma de los cuadrados divida entre los grados de libertad correspondientes. Esta cantidad se usa en la relación F para determinar si existe diferencias significativas entre las medias poblacionales. AGRUPAMIENTO EN BLOQUES: Proceso de usar las mismas o semejantes unidades experimentales para todos los tratamientos. El objeto del

Page 198: Modulo Version 2 Dani Brito_jorge Rondon

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

198

agrupamiento en bloques es eliminar una fuente de variación del termino de error, y en consecuencia, obtener una prueba mas poderosa para investigar una diferencia entre promedios de población o de tratamientos. DISEÑO DE BLOQUE ALEATORIZADO: Diseño de experimento donde se usa agrupamiento en bloques. EXPERIMENTO FACTORIAL: Diseño de experimentos que permite llegar a conclusiones estadísticas acerca de dos o más factores. REPLICACIÓN: O repetición, es la cantidad de veces que aparece cada condición experimental en un experimento. INTERACCIÓN: Efecto producido cuando los niveles de un factor interactúan con los de otro factor, influyendo sobre la variable respuesta.

Page 199: Modulo Version 2 Dani Brito_jorge Rondon

199

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

CAPITULO SEIS: PRUEBAS NO PARAMETRICAS

Introducción

Uno de los problemas más difíciles para el principiante y para el investigador experimentado, es decidir cuál de las pruebas estadísticas es la más adecuada para analizar un conjunto de datos. La aplicación de la estadística en el análisis de datos es muy amplia y las áreas en las que se aplica son diversas, desde las ciencias exactas hasta las ciencias sociales. La selección de la prueba estadística necesaria para el caso, depende de varios factores, en primer lugar se debe saber cuál es la escala con la que se están midiendo los datos que se analizarán, pues no se puede aplicar la misma prueba estadística para el caso en que la variable de interés sea el peso de un producto que cuando lo es la profesión del usuario de un producto.

Queremos introducir en este parte la noción de pruebas no paramétricas como aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre. En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal.

En estas técnicas, solamente se necesitan conocimientos elementales de matemáticas, pues los métodos son relativamente más sencillos que en las pruebas paramétricas. En estas pruebas, también se tienen supuestos, pero son pocos y no tienen que ver con la naturaleza de la distribución de la población, por lo que a estas técnicas también se les conoce como de libre distribución.

En general el único supuesto que se debe cumplir en la mayoría de las pruebas no paramétricas para confiar en ellas, es que la muestra haya sido seleccionada en forma probabilística.

Las pruebas que se mencionarán son las que se podrían necesitar con mayor frecuencia, se mencionarán sus principales características y aplicaciones.

Objetivo general.

Contrastar la validez de hipótesis o conjetura sobre la relación entre variables y sobre las distribuciones de probabilidad teórica que adoptan dichas variables, sin sujetarse a los condicionamientos de la validez de supuestos paramétricos.

Page 200: Modulo Version 2 Dani Brito_jorge Rondon

200

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

Objetivos específicos.

Examinar que se entiende por hipótesis y por prueba de hipótesis No paramétricas.

Realizar pruebas No paramétricas para una variable y para datos pareados

Realizar pruebas sobre la bondad de ajustes de variables a distribuciones de probabilidad teórica de carácter cuantitativas.

Realizar pruebas de hipótesis para datos que se encuentran en una escala nominal u ordinal con aplicación de la distribución chi- cuadrado.

Realizar pruebas sobre la relación entre dos y más variables poblacionales.

Lección No 26: Generalidades

Las pruebas de hipótesis hacen inferencias respecto a los parámetros de la población, como la media. Estas pruebas paramétricas utilizan la estadística paramétrica de muestras que provinieron de la población que se está probando. Para formular estas pruebas, hicimos suposiciones restrictivas sobre las poblaciones de las que extraíamos las muestras. Por ejemplo: suponíamos que las muestras eran grandes o que provenían de poblaciones normalmente distribuidas. Pero las poblaciones no siempre son normales.

Los estadísticos han desarrollado técnicas ˙tiles que no hacen suposiciones restrictivas respecto a la forma de las distribuciones de las poblaciones. …estas se conocen como pruebas sin distribución, o pruebas no paramétricas. Las hipótesis de una probabilidad no paramétrica se refieren a algo distinto del valor de un parámetro de población

Ventajas de los métodos no paramétricos.

1. No requieren que hagamos la suposición de que una población está distribuida en forma de curva normal u otra forma específica.

2. Generalmente, son más fáciles de efectuar y comprender. 3. Algunas veces, ni siquiera se requiere el ordenamiento o clasificación

formal.

Desventajas de los métodos no paramétricos.

1. Ignoran una cierta cantidad de información 2. A menudo, no son tan eficientes como las pruebas paramétricas.

Page 201: Modulo Version 2 Dani Brito_jorge Rondon

201

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

Cuando usamos pruebas no paramétricas, efectuamos un trueque: perdemos agudeza al estimar intervalos, pero ganamos la habilidad de usar menos información y calcular ms rápidamente.

Lección No 27: Prueba de bondad de ajuste Chi Cuadrado:

Comprueban el ajuste a cualquier distribución, no necesariamente normal (por ejemplo, a una exponencial, che-cuadrado, etc.). Compara frecuencias teóricas esperadas con frecuencias obtenidas. Necesita un número suficiente de datos (al menos 30); también es necesario que las frecuencias esperadas sean mayores o iguales que 5. Válido tanto para variable discreta, como continua. Pero especialmente para variables cualitativas.

Prueba de independencia de variables

Dadas dos variables categóricas X e Y, el test contrasta si dichas variables son independientes, o si por el contrario hay cierta relación entre ellas (en otras palabras: si una de ellas influye en la otra, si hay diferencias significativas en una de ella según los valores de la otra, etc.)

Lección No 28: Prueba de Kolmogorov-Smirnov:

La única premisa que se necesita es que las mediciones se encuentren al menos en una escala de intervalo. Se necesita que la medición considerada sea básicamente continua. Además dicha prueba es aplicable cualquiera sea el tamaño de la muestra.

Compara las funciones de distribución teórica y empírica (sólo válido para variables continuas).

Características de la prueba

La prueba de K-S de una muestra es una hipótesis de bondad de ajuste. Esto es, se interesa en el grado de acuerdo entre la distribución de un conjunto de valores de la muestra y alguna distribución teórica específica. Determina si razonablemente puede pensarse que las mediciones muéstrales provengan de una población que tenga esa distribución teórica. En la prueba se compara la

Page 202: Modulo Version 2 Dani Brito_jorge Rondon

202

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

distribución de frecuencia acumulativa de la distribución teórica con la distribución de frecuencia acumulativa observada. Se determina el punto en el que estas dos distribuciones muestran la mayor divergencia.

Hipótesis

Ho: La distribución observada se ajusta a la distribución teórica.

F(x) = Ft(x) para todo x.

H1: La distribución observada no se ajusta a la distribución teórica.

Ft(x): es la función teórica. Esta puede ser por ejemplo la función normal con cierta media y varianzas conocidas.

Estadístico de prueba

D = máxima

Sn(x): es la función de distribución empírica.

Lección No 29: Prueba de Wilcoxon de los rangos con signo

Esta prueba nos permite comparar nuestros datos con una mediana teórica. Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2-M0, ..., Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se distribuirían de forma simétrica en torno a cero.

Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se ordenan de menor a mayor, asignándoles su rango (número de orden). Si hubiera dos o más diferencias con igual valor (empates), se les asigna el rango medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los rangos correspondientes a las diferencias negativas. Si la hipótesis nula es cierta, ambos estadísticos deberán ser parecidos, mientras que si nuestros datos tienen a ser más altos que la mediana M0, se reflejará en un valor mayor de R+, y al contrario si son más bajos. Se trata de contrastar si la menor de las sumas de rangos es excesivamente pequeña para ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es excesivamente grande.

Page 203: Modulo Version 2 Dani Brito_jorge Rondon

203

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

Prueba de Wilcoxon para contrastar datos pareados

El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de parejas de valores, por ejemplo antes y después del tratamiento, que podemos denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en valor absoluto, asignándoles el rango correspondiente. Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la hipótesis nula es que esas diferencias proceden de una distribución simétrica en torno a cero y si fuera cierta los valores de R+ y R- serán parecidos.

Lección No 30: Prueba de Mann-Whitney para muestras independientes

Si tenemos dos series de valores de una variable continua obtenidas en dos muestras independientes: X1, X2, ... , Xn, Y1, Y2, ... , Ym, procederemos a ordenar conjuntamente todos los valores en sentido creciente, asignándoles su rango, corrigiendo con el rango medio los empates. Calculamos luego la suma de rangos para las observaciones de la primera muestra Sx, y la suma de rangos de la segunda muestra Sy. Si los valores de la población de la que se extrajo la muestra aleatoria de X se localizan por debajo de los valores de Y, entonces la muestra de X tendrá probablemente rangos más bajos, lo que se reflejará en un valor menor de Sx del teóricamente probable. Si la menor de las sumas de rangos es excesivamente baja, muy improbable en el caso de que fuera cierta la hipótesis nula, ésta será rechazada.

Lección No 31: Prueba H de suma de rangos o prueba de Kruskal-Wallis para comparar k muestras independientes

También se conoce esta prueba como prueba H de Kruskal-Wallis para diseños completamente aleatorizados.

Cuando se tiene interés o necesidad de probar una hipótesis nula en la que se afirma que k tratamientos son iguales o que k muestras aleatorias independientes provienen de poblaciones idénticas, siendo k > 2, la prueba estadística que se realizaría dentro de la estadística paramétrica sería el análisis de varianza de un sentido y para la prueba se utilizaría la distribución F; sin

Page 204: Modulo Version 2 Dani Brito_jorge Rondon

204

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

embargo, cuando la escala es ordinal o se desconfía del supuesto de que las muestras provienen de poblaciones con forma de distribución normal, se puede utilizar esta prueba para muestras independientes. La hipótesis alternativa sería que al menos dos poblaciones tienen una distribución diferente.

Esta prueba solamente se puede usar cuando el tamaño de cada muestra sea mayor o igual a cinco. Se puede afirmar que el procedimiento que se realiza en esta prueba es una extensión del utilizado en la prueba U de Mann-Withney. Para proceder a realizar esta prueba, se utiliza la distribución ji cuadrada con (k-1) grados de libertad, siendo k el número de muestras con las que se trabaja.

Ejercicios: 6 1. Cinco antiguos pacientes son seleccionados aleatoriamente del ala A de un hospital y cuatro pacientes son seccionados del ala B. Los pacientes estuvieron los siguientes números de días: Ala A 13 4 2 10 6 Ala B 10 9 7 8 Se debe efectuar una prueba U de Mann-Whitney para determinar si existe diferencia significativa entre la duración de las estancias en el hospital para las dos alas. ¿Cual es la clasificación para la estancia de 13 días en el Ala A? R/ta: 9 días 2. Elija la muestra con la mayor suma de rangos si los elementos son clasificados de mayor a menor: Muestra A: 1 3 9 Muestra B: 5 1 8 Muestra C: 9 4 2 R/ta: 16 3. En una partida de Rol se lanza 200 veces un dado de cuatro caras obteniéndose 60 veces el número 1, 45 veces el número 2, 38 veces el número 3 y 57 veces el número 4. Se puede aceptar, a un nivel de confianza del 95%, que estos resultados corresponden a un dado homogéneo. R/ta: Se acepta de la hipótesis que los resultados corresponden a un dado homogéneo 4. En una encuesta preelectoral realizada a 500 personas se obtuvo la siguiente distribución en función de sus edades y de su intención de voto:

Page 205: Modulo Version 2 Dani Brito_jorge Rondon

205

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

Edad

Partido 18 – 35 35 – 50 50 o más

A 10 40 60 B 15 70 90

C 45 60 35

D 30 30 15

A un nivel de confianza del 90% ¿Puede afirmarse que la intención de voto es independiente de la edad?

R/ta: Se rechaza la hipótesis de independencia de las variables 5. Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de palabras, previamente presentadas, han sido los siguientes:

115, 98, 123, 109, 112, 87, 118, 104, 116

A un nivel de confianza del 95% ¿Son compatibles estos resultados con la hipótesis de que el tiempo de reacción en esta tarea sigue una distribución Normal de media 110 y desviación típica 10? R/ta: Se acepta la hipótesis de normalidad de la variable.

Autoevaluación

1. Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan con métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta frecuencia. Después de un mes de entrenamiento se realiza un test de rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos empleados fueron los siguientes:

Método I Método II Método III

15 14 13 16 13 12 14 15 11 15 16 14 17 14 11

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen

Page 206: Modulo Version 2 Dani Brito_jorge Rondon

206

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás?

Solución:

Comenzamos calculando los totales y los cuadrados de los totales

divididos por el número de observaciones:

Metd. I Metd. II Metd. III Total Sum2/n

Suma 77 72 61 210 2940

Sum2/n 1185,8 1036,8 744,2 2966,8

A continuación calculamos los cuadrados de las observaciones y su total:

Metd. I Metd. II Metd. III

225 196 169

256 169 144

196 225 121

225 256 196

289 196 121

1191 1042 751 2984

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 2984 - 2940 = 44 SC(intra) = 2984 – 2966,8 = 17,2 SC(entre) = 2966,8 – 2940 = 26,8

Los cuadrados medios

serán: CM(entre) =

26,8/2 = 13,4 CM(intra) = 17,2/12 = 1,43

Por consiguiente el estadístico de contraste vale:

F = 13,4/ 1,43 = 9,37

El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95% es 3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que los tres métodos de entrenamiento producen diferencias significativas. (Tomado de problemas de análisis de datos Tema 14 Análisis de varianzas: José María Salinas)

Page 207: Modulo Version 2 Dani Brito_jorge Rondon

207

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

Test No Parámetro 2. En una partida de Rol se lanza 200 veces un dado de cuatro caras obteniéndose 60 veces el número 1, 45 veces el número 2, 38 veces el número 3 y 57 veces el número 4. Se puede aceptar, a un nivel de confianza del 95%, que estos resultados corresponden a un dado homogéneo.

Solución:

1º La hipótesis nula será que el dado es homogéneo, esto implica que la distribución de los números es uniforme, es decir que los cuatro números tienen una probabilidad de aparecer de 0,25.

2º La hipótesis alternativa será que la distribución no es uniforme.

3º Como la variable es discreta utilizaremos el test Ji-cuadrado de bondad

de ajuste a una distribución.

4º En la tabla siguiente se han realizado todos los cálculos necesarios, obteniéndose el valor 4,36 para el estadístico de contraste.

xi ni pi Npi ni-np i (ni-np i)2 (ni-np i)

2/np i

1 60 0,25 50 10 100 2 2 45 0,25 50 -5 25 0,5 3 38 0,25 50 -12 144 2,88 4 57 0,25 50 7 49 0,98

200 4,36

5º Como el estadístico tenía 4 sumandos, buscamos en las tablas de la Ji-cuadrado con 3 grados de libertad el valor que deja por debajo una probabilidad de 0,95 y obtenemos que el valor crítico es 7,81.

6º Como el valor del estadístico es inferior al valor crítico, aceptamos la hipótesis nula.

7º Estos resultados son compatibles con el hecho de que el dado sea homogéneo.

2.- En una encuesta preelectoral realizada a 500 personas se obtuvo la siguiente distribución en función de sus edades y de su intención de voto:

Edad

Page 208: Modulo Version 2 Dani Brito_jorge Rondon

208

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

Partido 18 – 35 35 – 50 50 o más

A 10 40 60 B 15 70 90 C 45 60 35 D 30 30 15

A un nivel de confianza del 90% ¿Puede afirmarse que la intención de voto es independiente de la edad? Solución:

1º La hipótesis nula es que las dos variables son independientes.

2º La hipótesis alternativa es que hay relación entre ambas variables.

3º Se trata de un contraste de independencia entre dos variables, por consiguiente el estadístico de contraste a utilizar es el estadístico Ji-cuadrado para tablas de contingencia.

4º Las tablas siguientes presentan los cálculos del estadístico:

Partido Edad

18 – 35 35 – 50 50 o más

A B C D

10 40 60 15 70 90

45 60 35 30 30 15

110 175

140 75

100 200 200 500

A partir de las frecuencias marginales de la tabla anterior, se obtienen las frecuencias

esperadas que aparecen a continuación:

Edad Partido 18 – 35 35 – 50 50 o más

A 22 44 44 B 35 70 70 C 28 56 56 D 15 30 30

Por consiguiente las discrepancias entre frecuencias empíricas y frecuencias esperadas son:

Edad

Page 209: Modulo Version 2 Dani Brito_jorge Rondon

209

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

Partido 18 – 35 35 – 50 50 o más

A -12 -4 16 B -20 0 20 C 17 4 -21 D 15 0 -15

Los cuadrados de las discrepancias son:

Edad

Partido 18 – 35 35 – 50 50 o más

A 144 16 256 B 400 0 400

C 289 16 441 D 225 0 225

Dividiendo por las frecuencias esperadas se obtiene:

Partido

Edad

18 – 35 35 – 50 50 o más

A B C D

6,55 0,36 5,82 11,43 0 5,71 10,32 0,29 7,88

15 0 7,5

43,30 0,65 26,91 70,86

Sumando, se obtiene el valor del estadístico 70,86.

5º Como la edad presenta tres intervalos y los partidos son cuatro, el estadístico tendrá (3 - 1)·(4 -1 ) = 6. Buscamos en las tablas de la distribución Ji-cuadrado con 6 grados de libertad el valor de la variable que deja por debajo una probabilidad de 0,9 encontramos que el valor crítico es 10,64.

6º Como el valor del estadístico es mayor que el valor crítico rechazamos la hipótesis nula de que ambas variables son independientes.

7º La edad cambia la intención de voto.

3. Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de palabras, previamente presentadas, han sido los siguientes:

115, 98, 123, 109, 112, 87, 118, 104, 116

A un nivel de confianza del 95% ¿Son compatibles estos resultados con la

Page 210: Modulo Version 2 Dani Brito_jorge Rondon

210

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

hipótesis de que el tiempo de reacción en esta tarea sigue una distribución Normal de media 110 y desviación típica 10?

Solución:

1º La hipótesis nula es que los datos proceden de una Normal (110, 10).

2º La hipótesis alternativa es que no siguen esa distribución Normal.

3º Como la variable es continua, y la hipótesis nula especifica totalmente la distribución utilizaremos el test de Kolmogoroff-Smirnoff, cuyo estadístico de contraste es: max | Fn(xi ) - Mn(xi) |

4º los cálculos del estadístico se especifican en la siguiente tabla:

xi 87 98 104 109 112 115 116 118 123 zi -2,3 -1,2 -0,6 -0,1 0,2 0,5 0,6 0,8 1,3 Fn 0,0107 0,1151 0,2743 0,4602 0,5793 0,6915 0,7257 0,7881 0,9032 Mn 0,1111 0,2222 0,3333 0,4444 0,5556 0,6667 0,7778 0,8889 1

|Fn-Mn| 0,1004 0,1071 0,059 0,0158 0,0237 0,0248 0,0521 0,1008 0,0968

5º Buscando en las tablas del test Kolmogoroff-Smirnoff para n = 9 el valor crítico para un nivel de confianza del 95% se obtiene 0,43001. 6º Como el valor del estadístico 0,1071 es menor que el valor crítico se acepta la hipótesis nula.

7º A un nivel de confianza del 95% no hay evidencia en contra de que el tiempo de reacción siga una distribución N(110, 10). (Tomado de problemas de análisis de datos Tema 14 Análisis de varianzas: José María Salinas)

Page 211: Modulo Version 2 Dani Brito_jorge Rondon

211

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

Page 212: Modulo Version 2 Dani Brito_jorge Rondon

212

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

BLIOGRAFÍA

CANAVOS, George. Estadística y Probabilidad. Mc Graw Hill. Méxicoo 1.998 DEVORE, Jay. Probabilidad y estadística. Quinta edición. Thomsom-Learning. México 2.001 JONHSON, Richard. Probabilidad y Estadística para Ingenieros. Printece mall México 1.997 MONTGOMERY, Douglas. Estadística y Probabilidad. Segunda edición. Limusa. México, 2.002 PEÑA, Daniel. Estadística, Modelos y Métodos. Vol. 1. Alianza Editorial. Madrid 1.988 ROSS, Sheldon. Probabilidad y Estadística para Ingenieros. Segunda Edición. Mc Graw Hill. México 2.001 CASAS, J.M. (1997). Inferencia Estadística. Centro de Estudios Ramón Areces, Madrid. SARABIA, J.M. (2000). Curso Práctico de Estadística. Segunda Edición. Civitas, Madrid. SARABIA, J.M. (2002). Apuntes de Inferencia Estadística. SARABIA, J.M., PASCUAL, M. (2002). Prácticas de Inferencia Estadística. CASAS, J.M., SANTOS, J. (1999). Estadística Empresarial. Centro de Estudios Ramón Areces, Madrid. CUADRAS, C.M. (1983). Problemas de Probabilidades y Estadística. Tomo II. PPU, Barcelona. MENDENHALL, W. REINMUTH, J.E. (1993). Estadística para Administración y Economía. Grupo Editorial Iberoamericana, México. PEÑA, D. (2001). Fundamentos de Estadística. Alianza Editorial, Madrid. RUIZ-MAYA, L., MARTÍN PLIEGO, F.J. (2001). Estadística II: Inferencia. Segunda Edición. AC, Madrid.

Page 213: Modulo Version 2 Dani Brito_jorge Rondon

213

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 – INFERENCIA ESTADISTICA

Sitios Web.

http://server2.southlink.com.ar/vap/PROBABILIDAD.htm http://es.wikipedia.org/wiki/Probabilidad http://www.terra.es/personal2/jpb00000/pprobjunio99.htm http://www.fvet.edu.uy/estadis/probabilidad.htm http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/matematicas-28.html http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/Estadistica/index.html http://www.d16acbl.org/U173/Brmx_prob1.html#_1 http://espanol.geocities.com/eprobabilidades/index.htm http://www.monografias.com/trabajos11/tebas/tebas.shtml http://www2.uiah.fi/projects/metodi/252.htm http://e-stadistica.bio.ucm.es/mod_intervalos/intervalos6.html http://escuela.med.puc.cl/Recursos/recepidem/EPIANAL9.HTM

http://adrianamoralesunad.blogspot.com/