Clase 2 estadistica

44
PRUEBA DE HIPÓTESIS Lic. Tatiana Rettis Salazar

description

MMM FUNCIONARA???....

Transcript of Clase 2 estadistica

Page 1: Clase 2 estadistica

PRUEBA DE HIPÓTESIS

Lic. Tatiana Rettis Salazar

Page 2: Clase 2 estadistica

PRUEBA DE HIPÓTESIS

Objetivo: Tratar de determinar cuándo es razonable concluir, a partir del análisis de una muestra, que la población entera posee determinada propiedad y cuando esto no es razonable.

Page 3: Clase 2 estadistica

PRUEBA DE HIPÓTESIS

• Es una afirmación acerca del parámetro de la población, para luego utilizar los datos para verificar que tan razonable es tal afirmación.

• Para comenzar es preciso definir el tipo de prueba de hipótesis.

• En el análisis estadístico se hace una afirmación (hipótesis), luego se sigue con la prueba para verificar la afirmación o para determinar que no es cierto.

Page 4: Clase 2 estadistica

PRUEBA DE HIPÓTESIS

• Hipótesis: enunciado de un parámetro de la población, que se desarrolla con el propósito de realizar la prueba.

• Prueba de Hipótesis: procedimiento que se hace con la evidencia de las muestras y con las teorías de Probabilidad determinar si la hipótesis es un enunciado razonable.

Page 5: Clase 2 estadistica

TIPOS DE PRUEBAS• Establecen un valor ó un intervalo de valores

para los parámetros de una variable– Asociada a la construcción de Intervalos de

confianza– Ej. La media de una variable es 10

• Establecen la igualdad de las distribuciones de dos ó mas variables– Requiere un diseño experimental– Ej. La media de dos poblaciones normales son

iguales con igual variancia • Determinan la forma de la distribución de la

variable – Pruebas especificas para establecer el tipo de

distribución de una variable– Ej. La distribución de una variable es normal

Page 6: Clase 2 estadistica

Procedimiento para probar una hipótesis

• PASO 1: Plantear la Hipótesis Nula (Ho) y la Hipótesis Alterna (Ha)

Hipótesis Nula: una afirmación respecto del valor de un parámetro de la población.

Hipótesis Alterna: una afirmación que se acepta si los datos de la muestra

proporcionan evidencia suficiente que la hipótesis es falsa.

Page 7: Clase 2 estadistica

PASO 2: Seleccionar un nivel de significancia.

Se designa α, también llamado nivel de riesgo, el investigador deberá decidir el nivel de significancia antes de formular una decisión y recolectar los datos de la muestra.

Al rechazar una hipótesis nula que es verdadera se comete un error Tipo I

Nivel de Significancia: es la probabilidad de rechazar la hipótesis nula cuando es

verdadera.

Page 8: Clase 2 estadistica

PASO 3: Formular la regla de decisión

Una regla de decisión es una afirmación de las condiciones bajo las que se rechaza la hipótesis nula y bajo las que no se rechaza. El área o región define la ubicación de todos aquellos valores que son tan grandes o tan pequeños que la probabilidad de que ocurra bajo una hipótesis nula verdadera es bastante remota.

Page 9: Clase 2 estadistica

PASO 3: Formular la regla de decisión

Valor Crítico, punto de división entre la región en que se rechaza la hipótesis

nula y la región en la que no se rechaza.

Page 10: Clase 2 estadistica

ERRORES Y RIESGOS  La práctica de probar la hipótesis nula contra una alternativa, sobre la base de la información de la muestra, conduce a dos tipos posibles de error, debido a fluctuaciones al azar en el muestreo. Es posible que la hipótesis nula sea verdadera pero rechazada debido a que los datos obtenidos en la muestra sean incompatibles con ella; como puede ocurrir que la hipótesis nula sea falsa pero no se la rechace debido a que la muestra obtenida no fuese incompatible con ella.

Page 11: Clase 2 estadistica

PASO 4: Calcular el Estadístico de Prueba

Existen muchos estadísticos de prueba se utiliza Z, t, F y 2, según sea el tipo de datos que se someten a prueba.

Se utiliza el valor de Z para el caso de v. a. X tiene una Distribución Normal, cuando la muestra es razonablemente grande con una media y una desviación estándar

nX

)( X

Estadístico de Prueba, un valor que se calcula en base a la información de la muestra y se

utiliza para determinar si se rechaza la hipótesis nula.

Page 12: Clase 2 estadistica

PASO 5: Toma de Decisiones.

El último paso consiste en tomar la decisión de rechazar o no a la hipótesis nula.

Pruebas de significancia de una o dos colas.

Por ejemplo:

Ho : ≤ valorHa : > valor

Ho : ≥ valorHa : < valor

Ho : = valorHa : ≠ valor

Page 13: Clase 2 estadistica

PASO 5: Toma de Decisiones.

Page 14: Clase 2 estadistica

Prueba de la Media de Población

Muestras grandes, desviación estándar de la Población conocida, Prueba de dos colas.

Ejemplo:

Una fabrica de muebles de madera tiene una producción media de 200 piezas y una desviación estándar igual a 16, debido a la expansión del mercado se introdujo nuevos métodos de producción y se contrato nuevos operarios. El Gerente desea saber si hubo cambios en la producción semanal o ¿el número medio de artículos producidos en la fábrica es diferente a 200 con un nivel de significancia de 0.01? Para ello se tomo una muestra de piezas producidas durante 50 días siendo X = 203.5 y = 16

Page 15: Clase 2 estadistica

Prueba de la Media de Población Muestras grandes y desviación estándar de la Población desconocida.

Ejemplo:

Una cadena de tiendas emite su tarjeta de crédito. El gerente desea descubrir si el saldo medio no liquidado por mes es mayor a $400, una verificación aleatoria de 172 saldos no liquidados reveló que la media de la muestra era de $407 y la desviación estándar de la muestra es $38 ¿el Gerente debe llegar a la conclusión de que la media de la población es mayor a $400 con un nivel de significancia de 0.05?

Page 16: Clase 2 estadistica

Prueba de Hipótesis para dos Medias de Población

Se refiere a dos poblaciones, donde no se conoce la media o la desviación. Se selecciona una muestra para cada población y se determina sus estadígrafos. El objetivo es probar si es razonable llegar a la conclusión de que las dos medias de la población son iguales (y por lo tanto, las dos poblaciones tienen una media común), o que la diferencia entre ambas medias de la muestra es tan grande que debería concluir que las medias de población no son iguales.

1

21

1

21

21

nS

nS

XXZ

Page 17: Clase 2 estadistica

Prueba de Hipótesis para dos Medias de Población

Ejemplo:

Se pide a cada paciente del hospital evalué el servicio en el momento de alta. Hace poco hubieron quejas de que los médicos y las enfermeras responden con demasiada lentitud a las llamadas de personas de la tercera edad. De hecho, se afirma que las demás personas reciben un servicio más rápido. Luego de estudios del caso se recolectó información de la muestra a un nivel de significancia de 0.01 ¿es razonable concluir que el tiempo medio de respuesta es mayor para los casos de personas de tercera edad?

Tipo de Paciente

Media de Respuesta

Desviación Estándar

Tamaño de Muestra

Personas de 3º Edad

5.5 min. 0.4 min. 50

Otros 5.3 min 0.3 min. 100

Page 18: Clase 2 estadistica

Prueba de Hipótesis con respecto a la Proporción Poblacional

Para este caso abarca los datos en la escala nominal de medición, la observación que se registra es una de 2 o más categorías y lo que se toma es la proporción.

Ejemplo: Suponga que las elecciones indican que un candidato que recibe por menos del 80% de los votos en la parte norte no puede alcanzar la victoria. El gobernador actual le interesa evaluar sus posibilidades para seguir en el cargo y planea una encuesta a 2000 votantes reveló que 1550 planeaban votar por el gobernador.

MuestradeNúmero

exitosdeNúmerop

..

..

p

ppZ

0

n

ppp

)1( 00

Page 19: Clase 2 estadistica

PRUEBA DE HIPÓTESIS(Muestras Pequeñas)

Se utiliza la distribución Normal (Z) como estadístico de prueba siempre y cuando se conozca la desviación estándar poblacional (σ) o tenga muestras grandes (n>30) .

Pero en muchos casos no se conoce σ y el número de observaciones de la muestra es menor a 30. en estos casos se puede utilizar la desviación estándar de la muestra S como un estimador de σ. Es estadístico de prueba adecuado es la t de student suponiendo que la población tiene distribución normal.

Page 20: Clase 2 estadistica

Distribución t de student1. Al igual que la distribución Z es una distribución

continua.

2. Al igual quela distribución Z tiene forma acampanada y simétrica.

3. No hay una distribución t, sino una familia de distribución t, todas con la misma media cero, pero con su respectiva desviación estándar diferente de acuerdo con el tamaño n.

4. La distribución t es más ancha y más plana en el centro que la distribución normal. Sin embargo a medida que aumenta el tamaño de la muestra, la distribución se aproxima a la Distribución Normal.

Page 21: Clase 2 estadistica

Distribución t de student

Page 22: Clase 2 estadistica

Distribución t de student

Ejemplo:

El departamento de reclamos de una aseguradora, informo que el costo promedio de procesar un reclamo es de $60. Un informe comparativo mostró que tal cantidad era mayor que para la mayoría de las aseguradoras, por ello instituyeron medidas para recortar gastos. Para evaluar el efecto de dichas medidas, se selecciono una muestra aleatoria de 26 reclamos y encontró que la media para esta muestra fue de $57 y la S = $10 con α = 0.01. ¿Podrían concluir que las medidas de recorte de gastos en realidad reducen el costo? ¿O acaso debería concluir que las $3 de diferencia se debe a la casualidad?

nSX

t

Page 23: Clase 2 estadistica

Comparación de dos medias Poblacionales (muestras independientes)

Se requiere de tres supuestos:•Las poblaciones tiene una distribución normal.•Las dos muestras son independientes.•Las desviaciones estándar de ambas muestras son iguales.

Varianza Combinada

Estadístico de Prueba

2

)1()1(

21

222

2112

nn

SnSnSP

21

2

21

11nn

S

XXt

P

Page 24: Clase 2 estadistica

Comparación de dos medias Poblacionales (muestras independientes)

Ejemplo:

Una fabrica de ensamblaje de motores se ha propuesto 2 procedimientos para montar un motor sobre una estructura. ¿Existe alguna diferencia en el tiempo medio para montar los motores según los procedimientos propuestos?. Para evaluar los dos métodos se decidió realizar un estudio, se tomó el tiempo a una muestra de 5 empleados utilizando el Procedimiento 1 y a 6 empleados utilizando el Procedimiento 2. ¿Existe alguna diferencia entre los tiempos medios de montaje?. Utilice el nivel 0.10 de significancia.

Page 25: Clase 2 estadistica

Procedimiento 1 Procedimiento 2

X1 X2

2 4 3 9

4 16 7 49

9 81 5 25

3 9 8 64

2 4 4 16

3 9

20 114 30 172

21X

22X

11

1

2

121

1

n

n

XX

S 1

)(

1

2

1

n

nXXS ii

Page 26: Clase 2 estadistica

Prueba de Hipótesis para la Varianza

Supongamos que X es una variable normalmente distribuida con media µ y varianza σ2.

Estadístico de Prueba

Ho: σ2 = σo2 Ho: σ2 ≥ σo

2 Ho: σ2 ≤ σo2

Ha: σ2 ≠ σo2 Ha: σ2 < σo

2 Ha: σ2 > σo2

20

22 )1(

nS

Page 27: Clase 2 estadistica

Ejemplo

Durante años las notas de estadística de la clase se distribuyen normalmente con µ = 75 y σ2 = 8; recientemente las notas parecen haber disminuido y muestran mayor variación. Una muestra de 41 notas tiene como media 73 y S2 = 9.6 . Probar que la σ2

> 6.67 con un nivel de confianza de 0.05.

Page 28: Clase 2 estadistica

Distribución FUsada en teoría de probabilidad y estadística, la distribución F es una distribución de probabilidad continua. También se la conoce como distribución F de Snedecor o como distribución F de Fisher-Snedecor.

Una variable aleatoria de distribución F se construye como el siguiente cociente:

donde

•U1 y U2 siguen una distribución ji-cuadrada con d1 y d2 grados de libertad respectivamente, y

•U1 y U2 son estadísticamente independientes.

•La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente en el análisis de varianza. Véase el test F.

Page 29: Clase 2 estadistica

Distribución FUsada en teoría de probabilidad y estadística, la distribución F es una distribución de probabilidad continua. También se la conoce como distribución F de Snedecor o como distribución F de Fisher-Snedecor.

de la distribución F

1.Existe una "familia" de distribuciones F. Un miembro específico de la familia se determina por dos parámetros: los grados de libertad en el numerador y en el denominador . Existe una distribución F para la combinación de 29 grados de libertad en el numerador y 28 grados en el denominador. Existe otra distribución F para 19 grados en el numerador y 6 en el denominador.

2.La distribución F es una distribución continua.

3.F no puede ser negativa

4.La distribución F tiene un sesgo positivo

5.A medida que aumentan los valores, la curva se aproxima al eje x, pero nunca lo toca

Page 30: Clase 2 estadistica

Distribución F

Page 31: Clase 2 estadistica

Distribución F

Se emplea para probar si dos muestras proviene de poblaciones que posean varianzas iguales y también se aplica cuando se trata comparar simultáneamente varias medias poblacionales, se conoce como análisis de Varianza (ANOVA). En ambas situaciones las poblaciones deben ser normales y los datos tener al menos la escala de intervalos.

Page 32: Clase 2 estadistica

Prueba de Hipótesis para dos varianzas Poblacionales

En este caso se utiliza la distribución F para probar la hipótesis de que la varianza de una población normal es igual a la varianza de otra población normal.

Independientemente de que se desee determinar si una población tiene mayor variabilidad que otra, o para validar una suposición para una prueba estadística primero se estable las hipótesis.

Luego se selecciona una muestra aleatoria para la población n1 y la segunda población n2.

Page 33: Clase 2 estadistica

El estadístico de Prueba

El estadístico de prueba sigue una distribución F con (n1 – 1 ) y (n2 – 1) grados de libertad.

Al fin de reducir el tamaño de la tabla de valores críticos la mayor varianza muestral se coloca en el numerador.

22

21

S

SF

Page 34: Clase 2 estadistica

EjemploUna empresa de taxis, considera dos rutas para acceder al aeropuerto, una por la carretera y otra por la autopista. El gerente dela empresa desea estudiar el tiempo que requiere para llegar al aeropuerto utilizando ambas rutas.

Para ello se recolecto las siguientes datos de muestras utilizando un nivel de significancia de 0.10

¿Existe diferencia en la variación de los tiempos de recorrido utilizando ambas rutas?

Page 35: Clase 2 estadistica

RUTA TIEMPO MEDIO DESVIACIÓN ESTÁNDAR

TAMAÑO DE LA MUESTRA

Carretera 56 12 7

Autopista 55 5 8

Page 36: Clase 2 estadistica

ANALISIS DE VARIANZA (ANOVA)

1. Las poblaciones tiene una distribución normal.

2. Las poblaciones tiene desviaciones estándar iguales.

3. Las muestras se seleccionan de manera independiente.

Tratamiento: Fuente específica de variación en un conjunto de datos. 

Page 37: Clase 2 estadistica

La prueba ANOVA

Se desea determinar si las diversas medias de muestra proceden de una sola población, o de poblaciones con distintas medias. Las medias se comparan por medio de sus varianzas. En la prueba del ANOVA, la estrategia consiste en calcular la varianza de la población de dos formas y luego encontrar la relación entre estas dos estimaciones.

Page 38: Clase 2 estadistica

Variación Total: la suma de cuadrados de las diferencias entre cada observación y

la media global.

Se requiere saber la diferencia entre cada parcela y la media general, cada una de estas diferencias se eleva al cuadrado y se suman dichos cuadrados.

n

XXSStotal

2

2

Page 39: Clase 2 estadistica

Variación de Tratamiento: la suma de cuadrados de las diferencias entre la media de cada tratamiento y la media

general.

n

X

n

TSST

c

c

22

Page 40: Clase 2 estadistica

Variación Aleatoria: la suma de cuadrados de la diferencias entre cada observación y la media de tratamiento “agrupada” de todas las poblaciones.

SS E = SS total – SS T Se determina el estadístico F, que es la relación de los dos estimadores de la

varianza de la población, con base en la ecuación siguiente:

 

Estimado de la varianza de la población con base

F = en las diferencias entre las medias de muestra

Estimado de la varianza de la población con base

en la variación dentro de la muestra

 

Page 41: Clase 2 estadistica

Ejemplo 1El propietario de una zona agrícola desea utilizar una marca de fertilizante que produzca el máximo de rendimiento de trigo por unidad de superficie. El agricultor puede elegir entre tres marcas comerciales: Wolfe, White, Korosa. Para comenzar divide su campo en 12 parcelas de igual tamaño. Luego planta el trigo al mismo tiempo y del mismo modo. Después, asigna cada fertilizante a las parcelas en forma aleatoria. Al final de la temporada registra la cantidad de producción por parcela. ¿Existe alguna diferencia en el número medio de producción de Trigo?, el cuadro siguiente muestra los resultados de las poblaciones bajo estudio.

Page 42: Clase 2 estadistica

TIPO Wolfe White Korosa TOTAL

X1 X12 X3 X2

2 X4 X32

55 66 47

54 76 51

59 67 46

56 71 48

Total 224 280 192 696

12558 19662 9230 41450

Tamaño de Muestra

4 4 4 12

Promedio

Page 43: Clase 2 estadistica

Ejemplo 2Un profesor hizo que los alumnos de su clase de mercadotecnia evaluaran ésta de excelente, buena, regular y mala. Un estudiante graduado recogió las evaluaciones y aseguro a los estudiantes que el profesor no las recibiría hasta que las calificaciones del curso no hubieran sido enviadas a la oficina de servicios académicos. La evaluación (tratamiento) que cada estudiante diera al profesor se hizo, concordar con la calificación del curso, cuyo rango era de 0 a 100. A continuación se presenta la información de la muestra. ¿Existe una diferencia significativa en la escala media de los estudiantes en cada una de las cuatro categorías de evaluación?. Utilice el nivel de significacia de 0.01.

Page 44: Clase 2 estadistica

Calificación Docente

Excelente Bueno Regular Malo TOTAL

X1 X12 X2 X2

2 X3 X32 X4 X4

2

Total

Tamaño Muestra

Promedio