Download - ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo XXI?

Transcript
Page 1: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Universidad Tecnológica De Torreón

Procesos Industriales Área Manufactura

Estadística

Tema 1. Prueba de hipótesisTema 2. Intervalos de confianza.Tema 1. Prueba De Hipótesis

Primera parte trabajo final de la unidad tres

Tema 2. Intervalos De Confianza

Alejandra Ríos Zamora

2°DLic. Edgar Gerardo Mata Ortiz

Segunda parte

Page 2: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Pruebas De HipótesisTenemos que empezar por definir que es una hipótesis y que es prueba de hipótesis.

Hipótesis es una aseveración de una población elaborado con el propósito de poner a prueba, para verificar si la afirmación es razonable se usan datos.

En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.

Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.

Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso:

Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de estadística no proporciona evidencia de que algo sea

Page 3: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

verdadero. Esta prueba aporta una clase de prueba más allá de una duda razonable. Analizaremos cada paso en detalle

Objetivo de la prueba de hipótesis.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer

un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro.

3.- Procedimiento sistemático para una prueba de hipótesis de una muestra

.Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.

Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las poblaciones que se estudian.

La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos rechazar o aceptar Ho.

La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.

La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro.

Paso 2: Seleccionar el nivel de significancia.

Nivel de significacia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega α, tambiιn es denominada como nivel de riesgo, este termino es mas adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.

Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población.

Page 4: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.

La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de no rechazo de la de rechazo.

Tipos de errores

Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Ho o de la Ha, puede incurrirse en error:

Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α

Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada.

En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.

En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles.

Page 5: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible.

La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente sea pequeña.

El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida. Las contrastaciones se apoyan en que los datos de partida siguen una distribución normal

Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo ideal sería establecer α y β.En la práctica se establece el nivel α y para disminuir el Error β se incrementa el número de observaciones en la muestra, pues así se acortan los limites de confianza respecto a la hipótesis planteada .La meta de las pruebas estadísticas es rechazar la hipótesis planteada. En otras palabras, es deseable aumentar cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la prueba (1- β)La aceptación de la hipótesis planteada debe interpretarse como que la información aleatoria de la muestra disponible no permite detectar la falsedad de esta hipótesis.

Paso 3: Cálculo del valor estadístico de prueba

Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos z y t. La elección de uno de estos

Page 6: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

depende de la cantidad de muestras que se toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se utiliza el estadístico t.

Tipos de prueba

a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad

Ejemplo

H0 : µ = 200

H1 : µ ≠ 200

b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤

H0 : µ ≥ 200 H0 : µ ≤ 200

H1 : µ < 200 H1 : µ > 200

En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba es z y se determina a partir de:

El valor estadístico z, para muestra grande y desviación estándar poblacional desconocida se determina por la ecuación:

Page 7: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional desconocida se utiliza el valor estadístico t.

Paso 4: Formular la regla de decisión

SE establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy remota

Distribución muestral del valor estadístico z, con prueba de una cola a la derecha

Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula.

Paso 5: Tomar una decisión.

En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).

Ejemplo en la cual se indica el procedimiento para la prueba de hipótesis

Ejemplo

El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la UNAC manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no este supuesto se controla la cantidad de lectores que

Page 8: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

utilizaron la biblioteca durante 30 días. Se considera el nivel de significancia de 0.05

Datos:

Día Usuarios Día Usuarios Día Usuario

1 356 11 305 21 429

2 427 12 413 22 376

3 387 13 391 23 328

4 510 14 380 24 411

5 288 15 382 25 397

6 290 16 389 26 365

7 320 17 405 27 405

8 350 18 293 28 369

9 403 19 276 29 429

10 329 20 417 30 364

Solución: Se trata de un problema con una media poblacional: muestra grande y desviación estándar poblacional desconocida.

Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa

Ho: μ═350

Ha: μ≠ 350

Paso 02: Nivel de confianza o significancia 95%

α═0.05

Paso 03: Calculamos o determinamos el valor estadístico de prueba

De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de muestras es igual a 30, conocemos la media de la población, pero la desviación estándar de la población es desconocida, en este caso determinamos la desviación estándar de la muestra y la utilizamos en la formula reemplazando a la desviación estándar de la población.

Page 9: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Calculamos la desviación estándar muestral y la media de la muestra empleando Excel, lo cual se muestra en el cuadro que sigue.

Columna1

Media 372.8

Error típico 9.56951578

Mediana 381

Moda 405

Desviación estándar 52.4143965

Varianza de la muestra 2747.26897

Curtosis 0.36687081

Coeficiente de asimetría 0.04706877

Rango 234

Mínimo 276

Máximo 510

Suma 11184

Cuenta 30

Nivel de confianza (95.0%) 19.571868

Paso 04: Formulación de la regla de decisión.

La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la mitad de 0.05, es decir 0.025, esta en cada cola. el área en la que no se rechaza Ho esta entre las dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96.

Page 10: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar la hipótesis alternativa, si el valor Z calculado no queda en la región comprendida entre -1.96 y +1.96. En caso contrario no se rechaza la hipótesis nula si Z queda entre -1.96 y +1.96.

Paso 05: Toma de decisión.

En este ultimo paso comparamos el estadístico de prueba calculado mediante el Software Minitab que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el estadístico de prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto no se confirma el supuesto del Jefe de la Biblioteca.

ESTIMACIÓN POR INTERVALOS DE CONFIANZAConceptosEn este tema vamos a estudiar como estimar, es decir pronosticar, un parámetro de la población, generalmente la media, la varianza (en consecuencia la desviación típica) y la proporción, a partir de una muestra de tamaño n. Pero a diferencia de la estimación puntual donde tal estimación la efectuábamos dando un valor concreto, en esta ocasión el planteamiento es otro. Lo que haremos es dar un intervalo donde afirmaremos o pronosticaremos que en su interior se encontrará el parámetro a estimar, con una probabilidad de acertar previamente fijada y que trataremos que sea la mayor posible, es decir próxima a 1.Para ello vamos a establecer la notación a utilizar:

Hemos dicho que vamos a proponer un intervalo donde se encontrará el parámetro a estimar, con una probabilidad de acierto alta. Al valor de esta probabilidad la representaremos por 1-α, y la llamaremos nivel de confianza. A mayor valor de 1- α, más probabilidad de acierto en nuestra estimación, por tanto eso implica que α tendrá que ser pequeño, próximo a 0.Recordemos que 1- α representa siempre una probabilidad por lo que será un valor entre 0 y 1, si bien en la mayoría de los enunciados de los problemas suele ser enunciado en términos de tanto por ciento. Así cuando, por ejemplo, se dice que el nivel de confianza es del 90%, significa que 1- α vale 0,9 y por tanto α vale 0,1.Para interpretar bien estos conceptos veamos un ejemplo:

Page 11: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Supongamos que deseamos estimar la media de la estatura de una población mediante un intervalo de confianza al 95% de nivel de confianza, con una muestra de tamaño 50. Supongamos que tras los cálculos necesarios, el intervalo en cuestión es(a,b). Pues bien, esto quiere decir que si elegimos 100 muestras de tamaño 50 y cada vez calculamos el intervalo de confianza resultante, acertaremos en nuestro pronóstico en 95 de las 100 veces que realizaríamos la estimación con cada muestra.Un dato importante como es de esperar, es el tamaño de la muestra, que representaremos por n.Es evidente que, a igual nivel de confianza, cuanto mayor tamaño tenga la muestra, el intervalo de confianza se reducirá puesto que el valor obtenido en la muestra se acercará más al valor real de la población y por tanto el margen de error cometido (radio del intervalo) se hará más pequeño.Si el tamaño de la muestra permanece constante y variamos 1- α. el tamaño del intervalo se hará más grande cuanto más aumente 1- α, es decir que el margen de error se hará más grande cuanto más precisión exijamos.Por ejemplo, si para dar un intervalo de confianza de la media de la estatura de una población de adultos de un país, es seguro que acertaría al cien por cien si el intervalo que diese fuese (150 cm, 190 cm), pero sería una estimación absurda ya que no sabría apreciar realmente la media. Por tanto se trata de dar un intervalo lo más reducido posible.Cálculo de intervalos de confianza. Método del pivoteEl cálculo de intervalos de confianza no es un proceso fácil cuando la variable en estudio no sigue unas pautas de normalidad, por lo que nosotros vamos a suponer siempre que la variable con la que vamos a trabajar sigue una distribución normal.Dicho esto, el proceso para obtener el intervalo es dar una variable aleatoria donde intervenga el parámetro a estimar y el correspondiente de la muestra. A esta variable se le llama estadístico pivote y debe seguir una distribución de probabilidad conocida. Por ejemplo para el cálculo de un intervalo de confianza de la media se utiliza el siguiente estadístico pivote:

Pues bien, esa expresión donde interviene la media muestral, la media poblacional,la cuasi desviación típica y el tamaño muestral, sigue una distribución de probabilidad

Page 12: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

conocida que se encuentra tabulada, llamada t-Student con n-1 grados de libertad.Se trata pues de dar un intervalo (a, b) de modo queP(a g b) 1, siendo g el estadístico pivote correspondiente.Una vez establecida esa desigualdad, despejamos el parámetro poblacional que esel que queremos centrar en el intervalo.Cálculo del intervalo de confianza para la media, conocida la desviacióntípica de la población en una variable aleatoria normalSe utiliza es estadístico pivote:

Estamos pues ante la siguiente situación:

Page 13: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Veamos un ejemplo práctico:Se desea estimar la media del tiempo empleado por un nadador en una prueba olímpica, para lo cual se cronometran 10 pruebas, obteniéndose una media de 41,5 minutos. Sabiendo por otras pruebas que la desviación típica de esta variable para este nadador es de 0,3 minutos, obtener un intervalo de confianza con un 95% de confianza. ¿Cuantas pruebas habría que cronometrar para que el margen de error en la estimación de la media fuese inferior a tres segundos. (Suponemos siempre que la variable que mide el tiempo del nadador sigue una distribución normal.)Estamos en el caso de un intervalo de confianza para la media conociendo la desviación típica de la población.Del enunciado del problema se desprenden directamente los siguientes datos:X 41,5 seg. 0,3 seg. n 10 10,95Tenemos que buscar un valor zα/2, de modo que en la distribución N(0,1) deje una área de probabilidad a la derecha igual a α/2, es decir 0,025. Como la función de distribución de probabilidad de la tabla N (0,1) me da el área de probabilidad acumulada, es decir a la izquierda, tengo que ver que valor de z me deja a la izquierda0,975, que se corresponde para un valor de z=1,96.Así pues el intervalo buscado es:

También se puede expresar así: Se estima que la media es 41,5 más menos un margen de error del 18,59%. (Recordemos que el margen de error cometido en la estima es el radio del intervalo, es decir 0,1859)En cuanto a la segunda parte del problema, nos piden el tamaño de la muestra para que en las mismas condiciones el margen de error sea inferior a 3 seg, es decir 0,05 minutos (Debemos pasar todo a las mismas unidades). Que el error sea inferior al 5% es acotar el radio del intervalo de confianza con ese valor:

En consecuencia, para obtener un error inferior a 0,05 minutos, deberemos tomar una muestra de al menos 139 pruebas cronometradas.Cálculo del intervalo de confianza para la media, desconociendo la desviación típica de la población en una variable aleatoria normal

Page 14: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Se utiliza el estadístico pivote:

Estamos pues ante la siguiente situación:

Veamos un ejemplo práctico:La puntuación media de una muestra de 20 jueces de gimnasia rítmica, elegidos al azar, para una misma prueba, presentó una media de 9,8525 y una cuasi desviación típica muestral de 0,0965. Calcular un intervalo de confianza con un 95% para la nota media. (Suponemos que la variable que mide la puntuación sigue una distribución normal.)Estamos en el caso de un intervalo de confianza para la media desconociendo la desviación típica de la población.Del enunciado del problema se desprenden directamente los siguientes datos:9,8525. 0,0965. 20 1 0,95 1 X S n n

Page 15: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Tenemos que buscar un valor tα/2, de modo que en la distribución t-Student con 19 grados de libertad deje una área de probabilidad a la derecha igual a α/2, es decir 0,025.Dicho valor se corresponde con un valor de t =2,0930.

Cálculo del intervalo de confianza para la varianza de la población en una variable aleatoria normal

Veamos un ejemplo práctico:La puntuación media de una muestra de 20 jueces de gimnasia rítmica, elegidos al azar, para una misma prueba, presentó una cuasi desviación típica muestral de 0,0965.Calcular un intervalo de confianza con un 95% para la varianza. (Suponemos que la variable que mide la puntuación sigue una distribución normal.)

Page 16: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Intervalo de confianza para la proporciónQueremos estimar la proporción p de que ocurra un determinado suceso en unapoblación y tomamos una muestra de tamaño n.Consideramos la variable aleatoria X= p’/n, donde p’ es el número deobservaciónes de ese suceso en la muestra.

Page 17: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

Veamos un ejemplo práctico:En una encuesta hecha por alumnos y alumnas de un instituto a un total de 100 votantes elegidos al azar en su Municipio, se obtiene que el 55% volvería a votar al actual alcalde. Calcular un intervalo de confianza al 99% para la proporción de votantes favorables al actual alcalde.Cuales deberían ser los tamaños muestrales, manteniendo el mismo nivel de confianza, para tener la certeza que el alcalde actual será reelegido por mayoría absolutaLos datos desprendidos del enunciado del problema son :p'0,55 n 100 10,99Tenemos que buscar un valor zα/2, de modo que en la distribución N(0,1) deje una área de probabilidad a la derecha igual a α/2, es decir 0,005. Como la función de distribución de probabilidad de la tabla N (0,1) me da el área de probabilidad acumulada, es decir a la izquierda, tengo que ver que valor de z me deja a la izquierda0,995, que se corresponde para un valor de z=2,57.Así pues el intervalo buscado es:

En la segunda parte del problema, si queremos que tenga mayoría absoluta, el margen de error no puede ser inferior a 0,05. La explicación es ésta: Puesto que la mayoría absoluta la obtiene con más de 0,50 de proporción, y la proporción muestral me ha dado 0,55, y como el intervalo de confianza está centrado en 0’55, el radio de dicho intervalo, es decir el margen de confianza, no puede ser superior a 0’05, ya que si fuese0,06 por ejemplo, cabría la posibilidad de que el valor de la proporción poblacional fuese 0,55-0,06 = 0,49 con lo cual el alcalde no tendría la mayoría absoluta.Asi pues el planteamiento es hacer el margen de error menor que 0,05, es decir:

En consecuencia, el número mínimo del tamaño de la muestra para poder tener

Page 18: ¿Qué cosas importantes crees que deberías aprender para trabajar en el siglo  XXI?

certeza de que el alcalde va a tener mayoría absoluta con un 99% de confianza es 654