Download - Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Transcript
Page 1: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 26

Unidad III

Teoría Básica de Estadística Inferencial

Última revisión: 20-Octubre-2009

Page 2: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 27

III.1 Conceptos fundamentales de la inferencia

La inferencia estadística o estadística inferencial es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). La estadística inferencial, es el proceso por el cual se deducen (infieren) propiedades o características de una población a partir de una muestra significativa. Uno de los aspectos principales de la inferencia es la estimación de parámetros estadísticos. Por ejemplo, para averiguar la media, µ, de las estaturas de todos los soldados de un reemplazo, se extrae una muestra y se obtiene su media.

La inferencia siempre se realiza en términos aproximados y declarando un cierto nivel de confianza. Por ejemplo, si en una muestra de n = 500 soldados se obtiene una estatura media = 172 cm, se puede llegar a una conclusión del siguiente tipo: la estatura media, µ, de todos los soldados del reemplazo está comprendida entre 171 cm y 173 cm, y esta afirmación se realiza con un nivel de confianza de un 90%. (Esto quiere decir que se acertará en el 90% de los estudios realizados en las mismas condiciones que éste y en el 10% restante se cometerá error.)

La bondad de estas deducciones se mide en términos probabilísticos, es decir, toda inferencia se acompaña de su probabilidad de acierto.

La estadística inferencial comprende:

La Teoría de muestras. La estimación de parámetros. El Contraste de hipótesis. El Diseño experimental. La Inferencia bayesiana. Los métodos no paramétricos

III.2 Distribuciones muestrales

El estudio de determinadas características de una población se efectúa a través de diversas muestras que pueden extraerse de ella.

El muestreo puede hacerse con o sin reposición (con o sin reeemplazo, también aparece en la literatura), y la población de partida puede ser infinita o finita. Una población finita en la que se efectúa muestreo con reposición puede considerarse infinita teóricamente. También, a efectos prácticos, una población muy grande puede considerarse como infinita. En todo nuestro estudio vamos a limitarnos a una población de partida infinita o a muestreo con reposición.

Page 3: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 28

Consideremos todas las posibles muestras de tamaño n en una población. Para cada muestra podemos calcular un estadístico (media, desviación típica, proporción, etc…) que variará de una a otra. Debemos aclarar que un “estadístico” es cualquier combinación lineal de los datos muestrales. Así obtenemos una distribución del estadístico que se llama distribución muestral.

Las dos medidas fundamentales de esta distribución son la media y la desviación típica (estándar), también denominada error estándar. Hay que hacer notar que si el tamaño de la muestra es lo suficientemente grande las distribuciones muestrales son (aproximadamente) normales (para fines prácticos) y en esto se basarán todos los resultados que alcancemos.

Cada muestra de tamaño n que podemos extraer de una población proporciona una media. Si consideramos cada una de estas medias como valores de una variable aleatoria podemos estudiar su distribución que llamaremos distribución muestral Es un método de distribución que se calcula por medio de la media, desviación típica, proporción… variando de una a otra. El valor es aleatorio porque depende de los elementos elegidos en la muestra seleccionada por los cuales obtenemos una distribución de probabilidad. A partir de las muestras seleccionadas de una población pueden construirse variables aleatorias alternativas, de cuyo análisis se desprenden interesantes propiedades estadísticas. Las dos formas más comunes de estas variables corresponden a las distribuciones muestrales de las medias y de las proporciones.

III.3 Intervalos de confianza

El tema a desarrollar es intervalos de confianza y haciendo referencia a Richard I. Levin & David S. Rubin, en su libro de “Estadística para Administradores”, establecen el concepto de Intervalo de Confianza de la siguiente forma:

“Intervalo de valores que tiene designada una probabilidad que incluya el valor real del parámetro de población”

Para entender más claramente este concepto, es necesario comentar de inicio otros que al estar relacionados con el, facilitan su comprensión.

Algunos de estos conceptos a revisar son:

Estimación. Estimación de intervalo. Limites de confianza

Estimación Puntual. Nivel de confianza.

Page 4: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 29

Estimación

(Del lat. aestimatĭo, -ōnis). f. Aprecio y valor que se da y en que se tasa y considera algo. || 2. Der. La que se realiza en ciertos tributos para determinar el valor de la base imponible.

Este es el concepto que podemos encontrar en un diccionario. Pero es además un concepto que en nuestra vida diaria aplicamos de forma recurrente.

Todo el mundo hace estimaciones. Para cruzar una calle, y vemos venir un auto, estimamos la velocidad de este y la distancia que hay entre nosotros y el automóvil a fin de decidir si esperamos a cruzar o echaremos a correr para cruzar la calle.

Implícito está en este ejemplo una de las razones para hacer estimaciones como administradores, jefes o lideres de equipo: Tomar decisiones en base a un cálculo, una estimación.

Los administradores deben hacer estimaciones rápidas, el resultado de estas incide en la organización por medio de la decisión tomada a partir de la estimación. Se hacen estimaciones en:

Una universidad para determinar el nivel de inscripciones año con año.

En un buró de crédito, a fin de determinar si un cliente puede terminar de pagar su deuda en un determinado tiempo, a partir de sus hábitos de crédito previos, lo que vendría a ser el historial.

Para fijar presupuestos, con base a información del pasado.

En cada uno de estos casos se está tratando de inferir, saber algo de una población a partir de una muestra, como tomadores de decisiones, nos veremos muchas veces forzados a tomar decisiones confiando en nuestro instinto, en nuestros presentimientos, pero lo ideal cada uno en su posición, seria que estas decisiones estuvieran tomadas a partir de la disposición de información y aplicar conocimientos de estadística para desempeñarnos mejor.

Concluimos de inicio para el Concepto de Estimación que las razones para su aplicación son las siguientes:

1. Con el fin de tomar decisiones racionales.

2. Inferir algo, a partir de la información de la muestra, a partir de métodos con precisión razonable. Todo este proceso debe ser capaz de proveer de información para desempeñarnos de la mejor manera en la toma de decisiones.

Page 5: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 30

Existen dos tipos de estimación, en lo que se refiere a una población.

Estimación Puntual.

Estimación de Intervalo.

Este último concepto nos ayudara a entender el concepto objetivo de nuestra exposición que es Intervalo de Confianza.

III.3.1 La estimación

Estimación Puntual

Una estimación puntual es un solo número que se utiliza para estimar un parámetro (dato) de población desconocido.

Ejemplo: El jefe de una Universidad estaría haciendo una estimación puntual al afirmar: “Para el siguiente año escolar por nuestros datos actuales se indica que en la materia de Filosofía y letras tendremos 350 estudiantes”.

La afirmación es similar a lanzar una moneda al aire: o es cierta o es falsa, solo tiene dos opciones. Por lo tanto una estimación puntual resulta a menudo insuficiente, debido a que solo tiene dos opciones: es correcta o está equivocada. Además si se nos dice que el jefe de departamento está equivocado en su estimación, se generará la siguiente pregunta. ¿Qué tan distante esta la estimación de la real? Es decir que estimación de error posee. No es lo mismo decir que la estimación esta errada por 10 estudiantes que por 90, la diferencia lo establece un concepto: CONFIABILIDAD.

Ejemplo de Estimación Puntual: La media de la muestra es un estimador de la media de la población confiable, sobre todo cuando la muestra es lo suficientemente grande. Pero es una estimación puntual pues solo arroja un resultado.

Para explicarlo, aun cuando ya es un tema visto, haremos revisión de la formula:

𝑥 = 𝑥

𝑛

Donde: ∑x, es la sumatoria de todos los elementos de la muestra.

n, es el número de elementos.

Observemos el ejemplo de una compañía de suministros clínicos que produce jeringas hipodérmicas desechables. Cada jeringa viene en una envoltura estéril que a su vez viene empacada en grandes cajas de cartón corrugado. Debido a la forma en que empacan las jeringas en las cajas de cartón, están manejan una cantidad de contenido diferente,

Page 6: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 31

debido a que las jeringas se venden por pieza, la compañía necesita una estimación del número de pieza que hay por caja, para propósitos de facturación.

Se tomo la muestra aleatoria de 35 cajas, y se registro el número de jeringas contenido en dicha muestra:

101 103 112 102 98 97 93

105 100 97 107 93 94 97

97 100 110 106 110 103 99

93 98 106 100 112 105 100

114 97 110 102 98 112 99

Utilizando la formula, tendremos lo siguiente.

𝑥 = 𝑥

𝑛=

3570

35= 102 𝑗𝑒𝑟𝑖𝑛𝑔𝑎𝑠

Así pues al usar la media de la muestra, como nuestro estimador, la estimación puntual de la media es de 102 jeringas.

La conclusión a la que llegaríamos con el anterior ejemplo seria:

Así al usar la media de la muestra como un estimador, la estimación puntual de la jeringa hipodérmica desechable es de 102 jeringas por caja. El precio de fabricación es bastante bajo (alrededor de 25 centavos), de modo que tanto el comprador como el vendedor aceptarían esta estimación puntual como la base para hacer la facturación, y el fabricante puede ahorrarse tiempo y el gasto de contar cada una de las jeringas contenidas en las cajas.

El propósito de tomar muestras es para conocer más acerca de una población, ya sea, los estudiantes de ingreso al próximo ciclo escolar, o el total de un embarque de jeringas hipodérmicas, como en el ejemplo anterior, cuyo análisis partió de una muestra de 35 cajas.

Para hacerlo, podemos basarnos en estimaciones puntuales, como lo es la media de la muestra, o con estimaciones de intervalo, nuestro siguiente tema.

Page 7: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 32

Estimación de Intervalo.

Una estimación de intervalo, describe un intervalo de valores dentro del cual es posible que este un parámetro de población.

Dentro de sus características encontramos:

Dentro de las estimaciones de intervalo, se maneja un concepto adicional, que implica la incertidumbre que acompañara dicha estimación.

Una afirmación acerca del intervalo dentro del cual es probable que esté la media de población desconocida.

Para proporcionar dicha afirmación, se necesita encontrar el error estándar de la media.

Para explicarlo mejor nos apoyaremos en el siguiente ejemplo:

Suponga que el director de investigaciones de mercado de una fábrica de refacciones automotrices necesita hacer una estimación de la vida promedio de las baterías para automóvil que su compañía produce. Se selecciona una muestra aleatoria de 200 baterías, se registró el nombre de los propietarios de los automóviles y su dirección, de la misma manera se entrevistó a estas personas con respecto a la duración de la batería de su automóvil. Después de realizar la aplicación de la fórmula de la media de la muestra, tenemos como resultado: 36 meses de vida promedio.

𝑥 = 𝑥

𝑛

Si se utiliza la estimación puntual de la media de la muestra como el mejor estimador de la media de la población µ se informaría que la vida media de las baterías de la empresa es de 36 meses.

Pero supongamos que el director también desea conocer acerca de la incertidumbre que probablemente acompañara a la estimación, es decir una afirmación acerca del intervalo dentro de lo cual es posible que esté la media de la población desconocida. Eso se determina calculando el error estándar de la media.

Para esto se utiliza la fórmula de cálculo de error estándar de la media:

𝜎𝑥 =𝜎

𝑛

Donde: σ es la Desviación estándar.

n es el número de elementos.

Page 8: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 33

Supongamos que previamente se hizo el cálculo de la desviación estándar de las 200 baterías, y se ha determinado que es de 10 meses. Utilizando dicho dato y la fórmula que indicamos en el recuadro anterior. Resultaría así.

𝜎𝑥 =𝜎

𝑛=

10

14.14= 0.707 𝑚𝑒𝑠𝑒𝑠 𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎

Ahora se puede concluir que la estimación de la vida útil de un las baterías de la compañía es de 36 meses, y el error estándar que acompaña a dicha estimación es 0.707. En otras palabras, la vida útil real para todas las baterías puede estar en alguna parte de esta estimación de intervalo comprendida entre 35.293 y 36.707 meses.

Nos hemos acercado ya entonces al concepto inicial de la exposición, intervalo de confianza, a fin de entender Estimación de Intervalo, marcando su diferencia con Estimación Puntual.

Recordemos el concepto de Richard I. Levin & David S. Rubin, en su libro de “Estadística para Administradores”, establecen el concepto de Intervalo de Confianza de la siguiente forma:

Intervalo de valores que tiene designada una probabilidad que incluya el valor real del parámetro de población

Porque hacemos esto, para entender el concepto de Nivel de confianza de un Intervalo, esto es la probabilidad de que el verdadero parámetro de la estimación este dentro de la estimación de intervalo.

Es decir apoyándonos en el ejemplo de las 200 baterías, cuántas de estas caerían dentro del intervalo en donde se encuentra la media de la muestra, con los limites que hemos establecidos con la formula de Error estándar de la media.

Nivel de confianza

En la estadística, la probabilidad que asociamos o relacionamos con una estimación de intervalo es conocida como Nivel de Confianza (NC).

Que tanta confianza tenemos que la estimación que hicimos de un intervalo, incluya la mayor parte de la muestra, es decir los casos analizados.

Analicemos un caso práctico:

Considere por ejemplo el caso de un cliente de una tienda de electrodomésticos que pregunta sobre el tiempo de espera para la entrega de una lavadora de ropa nueva. En la tabla se aprecia las preguntas que el cliente puede hacer y las probables respuestas. Si se observa se puede ver que existe una relación directa entre el nivel de confianza y el intervalo de confianza de cualquier estimación.

Page 9: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 34

Pregunta del Cliente Respuesta del

Empleado. Nivel de

Confianza

Intervalo de Confianza Implicado

¿Llegara la lavadora en un año?

Tengo la certeza de ello. Mayor a 99% Un año.

¿Me entregaran la lavadora dentro de un

mes?

Estoy casi seguro de que llegara en un mes.

Al menos 95%

Un mes

¿Me entregaran la lavadora en una semana?

Estoy bastante seguro. Alrededor de

80% Una semana

¿Me entregaran la lavadora mañana?

No tengo la certeza de poder hacerlo.

Cerca de 40% Un día

¿Llegara la lavadora antes de que llegue a casa?

Hay una mínima posibilidad de poder

lograrlo. Cerca de 1% Una hora.

Se nota que cuando el intervalo de confianza es más amplio o extenso, como en el caso de la entrega que tarda un año, la estimación toma un valor muy poco real, a pesar de que el administrador le da un nivel de confianza de 99% a dicha estimación.

A medida que el cliente establece un intervalo más estrecho (el tiempo de entrega), el administrador de la tienda consiente un nivel de confianza más bajo, ¿llegara la lavadora antes que llegue yo a casa?, la estimación de confianza tiene un nivel muy bajo (1%).

Encontramos de esta forma el intervalo de confianza del anterior ejemplo:

N.C. Intervalo

Mayor a 99%

Un año.

Al menos 95%

Un mes

Page 10: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 35

En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada.

La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1-α. La probabilidad de equivocarnos se llama nivel de significancia y se simboliza α. Generalmente se construyen intervalos con confianza 1-α = 95% (o significancia α = 5%). Menos frecuentes son los intervalos con α = 10% o α = 1%.

III.3.2 Intervalos de confianza para la media

Para el caso de los intervalos de confianza para la media se tienen 2 casos en particular, donde se conoce la varianza y donde no se conoce este dato. Para este curso estudiaremos la situación donde se supondrá que se conoce la varianza o desviación estándar. Para construir un intervalo de confianza, se puede comprobar que la Distribución Normal Estándar cumple:

P(-1.96 < z < 1.96) = 0.95

P(-2.58< z < 2.58) = 0.99

(lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales). Los resultados son un intervalo que incluye a la μ el 95% y 99% de las veces. Es decir, es un intervalo de confianza al

95% y 99 % para la media μ cuando la variable X es normal y σ es conocido.

Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la distribución normal (por ejemplo, para un intervalo de 95% de confianza, los límites del intervalo ya no serán construidos usando el valor 1,96).

En general se tiene la siguiente fórmula para determinar este tipo de intervalo para medias poblacionales con desviación estándar conocida:

𝑿 ∓ 𝒛𝝈

𝒏

Ejemplo: Del Monte Foods Inc., distribuye duraznos en trozo en latas de 4 onzas. Para asegurarse de que cada lata contenga por lo menos la cantidad que se requiere, Del Monte establece que el proceso de llenado debe verter 4.01 onzas de duraznos y almíbar en cada lata. Así, 4.01 es la media poblacional.

Page 11: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 36

Por supuesto, no toda lata contendrá exactamente 4.01 onzas de durazno y almíbar. Algunas latas contendrán más que otras. Suponga que la desviación estándar del proceso es de 0.02 onzas. También suponga que el proceso sigue el modelo de distribución normal estándar. Suponga también que se selecciona una muestra aleatoria de 16 latas y se determina la media de la muestra. Esta es de 4.015 onzas de durazno y almíbar. Determine el intervalo con un nivel de confiabilidad de 95 % para la media poblacional.

Solución:

4.015 ∓ 1.96 ·0.02

16= 4.015 ∓ 0.0098

Por tanto, el nivel de confianza de 95% se encuentra entre 4.0052 y 4.0248. Por supuesto, en este caso la media poblacional se encuentra en este intervalo, pero no siempre será así

III.3.3 Intervalos de confianza para la varianza

Al derivar un intervalo de confianza de una distribución normal, debemos recordar que si X1,….. Xn es una muestra aleatoria de N(μ,σ2), la varianza muestral S2 es tal que:

𝑛 − 1 𝑆2

𝜎2~𝑋(𝑛−1)

2

Por lo que luego de rearreglar la ecuación, se puede generar un intervalo de confianza para las varianzas de la siguiente forma:

𝑛 − 1 𝑆2

𝑋𝛼/2(𝑛−1)2 ,

𝑛 − 1 𝑆2

𝑋1−𝛼/2(𝑛−1)2

A continuación se presenta un ejemplo ilustrativo.

Ejemplo. Se realizó un estudio donde se determinó el porcentaje de magnesio en un producto, mediante la utilización de un aparato para tal fin. Se obtuvieron 12 mediciones que a continuación se detallan.

5.1 4.8 5.2 5.3 4.7 4.8 4.9 5.1 5.2 4.9 4.8 5.3

Dado que se sabe que el porcentaje de magnesio en el producto es del 5 %, estamos interesados en la varianza de las determinaciones realizadas con el equipo. Se desea construir un intervalo con 95 % de nivel de confianza para la varianza de las mediciones. De la muestra obtenemos:

Page 12: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 37

S2 = 0.0463

n = 12

Recordemos que: 𝑆𝑥2 =

(𝑥𝑖−𝑥 )2𝑛𝑖=1

𝑛−1

De la tabla DJC, que puede descargarse de la página web de la materia, se obtiene la siguiente información:

𝑋0.0252 11 = 21.9200

𝑋0.9752 11 = 3.8158

Por lo que los límites del intervalo de confianza al 95 % son:

𝐿 =11(0.0463)

21.9200= 0.0232

𝐿 =11(0.0463)

3.8158= 0.1335

Por lo que el intervalo de confianza al 95 % para σ2 es entonces:

(0.0232, 0.1335)

Page 13: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 38

III.4 Pruebas de hipótesis

Con el fin de tomar alguna acción o decisión, en muchas ocasiones se parte de algunas premisas que son tomadas por ciertas mientras no se obtenga alguna evidencia o información que las contradiga. Por ejemplo, una persona arrestada y acusada de cometer algún delito es legalmente considerada inocente. Esto es así hasta el momento en que la evidencia presentada por la fiscalía es considerada suficientemente fuerte para concluir, sin duda razonable, que la persona es en efecto culpable de cometer dicho crimen.

Las premisas o hipótesis proveen una guía sobre qué tipo de comportamiento generalmente esperar. Se plantean las hipótesis sobre el comportamiento general del todo, de la población, y mientras lo que se observa sea consistente con la premisa, no surge razón para cuestionarla. En estadísticas es de interés establecer y comprobar hipótesis sobre aquellos parámetros poblacionales que determinan o influyen en el comportamiento de lo que observamos.

III.4.1 Las hipótesis estadísticas

Las hipótesis estadísticas se establecen entonces para tomar decisiones sobre el valor de algún parámetro poblacional que denotaremos en general por la letra griega theta θ. En la ciencia se parte de la premisa de que el experimento no resultará en lo que desea demostrar. Partirá de premisas tal como: el tratamiento no es efectivo, no hay diferencia entre dos o más tratamientos. Según los datos observados en un experimento, que necesariamente contienen variabilidad, se toma la decisión de rechazar o no la premisa de la cual se partió.

Si los datos observados llevan a la persona que investiga a rechazar la premisa de que, por ejemplo, el tratamiento no es efectivo, entonces ha demostrado que en efecto, el tratamiento es efectivo. En la ciencia social o natural las premisas o hipótesis planteadas forman parte de la metodología de estudio de algún problema. Algunos ejemplos de premisas son:

un maestro parte de la premisa de que el estudiante asiste al curso con el deseo de aprender;

un electricista debe partir de la premisa de que la conexión eléctrica que va a revisar está viva con corriente eléctrica;

la sociedad parte de la premisa de que una persona es inocente hasta tanto se pruebe lo contrario;

dependiendo del lugar donde vivamos, podemos partir de la premisa de que la persona que maneja el otro vehículo en la intersección respetará la señal de Pare o Alto;

Page 14: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 39

una investigadora parte de la premisa de que el nuevo medicamento no surtirá efecto alguno;

un sicólogo parte de la premisa de que dos grupos de individuos sometidos a tratamientos distintos no mostrarán diferencias en su comportamiento.

una persona que hace un experimento parte de la premisa de que no encontrará el resultado que desea.

Al partir de la premisa de que la conexión eléctrica está viva, el electricista tomará las debidas precauciones para preservar su vida. Este usará una prueba sencilla para determinar de forma inequívoca si en efecto la conexión está viva. Luego de hacer esta determinación podrá trabajar con seguridad en la conexión.

Sin embargo, el tomar una decisión sobre por ejemplo, la efectividad de un medicamento o sobre las diferencias de comportamiento de dos grupos, es una tarea un tanto más compleja.

Es poco común obtener evidencia inequívoca de la efectividad del medicamento o diferencias entre los grupos, puesto que la reacción o efecto no es idéntico en todos los sujetos. Esta variabilidad implica que cualquier decisión que se tome sobre la efectividad del medicamento, sobre las diferencias, o sobre la premisa, necesariamente tendrá elementos de incertidumbre.

Medidas de peso, volumen, área, concentración, tiempo y otras mostrarán variabilidad cuando el mismo objeto se somete a medidas repetidas con el mismo instrumento. Esto se debe a que las respuestas de los individuos a los tratamientos y las medidas con instrumentos contienen elementos de variación.

Primero, un individuo puede reaccionar de forma distinta en distintas ocasiones, aún ante el mismo estímulo. Segundo, aunque las reacciones pueden ser similares, los individuos no reaccionamos de forma idéntica ante un estímulo particular. Tercero, los instrumentos tienen una precisión limitada. Finalmente, los individuos u objetos que participan del estudio son sólo una muestra de la población de todos los posibles individuos que podrían potencialmente participar, lo cual añade variación debido al muestreo.

En esas ocasiones no observaremos evidencia inequívoca sobre el problema que intentamos resolver. Debemos entonces quedar satisfechos con decisiones que necesariamente contendrán una probabilidad pequeña o controlada de ser erróneas, pero que tienen una probabilidad grande de ser correctas.

Las hipótesis estadísticas son premisas sobre el parámetro θ de una población tal como la media (θ = μ), mediana, proporción (θ = p) o varianza (θ = σ2) poblacionales. La premisa de la cual se parte sobre el valor del parámetro o parámetros de la población se conoce como la hipótesis nula.

Page 15: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 40

Se le llama nula pues la misma generalmente indica, por ejemplo, que la media poblacional es cero, que no hay diferencia entre grupos en la población, o que el tratamiento no es efectivo. La hipótesis nula se denota usualmente en símbolos por H0. El cero es un recordatorio que se parte de la premisa de que el efecto es nulo o que las diferencias entre los grupos es cero.

Al hacer investigaciones es usual pensar en una hipótesis de investigación, tal como: demostrar que el medicamento es efectivo; demostrar que hay una diferencia promedio significativa en la ejecución en una prueba entre individuos que durmieron toda la noche e individuos que no durmieron, o que unas plantas tratadas con hormonas crecen en promedio más que las plantas en el grupo control. Esta hipótesis, lo que el investigador desea demostrar sobre la población, se conoce como la hipótesis alternativa y se denota por Ha.

H0: premisa de la cual se parte sobre los parámetros poblacionales. La hipótesis nula generalmente tiene la forma H0: = θ = θ0, donde θ0 es un número que denota un valor particular del parámetro. Ejemplos de hipótesis nulas son:

H0: p = 0.75

H0: μ = 3.50

H0: σ2 = 4.6

H0: px = py.

Ha: aseveración que se desea demostrar sobre los parámetros de la población. La hipótesis alternativa generalmente tiene una de las formas Ha: θ > θ0, Ha: θ < θ0 o Ha: θ ≠ θ0, dependiendo de lo que el investigador desea demostrar. Ejemplos de hipótesis alternativas son:

Ha: p > 0.5

Ha: σ2 < 6

Ha: μ ≠ μ0.

Lo que el investigador desea demostrar es parte de la hipótesis alternativa y no de la nula por varias razones. Una razón es que partir de una premisa contraria a lo que deseamos demostrar, y luego encontrar evidencia concreta que nos lleve a rechazarla es un argumento más contundente que presumir que lo que queremos demostrar es cierto, para luego encontrar evidencia que apoya nuestro reclamo.

En este último caso puede reclamarse que observamos esos resultados sencillamente porque de acuerdo con nuestra premisa, esperábamos que así fuera. Otra razón es que podemos controlar matemáticamente la probabilidad de cometer algunos tipos de error.

Page 16: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 41

Lógicamente hablando, el observar un resultado acorde con la hipótesis nula no demuestra que es cierta, solo es evidencia a favor de que es cierta.

Una persona comentó que cierto tipo de fósil no existe, puesto que si existiera, ya alguien lo hubiera encontrado. Es muy difícil demostrar que algo no existe. Los múltiples intentos fallidos de encontrarlo son acordes con la hipótesis nula de que el fósil no existe, pues no se ha encontrado. Pero para demostrar que no existe sería necesario hacer una búsqueda exhaustiva de todo el planeta; lo que es esencialmente imposible.

Por otro lado, el que una especie no haya dejado su huella fosilizada, no quiere decir que no haya existido. Seguramente hay una gran cantidad de especies de plantas y animales que existe o existió, que no dejó huella en el record histórico. Si se encontrara un solo fósil del que se busca, es suficiente para demostrar la hipótesis alternativa, que el fósil existe.

De la misma manera, es muy difícil demostrar la hipótesis nula de que una persona es inocente de algún cargo. Puede hacerse demostrando que no estaba presente durante ese periodo en la escena del crimen o demostrando que otra persona es verdaderamente culpable. Sin embargo, en la mayoría de los casos eso es imposible de hacer.

En estos casos, la evidencia que se presente a favor de la inocencia, tal como que la persona nunca había cometido un crimen, que es pacífica, que va a la iglesia y muchas otras no demuestran la hipótesis nula de que la persona es inocente de lo que se le acusa. Esta es una de las razones por las cuales a las personas no se les requiere demostrar su inocencia, y se parte de la premisa de que lo es. Es el fiscal quien tiene la obligación de demostrar la hipótesis alternativa de que la persona es culpable más allá de duda razonable.

En la lógica matemática, si una proposición denotada por p se toma como la hipótesis nula H0 y la suponemos cierta, esperamos ver resultados experimentales denotados por q, también ciertos, que apoyen esa hipótesis nula. Esto es equivalente a la aseveración p implica a q, la que se escribe p → q. Si p es cierta, la implicación p → q es cierta solo cuando la proposición q también es cierta.

En resumen, si la hipótesis nula es cierta, entonces esperamos resultados experimentales q ciertos, dentro de lo que se esperaría obtener. Esto se ve en la siguiente tabla, que define la relación p → q:

Tabla III-4-1 Tabla de veracidad para la implicación p → q

Tabla de verdad para p → q p Cierto Cierto Falso Falso q Cierto Falso Cierto Falso

p → q Cierto Falso Cierto Cierto

Page 17: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 42

Si p es cierta, para que la implicación p → q sea también cierta, la proposición q necesariamente tiene que ser cierta. Algo distinto ocurre cuando se observa resultados experimentales q’ que contradicen la hipótesis nula. Suponga que la hipótesis nula H0 es cierta (la proposición p se supone cierta), y que además la implicación p → q también se supone cierta. Esto querría decir que se debe observar q, que la proposición q debe ser cierta.

Pero si se parte de esas premisas y se hace un estudio donde se observe q’; es decir, se observa que q es falso, se observa resultados contrarios a la predicción de lo que se debiera observar, o que sería poco probable observar cuando la hipótesis nula (p) y la implicación p → q son ciertas. ¿Qué decisión se debe tomar entonces sobre p y sobre p → q?

Ese resultado observado q´ es evidencia en contra de la hipótesis nula. En este caso se ha demostrado que la implicación p → q es probablemente falsa, que en este caso, la proposición p cierta probablemente no implica que la proposición q tiene que ser también cierta. A diferencia de la matemática, la estadística necesariamente incluye elementos de incertidumbre. Por esta razón, observar q´ no es muestra inequívoca de que la implicación es falsa, sino que puede haberse obtenido ese resultado por operación del azar, cometiéndose entonces un error tipo I.

Ejemplos

1. Un grupo de consumidores desea verificar el reclamo en la etiqueta de una marca de refrescos en botella. La etiqueta indica que la botella contiene 1 litro del refresco. Los consumidores creen que en promedio, las botellas contienen menos de 1 litro.

H0: μ = 1 litro Ha: μ < 1 litro

La hipótesis nula es que la cantidad media de refresco en las botellas es (mayor) o igual a un litro, pues es el reclamo en la etiqueta y los consumidores aún no tienen evidencia para descartarla. La alternativa es que en promedio, las botellas contienen menos de 1 litro, pues el consumidor quiere proteger su dinero y no ser engañado. Ciertamente no protestará si el contenido promedio es mayor de un litro.

2. Por años, un agricultor de Jojutla ha estado usando abono orgánico para cultivar el arroz en su finca de 200 Has. Su finca produce un promedio de 620 Kg de arroz por Ha. Un comerciante le ofrece un abono químico con la promesa de que producirá más de 650 kg de arroz por Ha. Si es cierto lo que dice el comerciante, el agricultor usará el nuevo abono. Por esto decide probarlo y selecciona 30 lotes de una Ha cada uno. Las hipótesis de interés son:

H0: μ = 650 libras por Ha Ha: μ > 650 libras por Ha

Page 18: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 43

La hipótesis nula es que la cantidad media de kg de arroz por Ha producido por el nuevo abono es menor o igual a 650 kg. El agricultor parte de la premisa de que no dejará de usar el abono que ha usado por años, a menos que demuestre que el nuevo producirá un promedio de más de 650 kg, lo que debe dejarle más ganancia.

3. Se desea conocer si la proporción de empleados de gobierno que son hombres ph, es distinta a la proporción de empleados de gobierno que son mujeres pm. Se selecciona una muestra aleatoria de 1,000 empleados del gobierno y se determina el sexo de cada sujeto. Las hipótesis de interés son:

H0: ph = pm Ha: ph ≠ pm

La hipótesis nula es que la proporción de hombres es igual a la proporción de mujeres empleados en el gobierno. Como no hay evidencia en dirección alguna sobre las proporciones, se parte de la premisa de que son iguales, que no hay diferencia. Lo que desea conocer es si estas proporciones son distintas, no si una proporción particular es mayor que la otra.

En el caso de una población, es común hacer pruebas de hipótesis para parámetros tal como la media poblacional μ, la correlación poblacional ρ, o la varianza poblacional σ2. Por ejemplo, si se quiere demostrar que la media μ es mayor que un número fijo μ0, es decir, la hipótesis alternativa es Ha: μ > μ0, se parte de la hipótesis nula de que la media poblacional es menor o igual a μ0. Esta hipótesis nula, por razones matemáticas se escribe H0: μ = μ0. La siguiente tabla muestra algunos ejemplos de hipótesis nula y alternativa para algunos parámetros.

Tabla III-4-2 Ejemplos de hipótesis nula y alternativa

Page 19: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 44

III.4.2 Pruebas de hipótesis para las medias

Para este tema se procederá a la resolución de problemas mediante la siguiente metodología.

Paso 1. Se establece la hipótesis nula (H0) y la hipótesis alternativa (Ha).

H0 siempre debe de llevar el signo = en su declaración

Ha no puede llevar el signo =

Paso 2. Se selecciona un nivel de significancia.

Conocido como nivel de riesgo denotado por α, implica la probabilidad de rechazar la hipótesis nula cuando es verdadera, lo que conduce al error tipo I. Por otro lado, β implica la probabilidad de cometer error tipo II, que significa aceptar la H0 cuando es falsa.

Paso 3. Se selecciona el estadístico de prueba.

Un estadístico de prueba es un valor, determinado a partir de la información de la muestra, para determinar si se rechaza la hipótesis nula. Existen muchos estadísticos de prueba tales como z, t, F y χ2. En el caso de las pruebas de hipótesis para las medias (μ), cuando se conoce σ o el tamaño de la muestra es grande, es el estadístico z el que se calcula. Su determinación es de la siguiente forma:

𝒛 =𝝌 − 𝝁

𝝈 𝒏

Paso 4. Se formula la regla de decisión.

Una regla de decisión es una afirmación sobre las condiciones específicas en que se rechaza la hipótesis nula y aquellas en las que no se rechaza. La región o área de rechazo define la ubicación de todos esos valores que son tan grandes o tan pequeños que la probabilidad de que ocurran en una hipótesis nula verdadera es muy remota. Para ello se utiliza un valor crítico, que es el punto de división entre la región en que se rechaza la hipótesis nula y aquella en la que se acepta.

Paso 5. El quinto y último paso en la prueba de hipótesis consiste en calcular el estadístico de la prueba, comparándola con el valor crítico y tomar la decisión de rechazar o no la hipótesis nula.

En la prueba de hipótesis existen 2 tipos de problemas, de una y de 2 colas, de los cuales pondremos un ejemplo para ilustrarlos.

Page 20: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 45

Prueba de dos colas.

Ejemplo. Buroes Co. fabrica y arma escritorios para oficina. La producción semanal del modelo A123 tiene una distribución normal, con una media de 200 y una desviación estándar de 16. Hace poco, el presidente de la compañía se interesó en investigar si hubo cambio en la producción semanal de dicho modelo de escritorio, en otras palabras ¿la cantidad de escritorios del modelo A123 es diferente de la producción semanal de 200 escritorios con un nivel de significancia de 0.01?

Paso 1. Se establecen las hipótesis.

H0: μ = 200 Ha: μ ≠ 200

Paso 2. Seleccionar el nivel de significancia. Para este caso, el presidente estableció que el nivel de significancia es de 0.01, que viene siendo el α, la probabilidad de cometer el error tipo I, que es la probabilidad de rechazar una hipótesis nula verdadera.

Paso 3. Se selecciona el estadístico de prueba. Dado que se considera que estamos trabajando con una muestra grande, nuestro estadístico de prueba será z.

Paso 4. Se formula la regla de decisión.

La regla de decisión se formula al encontrar los valores críticos de z con ayuda de la Tabla ADNE. Como se trata de una prueba de dos colas, la mitad de 0.01, o 0.005, se localiza en cada cola. Por consiguiente, el área en la que no se rechaza H0, localizada entre las 2 colas, es de 0.99.

La tabla ADNE se basa en la mitad del área bajo la curva, o 0.5000. Entonces, 0.50000-0.0050 = 0.4950, por lo que 0.9450 es el área entre 1 y el valor crítico. Se localiza 0.4950 en el cuerpo de la tabla. El valor más cercano a 0.4950 es 0.4951. Enseguida se lee el valor crítico en el renglón y columna correspondientes a 0.4951. Este es de 2.58. Observemos la siguiente figura.

Page 21: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 46

Por tanto, la regla de decisión es: rechazar la hipótesis nula y aceptar la hipótesis alternativa (que indica que la media de la población no es 200) si el valor de z calculado no se encuentra entre -2.58 y +2.58. La hipótesis nula no se rechaza si z se ubica entre los valores de -2.58 y +2.58.

Paso 5. Se toma una decisión y se interpreta el resultado.

Se toma una muestra de la población (producción semanal), se calcula z, se aplica la regla de decisión y se llega a la decisión de rechazar o no H0. La cantidad de media de escritorios producidos el año pasado es de 203.5. La desviación estándar de la población es de 16 escritorios semanalmente. Al calcular el valor de z a partir de la fórmula, se obtiene:

𝒛 =𝝌 − 𝝁

𝝈 𝒏 =

203.5 − 200

16/ 50= 1.55

Como el 1.55 no cae en la región de rechazo, H0 no se rechaza. La conclusión es: la media de la población no es distinta de 200. Así, se informa al presidente que la evidencia de la muestra no indica que la tasa de producción haya cambiado.

Prueba de una cola.

En el ejemplo anterior sólo se destacó el interés por informar al presidente si ocurrió un cambio en la cantidad media de escritorios armados en la planta. No importaba si el cambio era un incremento o una disminución de la producción.

Para ilustrar la prueba de una cola, veamos otro problema. Suponga que el presidente desea saber si hubo un incremento en la cantidad de unidades armadas. ¿Puede concluir, que la producción de escritorios armados fue superior a 200?

Observe la diferencia al formular el problema. En el primer caso se deseaba conocer si había una diferencia en la cantidad media armada; en cambio, ahora se desea saber si hubo un incremento. Como se investigan diferentes cuestiones, se plantea la hipótesis de otra manera. La diferencia más importante se presenta en la hipótesis alternativa. Antes se enunció la hipótesis alternativa como “diferente de”; ahora se enuncia como “mayor que”. En símbolos:

Prueba de 2 colas Prueba de 1 cola H0: μ = 200 H0: μ ≤ 200 Ha: μ ≠ 200 Ha: μ > 200

Los valores críticos para una prueba de una cola son diferentes que los de una prueba de dos colas en el mismo nivel de significancia. En el ejemplo anterior, dividió el nivel de significancia a la mitad y colocó una mitad en la cola inferior la otra en la cola superior.

Page 22: Unidad III Teoría Básica de Estadística Inferencials242700545131086e.jimcontent.com/download/version/... · 2011. 11. 18. · La estadística inferencial, es el proceso por el

Antología de Probabilidad y Estadística II

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 47

En una prueba de una cola, toda la región de rechazo se coloca en una cola, vea la siguiente figura:

En el caso de una prueba de una cola, el valor crítico es de 2.33, que se calcula: (1) al restar 0.01 de 0.5000 y, (2) determinar el valor de z correspondiente a 0.4900