Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo...

36
Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales. Dr. Francisco Javier Tapia Moreno. Abril de 2011. Universidad de Sonora Departamento de Matemáticas 1 Tema IV Estimación con intervalos de confianza 4.1. Introducción. Actualmente, las poblaciones son generalmente demasiado grandes como para que se realice un estudio a conciencia de ellas. Debido a su tamaño es necesario seleccionar muestras, las cuales se pueden utilizar posteriormente para hacer inferencias sobre las poblaciones. Si un gerente de una tienda minorista desea saber sobre el gasto promedio de sus clientes durante el año anterior, puede hallar dificultad en calcular el promedio de los cientos o quizá miles de clientes que pasaron por la tienda. Existen por lo menos dos tipos de estimadores que se utilizan más comúnmente para este propósito: Un estimador puntual y un estimador por intervalo. Un estimador puntual usa un estadístico para estimar el parámetro en un solo valor o punto. Por ejemplo, el gerente de la tienda puede seleccionar una muestra de 250 n clientes y hallar es gasto promedio de 45 . 570 $ X , este valor sirve como una estimación puntual para la media de la población. Una estimación por intervalo especifica el rango dentro del cual está el parámetro desconocido. Por ejemplo, el gerente de la tienda puede decidir que la media poblacional es algún valor entre $500 y $600. Frecuentemente este intervalo, va acompañado con una afirmación sobre el nivel de confianza que se da en su exactitud y recibe el nombre de intervalo de confianza. Un estimador puntual utiliza un número único o valor para localizar una estimación del parámetro. Un intervalo de confianza indica un rango dentro del cual puede encontrarse el parámetro, el nivel de confianza que el intervalo contiene del parámetro. Las estimaciones por intervalos tienen ciertas ventajas sobre las estimaciones puntuales, debido al error de muestreo, probablemente X no sea igual a . Sin embargo, no existe manera de saber qué tan grande es el error de muestreo. Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2. Propiedades deseables de un estimador. Sea X una variable aleatoria cuya función de probabilidad (o función de densidad de probabilidad si es continua) depende de unos parámetros k , , , 2 1 desconocidos k x f , , , ; 2 1

Transcript of Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo...

Page 1: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 1

Tema IV

Estimación con intervalos de confianza

4.1. Introducción.

Actualmente, las poblaciones son generalmente demasiado grandes como para que se realice un estudio a conciencia de

ellas. Debido a su tamaño es necesario seleccionar muestras, las cuales se pueden utilizar posteriormente para hacer

inferencias sobre las poblaciones. Si un gerente de una tienda minorista desea saber sobre el gasto promedio de sus

clientes durante el año anterior, puede hallar dificultad en calcular el promedio de los cientos o quizá miles de clientes

que pasaron por la tienda.

Existen por lo menos dos tipos de estimadores que se utilizan más comúnmente para este propósito: Un estimador

puntual y un estimador por intervalo. Un estimador puntual usa un estadístico para estimar el parámetro en un solo

valor o punto. Por ejemplo, el gerente de la tienda puede seleccionar una muestra de 250n clientes y hallar es gasto

promedio de 45.570$X , este valor sirve como una estimación puntual para la media de la población.

Una estimación por intervalo especifica el rango dentro del cual está el parámetro desconocido. Por ejemplo, el gerente

de la tienda puede decidir que la media poblacional es algún valor entre $500 y $600. Frecuentemente este intervalo, va

acompañado con una afirmación sobre el nivel de confianza que se da en su exactitud y recibe el nombre de intervalo de

confianza.

Un estimador puntual utiliza un número único o valor para localizar una estimación del parámetro. Un intervalo de

confianza indica un rango dentro del cual puede encontrarse el parámetro, el nivel de confianza que el intervalo contiene

del parámetro.

Las estimaciones por intervalos tienen ciertas ventajas sobre las estimaciones puntuales, debido al error de muestreo,

probablemente X no sea igual a . Sin embargo, no existe manera de saber qué tan grande es el error de muestreo.

Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida.

4.2. Propiedades deseables de un estimador.

Sea X una variable aleatoria cuya función de probabilidad (o función de densidad de probabilidad si es continua)

depende de unos parámetros k ,,, 21 desconocidos

kxf ,,,; 21

Page 2: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 2

Representamos mediante nXXX ,,, 21 una muestra aleatoria simple de la variable. Denotamos mediante cf a la

función de densidad conjunta de la muestra, que por estar formada por observaciones independientes, puede factorizarse

del siguiente modo:

knkkknc xfxfxfxxxf ,,,;,,,;,,,;,,,;,,, 212122112121

Se denomina estimador de un parámetro i , a cualquier variable aleatoria

i que se exprese en función de la muestra

aleatoria y que tenga por objetivo aproximar el valor de i ,

ni XXX ,,, 21 estimador de i .

Obsérvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende unívocamente

de los valores de la muestra observados (Xi = xi), la elección de la muestra es un proceso aleatorio. Una vez que la

muestra ha sido elegida, se denomina estimación el valor numérico que toma el estimador sobre esa muestra.

Intuitivamente, las características que serían deseables para esta nueva variable aleatoria (que usaremos para estimar el

parámetro desconocido) deben ser:

Consistencia. Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al

parámetro desconocido.

Decimos que

es un estimador consistente con el parámetro si:

,0||lim,0

P

n

o lo que es equivalente

,1||lim,0

P

n

Este tipo de propiedades definidas cuando el número de observaciones n, tiende a infinito, es lo que se denomina

propiedades asintóticas.

Teorema 4.2. Como consecuencia de la desigualdad de TChebychev (Capitulo 2, sección 2.10.3 ) se puede

demostrar el siguiente resultado:

Si se verifican las condiciones

E

nlim

0Varlim

n

entonces

es consistente.

Page 3: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 3

Carencia de sesgo. El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor

del parámetro.

Se dice que un estimador

de un parámetro es insesgado si:

E

La carencia de sesgo puede interpretarse del siguiente modo: Supongamos que se tiene un número indefinido de

muestras de una población, todas ellas del mismo tamaño n. Sobre cada muestra el estimador nos ofrece una estimación

concreta del parámetro que buscamos. Pues bien, el estimador es insesgado, si sobre dicha cantidad indefinida de

estimaciones, el valor medio obtenido en las estimaciones es (el valor que se desea conocer).

Eficiencia. El estimador, al ser variable aleatoria, no puede exigírsele que para una muestra cualquiera se

obtenga como estimación el valor exacto del parámetro. Sin embargo, podemos pedirle que su dispersión con

respecto al valor central (varianza) sea tan pequeña como sea posible.

Dados dos estimadores insesgados

1 y

2 de un mismo parámetro

, diremos que

1 es más eficiente que

2 si

21 VarVar

Suficiencia. El estimador debe aprovechar toda la información existente en la muestra.

Diremos que nXX ,,1

es un estimador suficiente del parámetro si

axXxXxXP |111111 ,,, no depende de .

para todo posible valor de .

Esta definición así enunciada, tal vez resulte un poco oscura, pero lo que expresa es que un estimador es suficiente, si

agota toda la información existente en la muestra que sirva para estimar el parámetro.

Teorema 4.3. [Criterio de factorización de Fisher--Neyman] Sea ;,,1 nXXf la distribución conjunta

para las muestras de tamaño n, nXX ,,1 . Entonces

sí sóloy sí suficiente estimadosun es ,,1 nXX

;,,,,;,, 111 nnn XXrxxhXXf

Page 4: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 4

siendo h una función no negativa que no depende de y r una función que sólo depende del parámetro y de la muestra a

través del estimador.

A continuación vamos a enunciar de modo más preciso y estudiar cada una de esas características.

4.3. Estimadores de máxima verosimilitud.

Sea X una variable aleatoria con función de probabilidad ;xf . Las muestras aleatorias simples de tamaño n,

nXXX ,,, 21 tienen por distribución de probabilidad conjunta

;;;;,,;,, 2111 nnnc xfxfxfxxfxxf

Esta función que depende de n+1 cantidades podemos considerarla de dos maneras:

Fijando , es una función de las n cantidades xi. Esto es la función de probabilidad o densidad.

Fijados los xi como consecuencia de los resultados de elegir una muestra mediante un experimento aleatorio, es

únicamente función de . A esta función de la denominamos función de verosimilitud.

En este punto, podemos plantearnos el hecho de que, dado una muestra sobre la que se ha observado los valores xi, una

posible estimación del parámetro es aquella que maximiza la función de verosimilitud. ( figura 4.1)

;,,, tudVerosimili fijados ,, 211 nn xxxfVxx

Figura 4.1: Función de verosimilitud.

La función de verosimilitud se obtiene a partir de la función de densidad, intercambiando los papeles entre parámetro y

estimador. En una función de verosimilitud consideramos que las observaciones x1, ..., xn,están fijadas, y se representa la

Page 5: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 5

gráfica con el valor de los valores que tomaría la función de densidad para todos los posibles valores del parámetro .

El estimador máximo verosímil del parámetro buscado,

, es aquél que maximiza su función de verosimilitud V

Como es lo mismo maximizar una función que su logaritmo (al ser este una función estrictamente creciente), este

máximo puede calcularse derivando con respecto a la función de verosimilitud ( bien su logaritmo) y tomando como

estimador máximo verosímil al que haga la derivada nula:

0log

V

De modo más preciso, se define el estimador máximo verosímil como la variable aleatoria

;,,,max 21 nR

XXXf

Los estimadores de máxima verosimilitud tienen ciertas propiedades en general que a continuación enunciamos:

1. Son consistentes;

2. Son invariantes frente a transformaciones biunívocas, es decir, si

es el estimador máximo verosímil de

y g es una función biunívoca de , entonces

g es el estimador máximo verosímil de g .

3. Si

es un es un estimador suficiente de , su estimador máximo verosímil,

es función de la muestra a

través de

;

4. Son asintóticamente normales;

5. Son asintóticamente eficientes, es decir, entre todos los estimadores consistentes de un parámetro , los de

máxima verosimilitud son los de varianza mínima.

6. No siempre son insesgados.

4.4. Algunos estimadores fundamentales.

En esta sección, vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las aplicaciones

resultan fundamentales: estimadores de la esperanza matemática y varianza de una distribución de probabilidad.

4.4.1 Estimador de la esperanza matemática.

Consideremos las muestras de tamaño n, nXXX ,,, 21 , de un carácter sobre una población que viene expresado a

través de una variable aleatoria X que posee momentos de primer y segundo orden, es decir, existen XXE Vary :

221Var

,,,

i

i

nX

XEXXX

Page 6: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 6

El estimador media muestral que denotaremos normalmente como X (en lugar de

) es

nXXXn

X 21

1

verifica que: XE y n

2

XVar

Por tanto es un estimador insesgado. Si además sabemos que X se distribuye según una ley gaussiana, es sencillo

comprobar que coincide con el estimador de máxima verosimilitud (figura 4.2):

Figura 4.2: La distribución del estimador muestral X del parámetro poblacional , tiene por valor esperado al mismo (insesgado), y su

dispersión disminuye a medida que aumenta el número de observaciones

4.4.2. Proposición 1.

nNXNX dd

i

2

, , entonces

Demostración: La función de densidad de una observación cualquiera de la muestra es:

RxxxxfNX n

d

i ;,;,,, , 2

21entonces

Por tanto la distribución conjunta de la muestra es

222

21

221 ,;,;,;,;,,, nn xfxfxfxxxf

xf

xf

xf

xf

xf

X xf

Page 7: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 7

Para unos valores nxxx ,,, 21 fijados, la función de verosimilitud es

n

i

i

n

n

xn

xxxn

xxx

n

e

eee

eee

xxfxfV

1

21

21

2

21

2

21

2

21

2

21

2

21

2

21

2

21

22

2

2

1

2

2

1

2

1

2

1

2

1

2

1

2

1

2

1

,,;,;,;,

(en principio escribimos también el otro parámetro desconocido, 2 , aunque no nos interesamos en su estimación por el

momento). La expresión de la función de verosimilitud es algo engorrosa. Por ello es preferible trabajar con su

logaritmo:

El máximo de la función de verosimilitud se alcanza donde lo hace su logaritmo (monotonía), por tanto derivando con

respecto a e igualando a cero se llega a :

Es decir, el estimador máximo verosímil de la media poblacional, , coincide con la media muestral

como se deseaba demostrar (ver figura 4.3.)

*

Page 8: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 8

Figura 4.3: El estimador de máxima verosimilitud de para una variable gaussiana es la media muestral.

4.5. Estimador de la varianza.

A la hora de elegir un estimador de XVar2 , podemos comenzar con el estimador más natural:

n

i

i XXn

S

1

22 1

Se puede comprobar que cuando el carácter que se estudia sobre la población es gaussiano, en realidad este es el

estimador máximo verosímil para la varianza. Sin embargo, se comprueba también su falta de sesgo, lo que hace mas

adecuado que se utilice como estimador de la varianza al siguiente concepto: cuasi varianza muestral.

4.5.1. Proposición 2.

2

2 , entonces

SNX i

Demostración: Recuperamos el logaritmo de la función de verosimilitud escrita en la relación (*) de la sección 4.4.2,

donde en esta ocasión el primer parámetro ya fue obtenido por el método de máxima verosimilitud (y vimos que era la

media muestral) y tratamos de maximizarla con respecto al segundo parámetro:

Page 9: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 9

Derivando con respecto a 2

e igualando a 0 se obtiene el estimador máximo verosímil:

Despejando de esta ecuación se obtiene que el estimador máximo verosímil coincide con la varianza muestral,

4.5.2. Proposición 3.

El valor esperado del estimador

n

i

i XXn

S

1

22 1

no es 2 , y por tanto el estimador máximo verosímil para la varianza no es insesgado. Más aún,

Demostración: Comenzamos escribiendo

Por otro lado

Luego

Page 10: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 10

Ejemplo 4.7. Consideremos una variable aleatoria de la que sólo conocemos que su ley de distribución es gaussiana,

o.desconocid,

o,desconocid,,

2

2

12

NX

Para muestras aleatorias de tamaño n =5,

254321 ,,,,, NXXXXX

un posible estimador del parámetro es

5,

5

1,,,,

2

54321543211

NXXXXXXXXXXX

Si al realizar un muestreo aleatorio simple obtenemos

2.2 1 2, 0, 5, 3,ˆ esˆ utilizando de estimación la

1

2

0

5

3

11

5

4

3

2

1

x

X

X

X

X

X

Hemos dicho que el estimador sirve para aproximar el valor de un parámetro desconocido, pero si el parámetro es

desconocido ¿cómo podemos decir que un estimador dado sirve para aproximarlo? Así pues, es necesario que definamos

en qué sentido un estimador es bueno para cierto parámetro.

Ejercicio 4.1. Se ha medido el volumen de ventas de un cierta tienda de abarrotes durante 10 días. Los montos están

expresados en miles de pesos y son las siguientes:

0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.

¿A cuánto equivalen las ventas medias diarias, suponiendo que la muestra ha sido obtenida por muestreo aleatorio

simple sobre una población normal?

4.6. Estimación de intervalos de confianza.

La estimación confidencial consiste en determinar un posible rango de valores o intervalo, en los que pueda precisarse -

-con una determinada probabilidad-- que el valor de un parámetro se encuentra dentro de esos límites. Este parámetro

Page 11: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 11

será habitualmente una proporción en el caso de variables dicotómicas, y la media o varianza para distribuciones

gaussianas

La técnica de la estimación confidencial consiste en asociar a cada muestra un intervalo que se sospecha debe

contener al parámetro. A éste se le denomina intervalo de confianza

Evidentemente esta técnica no tiene porqué dar siempre un resultado correcto. A la probabilidad de que hayamos

acertado al decir que el parámetro estaba contenido en dicho intervalo se la denomina nivel de confianza. También se

denomina nivel de significación a la probabilidad de equivocarnos.

4.6.1 Intervalos de confianza para la distribución normal.

Dada una variable aleatoria de distribución gaussiana, 2,NX d , nos interesamos en primer lugar, en

calcular intervalos de confianza para sus dos parámetros, y 2 .

4.6.1.1. Intervalos de confianza para la media si se conoce la varianza.

Este no es un caso práctico (no se puede conocer 2 sin conocer previamente ), pero sirve para introducirnos en el

problema de la estimación confidencial de la media;

Este caso que planteamos es más a nivel teórico que práctico: difícilmente vamos a poder conocer con exactitud 2 mientras que es desconocido. Sin embargo nos aproxima del modo más simple a la estimación confidencial de

medias.

Para estimar , el estadístico que mejor nos va a ayudar es , del que conocemos su ley de distribución:

odesconocidparámetroun

es donde

2

,

nNX d

Esa ley de distribución depende de (desconocida). Lo más conveniente es hacer que la ley de distribución no dependa

de ningún parámetro desconocido, para ello tipificamos:

conocidas cosas

estimador

odesconocid parámetro

n

XZ

tabulada

1,0Nd

Page 12: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 12

Este es el modo en que haremos siempre la estimación puntual: buscaremos una relación en la que intervengan el

parámetro desconocido junto con su estimador y de modo que estos se distribuyan según una ley de probabilidad que es

bien conocida y a ser posible tabulada.

De este modo, fijado 1,0 , consideramos la variable aleatoria 1,0NZ y tomamos un intervalo que contenga

una masa de probabilidad de 1 . Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es

tomarlo simétrico con respecto a la media (que toma el valor de 0), ya que allí es donde se acumula más masa (véase la

figura 4.4). Así las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de

la masa de probabilidad, .

Figura 4.4. La distribución 1,0N

Si la distribución es 1,0N y el intervalo más pequeño posible cuya probabilidad es 1 , por simetría, los cuantiles

2/z y 2/1 z sólo difieren en el signo

Vamos a precisar cómo calcular el intervalo de confianza:

Sea 2/z el percentil

2100

de Z, es decir, aquel valor de R que deja por debajo de la cantidad

2

de la

masa de probabilidad de Z, es decir:

Sea 2/1 z el percentil

21100

, es decir,

Es útil considerar en este punto la simetría de la distribución normal, y observar que los percentiles anteriores son los

mismos aunque con el signo cambiado:

Región de confianza

Page 13: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 13

El intervalo alrededor del origen que contiene la mayor parte de la masa ( 1 ) es el intervalo siguiente (Figura 4.4).

lo que habitualmente escribiremos como:

De este modo, podemos afirmar que existe una probabilidad de 1 , de que al extraer una muestra aleatoria de la

variable en estudio, ésta ocurra:

De este modo un intervalo de confianza al nivel 1 para la esperanza de una normal de varianza conocida es el

comprendido entre los valores

La forma habitual de escribir este intervalo está inspirada en la Figura 4.5.

nzX

2/1

Page 14: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 14

Figura 4.5. Intervalo de confianza para la media.

Cuánto debe sumarse o restarse, depende en parte del nivel de confianza deseado, estipulado por el valor de Z. Un nivel

de confianza del 95% requiere un valor de Z de 1.96.

Consideremos el caso de un promotor inmobiliario quien intenta construir un centro comercial. Puede estimar en el área

el ingreso mensual promedio por familia como indicador de las ventas esperadas. Una muestra de 100n familias da

una media de 500,4$X . Se asume que la desviación estándar poblacional es 720$ . Se estima un intervalo

del 95% como

nzX

2/1

100

72096.1500,4

Así,

12.641,488.4358

4.6.1.2. Intervalos de confianza para la media (caso general). Aquí se trata el caso más común con verdadero interés práctico. Por ejemplo sirve para estimar intervalos que contenga

la media del ingreso per cápita en una población, el ahorro promedio, el consumo promedio mensual, etc, cuando

disponemos de una muestra de la variable.

Como hemos mencionado, los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una

población quizás podamos conocer si se distribuye normalmente, pero el valor exacto de los parámetros y 2 no son

conocidos. De ahí nuestro interés en buscar intervalos de confianza para ellos. El problema que tenemos en este caso es

más complicado que el de la sección anterior, pues no es tan sencillo eliminar los dos parámetros a la vez. Para ello nos

vamos a ayudar de lo siguiente:

1,0N

n

XZ

Page 15: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 15

Por el teorema de Cochran (Capítulo 3 sección 3.13.9) sabemos por otro lado que:

21

12

2

21

n

n

i

in

XX

y que además estas dos últimas distribuciones son independientes. A partir de estas relaciones se puede construir una

distribución t de Student con n-1 grados de libertad ( ver figura 4.6.)

Figura 4.6. La distribución de t de Student

La distribución nt es algo diferente a 1,0N cuando n es pequeño, pero conforme éste aumenta, ambas distribuciones

se aproximan.

Simplificando la expresión anterior tenemos:

Page 16: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 16

Dado el nivel de significación 1 buscamos en una tabla de la distribución t con 1n grados de libertad, el

percentil

21100

, 2/,1 nt , el cual deja a su izquierda 2/ de la masa de probabilidad ( ver figura 4.7). Por

simetría de la distribución de Student se tiene que 2/1,12/,1 nn tt , luego

Figura 4.7. La distribución de Student.

La distribución de Student tiene las mismas propiedades de simetría que la normal tipificada.

El intervalo de confianza se obtiene a partir del siguiente cálculo:

nStX

tnS

XtT

n

nnn

2/1,1

2/1,12/1,11

entonces

que implica

Es decir, el intervalo de confianza al nivel 1 para la esperanza de una distribución gaussiana cuando sus parámetros

son desconocidos es:

Page 17: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 17

n

StX n

ˆ 2/1,1

Figura 4.8. Intervalo de confianza para cuando 2 es desconocido (caso general).

Al igual que en el caso del cálculo del intervalo de confianza para cuando 2 es conocido, podemos en el caso

2 desconocido, utilizar la función de verosimilitud (figura 4.8) para representarlo geométricamente. En este caso se usa

la notación:

Ejemplo 4.8. Se quiere estimar un intervalo de confianza al nivel de significación 05.0 para el monto medio de

las compras realizadas por los individuos de Hermosillo en las tiendas VH. En principio sólo sabemos que la

distribución de los montos de las compras realizadas es una variable aleatoria X que sigue una distribución normal. Para

ello se tomó una muestra de n = 25 personas y se obtuvo

pesos 100

pesos 350

S

x

Solución: En primer lugar, en estadística inferencial, los estadísticos para medir la dispersión más convenientes son los

insesgados. Por ello vamos a dejar de lado la desviación típica muestral, para utilizar la cuasidesviación típica:

062.10224

25100

1100

n

nSSS

Si queremos estimar un intervalo de confianza para , es conveniente utilizar el estadístico

Page 18: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 18

1~ˆ

nt

n

S

XT

~

y tomar como intervalo de confianza aquella región en la que

2/1,1 ntT

es decir,

4124.20350

5

062.1020639.2350 ,0639.2

25

062.102

350entonces975.0,24

t

Por lo tanto, un intervalo al 95% de confianza para es 4124.20350 o dicho de forma más precisa: Con un nivel

de confianza del 95% esperamos que el intervalo 4124.20350 contenga a . (véase la figura 4.9)

Figura 4.9. Cálculo del intervalo de confianza para la media usando la distribución de Student

Podemos observar que la función de verosimilitud asociada, tiene su máximo en x , esto se debe a que esta estimación

puntual de es la máximo verosímil.

Ejercicio 4.2. La cantidad de tiempo de espera requerida para que un cliente fuera atendido en un banco local, fue en

promedio de 5.8 minutos, con una desviación típica de 10,2 minutos, en una muestra de 60 clientes. Obtenga un

intervalo de confianza para la media al 99%, suponiendo que la muestra fue extraída mediante muestreo aleatorio simple

sobre una población normal.

350 329.6 370.4

x 2/x 2/1 x

Page 19: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 19

Ejercicio 4.3. Un gerente de una empresa, se encuentra interesado en encontrar límites de confianza al 90%, para las

cantidades semanales de artículos producidos por la empresa sobre pedido. Obtenga estos límites si en 50 semanas, se

obtuvo 253,13x y 000,3S , suponiendo que el comportamiento de la variable aleatoria es normal.

4.6.1.3. Intervalo de confianza para la varianza.

Éste es otro caso de interés en las aplicaciones. El objetivo es calcular un intervalo de confianza para 2 , cuando sólo

se dispone de una muestra. Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente

propiedad de la distribución 2 :

2

1-n21

2

2

~1

nXXn

i

i

Consideremos dos cuantiles de esta distribución que nos dejen una probabilidad 1 en la ``zona central'' de la

distribución ( Figura 4.10):

Figura 4.10. Cuantiles de la distribución 2

1n .

Entonces un intervalo de confianza al nivel 1 para la varianza de una distribución gaussiana (cuyos parámetros

desconocemos) lo obtenemos teniendo en cuenta que existe una probabilidad 1 de que:

Región de confianza

Page 20: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 20

2

2/,1

22

2

2/1,1

2

2

2/1,12

22

2/,1

2

2/1,1

2

1

2

2/,1

ˆ1ˆ1

ˆ1

nn

nnnnn

SnSn

Sn

Por tanto el intervalo que buscamos es

2

2/,1

2

2

2/1,1

2 ˆ1,

ˆ1

nn

SnSn.

En este intervalo de confianza al nivel 1 se espera que se encuentre la varianza de la población 2 .

Ejemplo 4.9. En el ejemplo 4.8 se tiene que en la muestra realizada a 25n individuos, el monto medio x de las

compras realizadas por los individuos de Hermosillo en las tiendas VH y la desviación estándar son respectivamente

pesos 100

pesos 350

S

x

Calcular un intervalo de confianza con 05.0 para la varianza 2 de los montos de las compras realizadas por los

individuos en las tiendas mencionadas, suponiendo que estos montos se distribuyen normalmente.

Solución: Para estimar un intervalo de confianza para 2 (varianza poblacional) el estadístico que nos resulta útil es:

2

1-n2

22 ~

ˆ1

Sn

Entonces el intervalo de confianza que buscamos lo obtenemos mediante (ver figura 4.13)

32.382,20,12.313,6

6.39062.10224

4.12 2

075.0;242

2

2

025.0;24

2

1,1

22

2/,1 2

nn

Por tanto, un intervalo aproximado para el valor poblacional de la desviación típica es:

77.14246.79

con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales 100S y 062.102S calculados

sobre la muestra.

Ejercicio 4.4. Un fabricante de ropa, desea realizar una estimación confidencial de la varianza de la estatura de los

niños varones de 10 años de Hermosillo con una confianza del 95%. Suponiendo que las estaturas de los niños se

distribuye de manera normal, ¿Cuál debe ser ese intervalo si se toma una muestra de 101 niños al azar, entre todos los

Page 21: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 21

que reúnen las características deseadas, y medimos sus estaturas, y se obtienen las siguientes estimaciones puntuales:

6.138x cm. y 16.292 S cm2 ?

Ejercicio 4.5. En una muestra de bolsas de carne seca, en las cuales se observó su peso en gramos, se obtuvo:

119; 123; 118; 121; 127; 117; 115; 114; 119; 120

Suponiendo la normalidad para esta distribución de pesos, determinar un intervalo al 80% de confianza para la varianza.

4.7. Cálculo del tamaño de la muestra.

A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de

muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello

antes de presentar algunos casos sencillos de cálculo del tamaño de la muestra, delimitemos estos factores.

Parámetro. Son las medidas o datos que se obtienen sobre la población.

Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los

parámetros.

Error Muestral, de estimación o estándar. Es la diferencia entre un estadístico y su parámetro correspondiente.

Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la población,

nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja

del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la

naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo (los resultados se someten a

error muestral e intervalos de confianza que varían muestra a muestra.) Varía según se calcule al principio o al

final. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la

desviación de la distribución muestral de un estadístico y su fiabilidad.

Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información

que queremos recoger está distribuida según una ley de probabilidad así, llamamos nivel de confianza a la

probabilidad de que el intervalo construido en torno a un estadístico capte el verdadero valor del parámetro.

Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el número de

entrevistas necesarias para construir un modelo reducido del universo, o de la población, será más pequeño.

Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.

4.7.1. Tamaño de muestra para estimar la media de la población.

La utilidad de estas estimaciones, consiste en decidir cuál deberá ser el tamaño necesario de una muestra, para obtener

intervalos de confianza para una media, con precisión y significación dadas de antemano. Para que esto sea posible, es

necesario poseer cierta información previa, que se obtiene a partir de las denominadas muestras piloto.

Antes de realizar un estudio de inferencia estadística sobre una variable, lo primero es decidir el número de elementos,

N, a elegir en la muestra aleatoria. Para ello consideremos que el estudio se basará en una variable de distribución

normal, y nos interesa obtener para un nivel de significación dado, una precisión (error) e.

De la sección 4.6.1.2, recordemos que un intervalo de confianza para una media en el caso general se escribe como

Page 22: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 22

e

NN

StX

dadconfiabili

2/1,1

ˆ

Si n , la distribución t de Student se aproxima a la distribución normal. Luego una manera de obtener la precisión

buscada consiste en elegir n con el siguiente criterio:

2

2

2/1 Se

zn

Donde 2S es una estimación puntual a priori de la varianza de la muestra. Para obtenerla nos podemos basar en una

cota superior conocida por nuestra experiencia previa, o simplemente, tomando una muestra piloto que sirve para dar

una idea previa de los parámetros que describen una población.

Ahora, veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreo aleatorio simple.

Para ello es necesario partir de dos supuestos: en primer lugar el nivel de confianza al que queremos trabajar; en segundo

lugar, cual es el error máximo que estamos dispuestos a admitir en nuestra estimación. Así pues los pasos a seguir son:

1. Obtener el tamaño muestral imaginando que en número de la población N :

2

2

2/

0e

zn

donde: 2/z es el valor de z correspondiente al nivel de confianza elegido, 2 es la varianza poblacional y

e es error máximo que se está dispuesto a tolerar.

2. Comprobar si se cumple que 100 nnN . Si esta condición se cumple el proceso termina aquí, y ese es el

tamaño adecuado que debemos muestrear.

Si no se cumple, pasamos a una tercera fase:

3. Obtener el tamaño de la muestra según la siguiente fórmula:

N

n

nn

0

0

1

Ejemplo 4.10. En los ejemplos 4.8 y 4.9 se ha estudiado la variable el monto de las compras realizadas por los

individuos de Hermosillo en las tiendas VH, considerando que ésta es una variable que se distribuye de manera

gaussiana. Para ello se tomó una muestra de n = 25 individuos (la cual podemos considerar piloto), que arrojó los

siguientes resultados:

Page 23: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 23

pesos

pesos

pesos

062.1021

ˆ

100

350

n

nSS

S

X

Calcular el tamaño que debe tener una muestra para obtener un intervalo de confianza para la media poblacional con un

nivel de significación 01.0 . Es decir, al 99% de confianza y con una precisión de e =5 pesos.

Solución: Observemos que sobre la muestra piloto, el error cometido al estimar el intervalo al 95% de confianza, fue

aproximadamente de 20.41 pesos, por lo que si buscamos un intervalo de confianza más preciso, el tamaño de la

muestra, n, deberá ser bastante mayor. En este caso, sólo aplicamos el paso 1.

montos 774,2

25

062.10258.2

5

062.102 22

2

22995.0

zn

Por tanto, si queremos realizar un estudio con la precisión requerida en el enunciado, se deberá tomar una muestra de

2,774 montos en ventas realizadas. Esto es una indicación de gran utilidad antes de iniciar el estudio. Una vez que el

muestreo haya sido realizado, debemos confirmar que el error para el nivel de significación dado es inferior o igual a 5

pesos, utilizando la muestra obtenida.

Ejemplo 4.11. El Instituto de la Mujer de Hermosillo, planea un estudio con el propósito de conocer el promedio de

horas semanales trabajadas por las mujeres del servicio doméstico. La muestra será extraída de una población de 10,000

mujeres que figuran en los registros locales del Instituto de la Mujer y de las cuales se conoce a través de un estudio

piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error

máximo de 0.1, ¿cuál debe ser el tamaño muestral que emplearemos?.

Buscamos en las tablas de la curva normal el valor de 2/Z que corresponde con el nivel de confianza

elegido: 96.12/ Z y seguimos los pasos siguientes:

1.

706,3

1.0

648.996.12

2

0 n

2. Se verifica que no se cumple 1 nnN , pues en este caso

730,730,13000,10;1706,3706,3000,10

3. 704,2

000,10

706,31

706,3

n

Page 24: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 24

Ejercicio 4.6. En una muestra de 25 trabajadores de una empresa sonorense, se obtuvo un salario medio mensual de

5,900 pesos y una desviación típica de 940 pesos.

a) Obtenga un intervalo al 95% de confianza, para el salario medio poblacional.

b) ¿Cuántos trabajadores habría que tomar como muestra, para estimar dicha media con una precisión de 100 pesos?

Ejercicio 4.7. Se desea estimar el volumen medio de ingresos anuales en una cadena nacional de supermercados, con

una precisión de 50 mil pesos. Ante la ausencia de cualquier información acerca de la variabilidad del volumen de

ingresos en los centros comerciales, se tomó una muestra preliminar de 5 centros, en los que se obtuvieron los siguientes

montos (en millones de pesos):

97, 80, 67, 91, 73.

Determine el tamaño mínimo de muestra, al 95%, para cumplir el objetivo anterior.

4.8. Diferencia de medias.

Se realiza el cálculo del intervalo de confianza suponiendo que ambas variables tienen la misma varianza, es decir son

homocedáticas. En la práctica se usa este cálculo, cuando ambas variables tienen parecida dispersión. Para observar en

definitiva si 2

2

2

1 se realiza primero una prueba de varianza usando el estdístico F. Consideremos el caso en que

tenemos dos poblaciones de modo que el carácter que estudiamos en ambas (X1 y X2) son variable aleatoria distribuidas

según leyes gaussianas

2

222

2

111

,N~

,N~

X

X

En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras que no tienen por que ser

necesariamente del mismo tamaño (respectivamente n1 y n2)

2

1

222112

112111

,,,

,,,

n

n

XXXX

XXXX

Podemos plantearnos a partir de las muestras el saber qué diferencias existen entre las medias de ambas poblaciones, o

por ejemplo estudiar las relación existente entre sus dispersiones respectivas. A ello vamos a dedicar los siguientes

puntos.

4.8.1. Intervalo para la diferencia de medias.

Supongamos que dos poblaciones tengan varianzas idénticas (homocedasticidad, ver figura 4.11), 2 . Es decir,

.22

21

2

Page 25: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 25

Figura 4.11. Poblaciones normales con igual varianza y medias distintas

Por razones análogas a las expuestas en el caso de una población, se tiene que

2

2n

2

1n

2

1n

2

2

1n

2

22

2

1n

2

11

2121

2

1

~

~ˆ1

~ˆ1

reprod.

nSn

Sn

Sea Z la variable aleatoria definida como

10,N~

11

21

2

2121

2

2

2

1

2

1

2121

nn

XX

nn

XXZ

El siguiente cociente se distribuye entonces como una t de Student con n1+ n2 - 2 grados de libertad

2

21

2121

2

2

21

21

21

t~11

ˆ2

1

nn

nnnn

S

XX

nn

Z

donde se ha definido a2S como la cuasivarianza muestral ponderada de

21S y 2

2S

Page 26: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 26

Si 1 es el nivel de significación con el que deseamos establecer el intervalo para la diferencia de las dos medias,

calculamos el valor 2/1,121 nnt que deja por encima de si 2/ de la masa de probabilidad de 221 nnT

Repitiendo un proceso que ya hemos realizado en ocasiones anteriores, tenemos una probabilidad de 1 de que a

extraer una muestra aleatoria simple ocurra:

21

2/1,22121

2/1,2

21

2121

2/1,22

11ˆt

t11

ˆ

tT

21

212121

nnSXX

nnS

XX

nn

nnnnnn

Luego el intervalo de confianza al nivel 1 para la diferencia de esperanzas de dos poblaciones con la misma varianza

(aunque esta sea desconocida) es:

21

2/1,221

11ˆt

21 nnSXX nn

Ejemplo 4.12. Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer. Para ello se

consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al día y otras que no) y se obtienen los

siguientes datos sobre el peso X, de sus hijos:

Kg. 8.0ˆKg. 2.3mujeres,27fumadoras Madres

Kg. 5.0ˆKg. 6.3mujeres,35fumadoras no Madres

222

111

Sxn

Sxn

En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones normales de medias desconocidas, y

con varianzas que si bien son desconocidas, podemos suponer que son las mismas. Calcular en cuánto influye el que la

madre sea fumadora en el peso de su hijo.

Solución: Si X1 es la variable aleatoria que describe el peso de un niño que nace de madre no fumadora, y X2 el de un

hijo de madre fumadora, se tiene por hipótesis que

,N~X

,N~X ,,,

2

22

2

112

21 que tales

Page 27: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 27

Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo, podemos estimar un intervalo

de confianza para 21 , lo que nos dará la diferencia de peso esperado entre un niño del primer grupo y otro del

segundo. El estadístico que se ha de aplicar para esta cuestión es:

60227352

21

2121

21t~

11ˆ

tt

nnS

XXnn

donde

419.0

60

8.0265.034

2

ˆ1ˆ1ˆ

22

21

222

2112

nn

SnSnS

por lo tanto, 6473.0ˆ S

Consideramos un nivel de significación que nos parezca aceptable, por ejemplo 05.0 , y el intervalo buscado se

obtiene a partir de: (ver la figura 4.12)

2

1658.0

|4.0|

27

1

35

16473.0

|2.36.3|975.0;602/05.01;60

2121

tt

Esto indica que 1658.024.0 lo que implica que 3316.04.0 con lo cual se puede decir que un intervalo de

confianza para el peso esperado en que supera un hijo de madre no fumadora al de otro de madre fumadora está

comprendido con un nivel de confianza del 95% entre los 0,068 Kg y los 0,731 Kg.

Figura 4.12. Región que se utiliza para calcular el intervalo de confianza.

Page 28: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 28

4.8.2. Diferencia de medias (caso general). El caso en el que se dispone de dos grupos de observaciones independientes con diferentes varianzas, la distribución de

los datos en cada grupo no puede compararse únicamente en términos de su valor medio (ver figura 4.13).

Figura 4.13. Poblaciones normales con medias iguales y diferentes varianzas.

El contraste estadístico existente requiere de alguna modificación que tenga en cuenta la variabilidad de los datos en

cada población. Obviamente, el primer problema a resolver es el de encontrar un método estadístico que nos permita

decidir si la varianza en ambos grupos es o no la misma. El F test o test de la razón de varianzas viene a resolver este

problema. Bajo la suposición de que las dos poblaciones siguen una distribución normal y tienen igual varianza se

espera que la razón de varianzas:

22

21

1

2

1

2

ˆ

ˆ

1

1

1

1

S

S

YYm

XXn

Fm

i

i

n

i

i

siga una distribución F de Fisher con parámetros (n -1) y (m-1).

Ejemplo 4.13. Consideremos los datos que se muestran en la Tabla 4.1 correspondientes a 75 individuos con sobrepeso

sometidos a dos dietas alimenticias distintas, de modo que se desea comparar el peso en Kgs. de los individuos que

iniciaron cada una de las dietas y se desea comparar la pérdida de peso en los sujetos sometidos a cada una de las dos

dietas.

TABLA 4.1. DATOS EN KGS. DE 75 PACIENTES CON SOBREPESO SOMETIDOS A DOS DIETAS ALIMENTICIAS.

Dieta Peso inicial Peso final Dieta Peso inicial Peso final Dieta Peso inicial Peso final Dieta Peso inicial Peso final

A 94,07 86,59 B 88,02 84,12 A 89,41 85,45 B 85,26 81,36

A 96,79 93,08 B 88,22 86,13 A 85,31 84,59 B 89,42 86,64

A 92,15 87,85 B 103,45 101,21 A 89,25 84,89 B 92,42 88,99

A 92,30 86,83 B 82,94 79,08 A 93,20 93,10 B 93,13 89,73

Page 29: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 29

A 96,50 92,70 B 89,71 86,19 A 89,17 86,87 B 80,86 77,81

A 83,11 76,80 B 94,83 91,93 A 93,51 86,36 B 88,75 85,93

Dieta Peso inicial Peso final Dieta Peso inicial Peso final Dieta Peso inicial Peso final Dieta Peso inicial Peso final

A 91,16 83,40 B 81,93 78,97 A 88,85 83,24 B 95,02 91,90

A 90,81 86,74 B 83,41 78,89 A 88,40 81,20 B 92,29 91,28

A 81,37 77,67 B 73,59 69,76 A 82,45 77,18 B 89,43 87,22

A 89,81 85,70 B 108,47 104,20 A 96,47 88,61 B 93,32 89,77

A 84,92 79,96 B 72,67 70,01 A 99,48 94,67 B 92,88 89,38

A 84,43 79,80 B 96,84 93,66 A 99,95 93,87 B 89,88 88,00

A 86,33 81,15 B 88,48 87,00 A 100,05 94,15 B 82,25 80,81

A 87,60 81,92 B 89,57 87,24 A 87,33 82,17 B 88,99 86,87

A 81,08 76,32 B 85,22 82,09 A 87,61 86,01 B 82,07 79,74

A 92,07 90,20 B 103,76 102,24 A 89,28 83,78

A 81,14 73,34 B 87,84 84,66 A 89,72 83,56

A 96,87 93,58 B 91,50 88,95 A 95,57 89,58

A 99,59 92,36 B 93,04 88,73 A 97,71 91,35

A 83,90 77,23 B 92,14 88,07 A 98,73 97,82

Solución. Las medias para cada una de las dietas A y B son respectivamente:

Kg.47.891

y.Kg69.901

11

m

i

i

n

i

i Ym

YXn

X

y las cuasivarianzas muestrales correspondientes son:

43.541

1ˆy14.32

1

1

222

1

221

m

i

i

n

i

i YYm

SXXn

S

La aplicación del método del problema 4.12 no es factible, ya que las varianzas en ambos grupos son sustancialmente

distintas. En este tipo de situaciones, donde las varianzas no se pueden considerar idénticas, podemos utilizar una

modificación del t test para el caso de varianzas desiguales, conocido como el test de Welch basada en el estadístico:

m

S

n

S

YXt YX

2

2

2

1ˆˆ

el cual sigue una distribución t de Student con un número f de grados de libertad que dependerá de las varianzas

muestrales según la expresión:

1

1

1

ˆˆ

22

21

22

21

m

S

mn

S

n

m

S

n

S

f

Page 30: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 30

La técnica para realizar el contraste es análoga a cuando las varianzas son desconocidas e iguales. Por ejemplo, la

pérdida media de peso para los individuos en cada una de las dietas es de 89.4X y 94.2Y con las variabilidades

anteriormente expresadas. Esto conduce a un valor del estadístico de t =5.58 a relacionar con una distribución t de

Student con aproximadamente 56 grados de libertad. Ahora ya se puede calcular el correspondiente intervalo de

confianza del 95% para la diferencia de medias dado por:

m

S

n

StYX f

22

21

975.0,

ˆˆ

por lo tanto, el intervalo de confianza del 95% para la diferencia entre las medias poblacionales es

57.895.135

43.54

40

14.3258.594.289.4

con el que se puede deducir que el media poblacional de la dieta A puede superar al promedio poblacional de la dieta B

hasta por 10.52 Kg. mientras que la media poblacional de la dieta B puede superar hasta por 6.62 Kg. al promedio

poblacional de la dieta A

4.9. Intervalos de confianza para variables dicotómicas.

Cuando tenemos una variable dicotómica (o de Bernoulli) a menudo interesa saber en qué proporción de casos, p, ocurre

el éxito en la realización de un experimento. También nos puede interesar el comparar la diferencia existente entre las

proporciones en distintas poblaciones. También es de interés calcular para un nivel de significación dado, el tamaño

muestral necesario para calcular un intervalo de confianza de cuyo radio sea menor que cierta cantidad.

4.9.1. Intervalo para una proporción.

Sean )(,,1 pBerXX n . Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en definir la

suma de estas --lo que nos proporciona una Distribución binomial.

),(1 pnBinXXX n

y tomar como estimador suyo la variable aleatoria

n

Xp ˆ

Es decir, tomamos como estimación de p la proporción de éxitos obtenidos en las n pruebas, p .

La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando el tamaño de la muestra n

es grande, y p no es una cantidad muy cercana a cero o uno. ( 5np )

npqnpNXpnBinX ,, donde pq 1

Page 31: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 31

El estimador p no es más que un cambio de escala de X, por tanto

1,0~ˆ

~ˆ NZ

n

pq

pp

n

pqp,N

n

Xp

Esta expresión presenta dificultades para el cálculo, siendo más cómodo sustituirla por la siguiente aproximación:

1,0~ˆˆ

ˆNZ

n

qp

pp

Para encontrar el intervalo de confianza al nivel de significación para p se considera el intervalo que hace que la

distribución de 1,0~ NZ deje la probabilidad fuera del mismo. Es decir, se considera el intervalo cuyos extremos

son los cuantiles 2/12/ Z, Z . Así se puede afirmar con una confianza de 1 que:

n

qpzpp

z

n

qp

pp

zZzZz

z

ˆˆˆ

ˆˆ

ˆ

2/1

2/1

2/12/12/

2/1

Esto se resume en la siguiente expresión:

n

qpzp

ˆˆˆ 2/1

con una confianza de 1 (ver Figura 4.14.)

Page 32: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 32

Figura 4.14. Intervalo de confianza para una proporción.

Ejemplo 4.13 Se desea estimar la proporción de amas de casa, respecto a la preferencia de un nuevo producto de

limpieza, mediante un sondeo. Para ello se realizó un muestreo aleatorio simple con n =100 amas de casa y se obtuvo

que 35 usan el producto y 65 no lo usan, (se eliminó a las indecisas para simplificar el problema a una variable

dicotómica.) Calcule un intervalo de confianza para el verdadero resultado de la preferencia de las consumidoras, con

un nivel de significación del 5%.

Solución: Dada una persona cualquiera (i) de la población, el resultado de su voto es una variable dicotómica:

El parámetro a estimar en un intervalo de confianza con 05.0 es p, y tenemos sobre una muestra de tamaño n =100,

la siguiente estimación puntual de p:

65.0ˆ35.0100

35ˆ qp

Sabemos que

1,0~ˆ

N

n

pq

pp

En la práctica el error que se comete no es muy grande si tomamos algo más simple como

1,0~ˆˆ

ˆN

n

qp

ppZ

Page 33: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 33

Así el intervalo de confianza buscado lo calculamos como se indica en la Figura 4.15.

4435.0,2565.0

0935.035.0

96.1

100

65.035.0

|35.0||| 975.02/1

zp

zZ

Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos porcentuales, al nivel de confianza del 95%.

Figura 4.15: Región a partir de la cual se realiza una estimación confidencial para una proporción,

con una confianza del 95%.

Ejercicio 4.8. Un investigador de mercado, está interesado en estimar la proporción de compras realizadas en un cierto

centro departamental en relación, al número de clientes que visitan la tienda. Su experiencia le indica que sería

sorprendente que tal proporción supere el valor de 1/3. ¿Qué tamaño de muestra debe tomar para estimar la anterior

proporción, con una confianza del 99%, para que el valor estimado no difiera del valor real en más de 0,03?.

Ejercicio 4.9. En un determinado servicio de comida rápida, se sabe que el 22% de los clientes llevan consigo una

ración de postre. En cierto año, de 2,366 clientes, 498 llevaron postre. ¿Entran en contradicción las cifras de ese año con

el porcentaje establecido de siempre?

4.9.2. Elección del tamaño de la muestra para una proporción.

En el ejercicio 4.9, con una muestra de 100 amas de casa se realizó una estimación confidencial, con un 95% de

confianza, del porcentaje de amas de casa que usan un nuevo producto de limpieza, obteniéndose un margen de error de

9,3 puntos.

Page 34: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 34

Si pretendemos reducir el error a 1 punto, y queremos aumentar el nivel de confianza hasta el 97% ( 03.0 ), debemos

de tomar una muestra lógicamente de mayor tamaño, n. La técnica para aproximar dicha cantidad consiste en observar

que el error cometido en una estimación es de la forma:

n

qpz

ˆˆerror 2/1

donde p es una estimación puntual de p.

Por tanto un valor de n que satisfaga nuestros requerimientos con respecto al error sería:

2

22/1

errorˆˆ

zqpn

Si en un principio no tenemos una idea sobre qué valores puede tomar p, debemos considerar el peor caso posible, que

es en el que se ha de estimar el tamaño muestral cuando p =q =1/2. Así:

. de estimación tienese no cuando error4

12

22/1 p

zn

Si se tiene un antecedente de la proporción p de la población y se conoce el tamaño de la población N, entonces la

fórmula que nos permitirá determinar el tamaño muestral es la siguiente:

PPzeN

PPzNn

11

1

22/

2

22/

donde 2/z es el valor correspondiente al nivel de confianza elegido, P es la proporción de una categoría de la variable,

e es el error máximo que se está dispuesto a tolerar y N es el tamaño de la población.

Ejemplo 4.13. Continuemos el caso del ejemplo 4.9. Se desea estimar la proporción de amas de casa que usan un nuevo

producto de limpieza mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el

tamaño de muestra que se ha de tomar para obtener un intervalo del 97% de confianza, con un error del 1%

Solución: Como no se tiene una idea previa del posible resultado del estudio, hay que tomar un tamaño de muestra, n,

que se calcula mediante:

773,11

01.0

17.225.0

01.04

12

2

2

2985.0

zn

Así para tener un resultado tan fiable, el número de amas de casa a entrevistar debe ser muy elevado --lo que puede

volver excesivamente costoso el sondeo.

Page 35: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 35

Ejemplo 4.14. Suponga que se trata de estimar la proporción de mujeres que trabajan diariamente 10 horas o más, de

una población de N = 10,000 mujeres. De un estudio piloto se dedujo que P = 0.30, fijamos el nivel de confianza en 0.95

y el error máximo 0.02.

678,1

30.0130.096.102.01000,10

30.0130.096.1000,1022

2

n

Ejercicio 4.10. Sólo una parte de los clientes que realizan la compra de un curso de inglés, quedan completamente

satisfechos después de tenerlo a prueba durante un mes; Si de 64 clientes han quedado satisfechos 41 con el curso,

realice una estimación puntual y dé un intervalo de la proporción de los clientes que quedan satisfechos ¿Qué número de

clientes habrá que observar para estimar la proporción de clientes satisfechos con un error inferior a 0,05 y una

confianza del 95%?

Ejercicio 4.11. En una determinada región de Hermosillo, se tomó una muestra aleatoria de 125 hogares, de los cuales

12 contaban con dos o más televisores.

a) Estime la proporción de hogares que cuentas con dos o más televisores en dicha región de Hermosillo.

b) Si se desea estimar dicha proporción con un error máximo del 4%, para una confianza del 95%, ¿qué tamaño de

muestra se debe tomar?

Ejercicio 4.12. Se quiere estimar la preferencia de los jóvenes varones hacia determinado desodorante. ¿Cuántos

jóvenes tenemos que observar para que, con una confianza del 95%, estimar dicha preferencia con un error del 2% en los

siguientes casos:

a) Sabiendo que un sondeo previo se ha observado una preferencia del 9% de los jóvenes

b) Sin ninguna información previa.

4.9.3. Intervalo para la diferencia entre dos proporciones.

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una variable aleatoria

dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2

2

1

222112

112111

,,,

,,,

n

n

XXXX

XXXX

Entonces

22

1

22

11

1

11

,~

,~

2

1

pnBinXX

pnBinXX

n

i

i

n

i

i

Page 36: Estimación con intervalos de confianza - mat.uson.mxftapia/Notas de Clase/Notas 2012... · Por lo tanto, los intervalos se usan para explicar esta discrepancia desconocida. 4.2.

Notas de Estadística Aplicada a la Administración, Contaduría, Informática Administrativa I y Negocios y Comercio Internacionales.

Dr. Francisco Javier Tapia Moreno. Abril de 2011.

Universidad de Sonora Departamento de Matemáticas 36

Si las muestras son suficientemente grandes ocurre que

2

22

1

1121

2

2

1

121 ,ˆˆ

n

qp

n

qpppN

n

X

n

Xpp

1,0

ˆˆ d

2

22

1

11

2121 NZ

n

qp

n

qp

pppp

Esta última relación se puede aproximar por otra que simplifica bastante los cálculos:

1,0

ˆˆˆˆ

ˆˆ d

2

22

1

11

2121 NZ

n

qp

n

qp

pppp

Por el mismo razonamiento que en el caso de una población llegamos a que una aproximación para un intervalo de

confianza al nivel 1 para la diferencia de proporciones de dos poblaciones es:

2

22

1

112/121

ˆˆˆˆˆˆ

n

qp

n

qpzpp