12 Muestreo Total

111
1 11. Muestreo

Transcript of 12 Muestreo Total

Page 1: 12 Muestreo Total

1

11. Muestreo

Page 2: 12 Muestreo Total

2

INFERENCIA ESTADÍSTICA

Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras.

MMP

obtención de la muestra

conclusiones

Page 3: 12 Muestreo Total

3

Problema de estimación:

¿Por qué una encuesta de 1500 personas permite predecir bastante bien el resultado de una elección con 10 millones de votantes? ¿Cómo se consigue? ¿Cómo se mide la precisión del resultado?

Problema de test de hipótesis:

Las normas de calidad exigen que, en un lote de 5000 bombillas, a lo sumo el 3% pueden durar menos de 1000 horas. En un estudio de control de calidad de una fabrica de bombillas sería muy costoso examinar cada una. Se decide usar una muestra de 500 bombillas. Si obtenemos el 3,2% de bombillas defectuosas, ¿deberíamos declarar el lote completo defectuoso?

Page 4: 12 Muestreo Total

4

Problema de estimación:

Se busca precisar una característica totalmente desconocida de la población a partir de los datos obtenidos sobre una muestra.

Estimar el porcentaje de la población (10 millones) que votará a ZP a partir de una muestra de 1500 votantes.

O estimar la duración promedio de las bombillas del lote de 5000, a partir de una muestra de 500.

Page 5: 12 Muestreo Total

5

Problema de test de hipótesis:

Se busca comprobar alguna información sobre la población a partir de los datos obtenidos de una muestra.

ZP obtendrá más del 65% de los votos.

Menos del 3% de las bombillas del lote de 5000 duran menos de 1000 horas.

Las bombillas duran más de 1000 horas en promedio.

Page 6: 12 Muestreo Total

6

Muestra aleatoria simple con reemplazo

Supongamos una población de tamaño N donde cierta característica se distribuye como la variable aleatoria X. Una muestra aleatoria simple con reemplazo de n observaciones de la variable aleatoria X es un conjunto de variables aleatorias X1, X2, ..., Xn

independientes e idénticamente distribuidas (iid).

Cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.

Page 7: 12 Muestreo Total

7

Observa que las probabilidades de escoger cualquier elemento de la población para formar parte de la muestra son iguales (1/N) y que además las extracciones son independientes.

Se puede escoger por azar varias veces al mismo elemento. Pero si la población N es muy superior al tamaño n de la muestra esa probabilidad es despreciable. En ese caso una muestra con reposición es equivalente a una muestra sin reposición. Trabajaremos siempre con reposición.

Page 8: 12 Muestreo Total

88

Segundo elemento de la muestraSegundo elemento de la muestra

66 88 1010 1212 1414

PrimerPrimer

elemento elemento de la de la

muestramuestra

66 6,6 6,86,8 6,106,10 6,126,12 6,146,14

88 8,68,6 8,8 8,108,10 8,128,12 8,148,14

1010 10,610,6 10,810,8 10,10 10,1210,12 10,1410,14

1212 12,612,6 12, 812, 8 12,1012,10 12,12 12,1412,14

1414 14,614,6 14,8 14,8 14,1014,10 14,1214,12 14,14

Ejemplo: Sea una población compuesta por 5 unicornios con las siguientes longitudes de cuerno: 6, 8, 10, 12 y 14. Escribamos todas las muestras aleatorias con reemplazo posibles de tamaño 2. En total serán: 52 = 25.

Page 9: 12 Muestreo Total

9

En el ejemplo la variable aleatoria X de la población puede tomar los valores 6, 8, 10, 12 y 14, cada uno con probabilidad 1/5. Es decir la variable aleatoria X tiene una densidad de probabilidad discreta uniforme.

Una muestra consta de n = 2 observaciones de esa variable aleatoria X. Podemos interpretarla como una variable aleatoria bidimensional

(X1, X2), donde X1 y X2 son independientes y están idénticamente distribuidas (iid). De hecho, cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.

Page 10: 12 Muestreo Total

10

Estadísticos

Cualquier función de las variables aleatorias observadas se denomina estadístico:

Los dos estadísticos mas conocidos son

la media muestral y la varianza muestral.

La raíz cuadrada de la varianza muestral es la desviación estándar muestral.

),...,,( 21 nXXXT

2sx

s

Page 11: 12 Muestreo Total

11

Los parámetros poblacionales son fijos, no aleatorios. Por ejemplo, la media de la población anterior es: = (6 + 8 + 10 + 12 + 14) / 5 = 10.

Mientras que los estadísticos son variables aleatorias (su valor depende de la muestra seleccionada: los estadísticos calculados para distintas muestras darán, en general, resultados distintos).Por ejemplo, la media de la muestra (6, 6) es: = (6 + 6) / 2 = 6. Y la media de la muestra (6, 12) es: = (6 + 12) / 2 = 9. Etc...

x

x

Page 12: 12 Muestreo Total

12

Como estos estadísticos son variables aleatorias, podemos entonces hablar de sus distribuciones.

Si tomamos una muestra de tamaño n y calculamos la media de esta muestra obtenemos un valor determinado.

Si repetimos este mismo experimento un gran número de veces obtendremos una gran cantidad de valores distintos para .

A partir de esta “variedad” de valores distintos obtenidos para la media muestral, podemos obtener la distribución de probabilidad de la misma: la distribución de la media muestral.

x

x

Page 13: 12 Muestreo Total

1313

Medias Medias

muestrales muestrales

Segundo elemento de la muestraSegundo elemento de la muestra

66 88 1010 1212 1414

PrimerPrimer

elemento elemento de la de la

muestramuestra

66 6 77 88 99 1010

88 77 8 99 1010 1111

1010 88 99 10 1111 1212

1212 99 1010 1111 12 1313

1414 1010 1111 1212 1313 14

Calculemos para el ejemplo anterior todas las medias muestrales posibles de tamaño n=2:

ix

donde i = 1, ..., 25 es ahora el índice de las posibles muestras.

Page 14: 12 Muestreo Total

14

La distribución de medias muestrales es:

P

6 7 8 9 10 11 12 13 14

1/25

2/25

5/25

4/25

3/25

4/25

3/25

2/25

1/25

x

Page 15: 12 Muestreo Total

15

Como es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de medias muestrales:

1025

250

25

1)(

25

1

i

ixxE

Y observa que coincide con la media poblacional:

105

14121086)(

xE

¿Ocurre siempre?

x

Page 16: 12 Muestreo Total

16

)()( XEXE i

Dada una muestra de tamaño n, el valor xi (i=1,...,n) será uno de los posibles valores que puede tomar la variable aleatoria Xi. ¿Cuál es su valor esperado? Como Xi se distribuye como X:

n

i

n

ii

n

ii n

XEn

Xn

ExE111

1)(

1)

1()(

La distribución de la media muestral será:

De modo que: )(xECuando se cumple la igualdad, se dice que Cuando se cumple la igualdad, se dice que el el estimadorestimador de de es es insesgadoinsesgado..x

Page 17: 12 Muestreo Total

1717

Varianzas Varianzas

muestrales muestrales

Segundo elemento de la muestraSegundo elemento de la muestra

66 88 1010 1212 1414

PrimerPrimer

elemento elemento de la de la

muestramuestra

66 0 11 44 99 1616

88 11 0 11 44 99

1010 44 11 0 11 44

1212 99 44 11 0 11

1414 1616 99 44 11 0

Calculemos ahora para el ejemplo de los unicornios todas las varianzas muestrales posibles:

2is

2

1

22 )(2

1

jiji xxs donde i = 1, ..., 25 es el índice

de las posibles muestras.

Page 18: 12 Muestreo Total

18

Hemos obtenido de nuevo una distribución, ahora la distribución de varianzas muestrales:

P

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

5/25

8/25

2/254/25

6/25

2s

Page 19: 12 Muestreo Total

19

Como s2 es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de las varianzas muestrales:

425/10025

1)(

25

1

22 i

issE

La varianza

poblacional es:

22 )( sEObserva que ahora:

Decimos entonces que el Decimos entonces que el estimadorestimador s s2 2 de de 22 es es sesgadosesgado..

Page 20: 12 Muestreo Total

2020

Cuasivarianzas Cuasivarianzas

muestralesmuestrales Segundo elemento de la muestraSegundo elemento de la muestra

66 88 1010 1212 1414

PrimerPrimer

elemento elemento de la de la

muestramuestra

66 0 22 88 1818 3232

88 22 0 22 88 1818

1010 88 22 0 22 88

1212 1818 88 22 0 22

1414 3232 1818 88 22 0

Definamos el estimador cuasivarianza o seudovarianza muestral:Solo se distingue de la varianza muestral en dividir entre (n-1) en vez de n.

2*s

n

jj xx

ns

1

22* )(

1

1

Page 21: 12 Muestreo Total

21

Tendremos ahora que:

825/20025

1)(

25

1

2*

2*

iissE

22* )( sE

De modo que la cuasivarianza muestral es un estimador insesgado para la varianza poblacional:

Page 22: 12 Muestreo Total

22

Resumiendo: dada una población de tamaño N, tenemos como parámetros de una variable aleatoria X de nuestro interés a la media poblacional y la varianza poblacional.

N

iiN x

Nxxx

NXE

121

1)...(

1)(

Page 23: 12 Muestreo Total

23

Sea una muestra con reposición de tamaño n de la población:

La media muestral:

será un estimador insesgado de la media poblacional.

La varianza muestral:

será un estimador sesgado de la varianza poblacional.

Y la cuasivarianza muestral:

será un estimador insesgado de la varianza poblacional.

n

jj xx

ns

1

22 )(1

Page 24: 12 Muestreo Total

24

Muestreo desde una población normal

Sea X una variable aleatoria que se distribuye en una población como una normal con media y varianza 2, es decir N(, ).

Tomemos una muestra aleatoria de tamaño n de esta población normal.

¿Cuál será la varianza muestral de la distribución muestral de ?x

Page 25: 12 Muestreo Total

25

2 )()( XVarXVar i

Primero observemos que:

De modo que la varianza de la distribución de la media muestral será:

nn

xVarn

xn

VarxVar

n

i

n

ii

n

ii

2

1

22

12

1

1

)(11

)(

)()( 2 XVarabaXVar Y además suponemos independencia entre las variables Xi

Page 26: 12 Muestreo Total

26

Si la muestra aleatoria x1, x2, ..., xn se toma a

partir de una población normal con media y

varianza 2, la media muestral tendrá

distribución normal con media y varianza 2/n, N(, /n).

Vemos entonces que la distribución de la media muestral tiene una dispersión menor alrededor de la media poblacional y cuanto más grande es la muestra, menor es la varianza.

Page 27: 12 Muestreo Total

27

Distribución muestral de la media

Veremos primero el caso de que la distribución subyacente sea normal, con media y varianza

La media de la distribución muestral de medias es

La varianza de la distribución muestral de medias es

2 / n

2

La forma de la distribución muestral de la media es normal.

Nota: La desviación típica de la distribución muestral suele ser denominada: error típico de tal estadístico (v.g., “error típico de la media”, etc.)

Veamos varios ejemplos donde iremos variando el tamaño n de las muestras.

Page 28: 12 Muestreo Total

28

Distribución muestral de la media. Ejemplo 1

N10

400

300

200

100

0

Desv. típ. = 4.75

Media = 99.9

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media = 100

Varianza = 225

Desv. típica = 15

Distribución muestral de la media:

Tamaño muestral =10

Media = 100

Varianza = 225/10 =22.5

Desv.típica = 22.5 4.74

La línea (en este y sucesivos ejemplos) es una curva normal

En este y sucesivos gráficos: Número de muestras n

Page 29: 12 Muestreo Total

29

Distribución muestral de la media. Ejemplo 2

N20

500

400

300

200

100

0

Desv. típ. = 3.36

Media = 100.0

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media = 100

Desv. Típica = 15

Distribución muestral de la media:

Tamaño muestral = 20

Media = 100

Varianza = 225/20 = 11.3

Desv. típica = 3.35

Page 30: 12 Muestreo Total

30

Distribución muestral de la media. Ejemplo 3

N50

700

600

500

400

300

200

100

0

Desv. típ. = 2.12

Media = 99.95

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media = 100

Desv. Típica = 15

Distribución muestral de la media:

Tamaño muestral = 50

Media = 100

Varianza = 225/50 = 4.5

Desv. típica = 2.12

Page 31: 12 Muestreo Total

31

Distribución muestral de la media

Veamos ahora el caso en que la distribución subyacente sea arbitraria, si bien sabemos que la media es y la varianza es

La media de la distribución muestral de medias es

La varianza de la distribución muestral de medias es

2 / n

2

La forma de la distribución muestral de la media TAMBIÉN tiende a ser normal. En concreto, la distribución muestral se acercará más y más a la distribución normal (media y varianza 2/n) a medida que se aumente el tamaño de cada muestra.

Page 32: 12 Muestreo Total

32

Veamos aparecer la distribución normal a partir de una población uniforme

• Aunque una variable aleatoria no posea distribución normal, ciertos estadísticos/estimadores calculados sobre muestras elegidas al azar sí que poseen una distribución normal.

• Es decir, tengan las distribución que tengan nuestros datos, los ‘objetos’ que resumen la información de una muestra, posiblemente tengan distribución normal.

• Como ilustración mostramos una variable que presenta valores distribuidos más o menos uniformemente sobre el intervalo 150-190. Como es de esperar la media es cercana a 170. El histograma no se parece en nada a una distribución normal con la misma media y desviación típica.

Page 33: 12 Muestreo Total

33

• A continuación elegimos aleatoriamente grupos/muestras de 10 observaciones de las anteriores y calculamos el promedio.

• Para cada grupo de 10 obtenemos entonces una nueva medición, la media muestral.

• Observa que las nuevas cantidades están más o menos cerca de la media de la variable original que era 170.

• Repitamos el proceso un número elevado de veces y pintamos la distribución de la nueva variable aleatoria.

Muestra

1ª 2ª 3ª185 190 179

174 169 163

167 170 167

160 159 152

172 179 178

183 175 183

188 159 155

178 152 165

152 185 185

175 152 152

173 169 168 …

Page 34: 12 Muestreo Total

34

• La distribución de las medias muestrales sí que tiene distribución aproximadamente normal.

• La media de esta nueva variable (promedio muestral) es muy parecida a la de la variable original.

• Las observaciones de la nueva variable están menos dispersas. Además la desviación típica es aproximadamente ‘raíz de 10’ veces más pequeña. Llamamos error estándar a la desviación típica de esta nueva variable.

Page 35: 12 Muestreo Total

35

Distribuciones para muestras grandes

Cuando el tamaño de la muestra es grande, independientemente de que la variable aleatoria de nuestro interés en la población se distribuya o no como una normal, podemos derivar un número de propiedades gracias a la LEY DE LOS GRANDES NUMEROS y el TEOREMA CENTRAL DEL LIMITE.

Page 36: 12 Muestreo Total

36

Distribuciones para muestras grandes: teorema central del límite

• Dada una v.a. cualquiera, si extraemos muestras de tamaño n, y calculamos los promedios muestrales, entonces:

• Dichos promedios tienen distribución aproximadamente normal;

• La media de los promedios muestrales es la misma que la de la variable original.

• La desviación típica de los promedios disminuye en un factor “raíz de n” (error estándar).

• Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito.– Este teorema justifica la importancia de la distribución normal.

– Sea lo que sea lo que midamos, cuando se promedie sobre una muestra grande (n > 30) nos va a aparecer de manera natural la distribución normal.

Page 37: 12 Muestreo Total

37

Teorema central del límiteSea x1, x2, ..., xn una muestra aleatoria de observaciones

tomadas de la misma distribución y sea E(Xi) = y

Var(Xi) = 2.

Entonces la distribución muestral de la variable aleatoria:

converge a la normal standard N(0, 1) cuando n tiende a infinito. El TCL se cumple aún cuando la distribución desde la que se toman las observaciones no sea normal. Esto significa que si nosotros nos aseguramos que el tamaño de la muestra es grande, entonces podemos usar la variable Zn para responder preguntas acerca de la población de la cual provienen las observaciones.

n

xZn

/

)(

Page 38: 12 Muestreo Total

38

Distribución muestral de la media. Ejemplo 4

Distribución poblacional subyacente (dist. Gamma):

Media = 100

Varianza = 100

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

80 85 90 95 100 105 110 115 120

0,)(

)( 1

xexp

qxf qxp

p

q

pXE ][

2][

q

pXVar

Page 39: 12 Muestreo Total

39

Distribución muestral de la media. Ejemplo 4

DISGAMMA

500

400

300

200

100

0

Desv. típ. = 3.12

Media = 100.0

N = 3600.00

Distribución poblacional subyacente (dist. GAMMA):

Media = 100

Varianza = 100

Distribución muestral de la media:

Tamaño muestral = 10

Media = 100

Varianza = 100/10 = 10

Desv. típica = 10 3.16

Page 40: 12 Muestreo Total

40

Distribución muestral de la media. Ejemplo 5

Distribución poblacional (dist. EXPONENCIAL):

Media = 0.1 = 1/

Varianza = 0.01 = 1/2

0

2

4

6

8

10

12

0 0.1 0.2 0.3 0.4 0.5 0.6

Page 41: 12 Muestreo Total

41

Distribución muestral de la media. Ejemplo 5a

EXPON10

.244.231

.219.206

.194.181

.169.156

.144.131

.119.106

.094.081

.069.056

.044.031

400

300

200

100

0

Desv. típ. = .03

Media = .100

N = 3600.00

Distribución muestral de la media:

Tamaño muestral = 10

Media = 0.1

Varianza = 0.01/10 = 0.001

Desv. típica = 0.03

Distribución poblacional (dist. EXPONENCIAL):

Media = 0.1=1/

Varianza = 0.01 = 1/2

Observad que la dist. muestral se aproxima a la normal

Page 42: 12 Muestreo Total

42

Distribución muestral de la media. Ejemplo 5b

Distribución muestral de la media:

Tamaño muestral = 20

Media = 0.1

Varianza = 0.01/20 = 0.0005

Desv. típica = 0.022

EXPON20

500

400

300

200

100

0

Desv. típ. = .02

Media = .099

N = 3600.00

Distribución poblacional (dist. EXPONENCIAL):

Media = 0.1 = 1/

Varianza = 0.01 = 1/2

Observad que la distribución muestral se aproxima más a la normal (al elevar el tamaño muestral).

Page 43: 12 Muestreo Total

43

Algunas distribuciones usadas en inferenciaAlgunas distribuciones usadas en inferencia

Distribución Ji-Cuadrado o Chi-cuadrado o 2 de Pearson con “n” grados de libertad.Sean X1 , X2 , ... ,Xn n variables aleatorias continuas independientes tal que Xi = N (0,1) con i = 1, ..., n (i.i.d.). Definamos la variable aleatoria:

n

iniXY

1

22

0,

22

)(2

21

2

xn

eyyf n

yn

YSu densidad de probabilidadserá:

Page 44: 12 Muestreo Total

44

La función gamma es:

1.

2.

0

1 dyey y

nYE nYVar 22)21()(n

Y itt

nYE

nYVar 2

y

)( yfY

Page 45: 12 Muestreo Total

45

TABLA DE 2

2n

0.99 0.975 0.025 0.01n1

2

3

4

5

grados de libertadvalores acumulados de 2

n

orden percentílico

p

Page 46: 12 Muestreo Total

46

Distribución muestral del estadístico

Cuando las distribución de la que obtenemos la varianza muestral es normal, el estadístico anterior se distribuye según la distribución chi-cuadrado con n -1 grados de libertad.

Es fácil de demostrar

2

2*)1(

sn

Page 47: 12 Muestreo Total

47

22

2

1 como distribuye se

)1,0( como distribuye se

),( como distribuyese Si

xx

Nxx

NX

2*

11

2* s)1(

1

1s 22

nxxxxn

n

i

n

i

212 como distribuye se

)1( 2*

nsn

n

iniX

1

22

Tipificando

Page 48: 12 Muestreo Total

48

Otra distribución que aparece en inferencia es lat-Student, tn

Student era el seudónimo de W.S. Gosset, un pionero estadista que trabajó en la Cervecería Guiness de Dublín.

Sea X v.a.c. tal que X ~ N (0,1)Y v.a.c. tal que Y ~ 2

n

nY

Xtn

tn

n

ntn

tf

n

T ,

2

12

1

)(

2

12

Con función de densidad de probabilidad:

Page 49: 12 Muestreo Total

49

0tE 2

n

ntVar

Page 50: 12 Muestreo Total

50

TABLA DE LA DISTRIBUCION DE t (Student)

t.55 t.60 t.99 t.995n1

2

3

4

5

orden percentílico

grados de libertad

valores

acumulados de tp

tp

Page 51: 12 Muestreo Total

51

Distribución muestral de

Cuando la distribución de la que obtenemos las medias muestrales es normal, el estadístico anterior, se distribuye según la distribución t de Student con tn-1 grados de libertad.

Cuando la distribución de la que obtenemos las medias muestrales no es normal, el estadístico anterior, se distribuye como una normal tipificada para valores de n > 30.

Nota: comparar con el teorema central del límite.

ns

x

/

Page 52: 12 Muestreo Total

52

La distribución F de Fisher o F-Snedecor es otra distribución que aparece con frecuencia en inferencia:sea X v.a.c. tal que X ~ 2

n

Y v.a.c. tal que Y ~ 2m independientes

Definamos ),( mnF

mYnX

Z

0,)(

22

2)( 2

12

2/2/

zmnz

mn

mnmn

zfmnn

nn

Z

Page 53: 12 Muestreo Total

53

2

m

mZE

)()()(42

222

2

mmnmnm

ZV

(m,n)

Page 54: 12 Muestreo Total

54

Distribución muestral del estimador

Cuando las distribuciones de la que obtenemos las varianzas muestrales son normales:

y extraemos dos muestras de tamaño n y m respectivamente. El estadístico anterior se distribuye según la distribución F de Fisher con n - 1 grados de libertad en el numerador y m -1 grados de libertad en el denominador, Fn-1, m-1.

22*

22*

/

/

yy

xx

s

s

),(),( yyxx NyN

Page 55: 12 Muestreo Total

55

Sea un estadístico ( función de la muestra ) que utilizamos para estimar el valor de .

Observa que el estadístico:

es una función que depende de la muestra y lo llamaremos estimador. El valor concreto de es la estimación.

Hay dos tipos básicos de estimación: puntual y por intervalo de confianza.

Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra.

Estimación

),...,,(ˆ21 nXXXT

Page 56: 12 Muestreo Total

56

-Estimación puntual

Provee un solo valor, un valor concreto para la estimación.

Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.) que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.).

Por ejemplo, cuando obtenemos una media aritmética a partir de una muestra, tal valor puede ser empleado como un estimador para el valor de la media poblacional.

Algunos autores comparan los estimadores con los lanzamientos en una diana: el círculo central sería el valor real del parámetro.

Page 57: 12 Muestreo Total

57

Hablaremos de nivel de confianza 1-α cuando en el intervalo se encuentre el valor del estimador con probabilidad 1-α.

– Observa que la probabilidad de error (no contener al parámetro) es α.

– En general el tamaño del intervalo disminuye con el tamaño muestral y aumenta con 1-α.

– En todo intervalo de confianza hay una noticia buena y otra mala:• La buena: hemos usado una técnica que en % alto de casos acierta.• La mala: no sabemos si ha acertado en nuestro caso.

-Por intervalo

Determina dos valores (límites de confianza) entre los que acepta puede estar el valor del estimador.

Page 58: 12 Muestreo Total

58

Métodos de estimación puntual

Método de los momentosMétodo de máxima verosimilitudMétodo de mínimos cuadrados(Lo veremos más adelante en el tema de regresión)

Hemos visto que un estimador de la media poblacional es la media muestral y de la varianza poblacional es la cuasivarianza muestral. Pero, ¿cómo determinar un estimador cuando no se trata de la media o la varianza?Por ejemplo, supongamos una población con función densidad:

0,0)1(

)( 1

x

xxf

¿Cómo estimar el parámetro θ?

Page 59: 12 Muestreo Total

59

Método de los momentos

Si una distribución tiene k parámetros, el procedimiento consiste en calcular los primeros k momentos muestrales de la distribución y usarlos como estimadores de los correspondientes momentos poblacionales.

La media poblacional es el primer momento de la distribución alrededor del origen. La media muestral es el promedio aritmético de las observaciones muestrales x1, x2, ..., xn. El método de los momentos toma a la media muestral como una estimación de la media poblacional.

De la misma manera, la varianza de una variable aleatoria es 2 y se denomina segundo momento alrededor de la media. La cuasivarianza muestral s2

* se usa como un estimador de la varianza poblacional de la distribución.

x

Page 60: 12 Muestreo Total

60

Recordemos que el momento muestral centrado en el origen de orden r se define como:

n

i

rir x

nm

1

1

Para el ejemplo anterior, los momentos de primer orden centrados en el origen de la población y la muestra son respectivamente:

n

iin

ii

xn

xn

m

dxx

x

1

11

11

11

1

11

)1(

1

n

iix

nLuego podemos usar como estimador:

Igualando:

Page 61: 12 Muestreo Total

61

Método de máxima verosimilitud

Sea X una variable aleatoria cuya distribución de probabilidad depende del parámetro desconocido .

Sea la función de densidad de probabilidad de la población f(x, ). Se toma una muestra aleatoria x1, x2, ..., xn de observaciones independientes y se calcula la densidad conjunta de la muestra: la función de verosimilitud y se expresa como:

n

iin

nn

xf, θ,...,xL(x

, θf(x... , θ f(x, θf(x, θ,...,xL(x

11

211

,)

))))

Page 62: 12 Muestreo Total

62

MV

L

Si de una población cualquiera hemos obtenido una muestra particular, es razonable pensar que la muestra obtenida era la que mayor probabilidad tenía de ser escogida.

Valor del estimador máxima verosimilitud

Funciónmáxima verosimilitud

Page 63: 12 Muestreo Total

63

Si los valores posibles de son discretos, el procedimiento es evaluar L(x,) para cada valor posible y elegir el valor de para el cual L alcanza su máximo.

Por otro lado, si L(x,) es diferenciable se puede maximizar L sobre el rango de valores posibles de obteniéndose condiciones de primer y segundo orden.

En la práctica es más fácil maximizar el logaritmo de la función de verosimilitud. Como la función logaritmo es una transformación monótona, maximizar L(x,) es equivalente a maximizar Ln(L(x,)).

Page 64: 12 Muestreo Total

64

Ejemplo: Sea una urna con bolas rojas y blancas en proporciones desconocidas. Extraemos 10 bolas con reemplazo (n = 10) y obtenemos 3R y 7B. Llamemos p a la proporción de R en la urna.

!7!3!10

)1()1()( 73107,3

73 ppPRpppL

0!7!3!10

)103()1()( 62

pppppL

Soluciones: p = 0 p = 1 p = 3/10

Imposible porque hemos extraído 3R

Imposible porque hemos extraído 7B

Que además hace máxima la función L(p)

0)(

10/3

2

2

pp

pL

Page 65: 12 Muestreo Total

65

0,0)1(

)( 1

x

xxfVolvamos al ejemplo:

n

iin

n

in

ii

n

in

xLnnLn, θ,...,xL(xLn

xxf, θ,...,xL(x

11

1

1

11

1)1()

1,)

)

1

ˆ

01)

21

2

1

1

1

, θ,...,xL(xLn

xLn

n

xLnn

θ, θ,...,xL(xLn

n

n

ii

n

ii

n

Construimos la función máxima verosimilitud

Extraemos logaritmos a ambos lados

Derivamos e igualamos a cero para encontrar el máximo de la función

Observemos que no coincide con el estimador que nos propone el método de los momentos.

Page 66: 12 Muestreo Total

66

Propiedades deseables en los estimadores

1.Ausencia de sesgo

2.Consistencia

3.Eficiencia

4.Suficiencia

Los dos procedimientos que repasamos hace un momento (más el método de mínimos cuadrados que veremos luego) eligen a la media muestral como estimador del parámetro . Sin embargo, otras veces obtenemos estimadores distintos para el mismo parámetro, como ocurre con 2. O como hemos visto para el caso del parámetro del ejemplo.

En esos casos, ¿cuál es el mejor estimador?

Page 67: 12 Muestreo Total

67

1. Estimador insesgado. Diremos que es un estimador insesgado de si:

Vimos que la media muestral es un estimador insesgado de la media poblacional.

Vimos que la varianza muestral no es un estimador insesgado de la varianza poblacional, es sesgado.

Recuerda que construimos la cuasivarianza que sí es un estimador insesgado de la varianza poblacional.

nXXTEE ,...,ˆ1

ˆ)( Eb se llama sesgo de

Page 68: 12 Muestreo Total

68

Sea una población N(, ) y construyamos los estimadores de varianza: varianza muestral y cuasivarianza muestral.

n

jj xx

ns

1

22*2 )(

11

n

jj xx

ns

1

221 )(

1

Vimos que si la población es normal, entonces el estimador:

212 como distribuye se

)1( 2*

nsn

sesgo

nnn

En

nE

En

sEE n

222

2]

21

2

1]ˆ[

1]ˆ[

[1

][]ˆ[

21

2*2

Page 69: 12 Muestreo Total

69

Propiedades en muestras grandes

Muchos estimadores no tienen buenas propiedades para muestras pequeñas, pero cuando el tamaño muestral aumenta, muchas de las propiedades deseables pueden cumplirse. En esta situación se habla de propiedades asintóticas de los estimadores.

Como el estimador va a depender del tamaño de la muestra, vamos a expresarlo utilizando el símbolo

Por ejemplo, el sesgo puede depender del tamaño de la muestra. Si el sesgo tiende a cero cuando el tamaño de la muestra crece hasta infinito decimos que el estimador es asintóticamente insesgado.

n

Page 70: 12 Muestreo Total

70

Ausencia de sesgo asintótica

Definición: Un estimador se dice que es asintóticamente insesgado si

o equivalentemente:

n

]ˆ[lim nn

E

0]]ˆ[[lim

nn

E

Page 71: 12 Muestreo Total

71

2. Consistencia. Se dice que un estimador es consistente si se cumple que

Es decir, a medida que se incrementa el tamaño muestral, el estimador se acerca más y más al valor del parámetro. La “consistencia” es una propiedad asintótica.

Tanto la media muestral como la cuasivarianza son estimadores consistentes. La varianza muestral es un estimador consistente de la varianza poblacional, dado que a medida que el tamaño muestral se incrementa, el sesgo disminuye.

1ˆlim

nn

P

]ˆ[ nE 0]ˆ[ nVar

o 0ˆlim

nn

P

Page 72: 12 Muestreo Total

72

Ejemplo: supongamos que la población es no normal y de media desconocida. Construyamos estadísticos media muestral:

Para cada tamaño muestral n tenemos:

)( nxEn

xVar n

2

)(

Por el teorema de Chebychev:

nk

xPn

xP

kxVarkxExP

nn

n

nnn

con

1lim1

11)()(

2

2

2

La media muestral es un estimador consistente de la media poblacional.

Page 73: 12 Muestreo Total

73

3. Eficiencia. Utilizar las varianzas de los estimadores insesgados como una forma de elegir entre ellos.

Si , decimos que es un estimador insesgado eficiente o de varianza mínima para , si cualquier otro estimador insesgado de , digamos , verifica que:

ˆE

~ˆ VarVar

~

La varianza de una variable aleatoria mide la dispersión alrededor de la media. Menor varianza para una variable aleatoria significa que, en promedio, sus valores fluctúan poco alrededor de la media comparados con los valores de otra variable aleatoria con la misma media y mayor varianza. Menor varianza implica mayor precisión y entonces el estimador que tenga menor varianza es claramente más deseable porque, en promedio, está mas cerca del verdadero valor de .

Page 74: 12 Muestreo Total

74

Sean y dos estimadores insesgados del parámetro .

Si Var ( ) < Var ( ) decimos que es más eficiente que .

El cociente Var ( ) / Var ( ) se llama eficiencia relativa.

Entre todos los estimadores insesgados de , el que tenga menor varianza es el estimador insesgado de mínima varianza. Pero, ¿cómo podemos encontrarlo?

1 2

1212

21

Page 75: 12 Muestreo Total

75

2

2

2

),(ln

)('1ˆ

xf

nE

bVar

Cota de Cramér-Rao:

Sea una población con densidad de probabilidad f(x, ), entonces se cumple que:

Si un estimador tiene una varianza que coincide con la cota de Cramér-Rao se dice que es un estimador eficiente.

Si además en insesgado, se dice que es un estimador de eficiencia absoluta o completa.

Page 76: 12 Muestreo Total

76

Ejemplo: Sea una población que se distribuye normalmente con desviación típica conocida y media desconocida. Como estimador utilizaremos la media muestral. Sabemos que la distribución del estimador es también una normal con la misma media y varianza . Luego el estimador es insesgado: b() = 0. Calculemos la cota de Cramér-Rao (CCR).

2 / n

CCRxVarnxf

nE

CCR

Exf

E

xfxxf

xxf

xxf

)(;),(ln

1

11),(Ln

1),(Ln;

),(Ln

2)(

2

1Ln),(Ln;

2)(

exp2

1),(

2

2

2

222

2

22

2

2

2

2

2

2

Page 77: 12 Muestreo Total

77

Eficiencia asintóticaCuando trabajamos con estimadores consistentes el rango de valores de para el cual un estimador es más eficiente que otro disminuye a medida que n crece. En el límite cuando n tiene a infinito la distribución de todos los estimadores consistentes colapsa en el verdadero parámetro . Entonces deberíamos preferir aquel estimador que se aproxime más rápidamente (es decir, aquel cuya varianza converge más rápido a cero)

Page 78: 12 Muestreo Total

78

En términos intuitivos, un estimador consistente es asintóticamente eficiente si para muestras grandes su varianza es menor que la de cualquier otro estimador consistente.

Definición: un estimador consistente se dice que es asintóticamente eficiente si para cualquier otro estimador el

1

2

1)ˆ(

)ˆ(

1

2

Var

Varlimn

Page 79: 12 Muestreo Total

79

4. Suficiencia. Diremos que es un estimador suficiente del parámetro si dicho estimador basta por sí solo para estimar . Si el conocimiento pormenorizado de los elementos la muestra no añade ninguna información sobre .

Ejemplo: Supongamos una población binomial de la que desconocemos la proporción = p. Extraemos una muestra de tamaño n = 50.

1}{max)(;35)(

fracaso es si0

éxito es si1

2

50

11

ii

i

i

xXTxXT

x

Estimador suficiente, p aprox. 35/50.

Page 80: 12 Muestreo Total

80

Error cuadrático medio (ECM)

Consideremos dos estimadores, uno insesgado y el otro es sesgado pero con una varianza bastante menor, de modo que en promedio puede estar más cerca de la verdadera media que el estimador insesgado.

En esta situación podríamos admitir algo de sesgo con la intención de obtener una mayor precisión en la estimación (menor varianza del estimador).

Una medida que refleja este compromiso (“trade off”) entre ausencia de sesgo y varianza es el ECM.

Page 81: 12 Muestreo Total

81

El error cuadrático medio de un estimador se define como ECM ( ) = E[( - )2] . Esto es la esperanza de la desviación al cuadrado del estimador con respecto al parámetro de interés.

Si , son dos estimadores alternativos de y ECM ( ) < ECM ( ) entonces se dice que es eficiente en el sentido del ECM comparado con . Si los dos son insesgados, entonces es más eficiente.

Entre todos los posibles estimadores de , aquel que tenga el menor ECM es el llamado estimador de mínimo error cuadrático medio.

ECM = Var( ) + sesgo2.

es decir que el ECM es igual a la suma de la varianza más el sesgo al cuadrado.

21

12 1

21

Page 82: 12 Muestreo Total

82

22 ˆ)ˆ()ˆ(ˆ])ˆ[()ˆ( EEEEECM

2

0

constante

22

)ˆ()ˆ(

])ˆ([)ˆ(ˆ2])ˆ([])ˆ(ˆ[

bVar

EEEEEEE

)ˆ( 2E

2 1

)ˆ( 1 E

sesgo 2

Compromiso entre varianza ysesgo de los estimadores.

Variable aleatoria Constante

Page 83: 12 Muestreo Total

83

Ejemplos: Supongamos una población de la que conocemos la media y la varianza (= 100). Tomemos muestras n = 10. Consideremos los dos estimadores de la media siguientes:

n

ii

n

ii x

nx

nx

12

11 1

1ˆ;1ˆ

1010100

)ˆ(

)ˆ(1

)ˆ(

][1

]ˆ[2

12

11

21

11

nECM

nVar

nVar

xEn

E

n

i

i

n

i

1211000

)1()ˆ(

)1()ˆ(

)1(1

)ˆ(

1][

11

]ˆ[2

2

22

1

2

2

11

22

12

nn

ECM

nn

Varn

Var

nn

xEn

E

n

i

i

n

i

Dependiendo de la media de la población nos interesará tomar un estimador u otro.

Page 84: 12 Muestreo Total

84

Los estimadores máximo verosímiles son:

Asintóticamente insesgadosAsintóticamente normalesAsintóticamente eficientesInvariantes bajo transformaciones biunívocasSi estimador suficiente, es suficiente

MV

Propiedades de los estimadores de máxima verosimilitud

Page 85: 12 Muestreo Total

85

Estimación por intervalos de confianza.En este caso, en lugar de indicar simplemente un único valor como estimación del parámetro poblacional , lo que haremos es ofrecer un intervalo de valores en el que se tiene cierta probabilidad (confianza) de que se encuentre el verdadero valor de .

Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el parámetro. Límites de los intervalos de confianza: Son los dos valores extremos del intervalo de confianza. Amplitud del intervalo o margen de error...

ˆˆ

Page 86: 12 Muestreo Total

86

Ahora bien, ¿cuán grande debe de ser el intervalo de confianza? Evidentemente, si decimos que el intervalo de confianza va de menos infinito a más infinito, seguro que acertamos...Pero eso no es muy útil. El caso extremo contrario es la estimación puntual, donde la amplitud del intervalo es nula.

La idea es crear unos intervalos de confianza de manera que sepamos en qué porcentaje de casos el valor del parámetro poblacional estará dentro del intervalo crítico.

Es decir, dar una medida de bondad de la estimación, la probabilidad de que el valor real se encuentre dentro del intervalo.

1)ˆˆ(P

Coeficiente o grado de confianza

Nivel de significación (N. S.)

Page 87: 12 Muestreo Total

87

¿Y cómo fijamos tal probabilidad? Usualmente se asume un porcentaje del 95%. Al calcular un intervalo de confianza al 95%, ello quiere decir que el 95% de las veces que repitamos el proceso de muestreo (y calculemos el estadístico), el valor del parámetro poblacional estará dentro de tal intervalo. A ese usual nivel de significación se le denomina confianza casi significativa.

Otros casos usuales son:

confianza significativa: 99%.

confianza muy significativa: 99.5%

Page 88: 12 Muestreo Total

88

Intervalos de confianza para la media:

Supongamos que la población sigue una distribución normal,

con cierta media y cierta desviación típica . Utilizaremos como

estimador puntual para la media poblacional la media muestral .

Sabemos que:

(1). La media de la distribución muestral de medias es la media poblacional .

(2). La varianza de la distribución muestral de medias es 2/n. O lo que es lo mismo, la desviación típica de la distribución muestral de medias es /n.

Veremos dos casos para calcular intervalos de confianza:

(1) Conocemos la desviación típica y (2) no la conocemos.

x

Page 89: 12 Muestreo Total

89

(1) La población es normal y conocemos :

n

iix

nx

1

1

1,0/

Nn

xz

nNx /,

Tipificamos la variable:

Sabemos cómo se distribuye la variable aleatoria muestral y a partir de esa distribución podemos determinar el intervalo de confianza.

Supongamos que deseamos tener un nivel de significación .

Page 90: 12 Muestreo Total

90

-z/2

/2/21-

z/20

1,0N

1

1/

2/2/

2/2/

zn

xzn

xP

zn

xzP

Page 91: 12 Muestreo Total

91

2/2/

zn

xzn

x

Así, una estimación puntual de la media poblacional se obtendría de una muestra de n elementos haciendo la media muestral. Mientras que un intervalo de confianza con nivel de significación sería:

Nota: Observa que podemos determinar el tamaño necesario de una muestra para obtener una amplitud del intervalo de confianza determinada.

2

2/

znSemiamplitud delintervalo

Page 92: 12 Muestreo Total

92

Ejemplo: n = 100

1.96 1.96 025.0025.0 zyz

20x 5 Confianza = 0.95 = 0.05

02.1996.1100

5202/

z

nx

98.2096.1100

5202/

z

nx

)98.20;02.19(

Buscamos en las tablas N(0,1) los valores de z que dejan 0.05 / 2 = 0.025 de probabilidad por abajo y 0.05 / 2 = 0.025 de probabilidad por arriba:

Page 93: 12 Muestreo Total

93

Observemos cómo a medida que el tamaño muestral aumenta, la amplitud del intervalo disminuye. (Evidentemente, esto es general, no sólo para la media.) Veamos, un ejemplo. Supongamos que deseamos 1 - = 0.95:

Caso 1. Media muestral =10, varianza poblacional = 4, tamaño muestral =12.

Caso 2. Media muestral =10, varianza poblacional = 4, tamaño muestral = 20.

2 210 ( 1.96) 10 1.96 9.12 10.88 0.95

20 20P P

2 210 ( 1.96) 10 1.96 8.87 11.13 0.95

12 12P P

Page 94: 12 Muestreo Total

94

Supongamos ahora que deseamos que 1 - = 0.99. En tal caso, tendremos más seguridad de que el parámetro de interés se halle en los límites del intervalo. El problema es que incrementar la confianza aumenta la amplitud del intervalo.

Caso 1. Media muestral = 10, varianza poblacional = 4, tamaño muestral = 12. Intervalo al 95%

Caso 2. Media muestral = 10, varianza poblacional =4, tamaño muestral = 12. Intervalo al 99%

2 210 ( 2.57) 10 2.57 8.52 11.48 0.99

12 12P P

2 210 ( 1.96) 10 1.96 8.87 11.13 0.95

12 12P P

Page 95: 12 Muestreo Total

95

Por el tema anterior sabemos que la distribución muestral del estadístico:

no es una distribución normal, sino una distribución t de Student con n -1 grados de libertad.

(2) Población normal y desconocemos :

ns

x

/

1

1/

2/2/

2/2/

tn

sxt

n

sxP

tns

xtP

Page 96: 12 Muestreo Total

96

En definitiva, para la media (cuando conocemos la varianza poblacional), tenemos :

Pero si no conocemos la varianza poblacional (el caso realista), tenemos como intervalo:

2/2/

zn

xzn

x

2/2/ tn

sxt

n

sx

Page 97: 12 Muestreo Total

97

Si n es grande (n > 30), la distribución del estadístico

será prácticamente una distribución normal N(0,1). Y el

intervalo de confianza será:

Distribución de la población desconocida y n > 30

ns

x

/

2/2/

zn

xzn

x

Nota: Observa, en particular, que para n > 30 la distribución t de Student es prácticamente una normal.

Page 98: 12 Muestreo Total

98

212

2*

1

22*

)1(queVimos

)(1

1 :Estimador

),(Población

n

n

ii

sn

xxn

s

N

22/1;1

2*2

22/;1

2* )1()1(

nn

snsn

Intervalo de confianza para las varianzas:

Intervalo de confianza:

Page 99: 12 Muestreo Total

99

Ejemplo: n = 31

222 de tablaslas de 8.16 ; 0.47025.0;30975.0;30

4* s = 0.05

8.16

430

0.47

430 22

2 57.2821.10 2

n -1 = 30

Si se desea estimar = 2 3.20 5.35

Page 100: 12 Muestreo Total

100

2. Conociendo la distribución en el muestreo de y poseyendo

una estimación puntual, hallar los percentiles x y x 1- de

Resumen: Procedimiento para determinar el intervalo de confianza

2/

b

1. Fijar el nivel de significación

Si es simétrica el intervalo de confianza es simétrico en

x y en probabilidad.

)ˆ(f

2/

)ˆ(f Si es asimétrica el intervalo de confianza es simétrico en probabilidad solamente.

)ˆ(f

LCi LCsd d

2/ 2/

)ˆ(f

Page 101: 12 Muestreo Total

101

Page 102: 12 Muestreo Total

102

Page 103: 12 Muestreo Total

103

Page 104: 12 Muestreo Total

104

Page 105: 12 Muestreo Total

105

Intervalo de confianza para diferencia de medias

Intervalo de confianza para 12/2

2.

Intervalo de confianza para la proporción poblacional.

Mirar en capítulo 13:

Page 106: 12 Muestreo Total

106

Page 107: 12 Muestreo Total

107

Page 108: 12 Muestreo Total

108

Page 109: 12 Muestreo Total

109

Page 110: 12 Muestreo Total

110

Page 111: 12 Muestreo Total

111