12 Muestreo Total

1

11. Muestreo

2

INFERENCIA ESTADÍSTICA

Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras.

MMP

obtención de la muestra

conclusiones

3

Problema de estimación:

¿Por qué una encuesta de 1500 personas permite predecir bastante bien el resultado de una elección con 10 millones de votantes? ¿Cómo se consigue? ¿Cómo se mide la precisión del resultado?

Problema de test de hipótesis:

Las normas de calidad exigen que, en un lote de 5000 bombillas, a lo sumo el 3% pueden durar menos de 1000 horas. En un estudio de control de calidad de una fabrica de bombillas sería muy costoso examinar cada una. Se decide usar una muestra de 500 bombillas. Si obtenemos el 3,2% de bombillas defectuosas, ¿deberíamos declarar el lote completo defectuoso?

4

Problema de estimación:

Se busca precisar una característica totalmente desconocida de la población a partir de los datos obtenidos sobre una muestra.

Estimar el porcentaje de la población (10 millones) que votará a ZP a partir de una muestra de 1500 votantes.

O estimar la duración promedio de las bombillas del lote de 5000, a partir de una muestra de 500.

5

Problema de test de hipótesis:

Se busca comprobar alguna información sobre la población a partir de los datos obtenidos de una muestra.

ZP obtendrá más del 65% de los votos.

Menos del 3% de las bombillas del lote de 5000 duran menos de 1000 horas.

Las bombillas duran más de 1000 horas en promedio.

6

Muestra aleatoria simple con reemplazo

Supongamos una población de tamaño N donde cierta característica se distribuye como la variable aleatoria X. Una muestra aleatoria simple con reemplazo de n observaciones de la variable aleatoria X es un conjunto de variables aleatorias X1, X2, ..., Xn

independientes e idénticamente distribuidas (iid).

Cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.

7

Observa que las probabilidades de escoger cualquier elemento de la población para formar parte de la muestra son iguales (1/N) y que además las extracciones son independientes.

Se puede escoger por azar varias veces al mismo elemento. Pero si la población N es muy superior al tamaño n de la muestra esa probabilidad es despreciable. En ese caso una muestra con reposición es equivalente a una muestra sin reposición. Trabajaremos siempre con reposición.

88

Segundo elemento de la muestraSegundo elemento de la muestra

66 88 1010 1212 1414

PrimerPrimer

elemento elemento de la de la

muestramuestra

66 6,6 6,86,8 6,106,10 6,126,12 6,146,14

88 8,68,6 8,8 8,108,10 8,128,12 8,148,14

1010 10,610,6 10,810,8 10,10 10,1210,12 10,1410,14

1212 12,612,6 12, 812, 8 12,1012,10 12,12 12,1412,14

1414 14,614,6 14,8 14,8 14,1014,10 14,1214,12 14,14

Ejemplo: Sea una población compuesta por 5 unicornios con las siguientes longitudes de cuerno: 6, 8, 10, 12 y 14. Escribamos todas las muestras aleatorias con reemplazo posibles de tamaño 2. En total serán: 52 = 25.

9

En el ejemplo la variable aleatoria X de la población puede tomar los valores 6, 8, 10, 12 y 14, cada uno con probabilidad 1/5. Es decir la variable aleatoria X tiene una densidad de probabilidad discreta uniforme.

Una muestra consta de n = 2 observaciones de esa variable aleatoria X. Podemos interpretarla como una variable aleatoria bidimensional

(X1, X2), donde X1 y X2 son independientes y están idénticamente distribuidas (iid). De hecho, cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.

10

Estadísticos

Cualquier función de las variables aleatorias observadas se denomina estadístico:

Los dos estadísticos mas conocidos son

la media muestral y la varianza muestral.

La raíz cuadrada de la varianza muestral es la desviación estándar muestral.

),...,,( 21 nXXXT

2sx

s

11

Los parámetros poblacionales son fijos, no aleatorios. Por ejemplo, la media de la población anterior es: = (6 + 8 + 10 + 12 + 14) / 5 = 10.

Mientras que los estadísticos son variables aleatorias (su valor depende de la muestra seleccionada: los estadísticos calculados para distintas muestras darán, en general, resultados distintos).Por ejemplo, la media de la muestra (6, 6) es: = (6 + 6) / 2 = 6. Y la media de la muestra (6, 12) es: = (6 + 12) / 2 = 9. Etc...

x

x

12

Como estos estadísticos son variables aleatorias, podemos entonces hablar de sus distribuciones.

Si tomamos una muestra de tamaño n y calculamos la media de esta muestra obtenemos un valor determinado.

Si repetimos este mismo experimento un gran número de veces obtendremos una gran cantidad de valores distintos para .

A partir de esta “variedad” de valores distintos obtenidos para la media muestral, podemos obtener la distribución de probabilidad de la misma: la distribución de la media muestral.

x

x

1313

Medias Medias

muestrales muestrales


66 88 1010 1212 1414

PrimerPrimer


muestramuestra

66 6 77 88 99 1010

88 77 8 99 1010 1111

1010 88 99 10 1111 1212

1212 99 1010 1111 12 1313

1414 1010 1111 1212 1313 14

Calculemos para el ejemplo anterior todas las medias muestrales posibles de tamaño n=2:

ix

donde i = 1, ..., 25 es ahora el índice de las posibles muestras.

14

La distribución de medias muestrales es:

P

6 7 8 9 10 11 12 13 14

1/25

2/25

5/25

4/25

3/25

4/25

3/25

2/25

1/25

x

15

Como es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de medias muestrales:

1025

250

25

1)(

25

1

i

ixxE

Y observa que coincide con la media poblacional:

105

14121086)(

xE

¿Ocurre siempre?

x

16

)()( XEXE i

Dada una muestra de tamaño n, el valor xi (i=1,...,n) será uno de los posibles valores que puede tomar la variable aleatoria Xi. ¿Cuál es su valor esperado? Como Xi se distribuye como X:

n

i

n

ii

n

ii n

XEn

Xn

ExE111

1)(

1)

1()(

La distribución de la media muestral será:

De modo que: )(xECuando se cumple la igualdad, se dice que Cuando se cumple la igualdad, se dice que el el estimadorestimador de de es es insesgadoinsesgado..x

1717

Varianzas Varianzas

muestrales muestrales


66 88 1010 1212 1414

PrimerPrimer


muestramuestra

66 0 11 44 99 1616

88 11 0 11 44 99

1010 44 11 0 11 44

1212 99 44 11 0 11

1414 1616 99 44 11 0

Calculemos ahora para el ejemplo de los unicornios todas las varianzas muestrales posibles:

2is

2

1

22 )(2

1

jiji xxs donde i = 1, ..., 25 es el índice

de las posibles muestras.

18

Hemos obtenido de nuevo una distribución, ahora la distribución de varianzas muestrales:

P

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

5/25

8/25

2/254/25

6/25

2s

19

Como s2 es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de las varianzas muestrales:

425/10025

1)(

25

1

22 i

issE

La varianza

poblacional es:

22 )( sEObserva que ahora:

Decimos entonces que el Decimos entonces que el estimadorestimador s s2 2 de de 22 es es sesgadosesgado..

2020

Cuasivarianzas Cuasivarianzas

muestralesmuestrales Segundo elemento de la muestraSegundo elemento de la muestra

66 88 1010 1212 1414

PrimerPrimer


muestramuestra

66 0 22 88 1818 3232

88 22 0 22 88 1818

1010 88 22 0 22 88

1212 1818 88 22 0 22

1414 3232 1818 88 22 0

Definamos el estimador cuasivarianza o seudovarianza muestral:Solo se distingue de la varianza muestral en dividir entre (n-1) en vez de n.

2*s

n

jj xx

ns

1

22* )(

1

1

21

Tendremos ahora que:

825/20025

1)(

25

1

2*

2*

iissE

22* )( sE

De modo que la cuasivarianza muestral es un estimador insesgado para la varianza poblacional:

22

Resumiendo: dada una población de tamaño N, tenemos como parámetros de una variable aleatoria X de nuestro interés a la media poblacional y la varianza poblacional.

N

iiN x

Nxxx

NXE

121

1)...(

1)(

23

Sea una muestra con reposición de tamaño n de la población:

La media muestral:

será un estimador insesgado de la media poblacional.

La varianza muestral:

será un estimador sesgado de la varianza poblacional.

Y la cuasivarianza muestral:

será un estimador insesgado de la varianza poblacional.

n

jj xx

ns

1

22 )(1

24

Muestreo desde una población normal

Sea X una variable aleatoria que se distribuye en una población como una normal con media y varianza 2, es decir N(, ).

Tomemos una muestra aleatoria de tamaño n de esta población normal.

¿Cuál será la varianza muestral de la distribución muestral de ?x

25

2 )()( XVarXVar i

Primero observemos que:

De modo que la varianza de la distribución de la media muestral será:

nn

xVarn

xn

VarxVar

n

i

n

ii

n

ii

2

1

22

12

1

1

)(11

)(

)()( 2 XVarabaXVar Y además suponemos independencia entre las variables Xi

26

Si la muestra aleatoria x1, x2, ..., xn se toma a

partir de una población normal con media y

varianza 2, la media muestral tendrá

distribución normal con media y varianza 2/n, N(, /n).

Vemos entonces que la distribución de la media muestral tiene una dispersión menor alrededor de la media poblacional y cuanto más grande es la muestra, menor es la varianza.

27

Distribución muestral de la media

Veremos primero el caso de que la distribución subyacente sea normal, con media y varianza

La media de la distribución muestral de medias es

La varianza de la distribución muestral de medias es

2 / n

2

La forma de la distribución muestral de la media es normal.

Nota: La desviación típica de la distribución muestral suele ser denominada: error típico de tal estadístico (v.g., “error típico de la media”, etc.)

Veamos varios ejemplos donde iremos variando el tamaño n de las muestras.

28

Distribución muestral de la media. Ejemplo 1

N10

400

300

200

100

0

Desv. típ. = 4.75

Media = 99.9

N = 3600.00

Distribución poblacional subyacente (dist. Normal):

Media = 100

Varianza = 225

Desv. típica = 15

Distribución muestral de la media:

Tamaño muestral =10

Media = 100

Varianza = 225/10 =22.5

Desv.típica = 22.5 4.74

La línea (en este y sucesivos ejemplos) es una curva normal

En este y sucesivos gráficos: Número de muestras n

29


N20

500

400

300

200

100

0

Desv. típ. = 3.36

Media = 100.0

N = 3600.00


Media = 100

Desv. Típica = 15


Tamaño muestral = 20

Media = 100

Varianza = 225/20 = 11.3

Desv. típica = 3.35

30


N50

700

600

500

400

300

200

100

0

Desv. típ. = 2.12

Media = 99.95

N = 3600.00


Media = 100

Desv. Típica = 15



Media = 100

Varianza = 225/50 = 4.5


31

Distribución muestral de la media

Veamos ahora el caso en que la distribución subyacente sea arbitraria, si bien sabemos que la media es y la varianza es

La media de la distribución muestral de medias es

La varianza de la distribución muestral de medias es

2 / n

2

La forma de la distribución muestral de la media TAMBIÉN tiende a ser normal. En concreto, la distribución muestral se acercará más y más a la distribución normal (media y varianza 2/n) a medida que se aumente el tamaño de cada muestra.

32

Veamos aparecer la distribución normal a partir de una población uniforme

• Aunque una variable aleatoria no posea distribución normal, ciertos estadísticos/estimadores calculados sobre muestras elegidas al azar sí que poseen una distribución normal.

• Es decir, tengan las distribución que tengan nuestros datos, los ‘objetos’ que resumen la información de una muestra, posiblemente tengan distribución normal.

• Como ilustración mostramos una variable que presenta valores distribuidos más o menos uniformemente sobre el intervalo 150-190. Como es de esperar la media es cercana a 170. El histograma no se parece en nada a una distribución normal con la misma media y desviación típica.

33

• A continuación elegimos aleatoriamente grupos/muestras de 10 observaciones de las anteriores y calculamos el promedio.

• Para cada grupo de 10 obtenemos entonces una nueva medición, la media muestral.

• Observa que las nuevas cantidades están más o menos cerca de la media de la variable original que era 170.

• Repitamos el proceso un número elevado de veces y pintamos la distribución de la nueva variable aleatoria.

Muestra

1ª 2ª 3ª185 190 179

174 169 163

167 170 167

160 159 152

172 179 178

183 175 183

188 159 155

178 152 165

152 185 185

175 152 152

173 169 168 …

34

• La distribución de las medias muestrales sí que tiene distribución aproximadamente normal.

• La media de esta nueva variable (promedio muestral) es muy parecida a la de la variable original.

• Las observaciones de la nueva variable están menos dispersas. Además la desviación típica es aproximadamente ‘raíz de 10’ veces más pequeña. Llamamos error estándar a la desviación típica de esta nueva variable.

35

Distribuciones para muestras grandes

Cuando el tamaño de la muestra es grande, independientemente de que la variable aleatoria de nuestro interés en la población se distribuya o no como una normal, podemos derivar un número de propiedades gracias a la LEY DE LOS GRANDES NUMEROS y el TEOREMA CENTRAL DEL LIMITE.

36

Distribuciones para muestras grandes: teorema central del límite

• Dada una v.a. cualquiera, si extraemos muestras de tamaño n, y calculamos los promedios muestrales, entonces:

• Dichos promedios tienen distribución aproximadamente normal;

• La media de los promedios muestrales es la misma que la de la variable original.

• La desviación típica de los promedios disminuye en un factor “raíz de n” (error estándar).

• Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito.– Este teorema justifica la importancia de la distribución normal.

– Sea lo que sea lo que midamos, cuando se promedie sobre una muestra grande (n > 30) nos va a aparecer de manera natural la distribución normal.

37

Teorema central del límiteSea x1, x2, ..., xn una muestra aleatoria de observaciones

tomadas de la misma distribución y sea E(Xi) = y

Var(Xi) = 2.

Entonces la distribución muestral de la variable aleatoria:

converge a la normal standard N(0, 1) cuando n tiende a infinito. El TCL se cumple aún cuando la distribución desde la que se toman las observaciones no sea normal. Esto significa que si nosotros nos aseguramos que el tamaño de la muestra es grande, entonces podemos usar la variable Zn para responder preguntas acerca de la población de la cual provienen las observaciones.

n

xZn

/

)(

38


Distribución poblacional subyacente (dist. Gamma):

Media = 100

Varianza = 100

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

80 85 90 95 100 105 110 115 120

0,)(

)( 1

xexp

qxf qxp

p

q

pXE ][

2][

q

pXVar

39


DISGAMMA

500

400

300

200

100

0

Desv. típ. = 3.12

Media = 100.0

N = 3600.00

Distribución poblacional subyacente (dist. GAMMA):

Media = 100

Varianza = 100



Media = 100

Varianza = 100/10 = 10

Desv. típica = 10 3.16

40


Distribución poblacional (dist. EXPONENCIAL):

Media = 0.1 = 1/

Varianza = 0.01 = 1/2

0

2

4

6

8

10

12

0 0.1 0.2 0.3 0.4 0.5 0.6

41

Distribución muestral de la media. Ejemplo 5a

EXPON10

.244.231

.219.206

.194.181

.169.156

.144.131

.119.106

.094.081

.069.056

.044.031

400

300

200

100

0

Desv. típ. = .03

Media = .100

N = 3600.00



Media = 0.1

Varianza = 0.01/10 = 0.001



Media = 0.1=1/

Varianza = 0.01 = 1/2

Observad que la dist. muestral se aproxima a la normal

42

Distribución muestral de la media. Ejemplo 5b



Media = 0.1

Varianza = 0.01/20 = 0.0005


EXPON20

500

400

300

200

100

0

Desv. típ. = .02

Media = .099

N = 3600.00


Media = 0.1 = 1/

Varianza = 0.01 = 1/2

Observad que la distribución muestral se aproxima más a la normal (al elevar el tamaño muestral).

43

Algunas distribuciones usadas en inferenciaAlgunas distribuciones usadas en inferencia

Distribución Ji-Cuadrado o Chi-cuadrado o 2 de Pearson con “n” grados de libertad.Sean X1 , X2 , ... ,Xn n variables aleatorias continuas independientes tal que Xi = N (0,1) con i = 1, ..., n (i.i.d.). Definamos la variable aleatoria:

n

iniXY

1

22

0,

22

)(2

21

2

xn

eyyf n

yn

YSu densidad de probabilidadserá:

44

La función gamma es:

1.

2.

0

1 dyey y

nYE nYVar 22)21()(n

Y itt

nYE

nYVar 2

y

)( yfY

45

TABLA DE 2

2n

0.99 0.975 0.025 0.01n1

2

3

4

5

grados de libertadvalores acumulados de 2

n

orden percentílico

p

46

Distribución muestral del estadístico

Cuando las distribución de la que obtenemos la varianza muestral es normal, el estadístico anterior se distribuye según la distribución chi-cuadrado con n -1 grados de libertad.

Es fácil de demostrar

2

2*)1(

sn

47

22

2

1 como distribuye se

)1,0( como distribuye se

),( como distribuyese Si

xx

Nxx

NX

2*

11

2* s)1(

1

1s 22

nxxxxn

n

i

n

i


)1( 2*

nsn

n

iniX

1

22

Tipificando

48

Otra distribución que aparece en inferencia es lat-Student, tn

Student era el seudónimo de W.S. Gosset, un pionero estadista que trabajó en la Cervecería Guiness de Dublín.

Sea X v.a.c. tal que X ~ N (0,1)Y v.a.c. tal que Y ~ 2

n

nY

Xtn

tn

n

ntn

tf

n

T ,

2

12

1

)(

2

12

Con función de densidad de probabilidad:

49

0tE 2

n

ntVar

50

TABLA DE LA DISTRIBUCION DE t (Student)

t.55 t.60 t.99 t.995n1

2

3

4

5

orden percentílico

grados de libertad

valores

acumulados de tp

tp

51

Distribución muestral de

Cuando la distribución de la que obtenemos las medias muestrales es normal, el estadístico anterior, se distribuye según la distribución t de Student con tn-1 grados de libertad.

Cuando la distribución de la que obtenemos las medias muestrales no es normal, el estadístico anterior, se distribuye como una normal tipificada para valores de n > 30.

Nota: comparar con el teorema central del límite.

ns

x

/

52

La distribución F de Fisher o F-Snedecor es otra distribución que aparece con frecuencia en inferencia:sea X v.a.c. tal que X ~ 2

n

Y v.a.c. tal que Y ~ 2m independientes

Definamos ),( mnF

mYnX

Z

0,)(

22

2)( 2

12

2/2/

zmnz

mn

mnmn

zfmnn

nn

Z

53

2

m

mZE

)()()(42

222

2

mmnmnm

ZV

(m,n)

54

Distribución muestral del estimador

Cuando las distribuciones de la que obtenemos las varianzas muestrales son normales:

y extraemos dos muestras de tamaño n y m respectivamente. El estadístico anterior se distribuye según la distribución F de Fisher con n - 1 grados de libertad en el numerador y m -1 grados de libertad en el denominador, Fn-1, m-1.

22*

22*

/

/

yy

xx

s

s

),(),( yyxx NyN

55

Sea un estadístico ( función de la muestra ) que utilizamos para estimar el valor de .

Observa que el estadístico:

es una función que depende de la muestra y lo llamaremos estimador. El valor concreto de es la estimación.

Hay dos tipos básicos de estimación: puntual y por intervalo de confianza.

Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra.

Estimación

),...,,(ˆ21 nXXXT

56

-Estimación puntual

Provee un solo valor, un valor concreto para la estimación.

Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.) que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.).

Por ejemplo, cuando obtenemos una media aritmética a partir de una muestra, tal valor puede ser empleado como un estimador para el valor de la media poblacional.

Algunos autores comparan los estimadores con los lanzamientos en una diana: el círculo central sería el valor real del parámetro.

57

Hablaremos de nivel de confianza 1-α cuando en el intervalo se encuentre el valor del estimador con probabilidad 1-α.

– Observa que la probabilidad de error (no contener al parámetro) es α.

– En general el tamaño del intervalo disminuye con el tamaño muestral y aumenta con 1-α.

– En todo intervalo de confianza hay una noticia buena y otra mala:• La buena: hemos usado una técnica que en % alto de casos acierta.• La mala: no sabemos si ha acertado en nuestro caso.

-Por intervalo

Determina dos valores (límites de confianza) entre los que acepta puede estar el valor del estimador.

58

Métodos de estimación puntual

Método de los momentosMétodo de máxima verosimilitudMétodo de mínimos cuadrados(Lo veremos más adelante en el tema de regresión)

Hemos visto que un estimador de la media poblacional es la media muestral y de la varianza poblacional es la cuasivarianza muestral. Pero, ¿cómo determinar un estimador cuando no se trata de la media o la varianza?Por ejemplo, supongamos una población con función densidad:

0,0)1(

)( 1

x

xxf

¿Cómo estimar el parámetro θ?

59

Método de los momentos

Si una distribución tiene k parámetros, el procedimiento consiste en calcular los primeros k momentos muestrales de la distribución y usarlos como estimadores de los correspondientes momentos poblacionales.

La media poblacional es el primer momento de la distribución alrededor del origen. La media muestral es el promedio aritmético de las observaciones muestrales x1, x2, ..., xn. El método de los momentos toma a la media muestral como una estimación de la media poblacional.

De la misma manera, la varianza de una variable aleatoria es 2 y se denomina segundo momento alrededor de la media. La cuasivarianza muestral s2

* se usa como un estimador de la varianza poblacional de la distribución.

x

60

Recordemos que el momento muestral centrado en el origen de orden r se define como:

n

i

rir x

nm

1

1

Para el ejemplo anterior, los momentos de primer orden centrados en el origen de la población y la muestra son respectivamente:

n

iin

ii

xn

xn

m

dxx

x

1

11

11

11

1

11

)1(

1ˆ

1

n

iix

nLuego podemos usar como estimador:

Igualando:

61

Método de máxima verosimilitud

Sea X una variable aleatoria cuya distribución de probabilidad depende del parámetro desconocido .

Sea la función de densidad de probabilidad de la población f(x, ). Se toma una muestra aleatoria x1, x2, ..., xn de observaciones independientes y se calcula la densidad conjunta de la muestra: la función de verosimilitud y se expresa como:

n

iin

nn

xf, θ,...,xL(x

, θf(x... , θ f(x, θf(x, θ,...,xL(x

11

211

,)

))))

62

MV

L

Si de una población cualquiera hemos obtenido una muestra particular, es razonable pensar que la muestra obtenida era la que mayor probabilidad tenía de ser escogida.

Valor del estimador máxima verosimilitud

Funciónmáxima verosimilitud

63

Si los valores posibles de son discretos, el procedimiento es evaluar L(x,) para cada valor posible y elegir el valor de para el cual L alcanza su máximo.

Por otro lado, si L(x,) es diferenciable se puede maximizar L sobre el rango de valores posibles de obteniéndose condiciones de primer y segundo orden.

En la práctica es más fácil maximizar el logaritmo de la función de verosimilitud. Como la función logaritmo es una transformación monótona, maximizar L(x,) es equivalente a maximizar Ln(L(x,)).

64

Ejemplo: Sea una urna con bolas rojas y blancas en proporciones desconocidas. Extraemos 10 bolas con reemplazo (n = 10) y obtenemos 3R y 7B. Llamemos p a la proporción de R en la urna.

!7!3!10

)1()1()( 73107,3

73 ppPRpppL

0!7!3!10

)103()1()( 62

pppppL

Soluciones: p = 0 p = 1 p = 3/10

Imposible porque hemos extraído 3R

Imposible porque hemos extraído 7B

Que además hace máxima la función L(p)

0)(

10/3

2

2

pp

pL

65

0,0)1(

)( 1

x

xxfVolvamos al ejemplo:

n

iin

n

in

ii

n

in

xLnnLn, θ,...,xL(xLn

xxf, θ,...,xL(x

11

1

1

11

1)1()

1,)

0ˆ

)

1

ˆ

01)

2ˆ

21

2

1

1

1

nθ

, θ,...,xL(xLn

xLn

n

xLnn

θ, θ,...,xL(xLn

n

n

ii

n

ii

n

Construimos la función máxima verosimilitud

Extraemos logaritmos a ambos lados

Derivamos e igualamos a cero para encontrar el máximo de la función

Observemos que no coincide con el estimador que nos propone el método de los momentos.

66

Propiedades deseables en los estimadores

1.Ausencia de sesgo

2.Consistencia

3.Eficiencia

4.Suficiencia

Los dos procedimientos que repasamos hace un momento (más el método de mínimos cuadrados que veremos luego) eligen a la media muestral como estimador del parámetro . Sin embargo, otras veces obtenemos estimadores distintos para el mismo parámetro, como ocurre con 2. O como hemos visto para el caso del parámetro del ejemplo.

En esos casos, ¿cuál es el mejor estimador?

67

1. Estimador insesgado. Diremos que es un estimador insesgado de si:

Vimos que la media muestral es un estimador insesgado de la media poblacional.

Vimos que la varianza muestral no es un estimador insesgado de la varianza poblacional, es sesgado.

Recuerda que construimos la cuasivarianza que sí es un estimador insesgado de la varianza poblacional.

nXXTEE ,...,ˆ1

ˆ)( Eb se llama sesgo de

68

Sea una población N(, ) y construyamos los estimadores de varianza: varianza muestral y cuasivarianza muestral.

n

jj xx

ns

1

22*2 )(

11

n

jj xx

ns

1

221 )(

1

Vimos que si la población es normal, entonces el estimador:


)1( 2*

nsn

sesgo

nnn

En

nE

En

sEE n

222

2]

21

2

1]ˆ[

1]ˆ[

[1

][]ˆ[

21

2*2

69

Propiedades en muestras grandes

Muchos estimadores no tienen buenas propiedades para muestras pequeñas, pero cuando el tamaño muestral aumenta, muchas de las propiedades deseables pueden cumplirse. En esta situación se habla de propiedades asintóticas de los estimadores.

Como el estimador va a depender del tamaño de la muestra, vamos a expresarlo utilizando el símbolo

Por ejemplo, el sesgo puede depender del tamaño de la muestra. Si el sesgo tiende a cero cuando el tamaño de la muestra crece hasta infinito decimos que el estimador es asintóticamente insesgado.

n

70

Ausencia de sesgo asintótica

Definición: Un estimador se dice que es asintóticamente insesgado si

o equivalentemente:

n

]ˆ[lim nn

E

0]]ˆ[[lim

nn

E

71

2. Consistencia. Se dice que un estimador es consistente si se cumple que

Es decir, a medida que se incrementa el tamaño muestral, el estimador se acerca más y más al valor del parámetro. La “consistencia” es una propiedad asintótica.

Tanto la media muestral como la cuasivarianza son estimadores consistentes. La varianza muestral es un estimador consistente de la varianza poblacional, dado que a medida que el tamaño muestral se incrementa, el sesgo disminuye.

1ˆlim

nn

P

]ˆ[ nE 0]ˆ[ nVar

o 0ˆlim

nn

P

72

Ejemplo: supongamos que la población es no normal y de media desconocida. Construyamos estadísticos media muestral:

Para cada tamaño muestral n tenemos:

)( nxEn

xVar n

2

)(

Por el teorema de Chebychev:

nk

xPn

xP

kxVarkxExP

nn

n

nnn

con

1lim1

11)()(

2

2

2

La media muestral es un estimador consistente de la media poblacional.

73

3. Eficiencia. Utilizar las varianzas de los estimadores insesgados como una forma de elegir entre ellos.

Si , decimos que es un estimador insesgado eficiente o de varianza mínima para , si cualquier otro estimador insesgado de , digamos , verifica que:

ˆE

~ˆ VarVar

~

La varianza de una variable aleatoria mide la dispersión alrededor de la media. Menor varianza para una variable aleatoria significa que, en promedio, sus valores fluctúan poco alrededor de la media comparados con los valores de otra variable aleatoria con la misma media y mayor varianza. Menor varianza implica mayor precisión y entonces el estimador que tenga menor varianza es claramente más deseable porque, en promedio, está mas cerca del verdadero valor de .

74

Sean y dos estimadores insesgados del parámetro .

Si Var ( ) < Var ( ) decimos que es más eficiente que .

El cociente Var ( ) / Var ( ) se llama eficiencia relativa.

Entre todos los estimadores insesgados de , el que tenga menor varianza es el estimador insesgado de mínima varianza. Pero, ¿cómo podemos encontrarlo?

1 2

1212

21

75

2

2

2

),(ln

)('1ˆ

xf

nE

bVar

Cota de Cramér-Rao:

Sea una población con densidad de probabilidad f(x, ), entonces se cumple que:

Si un estimador tiene una varianza que coincide con la cota de Cramér-Rao se dice que es un estimador eficiente.

Si además en insesgado, se dice que es un estimador de eficiencia absoluta o completa.

76

Ejemplo: Sea una población que se distribuye normalmente con desviación típica conocida y media desconocida. Como estimador utilizaremos la media muestral. Sabemos que la distribución del estimador es también una normal con la misma media y varianza . Luego el estimador es insesgado: b() = 0. Calculemos la cota de Cramér-Rao (CCR).

2 / n

CCRxVarnxf

nE

CCR

Exf

E

xfxxf

xxf

xxf

)(;),(ln

1

11),(Ln

1),(Ln;

),(Ln

2)(

2

1Ln),(Ln;

2)(

exp2

1),(

2

2

2

222

2

22

2

2

2

2

2

2

77

Eficiencia asintóticaCuando trabajamos con estimadores consistentes el rango de valores de para el cual un estimador es más eficiente que otro disminuye a medida que n crece. En el límite cuando n tiene a infinito la distribución de todos los estimadores consistentes colapsa en el verdadero parámetro . Entonces deberíamos preferir aquel estimador que se aproxime más rápidamente (es decir, aquel cuya varianza converge más rápido a cero)

78

En términos intuitivos, un estimador consistente es asintóticamente eficiente si para muestras grandes su varianza es menor que la de cualquier otro estimador consistente.

Definición: un estimador consistente se dice que es asintóticamente eficiente si para cualquier otro estimador el

1

2

1)ˆ(

)ˆ(

1

2

Var

Varlimn

79

4. Suficiencia. Diremos que es un estimador suficiente del parámetro si dicho estimador basta por sí solo para estimar . Si el conocimiento pormenorizado de los elementos la muestra no añade ninguna información sobre .

Ejemplo: Supongamos una población binomial de la que desconocemos la proporción = p. Extraemos una muestra de tamaño n = 50.

1}{max)(;35)(

fracaso es si0

éxito es si1

2

50

11

ii

i

i

xXTxXT

x

Estimador suficiente, p aprox. 35/50.

80

Error cuadrático medio (ECM)

Consideremos dos estimadores, uno insesgado y el otro es sesgado pero con una varianza bastante menor, de modo que en promedio puede estar más cerca de la verdadera media que el estimador insesgado.

En esta situación podríamos admitir algo de sesgo con la intención de obtener una mayor precisión en la estimación (menor varianza del estimador).

Una medida que refleja este compromiso (“trade off”) entre ausencia de sesgo y varianza es el ECM.

81

El error cuadrático medio de un estimador se define como ECM ( ) = E[( - )2] . Esto es la esperanza de la desviación al cuadrado del estimador con respecto al parámetro de interés.

Si , son dos estimadores alternativos de y ECM ( ) < ECM ( ) entonces se dice que es eficiente en el sentido del ECM comparado con . Si los dos son insesgados, entonces es más eficiente.

Entre todos los posibles estimadores de , aquel que tenga el menor ECM es el llamado estimador de mínimo error cuadrático medio.

ECM = Var( ) + sesgo2.

es decir que el ECM es igual a la suma de la varianza más el sesgo al cuadrado.

21

12 1

21

82

22 ˆ)ˆ()ˆ(ˆ])ˆ[()ˆ( EEEEECM

2

0

constante

22

)ˆ()ˆ(

])ˆ([)ˆ(ˆ2])ˆ([])ˆ(ˆ[

bVar

EEEEEEE

)ˆ( 2E

2 1

)ˆ( 1 E

sesgo 2

Compromiso entre varianza ysesgo de los estimadores.

Variable aleatoria Constante

83

Ejemplos: Supongamos una población de la que conocemos la media y la varianza (= 100). Tomemos muestras n = 10. Consideremos los dos estimadores de la media siguientes:

n

ii

n

ii x

nx

nx

12

11 1

1ˆ;1ˆ

1010100

)ˆ(

)ˆ(1

)ˆ(

][1

]ˆ[2

12

11

21

11

nECM

nVar

nVar

xEn

E

n

i

i

n

i

1211000

)1()ˆ(

)1()ˆ(

)1(1

)ˆ(

1][

11

]ˆ[2

2

22

1

2

2

11

22

12

nn

ECM

nn

Varn

Var

nn

xEn

E

n

i

i

n

i

Dependiendo de la media de la población nos interesará tomar un estimador u otro.

84

Los estimadores máximo verosímiles son:

Asintóticamente insesgadosAsintóticamente normalesAsintóticamente eficientesInvariantes bajo transformaciones biunívocasSi estimador suficiente, es suficiente

MV

Propiedades de los estimadores de máxima verosimilitud

85

Estimación por intervalos de confianza.En este caso, en lugar de indicar simplemente un único valor como estimación del parámetro poblacional , lo que haremos es ofrecer un intervalo de valores en el que se tiene cierta probabilidad (confianza) de que se encuentre el verdadero valor de .

Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el parámetro. Límites de los intervalos de confianza: Son los dos valores extremos del intervalo de confianza. Amplitud del intervalo o margen de error...

ˆˆ

86

Ahora bien, ¿cuán grande debe de ser el intervalo de confianza? Evidentemente, si decimos que el intervalo de confianza va de menos infinito a más infinito, seguro que acertamos...Pero eso no es muy útil. El caso extremo contrario es la estimación puntual, donde la amplitud del intervalo es nula.

La idea es crear unos intervalos de confianza de manera que sepamos en qué porcentaje de casos el valor del parámetro poblacional estará dentro del intervalo crítico.

Es decir, dar una medida de bondad de la estimación, la probabilidad de que el valor real se encuentre dentro del intervalo.

1)ˆˆ(P

Coeficiente o grado de confianza

Nivel de significación (N. S.)

87

¿Y cómo fijamos tal probabilidad? Usualmente se asume un porcentaje del 95%. Al calcular un intervalo de confianza al 95%, ello quiere decir que el 95% de las veces que repitamos el proceso de muestreo (y calculemos el estadístico), el valor del parámetro poblacional estará dentro de tal intervalo. A ese usual nivel de significación se le denomina confianza casi significativa.

Otros casos usuales son:

confianza significativa: 99%.

confianza muy significativa: 99.5%

88

Intervalos de confianza para la media:

Supongamos que la población sigue una distribución normal,

con cierta media y cierta desviación típica . Utilizaremos como

estimador puntual para la media poblacional la media muestral .

Sabemos que:

(1). La media de la distribución muestral de medias es la media poblacional .

(2). La varianza de la distribución muestral de medias es 2/n. O lo que es lo mismo, la desviación típica de la distribución muestral de medias es /n.

Veremos dos casos para calcular intervalos de confianza:

(1) Conocemos la desviación típica y (2) no la conocemos.

x

89

(1) La población es normal y conocemos :

n

iix

nx

1

1

1,0/

Nn

xz

nNx /,

Tipificamos la variable:

Sabemos cómo se distribuye la variable aleatoria muestral y a partir de esa distribución podemos determinar el intervalo de confianza.

Supongamos que deseamos tener un nivel de significación .

90

-z/2

/2/21-

z/20

1,0N

1

1/

2/2/

2/2/

zn

xzn

xP

zn

xzP

91

2/2/

zn

xzn

x

Así, una estimación puntual de la media poblacional se obtendría de una muestra de n elementos haciendo la media muestral. Mientras que un intervalo de confianza con nivel de significación sería:

Nota: Observa que podemos determinar el tamaño necesario de una muestra para obtener una amplitud del intervalo de confianza determinada.

2

2/

znSemiamplitud delintervalo

92

Ejemplo: n = 100

1.96 1.96 025.0025.0 zyz

20x 5 Confianza = 0.95 = 0.05

02.1996.1100

5202/

z

nx

98.2096.1100

5202/

z

nx

)98.20;02.19(

Buscamos en las tablas N(0,1) los valores de z que dejan 0.05 / 2 = 0.025 de probabilidad por abajo y 0.05 / 2 = 0.025 de probabilidad por arriba:

93

Observemos cómo a medida que el tamaño muestral aumenta, la amplitud del intervalo disminuye. (Evidentemente, esto es general, no sólo para la media.) Veamos, un ejemplo. Supongamos que deseamos 1 - = 0.95:

Caso 1. Media muestral =10, varianza poblacional = 4, tamaño muestral =12.

Caso 2. Media muestral =10, varianza poblacional = 4, tamaño muestral = 20.

2 210 ( 1.96) 10 1.96 9.12 10.88 0.95

20 20P P

2 210 ( 1.96) 10 1.96 8.87 11.13 0.95

12 12P P

94

Supongamos ahora que deseamos que 1 - = 0.99. En tal caso, tendremos más seguridad de que el parámetro de interés se halle en los límites del intervalo. El problema es que incrementar la confianza aumenta la amplitud del intervalo.

Caso 1. Media muestral = 10, varianza poblacional = 4, tamaño muestral = 12. Intervalo al 95%

Caso 2. Media muestral = 10, varianza poblacional =4, tamaño muestral = 12. Intervalo al 99%

2 210 ( 2.57) 10 2.57 8.52 11.48 0.99

12 12P P

2 210 ( 1.96) 10 1.96 8.87 11.13 0.95

12 12P P

95

Por el tema anterior sabemos que la distribución muestral del estadístico:

no es una distribución normal, sino una distribución t de Student con n -1 grados de libertad.

(2) Población normal y desconocemos :

ns

x

/

1

1/

2/2/

2/2/

tn

sxt

n

sxP

tns

xtP

96

En definitiva, para la media (cuando conocemos la varianza poblacional), tenemos :

Pero si no conocemos la varianza poblacional (el caso realista), tenemos como intervalo:

2/2/

zn

xzn

x

2/2/ tn

sxt

n

sx

97

Si n es grande (n > 30), la distribución del estadístico

será prácticamente una distribución normal N(0,1). Y el

intervalo de confianza será:

Distribución de la población desconocida y n > 30

ns

x

/

2/2/

zn

xzn

x

Nota: Observa, en particular, que para n > 30 la distribución t de Student es prácticamente una normal.

98

212

2*

1

22*

)1(queVimos

)(1

1 :Estimador

),(Población

n

n

ii

sn

xxn

s

N

22/1;1

2*2

22/;1

2* )1()1(

nn

snsn

Intervalo de confianza para las varianzas:

Intervalo de confianza:

99

Ejemplo: n = 31

222 de tablaslas de 8.16 ; 0.47025.0;30975.0;30

4* s = 0.05

8.16

430

0.47

430 22

2 57.2821.10 2

n -1 = 30

Si se desea estimar = 2 3.20 5.35

100

2. Conociendo la distribución en el muestreo de y poseyendo

una estimación puntual, hallar los percentiles x y x 1- de

Resumen: Procedimiento para determinar el intervalo de confianza

2/

b

1. Fijar el nivel de significación

Si es simétrica el intervalo de confianza es simétrico en

x y en probabilidad.

)ˆ(f

2/

)ˆ(f Si es asimétrica el intervalo de confianza es simétrico en probabilidad solamente.

)ˆ(f

LCi LCsd d

2/ 2/

)ˆ(f

105

Intervalo de confianza para diferencia de medias

Intervalo de confianza para 12/2

2.

Intervalo de confianza para la proporción poblacional.

Mirar en capítulo 13:

12 Muestreo Total

Documents

Transcript of 12 Muestreo Total