12 Muestreo Total
Transcript of 12 Muestreo Total
1
11. Muestreo
2
INFERENCIA ESTADÍSTICA
Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras.
MMP
obtención de la muestra
conclusiones
3
Problema de estimación:
¿Por qué una encuesta de 1500 personas permite predecir bastante bien el resultado de una elección con 10 millones de votantes? ¿Cómo se consigue? ¿Cómo se mide la precisión del resultado?
Problema de test de hipótesis:
Las normas de calidad exigen que, en un lote de 5000 bombillas, a lo sumo el 3% pueden durar menos de 1000 horas. En un estudio de control de calidad de una fabrica de bombillas sería muy costoso examinar cada una. Se decide usar una muestra de 500 bombillas. Si obtenemos el 3,2% de bombillas defectuosas, ¿deberíamos declarar el lote completo defectuoso?
4
Problema de estimación:
Se busca precisar una característica totalmente desconocida de la población a partir de los datos obtenidos sobre una muestra.
Estimar el porcentaje de la población (10 millones) que votará a ZP a partir de una muestra de 1500 votantes.
O estimar la duración promedio de las bombillas del lote de 5000, a partir de una muestra de 500.
5
Problema de test de hipótesis:
Se busca comprobar alguna información sobre la población a partir de los datos obtenidos de una muestra.
ZP obtendrá más del 65% de los votos.
Menos del 3% de las bombillas del lote de 5000 duran menos de 1000 horas.
Las bombillas duran más de 1000 horas en promedio.
6
Muestra aleatoria simple con reemplazo
Supongamos una población de tamaño N donde cierta característica se distribuye como la variable aleatoria X. Una muestra aleatoria simple con reemplazo de n observaciones de la variable aleatoria X es un conjunto de variables aleatorias X1, X2, ..., Xn
independientes e idénticamente distribuidas (iid).
Cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.
7
Observa que las probabilidades de escoger cualquier elemento de la población para formar parte de la muestra son iguales (1/N) y que además las extracciones son independientes.
Se puede escoger por azar varias veces al mismo elemento. Pero si la población N es muy superior al tamaño n de la muestra esa probabilidad es despreciable. En ese caso una muestra con reposición es equivalente a una muestra sin reposición. Trabajaremos siempre con reposición.
88
Segundo elemento de la muestraSegundo elemento de la muestra
66 88 1010 1212 1414
PrimerPrimer
elemento elemento de la de la
muestramuestra
66 6,6 6,86,8 6,106,10 6,126,12 6,146,14
88 8,68,6 8,8 8,108,10 8,128,12 8,148,14
1010 10,610,6 10,810,8 10,10 10,1210,12 10,1410,14
1212 12,612,6 12, 812, 8 12,1012,10 12,12 12,1412,14
1414 14,614,6 14,8 14,8 14,1014,10 14,1214,12 14,14
Ejemplo: Sea una población compuesta por 5 unicornios con las siguientes longitudes de cuerno: 6, 8, 10, 12 y 14. Escribamos todas las muestras aleatorias con reemplazo posibles de tamaño 2. En total serán: 52 = 25.
9
En el ejemplo la variable aleatoria X de la población puede tomar los valores 6, 8, 10, 12 y 14, cada uno con probabilidad 1/5. Es decir la variable aleatoria X tiene una densidad de probabilidad discreta uniforme.
Una muestra consta de n = 2 observaciones de esa variable aleatoria X. Podemos interpretarla como una variable aleatoria bidimensional
(X1, X2), donde X1 y X2 son independientes y están idénticamente distribuidas (iid). De hecho, cada una de ellas tiene la misma distribución de probabilidad que la variable aleatoria X.
10
Estadísticos
Cualquier función de las variables aleatorias observadas se denomina estadístico:
Los dos estadísticos mas conocidos son
la media muestral y la varianza muestral.
La raíz cuadrada de la varianza muestral es la desviación estándar muestral.
),...,,( 21 nXXXT
2sx
s
11
Los parámetros poblacionales son fijos, no aleatorios. Por ejemplo, la media de la población anterior es: = (6 + 8 + 10 + 12 + 14) / 5 = 10.
Mientras que los estadísticos son variables aleatorias (su valor depende de la muestra seleccionada: los estadísticos calculados para distintas muestras darán, en general, resultados distintos).Por ejemplo, la media de la muestra (6, 6) es: = (6 + 6) / 2 = 6. Y la media de la muestra (6, 12) es: = (6 + 12) / 2 = 9. Etc...
x
x
12
Como estos estadísticos son variables aleatorias, podemos entonces hablar de sus distribuciones.
Si tomamos una muestra de tamaño n y calculamos la media de esta muestra obtenemos un valor determinado.
Si repetimos este mismo experimento un gran número de veces obtendremos una gran cantidad de valores distintos para .
A partir de esta “variedad” de valores distintos obtenidos para la media muestral, podemos obtener la distribución de probabilidad de la misma: la distribución de la media muestral.
x
x
1313
Medias Medias
muestrales muestrales
Segundo elemento de la muestraSegundo elemento de la muestra
66 88 1010 1212 1414
PrimerPrimer
elemento elemento de la de la
muestramuestra
66 6 77 88 99 1010
88 77 8 99 1010 1111
1010 88 99 10 1111 1212
1212 99 1010 1111 12 1313
1414 1010 1111 1212 1313 14
Calculemos para el ejemplo anterior todas las medias muestrales posibles de tamaño n=2:
ix
donde i = 1, ..., 25 es ahora el índice de las posibles muestras.
14
La distribución de medias muestrales es:
P
6 7 8 9 10 11 12 13 14
1/25
2/25
5/25
4/25
3/25
4/25
3/25
2/25
1/25
x
15
Como es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de medias muestrales:
1025
250
25
1)(
25
1
i
ixxE
Y observa que coincide con la media poblacional:
105
14121086)(
xE
¿Ocurre siempre?
x
16
)()( XEXE i
Dada una muestra de tamaño n, el valor xi (i=1,...,n) será uno de los posibles valores que puede tomar la variable aleatoria Xi. ¿Cuál es su valor esperado? Como Xi se distribuye como X:
n
i
n
ii
n
ii n
XEn
Xn
ExE111
1)(
1)
1()(
La distribución de la media muestral será:
De modo que: )(xECuando se cumple la igualdad, se dice que Cuando se cumple la igualdad, se dice que el el estimadorestimador de de es es insesgadoinsesgado..x
1717
Varianzas Varianzas
muestrales muestrales
Segundo elemento de la muestraSegundo elemento de la muestra
66 88 1010 1212 1414
PrimerPrimer
elemento elemento de la de la
muestramuestra
66 0 11 44 99 1616
88 11 0 11 44 99
1010 44 11 0 11 44
1212 99 44 11 0 11
1414 1616 99 44 11 0
Calculemos ahora para el ejemplo de los unicornios todas las varianzas muestrales posibles:
2is
2
1
22 )(2
1
jiji xxs donde i = 1, ..., 25 es el índice
de las posibles muestras.
18
Hemos obtenido de nuevo una distribución, ahora la distribución de varianzas muestrales:
P
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
5/25
8/25
2/254/25
6/25
2s
19
Como s2 es una variable aleatoria y ya conocemos su distribución, podemos calcular su esperanza, la media de las varianzas muestrales:
425/10025
1)(
25
1
22 i
issE
La varianza
poblacional es:
22 )( sEObserva que ahora:
Decimos entonces que el Decimos entonces que el estimadorestimador s s2 2 de de 22 es es sesgadosesgado..
2020
Cuasivarianzas Cuasivarianzas
muestralesmuestrales Segundo elemento de la muestraSegundo elemento de la muestra
66 88 1010 1212 1414
PrimerPrimer
elemento elemento de la de la
muestramuestra
66 0 22 88 1818 3232
88 22 0 22 88 1818
1010 88 22 0 22 88
1212 1818 88 22 0 22
1414 3232 1818 88 22 0
Definamos el estimador cuasivarianza o seudovarianza muestral:Solo se distingue de la varianza muestral en dividir entre (n-1) en vez de n.
2*s
n
jj xx
ns
1
22* )(
1
1
21
Tendremos ahora que:
825/20025
1)(
25
1
2*
2*
iissE
22* )( sE
De modo que la cuasivarianza muestral es un estimador insesgado para la varianza poblacional:
22
Resumiendo: dada una población de tamaño N, tenemos como parámetros de una variable aleatoria X de nuestro interés a la media poblacional y la varianza poblacional.
N
iiN x
Nxxx
NXE
121
1)...(
1)(
23
Sea una muestra con reposición de tamaño n de la población:
La media muestral:
será un estimador insesgado de la media poblacional.
La varianza muestral:
será un estimador sesgado de la varianza poblacional.
Y la cuasivarianza muestral:
será un estimador insesgado de la varianza poblacional.
n
jj xx
ns
1
22 )(1
24
Muestreo desde una población normal
Sea X una variable aleatoria que se distribuye en una población como una normal con media y varianza 2, es decir N(, ).
Tomemos una muestra aleatoria de tamaño n de esta población normal.
¿Cuál será la varianza muestral de la distribución muestral de ?x
25
2 )()( XVarXVar i
Primero observemos que:
De modo que la varianza de la distribución de la media muestral será:
nn
xVarn
xn
VarxVar
n
i
n
ii
n
ii
2
1
22
12
1
1
)(11
)(
)()( 2 XVarabaXVar Y además suponemos independencia entre las variables Xi
26
Si la muestra aleatoria x1, x2, ..., xn se toma a
partir de una población normal con media y
varianza 2, la media muestral tendrá
distribución normal con media y varianza 2/n, N(, /n).
Vemos entonces que la distribución de la media muestral tiene una dispersión menor alrededor de la media poblacional y cuanto más grande es la muestra, menor es la varianza.
27
Distribución muestral de la media
Veremos primero el caso de que la distribución subyacente sea normal, con media y varianza
La media de la distribución muestral de medias es
La varianza de la distribución muestral de medias es
2 / n
2
La forma de la distribución muestral de la media es normal.
Nota: La desviación típica de la distribución muestral suele ser denominada: error típico de tal estadístico (v.g., “error típico de la media”, etc.)
Veamos varios ejemplos donde iremos variando el tamaño n de las muestras.
28
Distribución muestral de la media. Ejemplo 1
N10
400
300
200
100
0
Desv. típ. = 4.75
Media = 99.9
N = 3600.00
Distribución poblacional subyacente (dist. Normal):
Media = 100
Varianza = 225
Desv. típica = 15
Distribución muestral de la media:
Tamaño muestral =10
Media = 100
Varianza = 225/10 =22.5
Desv.típica = 22.5 4.74
La línea (en este y sucesivos ejemplos) es una curva normal
En este y sucesivos gráficos: Número de muestras n
29
Distribución muestral de la media. Ejemplo 2
N20
500
400
300
200
100
0
Desv. típ. = 3.36
Media = 100.0
N = 3600.00
Distribución poblacional subyacente (dist. Normal):
Media = 100
Desv. Típica = 15
Distribución muestral de la media:
Tamaño muestral = 20
Media = 100
Varianza = 225/20 = 11.3
Desv. típica = 3.35
30
Distribución muestral de la media. Ejemplo 3
N50
700
600
500
400
300
200
100
0
Desv. típ. = 2.12
Media = 99.95
N = 3600.00
Distribución poblacional subyacente (dist. Normal):
Media = 100
Desv. Típica = 15
Distribución muestral de la media:
Tamaño muestral = 50
Media = 100
Varianza = 225/50 = 4.5
Desv. típica = 2.12
31
Distribución muestral de la media
Veamos ahora el caso en que la distribución subyacente sea arbitraria, si bien sabemos que la media es y la varianza es
La media de la distribución muestral de medias es
La varianza de la distribución muestral de medias es
2 / n
2
La forma de la distribución muestral de la media TAMBIÉN tiende a ser normal. En concreto, la distribución muestral se acercará más y más a la distribución normal (media y varianza 2/n) a medida que se aumente el tamaño de cada muestra.
32
Veamos aparecer la distribución normal a partir de una población uniforme
• Aunque una variable aleatoria no posea distribución normal, ciertos estadísticos/estimadores calculados sobre muestras elegidas al azar sí que poseen una distribución normal.
• Es decir, tengan las distribución que tengan nuestros datos, los ‘objetos’ que resumen la información de una muestra, posiblemente tengan distribución normal.
• Como ilustración mostramos una variable que presenta valores distribuidos más o menos uniformemente sobre el intervalo 150-190. Como es de esperar la media es cercana a 170. El histograma no se parece en nada a una distribución normal con la misma media y desviación típica.
33
• A continuación elegimos aleatoriamente grupos/muestras de 10 observaciones de las anteriores y calculamos el promedio.
• Para cada grupo de 10 obtenemos entonces una nueva medición, la media muestral.
• Observa que las nuevas cantidades están más o menos cerca de la media de la variable original que era 170.
• Repitamos el proceso un número elevado de veces y pintamos la distribución de la nueva variable aleatoria.
Muestra
1ª 2ª 3ª185 190 179
174 169 163
167 170 167
160 159 152
172 179 178
183 175 183
188 159 155
178 152 165
152 185 185
175 152 152
173 169 168 …
34
• La distribución de las medias muestrales sí que tiene distribución aproximadamente normal.
• La media de esta nueva variable (promedio muestral) es muy parecida a la de la variable original.
• Las observaciones de la nueva variable están menos dispersas. Además la desviación típica es aproximadamente ‘raíz de 10’ veces más pequeña. Llamamos error estándar a la desviación típica de esta nueva variable.
35
Distribuciones para muestras grandes
Cuando el tamaño de la muestra es grande, independientemente de que la variable aleatoria de nuestro interés en la población se distribuya o no como una normal, podemos derivar un número de propiedades gracias a la LEY DE LOS GRANDES NUMEROS y el TEOREMA CENTRAL DEL LIMITE.
36
Distribuciones para muestras grandes: teorema central del límite
• Dada una v.a. cualquiera, si extraemos muestras de tamaño n, y calculamos los promedios muestrales, entonces:
• Dichos promedios tienen distribución aproximadamente normal;
• La media de los promedios muestrales es la misma que la de la variable original.
• La desviación típica de los promedios disminuye en un factor “raíz de n” (error estándar).
• Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito.– Este teorema justifica la importancia de la distribución normal.
– Sea lo que sea lo que midamos, cuando se promedie sobre una muestra grande (n > 30) nos va a aparecer de manera natural la distribución normal.
37
Teorema central del límiteSea x1, x2, ..., xn una muestra aleatoria de observaciones
tomadas de la misma distribución y sea E(Xi) = y
Var(Xi) = 2.
Entonces la distribución muestral de la variable aleatoria:
converge a la normal standard N(0, 1) cuando n tiende a infinito. El TCL se cumple aún cuando la distribución desde la que se toman las observaciones no sea normal. Esto significa que si nosotros nos aseguramos que el tamaño de la muestra es grande, entonces podemos usar la variable Zn para responder preguntas acerca de la población de la cual provienen las observaciones.
n
xZn
/
)(
38
Distribución muestral de la media. Ejemplo 4
Distribución poblacional subyacente (dist. Gamma):
Media = 100
Varianza = 100
0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.045
80 85 90 95 100 105 110 115 120
0,)(
)( 1
xexp
qxf qxp
p
q
pXE ][
2][
q
pXVar
39
Distribución muestral de la media. Ejemplo 4
DISGAMMA
500
400
300
200
100
0
Desv. típ. = 3.12
Media = 100.0
N = 3600.00
Distribución poblacional subyacente (dist. GAMMA):
Media = 100
Varianza = 100
Distribución muestral de la media:
Tamaño muestral = 10
Media = 100
Varianza = 100/10 = 10
Desv. típica = 10 3.16
40
Distribución muestral de la media. Ejemplo 5
Distribución poblacional (dist. EXPONENCIAL):
Media = 0.1 = 1/
Varianza = 0.01 = 1/2
0
2
4
6
8
10
12
0 0.1 0.2 0.3 0.4 0.5 0.6
41
Distribución muestral de la media. Ejemplo 5a
EXPON10
.244.231
.219.206
.194.181
.169.156
.144.131
.119.106
.094.081
.069.056
.044.031
400
300
200
100
0
Desv. típ. = .03
Media = .100
N = 3600.00
Distribución muestral de la media:
Tamaño muestral = 10
Media = 0.1
Varianza = 0.01/10 = 0.001
Desv. típica = 0.03
Distribución poblacional (dist. EXPONENCIAL):
Media = 0.1=1/
Varianza = 0.01 = 1/2
Observad que la dist. muestral se aproxima a la normal
42
Distribución muestral de la media. Ejemplo 5b
Distribución muestral de la media:
Tamaño muestral = 20
Media = 0.1
Varianza = 0.01/20 = 0.0005
Desv. típica = 0.022
EXPON20
500
400
300
200
100
0
Desv. típ. = .02
Media = .099
N = 3600.00
Distribución poblacional (dist. EXPONENCIAL):
Media = 0.1 = 1/
Varianza = 0.01 = 1/2
Observad que la distribución muestral se aproxima más a la normal (al elevar el tamaño muestral).
43
Algunas distribuciones usadas en inferenciaAlgunas distribuciones usadas en inferencia
Distribución Ji-Cuadrado o Chi-cuadrado o 2 de Pearson con “n” grados de libertad.Sean X1 , X2 , ... ,Xn n variables aleatorias continuas independientes tal que Xi = N (0,1) con i = 1, ..., n (i.i.d.). Definamos la variable aleatoria:
n
iniXY
1
22
0,
22
)(2
21
2
xn
eyyf n
yn
YSu densidad de probabilidadserá:
44
La función gamma es:
1.
2.
0
1 dyey y
nYE nYVar 22)21()(n
Y itt
nYE
nYVar 2
y
)( yfY
45
TABLA DE 2
2n
0.99 0.975 0.025 0.01n1
2
3
4
5
grados de libertadvalores acumulados de 2
n
orden percentílico
p
46
Distribución muestral del estadístico
Cuando las distribución de la que obtenemos la varianza muestral es normal, el estadístico anterior se distribuye según la distribución chi-cuadrado con n -1 grados de libertad.
Es fácil de demostrar
2
2*)1(
sn
47
22
2
1 como distribuye se
)1,0( como distribuye se
),( como distribuyese Si
xx
Nxx
NX
2*
11
2* s)1(
1
1s 22
nxxxxn
n
i
n
i
212 como distribuye se
)1( 2*
nsn
n
iniX
1
22
Tipificando
48
Otra distribución que aparece en inferencia es lat-Student, tn
Student era el seudónimo de W.S. Gosset, un pionero estadista que trabajó en la Cervecería Guiness de Dublín.
Sea X v.a.c. tal que X ~ N (0,1)Y v.a.c. tal que Y ~ 2
n
nY
Xtn
tn
n
ntn
tf
n
T ,
2
12
1
)(
2
12
Con función de densidad de probabilidad:
49
0tE 2
n
ntVar
50
TABLA DE LA DISTRIBUCION DE t (Student)
t.55 t.60 t.99 t.995n1
2
3
4
5
orden percentílico
grados de libertad
valores
acumulados de tp
tp
51
Distribución muestral de
Cuando la distribución de la que obtenemos las medias muestrales es normal, el estadístico anterior, se distribuye según la distribución t de Student con tn-1 grados de libertad.
Cuando la distribución de la que obtenemos las medias muestrales no es normal, el estadístico anterior, se distribuye como una normal tipificada para valores de n > 30.
Nota: comparar con el teorema central del límite.
ns
x
/
52
La distribución F de Fisher o F-Snedecor es otra distribución que aparece con frecuencia en inferencia:sea X v.a.c. tal que X ~ 2
n
Y v.a.c. tal que Y ~ 2m independientes
Definamos ),( mnF
mYnX
Z
0,)(
22
2)( 2
12
2/2/
zmnz
mn
mnmn
zfmnn
nn
Z
53
2
m
mZE
)()()(42
222
2
mmnmnm
ZV
(m,n)
54
Distribución muestral del estimador
Cuando las distribuciones de la que obtenemos las varianzas muestrales son normales:
y extraemos dos muestras de tamaño n y m respectivamente. El estadístico anterior se distribuye según la distribución F de Fisher con n - 1 grados de libertad en el numerador y m -1 grados de libertad en el denominador, Fn-1, m-1.
22*
22*
/
/
yy
xx
s
s
),(),( yyxx NyN
55
Sea un estadístico ( función de la muestra ) que utilizamos para estimar el valor de .
Observa que el estadístico:
es una función que depende de la muestra y lo llamaremos estimador. El valor concreto de es la estimación.
Hay dos tipos básicos de estimación: puntual y por intervalo de confianza.
Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra.
Estimación
),...,,(ˆ21 nXXXT
56
-Estimación puntual
Provee un solo valor, un valor concreto para la estimación.
Un estimador puntual es simplemente un estadístico (media aritmética, varianza, etc.) que se emplea para estimar parámetros (media poblacional, varianza poblacional, etc.).
Por ejemplo, cuando obtenemos una media aritmética a partir de una muestra, tal valor puede ser empleado como un estimador para el valor de la media poblacional.
Algunos autores comparan los estimadores con los lanzamientos en una diana: el círculo central sería el valor real del parámetro.
57
Hablaremos de nivel de confianza 1-α cuando en el intervalo se encuentre el valor del estimador con probabilidad 1-α.
– Observa que la probabilidad de error (no contener al parámetro) es α.
– En general el tamaño del intervalo disminuye con el tamaño muestral y aumenta con 1-α.
– En todo intervalo de confianza hay una noticia buena y otra mala:• La buena: hemos usado una técnica que en % alto de casos acierta.• La mala: no sabemos si ha acertado en nuestro caso.
-Por intervalo
Determina dos valores (límites de confianza) entre los que acepta puede estar el valor del estimador.
58
Métodos de estimación puntual
Método de los momentosMétodo de máxima verosimilitudMétodo de mínimos cuadrados(Lo veremos más adelante en el tema de regresión)
Hemos visto que un estimador de la media poblacional es la media muestral y de la varianza poblacional es la cuasivarianza muestral. Pero, ¿cómo determinar un estimador cuando no se trata de la media o la varianza?Por ejemplo, supongamos una población con función densidad:
0,0)1(
)( 1
x
xxf
¿Cómo estimar el parámetro θ?
59
Método de los momentos
Si una distribución tiene k parámetros, el procedimiento consiste en calcular los primeros k momentos muestrales de la distribución y usarlos como estimadores de los correspondientes momentos poblacionales.
La media poblacional es el primer momento de la distribución alrededor del origen. La media muestral es el promedio aritmético de las observaciones muestrales x1, x2, ..., xn. El método de los momentos toma a la media muestral como una estimación de la media poblacional.
De la misma manera, la varianza de una variable aleatoria es 2 y se denomina segundo momento alrededor de la media. La cuasivarianza muestral s2
* se usa como un estimador de la varianza poblacional de la distribución.
x
60
Recordemos que el momento muestral centrado en el origen de orden r se define como:
n
i
rir x
nm
1
1
Para el ejemplo anterior, los momentos de primer orden centrados en el origen de la población y la muestra son respectivamente:
n
iin
ii
xn
xn
m
dxx
x
1
11
11
11
1
11
)1(
1ˆ
1
n
iix
nLuego podemos usar como estimador:
Igualando:
61
Método de máxima verosimilitud
Sea X una variable aleatoria cuya distribución de probabilidad depende del parámetro desconocido .
Sea la función de densidad de probabilidad de la población f(x, ). Se toma una muestra aleatoria x1, x2, ..., xn de observaciones independientes y se calcula la densidad conjunta de la muestra: la función de verosimilitud y se expresa como:
n
iin
nn
xf, θ,...,xL(x
, θf(x... , θ f(x, θf(x, θ,...,xL(x
11
211
,)
))))
62
MV
L
Si de una población cualquiera hemos obtenido una muestra particular, es razonable pensar que la muestra obtenida era la que mayor probabilidad tenía de ser escogida.
Valor del estimador máxima verosimilitud
Funciónmáxima verosimilitud
63
Si los valores posibles de son discretos, el procedimiento es evaluar L(x,) para cada valor posible y elegir el valor de para el cual L alcanza su máximo.
Por otro lado, si L(x,) es diferenciable se puede maximizar L sobre el rango de valores posibles de obteniéndose condiciones de primer y segundo orden.
En la práctica es más fácil maximizar el logaritmo de la función de verosimilitud. Como la función logaritmo es una transformación monótona, maximizar L(x,) es equivalente a maximizar Ln(L(x,)).
64
Ejemplo: Sea una urna con bolas rojas y blancas en proporciones desconocidas. Extraemos 10 bolas con reemplazo (n = 10) y obtenemos 3R y 7B. Llamemos p a la proporción de R en la urna.
!7!3!10
)1()1()( 73107,3
73 ppPRpppL
0!7!3!10
)103()1()( 62
pppppL
Soluciones: p = 0 p = 1 p = 3/10
Imposible porque hemos extraído 3R
Imposible porque hemos extraído 7B
Que además hace máxima la función L(p)
0)(
10/3
2
2
pp
pL
65
0,0)1(
)( 1
x
xxfVolvamos al ejemplo:
n
iin
n
in
ii
n
in
xLnnLn, θ,...,xL(xLn
xxf, θ,...,xL(x
11
1
1
11
1)1()
1,)
0ˆ
)
1
ˆ
01)
2ˆ
21
2
1
1
1
nθ
, θ,...,xL(xLn
xLn
n
xLnn
θ, θ,...,xL(xLn
n
n
ii
n
ii
n
Construimos la función máxima verosimilitud
Extraemos logaritmos a ambos lados
Derivamos e igualamos a cero para encontrar el máximo de la función
Observemos que no coincide con el estimador que nos propone el método de los momentos.
66
Propiedades deseables en los estimadores
1.Ausencia de sesgo
2.Consistencia
3.Eficiencia
4.Suficiencia
Los dos procedimientos que repasamos hace un momento (más el método de mínimos cuadrados que veremos luego) eligen a la media muestral como estimador del parámetro . Sin embargo, otras veces obtenemos estimadores distintos para el mismo parámetro, como ocurre con 2. O como hemos visto para el caso del parámetro del ejemplo.
En esos casos, ¿cuál es el mejor estimador?
67
1. Estimador insesgado. Diremos que es un estimador insesgado de si:
Vimos que la media muestral es un estimador insesgado de la media poblacional.
Vimos que la varianza muestral no es un estimador insesgado de la varianza poblacional, es sesgado.
Recuerda que construimos la cuasivarianza que sí es un estimador insesgado de la varianza poblacional.
nXXTEE ,...,ˆ1
ˆ)( Eb se llama sesgo de
68
Sea una población N(, ) y construyamos los estimadores de varianza: varianza muestral y cuasivarianza muestral.
n
jj xx
ns
1
22*2 )(
11
n
jj xx
ns
1
221 )(
1
Vimos que si la población es normal, entonces el estimador:
212 como distribuye se
)1( 2*
nsn
sesgo
nnn
En
nE
En
sEE n
222
2]
21
2
1]ˆ[
1]ˆ[
[1
][]ˆ[
21
2*2
69
Propiedades en muestras grandes
Muchos estimadores no tienen buenas propiedades para muestras pequeñas, pero cuando el tamaño muestral aumenta, muchas de las propiedades deseables pueden cumplirse. En esta situación se habla de propiedades asintóticas de los estimadores.
Como el estimador va a depender del tamaño de la muestra, vamos a expresarlo utilizando el símbolo
Por ejemplo, el sesgo puede depender del tamaño de la muestra. Si el sesgo tiende a cero cuando el tamaño de la muestra crece hasta infinito decimos que el estimador es asintóticamente insesgado.
n
70
Ausencia de sesgo asintótica
Definición: Un estimador se dice que es asintóticamente insesgado si
o equivalentemente:
n
]ˆ[lim nn
E
0]]ˆ[[lim
nn
E
71
2. Consistencia. Se dice que un estimador es consistente si se cumple que
Es decir, a medida que se incrementa el tamaño muestral, el estimador se acerca más y más al valor del parámetro. La “consistencia” es una propiedad asintótica.
Tanto la media muestral como la cuasivarianza son estimadores consistentes. La varianza muestral es un estimador consistente de la varianza poblacional, dado que a medida que el tamaño muestral se incrementa, el sesgo disminuye.
1ˆlim
nn
P
]ˆ[ nE 0]ˆ[ nVar
o 0ˆlim
nn
P
72
Ejemplo: supongamos que la población es no normal y de media desconocida. Construyamos estadísticos media muestral:
Para cada tamaño muestral n tenemos:
)( nxEn
xVar n
2
)(
Por el teorema de Chebychev:
nk
xPn
xP
kxVarkxExP
nn
n
nnn
con
1lim1
11)()(
2
2
2
La media muestral es un estimador consistente de la media poblacional.
73
3. Eficiencia. Utilizar las varianzas de los estimadores insesgados como una forma de elegir entre ellos.
Si , decimos que es un estimador insesgado eficiente o de varianza mínima para , si cualquier otro estimador insesgado de , digamos , verifica que:
ˆE
~ˆ VarVar
~
La varianza de una variable aleatoria mide la dispersión alrededor de la media. Menor varianza para una variable aleatoria significa que, en promedio, sus valores fluctúan poco alrededor de la media comparados con los valores de otra variable aleatoria con la misma media y mayor varianza. Menor varianza implica mayor precisión y entonces el estimador que tenga menor varianza es claramente más deseable porque, en promedio, está mas cerca del verdadero valor de .
74
Sean y dos estimadores insesgados del parámetro .
Si Var ( ) < Var ( ) decimos que es más eficiente que .
El cociente Var ( ) / Var ( ) se llama eficiencia relativa.
Entre todos los estimadores insesgados de , el que tenga menor varianza es el estimador insesgado de mínima varianza. Pero, ¿cómo podemos encontrarlo?
1 2
1212
21
75
2
2
2
),(ln
)('1ˆ
xf
nE
bVar
Cota de Cramér-Rao:
Sea una población con densidad de probabilidad f(x, ), entonces se cumple que:
Si un estimador tiene una varianza que coincide con la cota de Cramér-Rao se dice que es un estimador eficiente.
Si además en insesgado, se dice que es un estimador de eficiencia absoluta o completa.
76
Ejemplo: Sea una población que se distribuye normalmente con desviación típica conocida y media desconocida. Como estimador utilizaremos la media muestral. Sabemos que la distribución del estimador es también una normal con la misma media y varianza . Luego el estimador es insesgado: b() = 0. Calculemos la cota de Cramér-Rao (CCR).
2 / n
CCRxVarnxf
nE
CCR
Exf
E
xfxxf
xxf
xxf
)(;),(ln
1
11),(Ln
1),(Ln;
),(Ln
2)(
2
1Ln),(Ln;
2)(
exp2
1),(
2
2
2
222
2
22
2
2
2
2
2
2
77
Eficiencia asintóticaCuando trabajamos con estimadores consistentes el rango de valores de para el cual un estimador es más eficiente que otro disminuye a medida que n crece. En el límite cuando n tiene a infinito la distribución de todos los estimadores consistentes colapsa en el verdadero parámetro . Entonces deberíamos preferir aquel estimador que se aproxime más rápidamente (es decir, aquel cuya varianza converge más rápido a cero)
78
En términos intuitivos, un estimador consistente es asintóticamente eficiente si para muestras grandes su varianza es menor que la de cualquier otro estimador consistente.
Definición: un estimador consistente se dice que es asintóticamente eficiente si para cualquier otro estimador el
1
2
1)ˆ(
)ˆ(
1
2
Var
Varlimn
79
4. Suficiencia. Diremos que es un estimador suficiente del parámetro si dicho estimador basta por sí solo para estimar . Si el conocimiento pormenorizado de los elementos la muestra no añade ninguna información sobre .
Ejemplo: Supongamos una población binomial de la que desconocemos la proporción = p. Extraemos una muestra de tamaño n = 50.
1}{max)(;35)(
fracaso es si0
éxito es si1
2
50
11
ii
i
i
xXTxXT
x
Estimador suficiente, p aprox. 35/50.
80
Error cuadrático medio (ECM)
Consideremos dos estimadores, uno insesgado y el otro es sesgado pero con una varianza bastante menor, de modo que en promedio puede estar más cerca de la verdadera media que el estimador insesgado.
En esta situación podríamos admitir algo de sesgo con la intención de obtener una mayor precisión en la estimación (menor varianza del estimador).
Una medida que refleja este compromiso (“trade off”) entre ausencia de sesgo y varianza es el ECM.
81
El error cuadrático medio de un estimador se define como ECM ( ) = E[( - )2] . Esto es la esperanza de la desviación al cuadrado del estimador con respecto al parámetro de interés.
Si , son dos estimadores alternativos de y ECM ( ) < ECM ( ) entonces se dice que es eficiente en el sentido del ECM comparado con . Si los dos son insesgados, entonces es más eficiente.
Entre todos los posibles estimadores de , aquel que tenga el menor ECM es el llamado estimador de mínimo error cuadrático medio.
ECM = Var( ) + sesgo2.
es decir que el ECM es igual a la suma de la varianza más el sesgo al cuadrado.
21
12 1
21
82
22 ˆ)ˆ()ˆ(ˆ])ˆ[()ˆ( EEEEECM
2
0
constante
22
)ˆ()ˆ(
])ˆ([)ˆ(ˆ2])ˆ([])ˆ(ˆ[
bVar
EEEEEEE
)ˆ( 2E
2 1
)ˆ( 1 E
sesgo 2
Compromiso entre varianza ysesgo de los estimadores.
Variable aleatoria Constante
83
Ejemplos: Supongamos una población de la que conocemos la media y la varianza (= 100). Tomemos muestras n = 10. Consideremos los dos estimadores de la media siguientes:
n
ii
n
ii x
nx
nx
12
11 1
1ˆ;1ˆ
1010100
)ˆ(
)ˆ(1
)ˆ(
][1
]ˆ[2
12
11
21
11
nECM
nVar
nVar
xEn
E
n
i
i
n
i
1211000
)1()ˆ(
)1()ˆ(
)1(1
)ˆ(
1][
11
]ˆ[2
2
22
1
2
2
11
22
12
nn
ECM
nn
Varn
Var
nn
xEn
E
n
i
i
n
i
Dependiendo de la media de la población nos interesará tomar un estimador u otro.
84
Los estimadores máximo verosímiles son:
Asintóticamente insesgadosAsintóticamente normalesAsintóticamente eficientesInvariantes bajo transformaciones biunívocasSi estimador suficiente, es suficiente
MV
Propiedades de los estimadores de máxima verosimilitud
85
Estimación por intervalos de confianza.En este caso, en lugar de indicar simplemente un único valor como estimación del parámetro poblacional , lo que haremos es ofrecer un intervalo de valores en el que se tiene cierta probabilidad (confianza) de que se encuentre el verdadero valor de .
Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el parámetro. Límites de los intervalos de confianza: Son los dos valores extremos del intervalo de confianza. Amplitud del intervalo o margen de error...
ˆˆ
86
Ahora bien, ¿cuán grande debe de ser el intervalo de confianza? Evidentemente, si decimos que el intervalo de confianza va de menos infinito a más infinito, seguro que acertamos...Pero eso no es muy útil. El caso extremo contrario es la estimación puntual, donde la amplitud del intervalo es nula.
La idea es crear unos intervalos de confianza de manera que sepamos en qué porcentaje de casos el valor del parámetro poblacional estará dentro del intervalo crítico.
Es decir, dar una medida de bondad de la estimación, la probabilidad de que el valor real se encuentre dentro del intervalo.
1)ˆˆ(P
Coeficiente o grado de confianza
Nivel de significación (N. S.)
87
¿Y cómo fijamos tal probabilidad? Usualmente se asume un porcentaje del 95%. Al calcular un intervalo de confianza al 95%, ello quiere decir que el 95% de las veces que repitamos el proceso de muestreo (y calculemos el estadístico), el valor del parámetro poblacional estará dentro de tal intervalo. A ese usual nivel de significación se le denomina confianza casi significativa.
Otros casos usuales son:
confianza significativa: 99%.
confianza muy significativa: 99.5%
88
Intervalos de confianza para la media:
Supongamos que la población sigue una distribución normal,
con cierta media y cierta desviación típica . Utilizaremos como
estimador puntual para la media poblacional la media muestral .
Sabemos que:
(1). La media de la distribución muestral de medias es la media poblacional .
(2). La varianza de la distribución muestral de medias es 2/n. O lo que es lo mismo, la desviación típica de la distribución muestral de medias es /n.
Veremos dos casos para calcular intervalos de confianza:
(1) Conocemos la desviación típica y (2) no la conocemos.
x
89
(1) La población es normal y conocemos :
n
iix
nx
1
1
1,0/
Nn
xz
nNx /,
Tipificamos la variable:
Sabemos cómo se distribuye la variable aleatoria muestral y a partir de esa distribución podemos determinar el intervalo de confianza.
Supongamos que deseamos tener un nivel de significación .
90
-z/2
/2/21-
z/20
1,0N
1
1/
2/2/
2/2/
zn
xzn
xP
zn
xzP
91
2/2/
zn
xzn
x
Así, una estimación puntual de la media poblacional se obtendría de una muestra de n elementos haciendo la media muestral. Mientras que un intervalo de confianza con nivel de significación sería:
Nota: Observa que podemos determinar el tamaño necesario de una muestra para obtener una amplitud del intervalo de confianza determinada.
2
2/
znSemiamplitud delintervalo
92
Ejemplo: n = 100
1.96 1.96 025.0025.0 zyz
20x 5 Confianza = 0.95 = 0.05
02.1996.1100
5202/
z
nx
98.2096.1100
5202/
z
nx
)98.20;02.19(
Buscamos en las tablas N(0,1) los valores de z que dejan 0.05 / 2 = 0.025 de probabilidad por abajo y 0.05 / 2 = 0.025 de probabilidad por arriba:
93
Observemos cómo a medida que el tamaño muestral aumenta, la amplitud del intervalo disminuye. (Evidentemente, esto es general, no sólo para la media.) Veamos, un ejemplo. Supongamos que deseamos 1 - = 0.95:
Caso 1. Media muestral =10, varianza poblacional = 4, tamaño muestral =12.
Caso 2. Media muestral =10, varianza poblacional = 4, tamaño muestral = 20.
2 210 ( 1.96) 10 1.96 9.12 10.88 0.95
20 20P P
2 210 ( 1.96) 10 1.96 8.87 11.13 0.95
12 12P P
94
Supongamos ahora que deseamos que 1 - = 0.99. En tal caso, tendremos más seguridad de que el parámetro de interés se halle en los límites del intervalo. El problema es que incrementar la confianza aumenta la amplitud del intervalo.
Caso 1. Media muestral = 10, varianza poblacional = 4, tamaño muestral = 12. Intervalo al 95%
Caso 2. Media muestral = 10, varianza poblacional =4, tamaño muestral = 12. Intervalo al 99%
2 210 ( 2.57) 10 2.57 8.52 11.48 0.99
12 12P P
2 210 ( 1.96) 10 1.96 8.87 11.13 0.95
12 12P P
95
Por el tema anterior sabemos que la distribución muestral del estadístico:
no es una distribución normal, sino una distribución t de Student con n -1 grados de libertad.
(2) Población normal y desconocemos :
ns
x
/
1
1/
2/2/
2/2/
tn
sxt
n
sxP
tns
xtP
96
En definitiva, para la media (cuando conocemos la varianza poblacional), tenemos :
Pero si no conocemos la varianza poblacional (el caso realista), tenemos como intervalo:
2/2/
zn
xzn
x
2/2/ tn
sxt
n
sx
97
Si n es grande (n > 30), la distribución del estadístico
será prácticamente una distribución normal N(0,1). Y el
intervalo de confianza será:
Distribución de la población desconocida y n > 30
ns
x
/
2/2/
zn
xzn
x
Nota: Observa, en particular, que para n > 30 la distribución t de Student es prácticamente una normal.
98
212
2*
1
22*
)1(queVimos
)(1
1 :Estimador
),(Población
n
n
ii
sn
xxn
s
N
22/1;1
2*2
22/;1
2* )1()1(
nn
snsn
Intervalo de confianza para las varianzas:
Intervalo de confianza:
99
Ejemplo: n = 31
222 de tablaslas de 8.16 ; 0.47025.0;30975.0;30
4* s = 0.05
8.16
430
0.47
430 22
2 57.2821.10 2
n -1 = 30
Si se desea estimar = 2 3.20 5.35
100
2. Conociendo la distribución en el muestreo de y poseyendo
una estimación puntual, hallar los percentiles x y x 1- de
Resumen: Procedimiento para determinar el intervalo de confianza
2/
b
1. Fijar el nivel de significación
Si es simétrica el intervalo de confianza es simétrico en
x y en probabilidad.
)ˆ(f
2/
)ˆ(f Si es asimétrica el intervalo de confianza es simétrico en probabilidad solamente.
)ˆ(f
LCi LCsd d
2/ 2/
)ˆ(f
101
102
103
104
105
Intervalo de confianza para diferencia de medias
Intervalo de confianza para 12/2
2.
Intervalo de confianza para la proporción poblacional.
Mirar en capítulo 13:
106
107
108
109
110
111