muestreo 2 [Modo de compatibilidad] · Muestreo aleatorio simple Se le da la urna y se le informa...
Transcript of muestreo 2 [Modo de compatibilidad] · Muestreo aleatorio simple Se le da la urna y se le informa...
17/11/2011
1
Muestreo
Análisis de datos y gestión veterinariaAnálisis de datos y gestión veterinaria
Departamento de Producción Animal – Facultad de Veterinaria
Universidad de Córdoba
Córdoba, 16 de Noviembre de 2011
Población y muestra
Población. Conjunto completo de individuos sobre el que estamos interesados en obtener conclusiones.
Predecir los resultados
electorales en España
17/11/2011
2
Población y muestra
Población. Conjunto completo de votantes.
Predecir los resultados
electorales en EspañaN = ??
?? = millones de votantes
Población y muestra
Muestra. Subconjunto de los valores poblacionales observados.
N = ???? = millones de votantes
n = 10.000votantes
n = 10.000votantes
17/11/2011
3
Población y muestra
N = ???? = millones de votantes
calculamos estadísticos, como la edad media de los votantes de la
muestra
n = 10.000votantes
los estadísticos se utilizan como estimadores
de los parámetros de
la población, como la edad media de los votantes de la
población
Inferencias.Generalizaciones apartir de la muestra ala población.
N = ???? = millones de votantes
n = 10.000votantes
Población y muestra
?¿?¿?¿ 35,5 años ??¿?¿?
Los estadísticosson calculados y conocidos
Los parámetros son los que realmente se
quieren conocer
¿Se puede confiar en que losestadísticos sean similares alos parámetros?
35,5 años
17/11/2011
4
Población y muestra
Los parámetros no son verificables (si lo fueran, notrabajaríamos con muestras).
¿Se puede confiar en que losestadísticos sean similares alos parámetros?
Si, siempre que la muestrarepresente a la población
Población y muestra
Si, siempre que la muestrarepresente a la población
N = 12 vacas
17/11/2011
5
Población y muestra
Si, siempre que la muestrarepresente a la población
N = 12 vacas n = 6vacas
La muestra representa a la población si lascaracterísticas de la población se repiten en la muestra.
Población y muestra
La muestra representa a la población si lascaracterísticas de la población se repiten en la muestra.
N = ???? = millones de votantes
n = 10.000votantes
¿Si no sabemos cómo es la población, ni siquiera su tamaño?
La representatividad se basa en la forma enque la muestra es seleccionada (los mejoresmétodos son los que se basan en el uso planeadodel azar)
La representatividad se basa en el tamaño dela muestra (en principio, mayores tamañosmejoran la representatividad)
17/11/2011
6
Muestreo aleatorio simple
5.000 papeletas marcadas con 1
Población (N):
5.000 papeletas marcadas con 0
Muestreo aleatorio simple
Se le da la urna y se le informa que contiene un número determinado de papeletas con ceros y unos. Se le pide que estime sus proporciones
Agita la urna (garantizamos la aleatoriedad)
Saca 1.000 papeletassin reposición (n)
17/11/2011
7
Muestreo aleatorio simple
Dado que todos los elementos de la urna tenían la misma probabilidad de ser seleccionados, el muestreo es aleatorio, por tanto:
% unos en la muestra = % unos en la urna + error aleatorio
Si el muestreo es aleatorio:
Estimador = Parámetro + Error aleatorio
Muestreo aleatorio simple
521 unos en la muestra = 500 + 21
Si el muestreo es aleatorio:
Estimador = Parámetro + Error aleatorio
491 unos en la muestra = 500 - 9
507 unos en la muestra = 500 + 7
17/11/2011
8
Distribución en el muestreo de la media muestral
6 papeletas marcadas con:2, 4, 6, 6, 7 y 8
Población (N):
µ = 5,5
Agitamos la urna…
Sacamos 4 papeletas (n)
2, 4, 6, 6
media = 4,5
Media = µ + error aleatorio4,5 = 5,5 -1
Distribución en el muestreo de la media muestral
Repetimos…
17/11/2011
9
Agitamos la urna…
Sacamos 4 papeletas (n)
Distribución en el muestreo de la media muestral
2, 4, 6, 8
media = 5,0
Media = µ + error aleatorio4,5 = 5,5 -1
5,0 = 5,5 - 0,5Repetimos…
Distribución en el muestreo de la media muestral
Agitamos la urna…
Sacamos 4 papeletas (n)
2, 6, 7, 8
media = 5,75
Media = µ + error aleatorio4,5 = 5,5 -1
5,0 = 5,5 - 0,55,75 = 5,5 + 0,25
17/11/2011
10
Distribución en el muestreo de la media muestral
…Si hay 6 papeletas….…y se extraen sin reposición
4…¿cuántas muestras se
pueden extraer?
La variable “sacamos 4papeletas de la urna”es una variable aleatoriacomo las estudiadas entemas anteriores (cadaextracción es una variablealeatoria).
La distribución de probabilidades de los posibles valores quepuede tomar el estadístico (en este caso, la media) a lo largo detodas las posibles muestras con el mismo número deobservaciones (se denomina distribución muestral) sirve paraestimar el error aleatorio a través del error estándar (yproporciona la base para la inferencia).
Distribución en el muestreo de la media muestralMuestra Media muestral
2, 4, 6, 6 4,502, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 7, 8 5,252, 6, 6, 7 5,252, 6, 6, 8 5,502, 6, 7, 8 5,752, 6, 7, 8 5,754, 6, 6, 7 5,754, 6, 6, 8 6,004, 6, 7, 8 6,254, 6, 7, 8 6,256, 6, 7, 8 6,75
Todas las muestras tienen la misma
probabilidad de ser seleccionadas (1/15)
17/11/2011
11
Distribución en el muestreo de la media muestral
Muestra Media muestral2, 4, 6, 6 4,502, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 7, 8 5,252, 6, 6, 7 5,252, 6, 6, 8 5,502, 6, 7, 8 5,752, 6, 7, 8 5,754, 6, 6, 7 5,754, 6, 6, 8 6,004, 6, 7, 8 6,254, 6, 7, 8 6,256, 6, 7, 8 6,75
Todas las muestras tienen la misma
probabilidad de ser seleccionadas (1/15)
La distribución muestral de la media (función de probabilidad):
Px(4,50) = 1/15 Px(6,25) = 2/15Px(4,75) = 2/15 Px(6,75) = 1/15Px(5,00) = 2/15Px(5,25) = 2/15Px(5,50) = 1/15Px(5,75) = 3/15Px(6,00) = 1/15
Distribución en el muestreo de la media muestral
Px(4,50) = 1/15 Px(6,25) = 2/15 Px(5,00) = 2/15Px(5,25) = 2/15 Px(4,75) = 2/15 Px(6,75) = 1/15Px(5,50) = 1/15 Px(5,75) = 3/15 Px(6,00) = 1/15
Px(x)
3/15
2/15
1/15
0 4,5 5,5 6,5 7,5
El valor esperado de la media muestral es:
Por tanto, el valor esperado de la media muestral es lamedia poblacional
1 2 1( ) ( ) (4,5) (4,75) ... (6,75) 5,5
15 15 15E X xPx x
= = + + + =
∑
17/11/2011
12
Distribución en el muestreo de la media muestral
Sacamos 4 papeletas (n)
X2 X3 X4X1Se trata de 4 variables aleatorias,cuya esperanza es:
Por tanto, la suma de las 4 variables aleatorias será:
siendo n=41
n
i x
i
E X nµ=
=
∑
( ) ( ) ( ) ( )1 2 3 4 xE X E X E X E X µ= = = =
La media muestral esperada será:
( )1
1 n
x
i x
i
nE X E X
n n
µµ
=
= = =
∑
Distribución en el muestreo de la media muestral
Px(x)
3/15
2/15
1/15
0 4,5 5,5 6,5 7,5
La distribución de la media muestral está centrada en la media poblacional.
Por el teorema central del límite, sabemos además que sigue una distribución normal
17/11/2011
13
Distribución en el muestreo de la media muestral
Sacamos 4 papeletas (n)
Media = µ + error aleatorio4,5 = 5,5 -1
5,0 = 5,5 - 0,55,75 = 5,5 + 0,25
………
Cuando el número de muestras se hace muy grande, el promedio de las medias muestrales tiende a la media
poblacional (µ)
Distribución en el muestreo de la media muestral
Dado que todos los elementos de la urna tenían lamisma probabilidad de ser seleccionados, el muestreoes aleatorio, por tanto:
% unos en la muestra = % unos en la urna + error aleatorio
Si el muestreo es aleatorio:
Estimador = Parámetro + Error aleatorio
17/11/2011
14
Distribución en el muestreo de la media muestral
521 unos en la muestra = 500 + 21
Si el muestreo es aleatorio:
Estimador = Parámetro + Error aleatorio
491 unos en la muestra = 500 - 9
507 unos en la muestra = 500 + 7
Distribución en el muestreo de la media muestral
521 unos en la muestra = 500 + 21
El error aleatorio cambia con cada extracción
491 unos en la muestra = 500 - 9
507 unos en la muestra = 500 + 7
No es posible conocer cuánto medirá en unaextracción particular
Es posible calcular su tamaño probable (error estándar)
17/11/2011
15
Distribución en el muestreo de la media muestral
Px(x)
3/15
2/15
1/15
0 4,5 5,5 6,5 7,5
Es posible calcular su tamaño probable (error estándar)
Distribución en el muestreo de la media muestral
6 papeletas marcadas con:2, 4, 6, 6, 7 y 8
Población (N):
µ = 5,5
Sacamos 4 papeletas (n)
15 combinaciones Sacamos 5 papeletas (n)
6 combinaciones
17/11/2011
16
Distribución en el muestreo de la media muestral
Sacamos 5 papeletas (n)
6 combinaciones
Muestra Media muestral2, 4, 6, 6, 8 5,02, 4, 6, 6, 7 5,22, 4, 6, 7, 8 5,42, 4, 6, 7, 8 5,42, 6, 6, 7, 8 5,84, 6, 6, 7, 8 6,2
Todas las muestras tienen la misma
probabilidad de ser seleccionadas (1/6)
La distribución muestral de la media (función de probabilidad):
Px(5,0) = 1/6Px(5,2) = 1/6Px(5,4) = 1/3Px(5,8) = 1/6Px(6,2) = 1/6
Distribución en el muestreo de la media muestral
Px(x)
2/6
1/6
0 4,5 5,5 6,5 7,5
Es posible calcular su tamaño probable (error estándar)
Px(5,0) = 1/6 Px(5,2) = 1/6 Px(5,4) = 1/3Px(5,8) = 1/6 Px(6,2) = 1/6
17/11/2011
17
Distribución en el muestreo de la media muestral
Px(x)
2/6
1/6
0 4,5 5,5 6,5 7,5
Ambas distribuciones de la media muestral se centran en la media poblacional.Si n se incrementa, la varianza muestral disminuye.La varianza muestral determina el error aleatorio, y sirve para calcular su tamaño probable.
Error estándar.Indica el tamaño probable del error aleatorio.
xEEn
σ=
Distribución en el muestreo de la media muestral
Px(x)
2/6
1/6
0 4,5 5,5 6,5 7,5
Ambas distribuciones de la media muestral se centran en la media poblacional.
Si n se incrementa, la varianza muestral disminuye.
La varianza muestral determina el error aleatorio, y sirve para calcular su tamaño probable.
Error estándar.Indica el tamaño probable del error aleatorio.
xEEn
σ=
17/11/2011
18
Distribución en el muestreo de la media muestral
Siempre que el muestreo sea aleatorio:
Mientras mayor sea n, menor será el error aleatorio.
Si n respecto a N es muy pequeño, se puede asumirque los valores individuales de la muestra se distribuyenindependientemente unos de otros.
P.e. Muestra de 1.000 votantes sobre el censo total devotantes en las elecciones presidenciales españolas (Nentorno a 30 millones).
Probabilidad primera extracción = 1/30 millones
Probabilidad segunda extracción = 1/(30 millones – 1)
Probabilidad 999 extracción = 1/(30 millones – 999)
El error cometido al asumir independencia es muy pequeño,por lo que
xEEn
σ=
Distribución en el muestreo de la media muestral
Siempre que el muestreo sea aleatorio:
Mientras mayor sea n, menor será el error aleatorio.
Si n respecto a N no es muy pequeño, no se puede asumirque los valores individuales de la muestra se distribuyenindependientemente unos de otros.
P.e. Muestra de 4 sobres sobre 6 sobres.
Probabilidad primera extracción = 1/6
Probabilidad segunda extracción = 1/(6-1)
Probabilidad cuarta extracción = 1/(6-3)
El error cometido al asumir independencia es muy grande,por lo que se aplica el factor de corrección porpoblación finita (N – n)/(N – 1):
·1
x N nEE
Nn
σ −=
−
17/11/2011
19
Distribución en el muestreo de la media muestral
Si la distribución de la población es normal:
Sigue una distribución normal estándar
Si la distribución de la población no es normal pero n esgrande, Z se considera que sigue una distribución normalestándar por el teorema central del límite.
x
x
XZ
µσ−
=
Distribución en el muestreo de la media muestral
La tasa de abortos en una cooperativa lechera sigue unadistribución normal con media 12,2% y desviación típica 3,6%. Setoma una muestra aleatoria de 9 explotaciones. ¿Cuál es laprobabilidad de que la media muestral sea menor del10%?
µx = 12,2 σx = 3,6 n = 9
x
x
XZ
µσ−
=
( ) 10 1010 x x x
x x x
XP X P P Z
µ µ µσ σ σ
− − −< = < = <
3,61,2
9
x
xEEn
σσ= = = =
( ) ( )
( ) ( ) ( )
( )
10 12,210 1,83
1, 2
10 1,83 1 1,83 1 0,9664
10 0,0336
z z
P X P Z P Z
P X F F
P X
− < = < = < −
< = − = − = −
< =
xEEn
σ=
17/11/2011
20
Distribución en el muestreo de una proporción muestral
Se le da la urna y se le informa que contiene un númerodeterminado de papeletas con ceros y unos. Se le pideque estime sus proporciones
Agita la urna (garantizamos la aleatoriedad)
Saca 1.000 papeletassin reposición (n)
Distribución en el muestreo de una proporción muestral
Si en la urna hay 5.000 papeletas con ceros y 5.000papeletas con unos:
Px(1)=0,5
En la muestra (1.000), el número esperado de
unos será:
n�p = 1.000 � 0,5 = 5000
La proporción esperada será:
(n�p)/n = (1.000 � 0,5)/1.000 = 0,5
Sea X el número de éxitos en n observaciones, donde la probabilidad de éxito es p.
( ) (1 )Var X np p= −( )E X np=ˆx
Xp
n=
ˆ( )
(1 )ˆ( )
x
x
E p p
p pEE p
n
=
−=
(1 )ˆ( ) ·
1
ˆ
ˆ( )
x
x
x
p p N nEE p
n N
p pZ
EE p
− −=
−
−=
17/11/2011
21
Distribución en el muestreo de una proporción muestral
Tras una epidemia de lengua azul en Córdoba, se estima que el30% de las explotaciones resulta insegura. Se toma una muestrade 250 explotaciones para determinar la proporción de las queresultan inseguras. Hallar la probabilidad de que laproporción en la muestra esté entre el 25% y el 30%.
p = 0,30 n = 250
(1 )ˆ( )x
p pEE p
n
−=
ˆ
ˆ( )
x
x
p pZ
EE p
−=
( )ˆ ˆ ˆ
ˆ ˆ
ˆ0,25 0,35ˆ0,25 0,35
0, 25 0,35
x
x
p p p
p p
p pp pP p P
p pP Z
σ σ σ
σ σ
−− −< < = < < =
− −= < <
ˆ
(1 ) 0,30·0,60p
p p
nσ
− = = =
(1 ) 0,30·0,600,029
250
= = =
( ) ( )ˆ0, 25 0,35 1,72 1,72
(1,72) ( 1,72) 0,9573 (1 0,9573) 0,9146
x
z z
P p P Z
F F
< < = − < < =
= − − = − − =
Distribución en el muestreo de la varianza muestral
Si la distribución poblacional es normal, entonces:
sigue una distribución
( )22
1
1·1
n
x i
i
s X Xn =
= −− ∑
2
( 1)nχ −
( ) 2
2
1 ·x
x
n s
σ−
17/11/2011
22
chi-cuadrado
f(chi-cuadrado)
0 4 8 12 16 20 24
0
0,04
0,08
0,12
0,16
Distribución en el muestreo de la varianza muestral
2
( 1)nχ −
(n - 1) = grados de libertad
( )2
( 1) 1nE nχ − = − ( )2
( 1) 2( 1)nVar nχ − = −
2
5χ
Distribución en el muestreo de la varianza muestral
2
( 1)nχ −
(n - 1) = grados de libertad
( )2
( 1) 1nE nχ − = − ( )2
( 1) 2( 1)nVar nχ − = −
chi-cuadrado
f(chi-cuadrado)
0 10 20 30 40
0
0,02
0,04
0,06
0,08
0,12
10χ
17/11/2011
23
Distribución en el muestreo de la varianza muestral
Es la distribución de la suma de loscuadrados de variables aleatoriasnormales estándar independientes
2
υχ
Si la distribución poblacional es normal, entonces:
sigue una distribución 2
( 1)nχ −
( ) 2
2
1 ·x
x
n s
σ−
Distribución en el muestreo de la varianza muestral
Cuando una fábrica de piensos funciona adecuadamente, el pesode los sacos de 50 kg sigue una distribución normal condesviación típica 3,6. Se toma una muestra aleatoria de 4 sacos.¿Qué probabilidad hay de que la varianza sea superior a30?.
n = 4 σx = 3,6 σx2 = 12,96
( )
( )
22
2 2
2 2
3 3
( 1) 30( 1)30
30·36,94
12,96
x
x
x x
n s nP s P
P P
σ σ
χ χ
− −> = > =
= > = >
( ) 2
2
1 ·x
x
n s
σ− 2
( 1)nχ −
( )( )
( )
2
3
2
3
2
6,25 0,10
7,81 0,05
0,05 30 0,10x
P
P
P s
χ
χ
> =
> =
< > <
17/11/2011
24
Muestreo aleatorio simple
La inferencia basada en la media muestral es robustadebido a que si la distribución de la población de la queextrae la muestra se desvía de la normal, el error cometidoen el cálculo de probabilidades es pequeño.
La inferencia basada en la varianza muestral es muysensible a las desviaciones de la distribución de lapoblación respecto a la normal, por lo que el error cometidoen el cálculo de probabilidades es grande.
Sesgo
Estimador = Parámetro + Error aleatorio + Sesgo
17/11/2011
25
Sesgo
Estimador = Parámetro + Error aleatorio + Sesgo
Sesgo. Distorsión causada por la selección de lamuestra, que potencia o excluye cierto tipo deresultados.
Sesgo
Sesgo. Distorsión causada por la selección de lamuestra, que potencia o excluye cierto tipo deresultados.
- El sesgo se controla aleatorizando el muestreo.
- Es difícil de detectar.
- Si se detecta, tampoco se “puede” corregir.
- Cualquier tipo de selección provoca sesgo.
17/11/2011
26
Sesgo
Por ejemplo. Para estudiar la opinión de los españolessobre la ley del aborto, hacemos una encuesta a 100.000españoles.
Los encuestadores preguntan a la salida de misa en lapuerta de las iglesias.
La muestra es seleccionada aleatoriamente a partir dellistín telefónico.
Los encuestadores preguntan a padres y madres en lapuerta de los colegios.
Sesgo
Ejemplos de sesgo.
Los indecisos.
Sesgo de respuesta.
Sesgo de no respuesta.
Sesgo del hogar.
Sesgo del entrevistador.