muestreo 2 [Modo de compatibilidad] · Muestreo aleatorio simple Se le da la urna y se le informa...

Post on 06-Jul-2020

10 views 1 download

Transcript of muestreo 2 [Modo de compatibilidad] · Muestreo aleatorio simple Se le da la urna y se le informa...

17/11/2011

1

Muestreo

Análisis de datos y gestión veterinariaAnálisis de datos y gestión veterinaria

Departamento de Producción Animal – Facultad de Veterinaria

Universidad de Córdoba

Córdoba, 16 de Noviembre de 2011

Población y muestra

Población. Conjunto completo de individuos sobre el que estamos interesados en obtener conclusiones.

Predecir los resultados

electorales en España

17/11/2011

2

Población y muestra

Población. Conjunto completo de votantes.

Predecir los resultados

electorales en EspañaN = ??

?? = millones de votantes

Población y muestra

Muestra. Subconjunto de los valores poblacionales observados.

N = ???? = millones de votantes

n = 10.000votantes

n = 10.000votantes

17/11/2011

3

Población y muestra

N = ???? = millones de votantes

calculamos estadísticos, como la edad media de los votantes de la

muestra

n = 10.000votantes

los estadísticos se utilizan como estimadores

de los parámetros de

la población, como la edad media de los votantes de la

población

Inferencias.Generalizaciones apartir de la muestra ala población.

N = ???? = millones de votantes

n = 10.000votantes

Población y muestra

?¿?¿?¿ 35,5 años ??¿?¿?

Los estadísticosson calculados y conocidos

Los parámetros son los que realmente se

quieren conocer

¿Se puede confiar en que losestadísticos sean similares alos parámetros?

35,5 años

17/11/2011

4

Población y muestra

Los parámetros no son verificables (si lo fueran, notrabajaríamos con muestras).

¿Se puede confiar en que losestadísticos sean similares alos parámetros?

Si, siempre que la muestrarepresente a la población

Población y muestra

Si, siempre que la muestrarepresente a la población

N = 12 vacas

17/11/2011

5

Población y muestra

Si, siempre que la muestrarepresente a la población

N = 12 vacas n = 6vacas

La muestra representa a la población si lascaracterísticas de la población se repiten en la muestra.

Población y muestra

La muestra representa a la población si lascaracterísticas de la población se repiten en la muestra.

N = ???? = millones de votantes

n = 10.000votantes

¿Si no sabemos cómo es la población, ni siquiera su tamaño?

La representatividad se basa en la forma enque la muestra es seleccionada (los mejoresmétodos son los que se basan en el uso planeadodel azar)

La representatividad se basa en el tamaño dela muestra (en principio, mayores tamañosmejoran la representatividad)

17/11/2011

6

Muestreo aleatorio simple

5.000 papeletas marcadas con 1

Población (N):

5.000 papeletas marcadas con 0

Muestreo aleatorio simple

Se le da la urna y se le informa que contiene un número determinado de papeletas con ceros y unos. Se le pide que estime sus proporciones

Agita la urna (garantizamos la aleatoriedad)

Saca 1.000 papeletassin reposición (n)

17/11/2011

7

Muestreo aleatorio simple

Dado que todos los elementos de la urna tenían la misma probabilidad de ser seleccionados, el muestreo es aleatorio, por tanto:

% unos en la muestra = % unos en la urna + error aleatorio

Si el muestreo es aleatorio:

Estimador = Parámetro + Error aleatorio

Muestreo aleatorio simple

521 unos en la muestra = 500 + 21

Si el muestreo es aleatorio:

Estimador = Parámetro + Error aleatorio

491 unos en la muestra = 500 - 9

507 unos en la muestra = 500 + 7

17/11/2011

8

Distribución en el muestreo de la media muestral

6 papeletas marcadas con:2, 4, 6, 6, 7 y 8

Población (N):

µ = 5,5

Agitamos la urna…

Sacamos 4 papeletas (n)

2, 4, 6, 6

media = 4,5

Media = µ + error aleatorio4,5 = 5,5 -1

Distribución en el muestreo de la media muestral

Repetimos…

17/11/2011

9

Agitamos la urna…

Sacamos 4 papeletas (n)

Distribución en el muestreo de la media muestral

2, 4, 6, 8

media = 5,0

Media = µ + error aleatorio4,5 = 5,5 -1

5,0 = 5,5 - 0,5Repetimos…

Distribución en el muestreo de la media muestral

Agitamos la urna…

Sacamos 4 papeletas (n)

2, 6, 7, 8

media = 5,75

Media = µ + error aleatorio4,5 = 5,5 -1

5,0 = 5,5 - 0,55,75 = 5,5 + 0,25

17/11/2011

10

Distribución en el muestreo de la media muestral

…Si hay 6 papeletas….…y se extraen sin reposición

4…¿cuántas muestras se

pueden extraer?

La variable “sacamos 4papeletas de la urna”es una variable aleatoriacomo las estudiadas entemas anteriores (cadaextracción es una variablealeatoria).

La distribución de probabilidades de los posibles valores quepuede tomar el estadístico (en este caso, la media) a lo largo detodas las posibles muestras con el mismo número deobservaciones (se denomina distribución muestral) sirve paraestimar el error aleatorio a través del error estándar (yproporciona la base para la inferencia).

Distribución en el muestreo de la media muestralMuestra Media muestral

2, 4, 6, 6 4,502, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 7, 8 5,252, 6, 6, 7 5,252, 6, 6, 8 5,502, 6, 7, 8 5,752, 6, 7, 8 5,754, 6, 6, 7 5,754, 6, 6, 8 6,004, 6, 7, 8 6,254, 6, 7, 8 6,256, 6, 7, 8 6,75

Todas las muestras tienen la misma

probabilidad de ser seleccionadas (1/15)

17/11/2011

11

Distribución en el muestreo de la media muestral

Muestra Media muestral2, 4, 6, 6 4,502, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 7, 8 5,252, 6, 6, 7 5,252, 6, 6, 8 5,502, 6, 7, 8 5,752, 6, 7, 8 5,754, 6, 6, 7 5,754, 6, 6, 8 6,004, 6, 7, 8 6,254, 6, 7, 8 6,256, 6, 7, 8 6,75

Todas las muestras tienen la misma

probabilidad de ser seleccionadas (1/15)

La distribución muestral de la media (función de probabilidad):

Px(4,50) = 1/15 Px(6,25) = 2/15Px(4,75) = 2/15 Px(6,75) = 1/15Px(5,00) = 2/15Px(5,25) = 2/15Px(5,50) = 1/15Px(5,75) = 3/15Px(6,00) = 1/15

Distribución en el muestreo de la media muestral

Px(4,50) = 1/15 Px(6,25) = 2/15 Px(5,00) = 2/15Px(5,25) = 2/15 Px(4,75) = 2/15 Px(6,75) = 1/15Px(5,50) = 1/15 Px(5,75) = 3/15 Px(6,00) = 1/15

Px(x)

3/15

2/15

1/15

0 4,5 5,5 6,5 7,5

El valor esperado de la media muestral es:

Por tanto, el valor esperado de la media muestral es lamedia poblacional

1 2 1( ) ( ) (4,5) (4,75) ... (6,75) 5,5

15 15 15E X xPx x

= = + + + =

17/11/2011

12

Distribución en el muestreo de la media muestral

Sacamos 4 papeletas (n)

X2 X3 X4X1Se trata de 4 variables aleatorias,cuya esperanza es:

Por tanto, la suma de las 4 variables aleatorias será:

siendo n=41

n

i x

i

E X nµ=

=

( ) ( ) ( ) ( )1 2 3 4 xE X E X E X E X µ= = = =

La media muestral esperada será:

( )1

1 n

x

i x

i

nE X E X

n n

µµ

=

= = =

Distribución en el muestreo de la media muestral

Px(x)

3/15

2/15

1/15

0 4,5 5,5 6,5 7,5

La distribución de la media muestral está centrada en la media poblacional.

Por el teorema central del límite, sabemos además que sigue una distribución normal

17/11/2011

13

Distribución en el muestreo de la media muestral

Sacamos 4 papeletas (n)

Media = µ + error aleatorio4,5 = 5,5 -1

5,0 = 5,5 - 0,55,75 = 5,5 + 0,25

………

Cuando el número de muestras se hace muy grande, el promedio de las medias muestrales tiende a la media

poblacional (µ)

Distribución en el muestreo de la media muestral

Dado que todos los elementos de la urna tenían lamisma probabilidad de ser seleccionados, el muestreoes aleatorio, por tanto:

% unos en la muestra = % unos en la urna + error aleatorio

Si el muestreo es aleatorio:

Estimador = Parámetro + Error aleatorio

17/11/2011

14

Distribución en el muestreo de la media muestral

521 unos en la muestra = 500 + 21

Si el muestreo es aleatorio:

Estimador = Parámetro + Error aleatorio

491 unos en la muestra = 500 - 9

507 unos en la muestra = 500 + 7

Distribución en el muestreo de la media muestral

521 unos en la muestra = 500 + 21

El error aleatorio cambia con cada extracción

491 unos en la muestra = 500 - 9

507 unos en la muestra = 500 + 7

No es posible conocer cuánto medirá en unaextracción particular

Es posible calcular su tamaño probable (error estándar)

17/11/2011

15

Distribución en el muestreo de la media muestral

Px(x)

3/15

2/15

1/15

0 4,5 5,5 6,5 7,5

Es posible calcular su tamaño probable (error estándar)

Distribución en el muestreo de la media muestral

6 papeletas marcadas con:2, 4, 6, 6, 7 y 8

Población (N):

µ = 5,5

Sacamos 4 papeletas (n)

15 combinaciones Sacamos 5 papeletas (n)

6 combinaciones

17/11/2011

16

Distribución en el muestreo de la media muestral

Sacamos 5 papeletas (n)

6 combinaciones

Muestra Media muestral2, 4, 6, 6, 8 5,02, 4, 6, 6, 7 5,22, 4, 6, 7, 8 5,42, 4, 6, 7, 8 5,42, 6, 6, 7, 8 5,84, 6, 6, 7, 8 6,2

Todas las muestras tienen la misma

probabilidad de ser seleccionadas (1/6)

La distribución muestral de la media (función de probabilidad):

Px(5,0) = 1/6Px(5,2) = 1/6Px(5,4) = 1/3Px(5,8) = 1/6Px(6,2) = 1/6

Distribución en el muestreo de la media muestral

Px(x)

2/6

1/6

0 4,5 5,5 6,5 7,5

Es posible calcular su tamaño probable (error estándar)

Px(5,0) = 1/6 Px(5,2) = 1/6 Px(5,4) = 1/3Px(5,8) = 1/6 Px(6,2) = 1/6

17/11/2011

17

Distribución en el muestreo de la media muestral

Px(x)

2/6

1/6

0 4,5 5,5 6,5 7,5

Ambas distribuciones de la media muestral se centran en la media poblacional.Si n se incrementa, la varianza muestral disminuye.La varianza muestral determina el error aleatorio, y sirve para calcular su tamaño probable.

Error estándar.Indica el tamaño probable del error aleatorio.

xEEn

σ=

Distribución en el muestreo de la media muestral

Px(x)

2/6

1/6

0 4,5 5,5 6,5 7,5

Ambas distribuciones de la media muestral se centran en la media poblacional.

Si n se incrementa, la varianza muestral disminuye.

La varianza muestral determina el error aleatorio, y sirve para calcular su tamaño probable.

Error estándar.Indica el tamaño probable del error aleatorio.

xEEn

σ=

17/11/2011

18

Distribución en el muestreo de la media muestral

Siempre que el muestreo sea aleatorio:

Mientras mayor sea n, menor será el error aleatorio.

Si n respecto a N es muy pequeño, se puede asumirque los valores individuales de la muestra se distribuyenindependientemente unos de otros.

P.e. Muestra de 1.000 votantes sobre el censo total devotantes en las elecciones presidenciales españolas (Nentorno a 30 millones).

Probabilidad primera extracción = 1/30 millones

Probabilidad segunda extracción = 1/(30 millones – 1)

Probabilidad 999 extracción = 1/(30 millones – 999)

El error cometido al asumir independencia es muy pequeño,por lo que

xEEn

σ=

Distribución en el muestreo de la media muestral

Siempre que el muestreo sea aleatorio:

Mientras mayor sea n, menor será el error aleatorio.

Si n respecto a N no es muy pequeño, no se puede asumirque los valores individuales de la muestra se distribuyenindependientemente unos de otros.

P.e. Muestra de 4 sobres sobre 6 sobres.

Probabilidad primera extracción = 1/6

Probabilidad segunda extracción = 1/(6-1)

Probabilidad cuarta extracción = 1/(6-3)

El error cometido al asumir independencia es muy grande,por lo que se aplica el factor de corrección porpoblación finita (N – n)/(N – 1):

·1

x N nEE

Nn

σ −=

17/11/2011

19

Distribución en el muestreo de la media muestral

Si la distribución de la población es normal:

Sigue una distribución normal estándar

Si la distribución de la población no es normal pero n esgrande, Z se considera que sigue una distribución normalestándar por el teorema central del límite.

x

x

XZ

µσ−

=

Distribución en el muestreo de la media muestral

La tasa de abortos en una cooperativa lechera sigue unadistribución normal con media 12,2% y desviación típica 3,6%. Setoma una muestra aleatoria de 9 explotaciones. ¿Cuál es laprobabilidad de que la media muestral sea menor del10%?

µx = 12,2 σx = 3,6 n = 9

x

x

XZ

µσ−

=

( ) 10 1010 x x x

x x x

XP X P P Z

µ µ µσ σ σ

− − −< = < = <

3,61,2

9

x

xEEn

σσ= = = =

( ) ( )

( ) ( ) ( )

( )

10 12,210 1,83

1, 2

10 1,83 1 1,83 1 0,9664

10 0,0336

z z

P X P Z P Z

P X F F

P X

− < = < = < −

< = − = − = −

< =

xEEn

σ=

17/11/2011

20

Distribución en el muestreo de una proporción muestral

Se le da la urna y se le informa que contiene un númerodeterminado de papeletas con ceros y unos. Se le pideque estime sus proporciones

Agita la urna (garantizamos la aleatoriedad)

Saca 1.000 papeletassin reposición (n)

Distribución en el muestreo de una proporción muestral

Si en la urna hay 5.000 papeletas con ceros y 5.000papeletas con unos:

Px(1)=0,5

En la muestra (1.000), el número esperado de

unos será:

n�p = 1.000 � 0,5 = 5000

La proporción esperada será:

(n�p)/n = (1.000 � 0,5)/1.000 = 0,5

Sea X el número de éxitos en n observaciones, donde la probabilidad de éxito es p.

( ) (1 )Var X np p= −( )E X np=ˆx

Xp

n=

ˆ( )

(1 )ˆ( )

x

x

E p p

p pEE p

n

=

−=

(1 )ˆ( ) ·

1

ˆ

ˆ( )

x

x

x

p p N nEE p

n N

p pZ

EE p

− −=

−=

17/11/2011

21

Distribución en el muestreo de una proporción muestral

Tras una epidemia de lengua azul en Córdoba, se estima que el30% de las explotaciones resulta insegura. Se toma una muestrade 250 explotaciones para determinar la proporción de las queresultan inseguras. Hallar la probabilidad de que laproporción en la muestra esté entre el 25% y el 30%.

p = 0,30 n = 250

(1 )ˆ( )x

p pEE p

n

−=

ˆ

ˆ( )

x

x

p pZ

EE p

−=

( )ˆ ˆ ˆ

ˆ ˆ

ˆ0,25 0,35ˆ0,25 0,35

0, 25 0,35

x

x

p p p

p p

p pp pP p P

p pP Z

σ σ σ

σ σ

−− −< < = < < =

− −= < <

ˆ

(1 ) 0,30·0,60p

p p

− = = =

(1 ) 0,30·0,600,029

250

= = =

( ) ( )ˆ0, 25 0,35 1,72 1,72

(1,72) ( 1,72) 0,9573 (1 0,9573) 0,9146

x

z z

P p P Z

F F

< < = − < < =

= − − = − − =

Distribución en el muestreo de la varianza muestral

Si la distribución poblacional es normal, entonces:

sigue una distribución

( )22

1

1·1

n

x i

i

s X Xn =

= −− ∑

2

( 1)nχ −

( ) 2

2

1 ·x

x

n s

σ−

17/11/2011

22

chi-cuadrado

f(chi-cuadrado)

0 4 8 12 16 20 24

0

0,04

0,08

0,12

0,16

Distribución en el muestreo de la varianza muestral

2

( 1)nχ −

(n - 1) = grados de libertad

( )2

( 1) 1nE nχ − = − ( )2

( 1) 2( 1)nVar nχ − = −

2

Distribución en el muestreo de la varianza muestral

2

( 1)nχ −

(n - 1) = grados de libertad

( )2

( 1) 1nE nχ − = − ( )2

( 1) 2( 1)nVar nχ − = −

chi-cuadrado

f(chi-cuadrado)

0 10 20 30 40

0

0,02

0,04

0,06

0,08

0,12

10χ

17/11/2011

23

Distribución en el muestreo de la varianza muestral

Es la distribución de la suma de loscuadrados de variables aleatoriasnormales estándar independientes

2

υχ

Si la distribución poblacional es normal, entonces:

sigue una distribución 2

( 1)nχ −

( ) 2

2

1 ·x

x

n s

σ−

Distribución en el muestreo de la varianza muestral

Cuando una fábrica de piensos funciona adecuadamente, el pesode los sacos de 50 kg sigue una distribución normal condesviación típica 3,6. Se toma una muestra aleatoria de 4 sacos.¿Qué probabilidad hay de que la varianza sea superior a30?.

n = 4 σx = 3,6 σx2 = 12,96

( )

( )

22

2 2

2 2

3 3

( 1) 30( 1)30

30·36,94

12,96

x

x

x x

n s nP s P

P P

σ σ

χ χ

− −> = > =

= > = >

( ) 2

2

1 ·x

x

n s

σ− 2

( 1)nχ −

( )( )

( )

2

3

2

3

2

6,25 0,10

7,81 0,05

0,05 30 0,10x

P

P

P s

χ

χ

> =

> =

< > <

17/11/2011

24

Muestreo aleatorio simple

La inferencia basada en la media muestral es robustadebido a que si la distribución de la población de la queextrae la muestra se desvía de la normal, el error cometidoen el cálculo de probabilidades es pequeño.

La inferencia basada en la varianza muestral es muysensible a las desviaciones de la distribución de lapoblación respecto a la normal, por lo que el error cometidoen el cálculo de probabilidades es grande.

Sesgo

Estimador = Parámetro + Error aleatorio + Sesgo

17/11/2011

25

Sesgo

Estimador = Parámetro + Error aleatorio + Sesgo

Sesgo. Distorsión causada por la selección de lamuestra, que potencia o excluye cierto tipo deresultados.

Sesgo

Sesgo. Distorsión causada por la selección de lamuestra, que potencia o excluye cierto tipo deresultados.

- El sesgo se controla aleatorizando el muestreo.

- Es difícil de detectar.

- Si se detecta, tampoco se “puede” corregir.

- Cualquier tipo de selección provoca sesgo.

17/11/2011

26

Sesgo

Por ejemplo. Para estudiar la opinión de los españolessobre la ley del aborto, hacemos una encuesta a 100.000españoles.

Los encuestadores preguntan a la salida de misa en lapuerta de las iglesias.

La muestra es seleccionada aleatoriamente a partir dellistín telefónico.

Los encuestadores preguntan a padres y madres en lapuerta de los colegios.

Sesgo

Ejemplos de sesgo.

Los indecisos.

Sesgo de respuesta.

Sesgo de no respuesta.

Sesgo del hogar.

Sesgo del entrevistador.