MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”) identificarEste esquema de muestreo es el más...

34
MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”) Este esquema de muestreo es el más usado cuando se tiene un marco de muestreo que especifique la manera de identificar identificar cada unidad en la población. Además no se tiene conocimiento a priori sobre los posibles valores de Y i ni otras mediciones asociadas a Y i . En este caso cada unidad se extrae con igual probabilidad igual probabilidad, por etapas, y sin reemplazo, hasta tener las n unidades de la muestra.

Transcript of MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”) identificarEste esquema de muestreo es el más...

    MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

• Este esquema de muestreo es el más usado cuando se tiene un marco de muestreo que especifique la manera de identificaridentificar cada unidad en la población.

• Además no se tiene conocimiento a priori sobre los posibles valores de Yi ni otras mediciones asociadas a Yi.

• En este caso cada unidad se extrae con igual igual probabilidadprobabilidad, por etapas, y sin reemplazo, hasta tener las n unidades de la muestra.

• En la primera extracción, la probabilidad de que se seleccione una de las n unidades es .

• En la segunda extracción la probabilidad de que se seleccione una de las restantes n-1 unidades es: y así sucesivamente.

• En la selección k, la probabilidad de una unidad l es .

   MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

n

N

1

1

n

N

1

1

n k

N k

• Para estimar se obtiene el

promedio de la muestra:

• Este es un estimador insesgado ( , el promedio de los posibles valores al tomar muchas muestras es ).

    MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

1

/N

ii

Y Y N

1

ˆ /n

ii

y Y y n

(5.1)

E y Yy

Y

• La varianza de es:

donde

• Nótese que si N es infinito, , es el resultado que se obtiene para poblaciones infinitas.

   MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

2

2( ) 1 ySnV y E y Y

N n

2 2

1

1( )

1

N

y ii

S Y YN

y

2

( ) ySV yn

• es la fracción de muestreo o proporción de la población que se muestrea, y

• es el factor de corrección por finitud (fcf).

• Se puede demostrar que con este proceso de selección, la probabilidad de que cualquier unidad ui esté en la muestra es

y la de que ambas una ui y una uj estén en la muestra es

   MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

n

N

1n

N

i

n

N

( 1)

( 1)ij

n n

N N

• Para estimar el total

tenemos:

• Además si , entonces:

   MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

N

ii

Y NY Y ˆY NY Ny

ˆ ˆ~N[ ,V( )]

ˆ ˆ ˆ ˆ1.96 V( ) 1.96 V( ) 0.95[ ]P

• Si no conocemos tenemos que estimarla:

• En el caso particular del “mas” tenemos:

  MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

ˆ( )V

ˆ ˆ ˆ ˆˆ ˆ1.96 V( ) 1.96 V( ) 0.95[ ]P

2

ˆ ˆ, y 1 ySnY y V V y

N n

• En el caso particular del “mas” tenemos:

  MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

2

ˆ ˆ, y 1 ySnY y V V y

N n

2 2n n

1.96 1- 1.96 1- 0.95N N

y yS SP y Y y

n n

0.95P y Y = error absoluto.

• Despejando n de se tiene:

   MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

1.96 ( )V y

2 2

2 2

2 2

1.961

1

1.96

y

y

Sn

NS

• Recordemos que:

    MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)

2

22 2

2

2 2 2

( )

,1 1

N

ii

i i i y

i

y y y

Y YE y E y E y Y

N

Y YNS S

N N

• El valor de S2y ó 2

y se estima con una prueba prueba

pilotopiloto o bien se “adivina”“adivina” usando tablas (ver Tabla 1), y el conocimiento previo sobre la población.

• Si se considera que no se ajusta a la distribución normal, se usa el criterio de fijar la magnitud de la varianza o del coeficiente de variación de .

Se determina n para que produzca un coeficiente de variación dado (CV0) usando estimaciones

“gruesas” de y de S2y .

5.1 Tamaño de la Muestra (“mas”)

y

y

y

• Así

Despejando n, se obtiene:

Tamaño de la Muestra (“mas”)

12 2

12

0

1( )

( )

ySnN nV y

CVE y Y

2

22 2

0( )

y

y

Sn

SCV Y

N

• Si n es "grande” se espera que el teorema Central del Límite dé una buena aproximación de la distribución de .

5.1 Tamaño de la Muestra (“mas”)

y

• Así:

Tamaño de la Muestra (“mas”)

~N Y,V yy

2 2( ) ( ) 1P y z V y Y y z V y

si 1 .95

2 2

1.96 (1 ) 1.96 (1 ) 0.95n S n S

P y Y yN n N n

• Entonces se distribuye

aproximadamente como una normal estandarizada (media cero y varianza uno), donde

Tamaño de la Muestra (“mas”)

12( )

y Y

V y

2

1 ySnV y

N n

• Si se desea un tamaño de muestra tal que el error de estimación sea inferior a con una probabilidad de 1-, esto es:

Tamaño de la Muestra (“mas”)

| | 1[ ]P y Y 2

ˆ( )z V y ,

diviendo entre 1

2V y

1 12 2

1[ ( )] [ ( )]

y YPV y V y

• De las tablas de la normal estándar, Z~N(0,1), se obtiene un valor z/2 tal que

(z/2 es el valor de Z obtenido en las tablas que

deja un área de /2 a la derecha de él).

Tamaño de la Muestra (“mas”)

/ 2 1[ ]P Z z

• Como , hacemos que

sea un valor arbitrario de Z y que:

Tamaño de la Muestra (“mas”)

1

2~ (0,1)

y YN

V y

1

2

y Y

V y

/ 2 1 22

1y

zS nV yn N

(a)

• De aquí (a) se despeja n:

si = 0.05 entonces:

Tamaño de la Muestra (“mas”)

2 2/ 2

2 2

2 2/ 2

1

1y

y

z Sn

z S N

2 2

2

(1.96) ySn

• Se puede usar como una primera

aproximación y luego corregir usando

• Si no se puede suponer normalidad de la distribución del estimador, se recurre a la desigualdad de Tchebycheffdesigualdad de Tchebycheff.

Tamaño de la Muestra (“mas”)2 2

/ 2

2' yz Sn

''

1

nn

nN

• Desigualdad de TchebycheffDesigualdad de Tchebycheff 

Sea U una variable aleatoria con cualquier distribución y

Tamaño de la Muestra (“mas”)

2( ) , ( )U UE U V U

2

1U UP U

2

11U UP U

2

11U U UP U U

Tamaño de la Muestra (“mas”)

2

1( ) ( ) 1P y V y Y y V y

2

12 1 .75

2

13 1 .889

2

14.4 1 .95

• En las expresiones anteriores, si tanto como S se expresan en por ciento de la media,

Tamaño de la Muestra (“mas”)

2

2 2

14.4 ( ) .

1(4.4)

V y n

S N

(5.4a)

' 100y

, 100S

CVy

la expresión (5.4) se

2 2/ 2

2 2

2 2/ 2

( )1.

' '1( )

z CVn

Z CV N

transforma a:

• Si no se supone normalidad para la distribución de y con confianza del 95%, por la desigualdad de TchebycheffTchebycheff, entonces (5.4a) se transforma a:

Tamaño de la Muestra (“mas”)

y

2

2 2

2 2

1 (4.4)( )

( ) 1 ( )(4.4) ( )

CVn

CV N

• Y(ui) es una medida o indicador de la presencia o presencia o ausencia de una característicaausencia de una característica en la unidad ui con valor 1 si la característica está presente y 0 si no es así. En este caso

= proporciónproporción de unidades en la poblaciónpoblación que tienen la característica

Estimación de Proporciones

Y P

.

N

ii

YY P

N

• que es la proporciónproporción de unidades en la muestramuestra con la característica.

• El valor de S2y en términos de P resulta:

Estimación de Proporciones

p y

2

2 11

1 1

N

ii

Y

Y YS NP P

N N

21 , (1 )1

NP P P P

N

con estimador

Con este nuevo valor la expresión (5.3) resulta:

Estimación de Proporciones

2

2 2ˆ

ˆ ˆ(1 ).1 1

n

ii

y y

y ynP

S s Pn n

22

00

1 111

1

NP PNnP P CVCV P

N

(5.5)

Para usar esta expresión, se estima a prioria priori o con una prueba piloto el valor de P y se fija el CVo que se desea.

• Si utilizamos la desigualdad de TchebycheffTchebycheff tenemos:

Estimación de Proporciones

2

2 2

2

(4.4) (1 )1 11

(4.4) (1 )1

NP P

Nn

N NP PN

2

2 2

(4.4)54n

• Nótese que si P está cercano a cero, el valor de n aumentaaumenta.

Esto indica que para estimar la proporción de unidades con una característica rara se requieren muchas unidadesmuchas unidades en la muestra.

Estimación de Proporciones

Esto es lo contrario de lo que sucede si se usa la aproximación a la normal, en cuyo caso se usa la expresión (5.4) con

Estimación de Proporciones

2 11Y

NPS P

N

2 2

22 2

2 2

2

1 .

1

y

y

z Sn

z S N

• Si se quiere conocer P, las Yi son 0 ó 1.

Estimación de Proporciones

2 (1 ) (1 )1y

NS P P P P

N

2/ 2

2

(1 )

z P Pn

• Si , además como

la varianza de es máxima cuando P = 0.5, se usa P(1-P)=(.5)(.5)=0.25 como margen de seguridad

Estimación de Proporciones

2.05 1.96 2z

P

2

2 2

2 (.25) 1 n

• Entonces se debe dar que nP>5 y n(1-P)>5 para que se tenga buena cercaníabuena cercanía a la normalidad.

• Al variar se tienen los siguientes tamaños de muestra:

Estimación de Proporciones

n

.001 1,000,000

.01 10,000

.02 2,500

.025 1,600

.3 1,111

.035 816

.4 625

Además, si entonces se debedebe reportar el resultado de la estimación de P con un intervalo de confianza aproximado dado por:

Estimación de Proporciones

ˆ ˆ~ ( , ( ))P N P V P

ˆ ˆ1.96 ( ) 1.96 ( ) .95,P p V p P p V p

ˆ ˆ(1 )ˆ ˆ( ) 1

1

n Np pV p

N N n