Programa de Capacitación en Planeamiento, Regulación y ......PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS...

98
MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE CAMPO Programa de Capacitación en Planeamiento, Regulación y Gestión Pública del Transporte Urbano Metropolitano (PTUBA) TEMA 8.2: INTRODUCCIÓN A LA TEORIA DEL MUESTREO AUTORA: Lídia Montero Mercadé DEIO-UPC Versió 1.2 Buenos Aires, 7 a 11 Diciembre 2009

Transcript of Programa de Capacitación en Planeamiento, Regulación y ......PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS...

  • MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DE

    CAMPO

    Programa de Capacitación en Planeamiento, Regulación y Gestión Pública del Transporte Urbano Metropolitano (PTUBA)

    TEMA 8.2: INTRODUCCIÓN A LA TEORIA DEL MUESTREO

    AUTORA:

    Lídia Montero Mercadé

    DEIO-UPC

    Versió 1.2

    Buenos Aires, 7 a 11 Diciembre 2009

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-2 Buenos Aires, 7 – 11 Diciembre 2009

    TABLA DE CONTENIDOS

    8.2-1. INTRODUCCIÓN A LA TEORIA DEL MUESTREO _________________________________________________________________________________ 4 8.2-1.1 CONCEPTOS BÁSICOS: NOTACIÓN, PARÁMETROS Y ESTIMADORES _______________________________________________________________________ 4 8.2-1.2 EJEMPLO: ELECCIONES GENERALES (ERIK COBO –DEIO-UPC)_________________________________________________________________________ 6 8.2-1.3 EJERCICIOS CONCEPTUALES_____________________________________________________________________________________________________ 15 8.2-2. INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR__________________________________________________________________________ 19 8.2-2.1 MUESTREO ALEATORIO SIMPLE SIN REPOSICIÓN (ASSR)_____________________________________________________________________________ 19 8.2-2.2 MUESTREO ALEATORIO SIMPLE CON REPOSICIÓN (ASCR) ___________________________________________________________________________ 22

    8.2-2.3 MUESTREO ALEATORIO SIMPLE (ASSR): INTÉRVALOS DE CONFIANZA )%1(100 ________________________________________________ 23 8.2-2.4 MUESTREO ALEATORIO SIMPLE (ASSR): ERROR ABSOLUTO AL )%1(100 ______________________________________________________ 25 8.2-2.5 MUESTREO ALEATORIO SIMPLE (ASSR): ERROR RELATIVO AL )%1(100 ______________________________________________________ 30 8.2-2.6 MUESTREO ALEATORIO SIMPLE (ASSR): APLICACIÓN CELDAS DE MATRIZ OD ___________________________________________________________ 34 8.2-2.7 MUESTREO ALEATORIO SIMPLE (ASSR): EJERCICIOS________________________________________________________________________________ 36 8.2-2.7.1 CUOTA DE MERCADO DE UNA LINEA DE TRANSPORTE PÚBLICO _________________________________________________________________________ 36 8.2-2.7.2 RENDIMENTO DE UNA ENCUESTA DE MOVILIDAD DOMICILIARIA POR BUZONEO _____________________________________________________________ 37 8.2-2.7.3 SONDEO DE OPINIÓN PRE-ELECTORAL _____________________________________________________________________________________________ 38 8.2-2.7.4 UNO MÁS DIFÍCIL DE MUESTREO ALEATORIO SIMPLE _________________________________________________________________________________ 39 8.2-3. INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO _____________________________________________________________ 43 8.2-3.1 ESTIMACIÓN DEL TOTAL Y EN EL UNIVERSO A PARTIR DEL SONDEO ESTRATIFICADO _______________________________________________________ 44 8.2-3.2 ESTIMACIÓN DE LA MEDIA DE Y EN EL UNIVERSO A PARTIR DEL SONDEO ESTRATIFICADO___________________________________________________ 45 8.2-3.3 MUESTREO ESTRATIFICADO PROPORCIONAL________________________________________________________________________________________ 45 8.2-3.4 ESTRATIFICACIÓN ÓPTIMA DE NEYMAN____________________________________________________________________________________________ 47 8.2-3.5 ESTRATIFICACIÓN ÓPTIMA SEGÚN COSTE FIJADO TOTAL (VARIABLE POR ESTRATO) _______________________________________________________ 49 8.2-3.6 BÚSQUEDA DE PRECISIÓN A NIVEL DE CADA ESTRATO ________________________________________________________________________________ 50 8.2-3.7 BÚSQUEDA TRADE-OFF: COSTE VARIABLE-DISPERSIÓN CON N FIJO______________________________________________________________________ 50 8.2-3.8 VALORACIÓN DEL MUESTREO ESTRATIFICADO Y RELACIÓN CON ASSR__________________________________________________________________ 51 8.2-3.9 LA ESTRATIFICACIÓN EN LAS ENCUESTAS DE MOVILIDAD A RESIDENTES SEGÚN SMITH 79___________________________________________________ 53 8.2-3.10 EJERCICIOS DE DIMENSIONAMIENTO _____________________________________________________________________________________________ 56 8.2-3.10.1 CASO DE ESTUDIO 1: TASA DE RESIDUOS DIARIOS POR HABITANTE______________________________________________________________________ 57 8.2-3.10.2 CASO DE ESTUDIO 2: ENCUESTA DE MOVILIDAD DOMICILIARIA EN UNA CIUDAD MEDIANA __________________________________________________ 58 8.2-3.10.3 CASO DE ESTUDIO 3: ENCUESTA DE MOVILIDAD DOMICILIARIA EN UNA CAPITAL LATINOAMERICANA__________________________________________ 67

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-3 Buenos Aires, 7 – 11 Diciembre 2009

    TABLA DE CONTENIDOS

    8.2-4. INTRODUCCIÓN Tª DEL MUESTREO: MULTIETÁPICOS _________________________________________________________________________ 76 8.2-4.1 EXTRACCIÓN DE LAS UNIDADES PRIMARIAS CON PROBABILIDADES IGUALES (DOS NIVELES) _________________________________________________ 78 8.2-4.1.1 ESTIMACIÓN DE LA VARIANZA DEL ESTIMADOR DEL TOTAL DE Y ________________________________________________________________________ 78 8.2-4.1.2 CASO PARTICULAR : SONDEO AUTOPONDERADO _____________________________________________________________________________________ 79 8.2-4.2 EXTRACCIÓN DE LAS UNIDADES PRIMARIAS CON PROBABILIDADES DESIGUALES (EXTRACCIÓN A DOS NIVELES) ________________________________ 80 8.2-4.2.1 MUESTREO AUTOPONDERADO ___________________________________________________________________________________________________ 81 8.2-4.3 SONDEO EN CONGLOMERADOS ___________________________________________________________________________________________________ 82 8.2-4.3.1 ESTIMACIÓN DE UN TOTAL EN EL CASO DE EXTRACCIÓN DE CONGLOMERADOS CON PROBABILIDADES IGUALES ___________________________________ 83 8.2-4.3.2 ESTIMACIÓN DE UN TOTAL EN UNA EXTRACCIÓN DE LOS CONGLOMERADOS CON PROBABILIDADES DESIGUALES ___________________________________ 84 8.2-4.4 ASSR FRENTE A MUESTREO POR CONGLOMERADOS _________________________________________________________________________________ 84 8.2-4.5 PLANES DE MUESTREO MÁS COMPLEJOS ___________________________________________________________________________________________ 86 8.2-5. INTRODUCCIÓN Tª DEL MUESTREO: RECOMPOSICIONES ______________________________________________________________________ 87 8.2-5.1 ESTRATIFICACIÓN A POSTERIORI _________________________________________________________________________________________________ 88 8.2-5.1.1 EL MÉTODO DEL RAKING-RATIO __________________________________________________________________________________________________ 90 8.2-5.2 ESTIMACIÓN POR COCIENTE _____________________________________________________________________________________________________ 90 8.2-5.3 EL ESTIMADOR POR REGRESIÓN __________________________________________________________________________________________________ 92 8.2-6. Tª DEL MUESTREO: EJEMPLO SUBE/BAJA _____________________________________________________________________________________ 93 8.2-6.1 ENCUESTA SUBE/BAJA SOBRE UNA RED URBANA DE AUTOBUSES ________________________________________________________________________ 93 8.2-6.1.1 MUESTREO A 2 NIVELES UTILIZADO _______________________________________________________________________________________________ 96

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-4 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1. INTRODUCCIÓN A LA TEORIA DEL MUESTREO

    8.2-1.1 Conceptos básicos: notación, parámetros y estimadores

    La población objeto de estudio mediante una encuesta (target population, en inglés) o universo del estudio es el grupo completo de elementos (individuos) sobre los que se desea recoger información. Los elementos de la población pueden ser directamente unidades de muestreo, pero en general, las unidades de muestreo suelen ser grupos de elementos de la población y por tanto, las unidades de muestreo están constituidas por uno o más individuos.

    El marco de muestreo (sampling frame) es la lista base que identifica cada unidad de muestreo del universo de muestreo. Por ejemplo, para una escuesta de movilidad de un ámbito, la lista de números telefónicos no se corresponde forzosamente con el universo de muestreo: individuos sin teléfono, números de empresa, etc. Tarea clave donde normalmente se detectan:

    Imprecisiones. Listas de censo no actualizadas donde hay cambios de domicilio, apellidos incorrectos, etc.

    Universo incompleto: listas del censo donde hay hogares con más/menos individuos.

    Duplicaciones: Listas de personas vinculadas a una universidad, posiblemente el personal de administración que estudia alguna titulación puede aparecer como trabajador y como estudiante.

    Marco muestral inadecuado: listados telefónicos de un ámbito.

    Marco muestral no actualizado: muy frecuentes en encuestas CATI donde se tiene integrada una base de datos con el marco muestral de un ámbito en el formato conveniente; las BBDD son de pago y se solicitan y actualizan con poca frecuencia.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-5 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    El objeto del plan de muestreo reside en diseñar la selección de una muestra del universo de estudio representativa del universo: unidades de muestreo, tamaño de la muestra, etc según restricciones de presupuesto, tiempo de ejecución y precisión de los estimadores obtenidos.

    Finalidad: Obtener buenas estimaciones sobre parámetros de la población a partir de muestras pequeñas.

    Las cualidades estadísticas de los estimadores de los parámetros son totalmente dependientes del plan de muestreo. Las cualidades estadísticos básicas son: ausencia de sesgo (accuracy), precisión (precision) a un nivel de confianza fijado.

    Según estemos en una muestra o en una población, los valores que utilizamos para describir los datos reciben un nombre diferente y tienen su propio símbolo. Para una característica X:

    Parámetro ( ) Estadístico ( ) (Población) (Muestra)

    Media mu x barra ó m

    Desviación típica sigma s

    Probabilidad/Proporción pi (probabilidad) P (proporción)

    Cuando un estadístico se usa para conocer el valor de un parámetro recibe el nombre de estimador.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-6 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    8.2-1.2 Ejemplo: Elecciones generales (Erik Cobo –DEIO-UPC) - Muestras (estimadores): sondeos electorales de 2 periódicos - Población (parámetros): resultados reales de las elecciones

    La interpretación de la “precisión” es: según “PERIÓDICO X” la auténtica proporción del PSOE se situará en el intervalo 40’5%1% [39’5%,41’5%] ¿Aciertan?

    PERIÓDICO X n=9.524 +2.000

    PERIÓDICO Y n=3.262

    RESULTADOS ELECTORALES

    PSOE PP

    CIU IU

    CDS

    40’5% 19’1% 4’9% 10’3% 8’5%

    41’5% 25’0% 4’5% 7’5% 6’5%

    39’55% 25’83% 5’04% 9’05% 7’91%

    Precisión 1% 2% Las “fichas técnicas” de ambos estudios figuran en el cuadro siguiente.¿qué explicaciones encuentran al resultado anterior?

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-7 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    PERIÓDICO X PERIÓDICO Y Dirección y realización: ICP/Research. Universo: electorado español. Ámbito: todo el territorio español. Tipo de entrevista: personal. Puntos de muestreo: 705. Selección de los entrevistados: Al azar; selección aleatoria de personas mediante cuotas de sexo y edad dentro de cada punto de muestreo. Diseño de la muestra: Distribución no proporcional con muestras óptimas para cada una de las circunscripciones. En los datos globales se han aplicado los coeficientes de ponderación adecuados para reconvertir la muestra a su dimensión real. Tamaño de la muestra: 9.524 entrevistas, con una ampliación en Catalunya hasta 2.000 más. Margen de error: En cada circunscripción el error oscila entre 3’2% y 10% según el número de entrevistas realizadas. En datos globales ponderados el error es del 1% con un nivel de significación del 95’5% de probabilidades. Tratamiento de la información: Programa de tabulación cruzado simple y desarrollo específico de la Ley D/Hondt. El voto ponderado final se estima teniendo en cuenta, además del voto directo, los índices de confianza y simpatía.

    La encuesta telefónica ha sido realizada por el instituto OPINA,

    S.A., durante 3 días en el conjunto del estado español.

    El universo de análisis lo han

    compuesto una muestra de 3.262 personas seleccionadas

    aleatoriamente según cuotas de: sexo, edad, profesión y tamaño del

    hábitat.

    El error muestral es de un 2 por ciento para un margen de confianza del 95 por ciento y bajo el supuesto

    de máxima indeterminación (p=q=50%).

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-8 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    La inferencia estadística se basa en la obtención de muestras por procedimientos aleatorios, que garantizan que la muestra representa a la población: la media muestral es una buena estimación del valor poblacional de la característica.

    Pero diferentes hechos hacen imposible la muestra aleatoria: Los individuos tienen derecho a rechazar su participación en un estudio,

    a abandonarlo en cualquier momento. No se dispone de definiciones operativas de todas poblaciones O bien, no hay respuesta en preguntas delicadas.

    Todos estos fenómenos -no aleatorios- pueden provocar distorsiones no aleatorias: sesgos. En resumen, la inferencia,

    en su paso de la muestra a la población, está sujeta a dos posibles fuentes de errores: Aleatorios: Errores de muestreo (por estar trabajando con muestras)

    No aleatorios o Sesgos: Sesgo del muestreo.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-9 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    Según la referencia: Survey Methods for Transport Planning, Eucalyptus Press de A. J. Richarson, E.S.Ampt, A.H. Meyburg pp 97 (http://www.transportsurveymethods.com.au/downloadBook.html)

    Error de muestreo Error de muestreo

    Sesgo

    Error de muestreo

    En general, el error de muestreo puede reducirse aumentando el

    tamaño muestral y si esto resulta muy caro quizás el Plan

    de Muestreo puede contribuir a

    su reducción.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-10 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    Objetivos de la toma de datos:

    Estimar ciertos parámetros poblacionales (número medio de viajes diarios por persona, reparto modal, etc) a partir de los datos muestrales.

    Contrastar a partir de los datos muestrales hipótesis relativas a parámetros poblacionales. Por ejemplo, se dispone de un año anterior del número de vehículos que circulan en un día laborable por un peaje. Se ha subido la tarifa y se recogen datos de usuarios en día laborable en una muestra de n dias, se podrá inferir el rango de la pérdida proporcional de clientes a un nivel de confianza fijado.

    La determinación del tamaño muestral depende de las características target de estudio- fijemos un único target, Y cuantitativo del que interesa su tendencia central:

    La variabilidad de los valores de Y en la población.

    La precisión requerida para los estimadores del parámetro de interés en términos absolutos y relativos.

    El tamaño de la población (universo del estudio).

    Ejemplo: Encuesta domiciliaria a famílias (UP), con recogida de todos los datos de sus miembros (US).

    Universo estratificado en H estratos. En estudios de transporte, los estratos corresponden a zonas de transporte o similares (H 75/80).

    Tamaño muestral en Unidades Primarias: m (Unidades Primarias, UP's) (conocido).

    Tamaño poblacional en Unidades Primarias: M (conocido).

    Tamaño muestra de individuos (Unidades Secundarias, US) notado n, sobre un total poblacional N.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-11 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    Para cada estrato h {1,.....H} se dispone.

    Mh Número poblacional de unidades primarias (UP o conglomerados) (familias en el presente ejemplo) Nh Número poblacional de unidades secundarias (US) (habitantes) por cuotas por sexo y edad.

    Se nota h

    hh M

    NN Número medio de individuos por familia en el estrato h (US por UP en estrato)

    f para

    Sea Y una variable de estudio definida a nivel de individuo. A continuación se define la notación para diversos estimadores asociados a la variable de interés, tanto a nivel global (universo), como a nivel de estrato (zona).

    Global

    Total )(ˆ YToTo yyy

    Valor medio por familia (UP) y y yo t

    Valor medio por individuo (US) yy

    Parámetro vs. Estimador del parámetro

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-12 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    Por zona o estrato (h)

    Total YToTo hhyhyhy ˆ Valor medio por familia (UP) y

    hyh

    yho t

    Valor medio por individuo (US) yh hy

    Se distinguen entre los estimadores, en caligrafía normal o con un símbolo ^ sobre la notación de los valores verdaderos o poblacionales de los estadísticos, que se notan con letras griegas o caligráficas.

    Para cálculo intervalo confianza de un estimador E :

    EV E

    E ( ) ~ t - Student ~ N(0,1) Normal Standard

    Condicion NO SESGO

    E E E

    :

    donde los grados de libertad de la distribución de t-Student son 1 n , con n tamaño muestral en USs y el nivel de confianza se indica (1-)%. Para simplificar, se suele efectuar una aproximación

    96.12/12/1

    tz para 0 05 95%), (IC ó en general

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-13 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    en el cálculo de IC en lugar de E t V E( )% ( )/1 1 2

    , se emplea una aproximación normal

    que obvía el problema de los grados de libertad y en la mayoría de los casos resulta satisfactoria ya que si , tamaño muestral grande entonces asintóticamente una t-Student tiende a una normal standard (N(0,1)) y

    ( )/E z V E 1 2 .

    Siempre se calcula un estimador del error estandard ( ( ))V E pues V E( ) es inasequible en la práctica. La notación empleada para los distintos tipos de varianzas es la siguiente:

    y2

    : Varianza poblacional de la variable Y

    y2

    : Varianza poblacional corregida de Y ( donde 22 1' yy N

    N

    )

    Sy2: Varianza muestral de Y

    Sy2 : Varianza muestral corregida de Y

    nyydonden

    yyS

    n

    yyS

    ii

    ii

    yi

    i

    y

    1

    )('

    )( 22

    2

    2

    N

    Y YNi

    i

    y

    2

    12)(

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-14 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    Las propiedades de los estimadores anteriores son para el muestreo sin reposición y facilitan E S y y' '2 2 nN

    nyV y2

    1

    y su estimador n

    SNnyV y

    2'1)(ˆ

    .

    Si Y es un indicador 0 o 1 (distribución Bernoulli( y )) donde 10 y py proporción muestral de

    respuestas positivas y

    111)(ˆ

    npp

    NnyV .

    El error estandard del estimador de la media se nota por ( )V y y un intervalo de confianza bilateral al 95% de

    Y es: )(ˆ. yVy 961

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-15 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS

    8.2-1.3 Ejercicios Conceptuales

    Sea Y el número de viajes diario por individuo y se le ha dado una distribución de Poisson con parámetro 3 viajes/día.

    Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la descriptiva univariante habitual.

    Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.

    Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.

    Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.

    Sea Y un indicador de si un individuo viajó el día anterior; se le ha dado una distribución de Bernoulli con

    parámetro 90. . Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la

    descriptiva univariante habitual.

    Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.

    Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-16 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS

    Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.

    Sea Y los ingresos mensuales por individuo en $ y se le ha dado una distribución de Normal con parámetro de

    posición 4500 pesos mensuales y desviación estándar (escala) de 400$. Usar un entorno adecuado para generar una muestra aleatoria para N=10000 individuos de Y. Calcular la

    descriptiva univariante habitual.

    Seleccionar K=100 muestras aleatorias sin reposición de tamaño n=1000 de los individuos anteriores y para cada una de las muestras calcular su media.

    Observar la distribución de valores de las medias muestrales y calcular sus estadísticos media y varianza.

    Estudiar la relación entre los valores de los estadísticos muestrales de las medias y la distribución de valores originales en el conjunto de la población.

    Cómo cambiarían los resultados si la desviación estándar fuera de 200$ con la misma media.

    Se podría trabajar con páginas Web disponibles en la red para trabajar esos conceptos: http://lstat.kuleuven.be/java/.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-17 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    Por el enfoque dado a la formulación, la variable Y se asocia a individuos (US), pero a nivel de familias

    (conglomerados o UP) interesa trabajar con totales: yh i,

    Suma de todos los valores de Y de las US de la UP i del estrato h

    ( ) ,W yh yh i

    ijj US de la UP idel estrato h

    Se podría definir W: Total de Y en las UPs y definir w w w wh h h hs s2 2 2 2, ' , , ' , pero para no forzar en exceso la

    abstracción es mejor escribir más específicamente:

    yh

    2 : Varianza poblacional del total de Y en el estrato h

    ' :

    yh

    2 Varianza corregida del total de Y en el estrato h

    syh

    2 : Varianza muestral del total de Y en el estrato h

    syh' :

    2 Varianza muestral corregida del total de Y en el estrato h

    donde, i

    hih

    yhy mt /

    ,

    hestrato

    deliUP

    hy

    ihy

    h

    tm

    s hy

    2,2 )(1

    hestrato

    deliUP

    hy

    ihy

    h

    tm

    s hy

    2,2 )(1

    1'

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-18 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-1 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: NOTACIÓN

    Ejemplo: Y: Nº de viajes en autobús de un individuo. Y : Nº medio de viajes en autobús por persona. Yh : Nº medio de viajes en autobús por persona en el estrato h. y yo T : Total de viajes en autobús. t y : Nº medio de viajes en autobús por familia (total medio por UP).

    t yh: Nº medio de viajes en autobús en el estrato h (total medio por UP en el estrato h) .

    La variable Y puede ser cualquier variable extraída de la muestra a nivel individual , incluso una variable binaria 0 ó 1, lo que da lugar a estimadores de proporciones individuales. Ejemplo:

    Y: Indicador de si un individuo es o no estudiante (1: lo es, 0: no lo es) (Y ~ Bernoulli p). y : Total de estudiantes en la población. t y : Nº medio de estudiantes por familia y : Proporción de estudiantes en la población. yh: Proporción de estudiantes en la zona h.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-19 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2. INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR

    8.2-2.1 Muestreo Aleatorio Simple Sin Reposición (ASSR)

    Sea Y una característica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple sin reposición de n individuos. La estimación de la media poblacional de y se puede realizar a partir de la muestra:

    Estimador puntual insesgado de y por el estadístico media muestral :

    n

    iiyn

    y1

    1

    La varianza del estadístico media muestral se puede estimar a partir de la muestra de manera insesgada por:

    2'11ˆ SnN

    nyV

    donde

    n

    ii yynS' 1

    22

    11

    Si la muestra se extrae sin reposición entonces el estimador puntual de la media poblacional se calcula a partir del estadístico media muestral, cuya verdadera varianza es:

    222 '11'11 YYY nNn

    nN1-N

    1-Nn-N

    n1-Nn-NyV

    donde 2

    1

    2

    1

    22

    111

    11

    NNy

    NN

    Ny

    N'N

    iYi

    N

    iYi

    ASSR

    n ind.

    N ind.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-20 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR

    Sea Y una característica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple sin reposición de n individuos. La estimación del total poblacional de y se puede realizar a partir de la muestra:

    Estimador puntual insesgado de y por el estadístico media muestral :

    n

    iiY yn

    NyNT1

    ˆ

    La varianza del estadístico total muestral se puede estimar a partir de la muestra de manera insesgada por:

    2'11ˆˆˆ SnN

    nNyNVTV 2Y

    donde

    n

    ii yynS' 1

    22

    11

    El factor de expansión es la ponderación de cada unidad de la muestra que permite construir el valor

    poblacional : nN

    .

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-21 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASSR

    Sea Y una característica dicotómica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple sin reposición de m individuos. La estimación de la proporción poblacional de

    y se puede realizar a partir de la muestra:

    Estimador puntual insesgado de py por el estadístico media muestral :

    n

    iiyn

    p1

    La varianza del estadístico proporción muestral se puede estimar a partir de la muestra de manera

    insesgada por:

    1-npp

    NnpV

    ˆˆˆˆ

    11

    Selección de la muestra:

    Muestreo sistemático: generar un arranque aleatorio y saltar en pasos N/n.

    Método simple: archivo con N individuos, se generan m números aleatorios entre 1 y N (o a partir de una uniforme [0,1] y se multiplica por n (redondeándose por exceso)). En R:

    # Crear una muestra del dataframe UNIVERSO con todas las var.explicativas activas n = 100 indicador

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-22 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ASCR

    8.2-2.2 Muestreo Aleatorio Simple Con Reposición (ASCR)

    Sea Y una característica definida a nivel de individuo, en una población de N individuos y una muestra aleatoria simple con reposición de n individuos.

    Desde un punto de vista teórica es equivalente a un muestreo ASSR sobre una población de tamaño infinito (N muy grande, por encima 500.000).

    La estimación de la media poblacional de y se puede realizar a partir de la muestra:

    Estimador puntual insesgado de y por el estadístico media muestral :

    n

    iiyn

    y1

    1

    La varianza del estadístico media muestral se puede estimar a partir de la muestra de manera insesgada por:

    21n

    yV 2'1ˆ Sn

    yV donde

    n

    ii yynS' 1

    22

    11

    ASSR

    n ind.

    N infinito

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-23 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: IC )%1(100

    8.2-2.3 Muestreo Aleatorio Simple (ASSR): intérvalos de confianza )%1(100

    En general, sea un estimador no sesgado de , parámetro muestral. Se asume una distribución normal del

    estimador ̂ con error estándard (raiz cuadrada del estimador de la varianza de ̂ ) notado ̂s , entonces se contruye un intervalo de confianza bilateral al nivel de confiança (valor entre 0 y 1) es:

    ˆˆˆˆˆˆ22 11

    VzVz Por ejemplo para 1.0 y para Y (intérvalo de confianza bilateral al 90% para el total poblacional de Y) a partir de la expresión:

    n

    sNnNsVTszsz YYY

    2'22

    ˆˆ21

    ˆ21

    1ˆˆ,,ˆˆˆ

    YYYYY TVzTTVzT ˆˆ 95,095,0 con 65.195.0 z

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-24 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: IC )%1(100

    Por ejemplo para 05.0 y para Y (intérvalo de confianza bilateral al 95% para la proporción poblacional de Y – variable binaria) a partir de la expresión:

    1ˆ1ˆ11ˆˆˆ

    2'

    npp

    Nn

    ns

    NnyVpV y

    1ˆ1ˆ1ˆˆ,,ˆˆˆˆ 2ˆˆ

    21ˆ

    21

    npp

    NnsVppszsz

    pVzpppVzp ˆˆˆˆˆˆ 975,0975,0 con 96.1975.0 z Por ejemplo, el intervalo de confianza bilateral al 99% para la media poblacional seria:

    yVzyyVzy Y ˆˆ 995,0995,0

    donde 2'11ˆ SnN

    nyV

    y

    n

    ii yynS' 1

    22

    11

    con 58.2995.0 z

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-25 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100

    8.2-2.4 Muestreo Aleatorio Simple (ASSR): error absoluto al )%1(100

    En general, sea un estimador no sesgado de , parámetro muestral. Se asume una distribución normal del

    estimador ̂ con error estándard (raiz cuadrada del estimador de la varianza de ̂ ) notado ̂s , entonces el error absoluto al nivel de confiança (valor entre 0 y 1) es:

    ˆˆˆ21

    VzEA

    Por ejemplo, el error absoluto al nivel de confianza del 99% para la media poblacional de Y seria:

    2995.0995.01 '11ˆˆ

    201.0 S

    nNnzyVzyVzyEA

    donde

    n

    ii yynS' 1

    22

    11

    con 58.2995.0 z

    El error absoluto de un estimador es inversamente proporcional a su precisión: a menor error absoluto mayor precisión y a mayor error absoluto menor precisión.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-26 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100

    El error absoluto de un estimador de una media poblacional decrece de manera inversamente proporcional a la raiz

    del tamaño muestral y por tanto para reducir el error absoluto en un porcentaje %100 ( con valor entre 0 y 1):

    2'

    1

    1

    1

    '1'1

    2

    2

    nn'yVz

    yVzyEAyEA nN

    Para decrementar en un 5% el error absoluto el tamaño muestral se ha de incrementar en 11%

    Para decrementar en un 10% el error absoluto el tamaño muestral se ha de incrementar en 24%

    Para decrementar en un 20% el error absoluto el tamaño muestral se ha de incrementar en 56%

    Para decrementar en un 50% el error absoluto el tamaño muestral se ha de incrementar en 300% (es decir multiplicar por 4 el tamaño).

    EA(n') EA(n) EA(n')/EA(n) Beta n n' 95 100 0.95 5.00% 1000 1108 90 100 0.9 10.00% 1000 1235 80 100 0.8 20.00% 1000 1563 50 100 0.5 50.00% 1000 4000 20 100 0.2 80.00% 1000 25000 10 100 0.1 90.00% 1000 100000 5 100 0.05 95.00% 1000 400000

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-27 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100

    Por ejemplo, el dimensionamiento de una muestra procedente de una población infinita para obtener un error

    absoluto inferior a unidades fijado, al nivel de confianza del 1oo( 1 )% fijado para la media muestral Y seria:

    21

    211 '

    1'11222

    Sn

    zSnN

    nzyVzyEA

    donde

    n

    ii yynS' 1

    22

    11

    con 21 z el nivel de confianza bilaterial fijado

    Donde Nnnn

    1 seria el tamaño en una población infinita y por tanto, el efecto de población finita se

    puede obtener Nnnn

    1 . Si N es muy grande y el factor de muestreo en población finita es

    prácticamente uno: 11

    Nn

    . A mayor dispersión de Y y mayor precisión (menor ) mayor tamaño.

    22

    21 '2 S

    zn

    y considerando el factor de población finita Nnnn

    1 .

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-28 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100

    Por ejemplo, el error absoluto al nivel de confianza del 95% para una proporción seria:

    1-npp

    NnzS

    nNnzpEAyEA

    ˆ1ˆ1'11ˆ 975.02

    975.0

    donde

    n

    iiyn

    p1

    1ˆ con 96.1975.0 z

    o Al máximo nivel de interdeterminación se da cuando p=1-p=0.5 y si N es grande y N >> n de ahí:

    n1-nN

    nz1-npp

    NnzpEA 111

    2ˆ1ˆ1ˆ 975.0975.0

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-29 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EA AL )%1(100

    El error absoluto de una proporción decrece de manera inversamente proporcional a la raiz del tamaño muestral y

    por tanto para reducir el error absoluto en un porcentaje %100 ( con valor entre 0 y 1):

    2

    2

    111

    ˆˆ'1

    nn'n'n

    n'n

    pEApEA

    Para decrementar en un 5% el error absoluto el tamaño muestral se ha de incrementar en 11%

    Para decrementar en un 10% el error absoluto el tamaño muestral se ha de incrementar en 24%

    Para decrementar en un 20% el error absoluto el tamaño muestral se ha de incrementar en 56%

    Para decrementar en un 50% el error absoluto el tamaño muestral se ha de incrementar en 300% (es decir multiplicar por 4 el tamaño).

    Se reexpresa: para doblar la precisión (reducir a la mitad el error absoluto se tiene que cuatriplicar el tamaño muestral).

    EA(n') EA(n) EA(n')/EA(n) Beta n n' 0.475 0.5 0.95 5.00% 1000 1108

    0.45 0.5 0.9 10.00% 1000 1235

    0.4 0.5 0.8 20.00% 1000 1563

    0.25 0.5 0.5 50.00% 1000 4000

    0.1 0.5 0.2 80.00% 1000 25000

    0.05 0.5 0.1 90.00% 1000 100000

    0.025 0.5 0.05 95.00% 1000 400000

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-30 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ER AL )%1(100

    8.2-2.5 Muestreo Aleatorio Simple (ASSR): error relativo al )%1(100

    En general, sea un estimador no sesgado de , parámetro muestral. Se asume una distribución normal del

    estimador ̂ con error estándard (raiz cuadrada del estimador de la varianza de ̂ ) notado ̂s , entonces el error relativo al nivel de confiança (valor entre 0 y 1) es:

    ˆˆˆˆˆˆ21

    VzEAER

    Por ejemplo, el error relativo al nivel de confianza del 99% para la media poblacional de Y seria:

    2995.02995.0995.011'11ˆ YCVnN

    nzySnN

    nzyyVzyER

    donde

    y

    yyn

    yS'YCV

    n

    ii

    12

    11

    )( con 58.2995.0 z

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-31 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ER AL )%1(100

    Ilustración: error relativo del 50% en el estimador de la media de Y según IC 95%

    El error relativo en la media muestral depende del coeficiente de variación de la Y (variable a observar y cuya

    media poblacional se desea estimar).

    Un CV de 1 apunta a una ley exponencial y resulta valorativamente una variabilidad elevada. En las variables socioeconómicas habituales el CV está por debajo de 1.

    El error relativo de una media decrece de manera inversamente proporcional a la raiz del tamaño muestral y

    por tanto para reducir el error relativo en un porcentaje %100 ( con valor entre 0 y 1):

    2'

    1

    1

    11

    '11'1

    2

    2

    nn'nz

    nzyERyER nN

    y 5.0ˆ975.0 yyVzyER 0

    yV̂2 yV̂2

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-32 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ER AL )%1(100

    Por ejemplo, el dimensionamiento de una muestra procedente de una población infinita para obtener un error

    relativo 100 % fijado al nivel de confianza del 1oo( 1 )% para la media muestral Y seria:

    21

    211

    111222

    YCVn

    zYCVnN

    nzyyVzyyEAyER

    YYYCV )( es el coeficiente de variación poblacional de la variable Y, estimado a partir de la muestra por ySYCV Y')(

    Donde Nnnn

    1 seria el tamaño en una población infinita y por tanto, el efecto de población finita se

    puede obtener Nnnn

    1 . Si N es muy grande y el factor de muestreo en población finita es

    prácticamente uno: 11

    Nn

    .

    2221 2 YCV

    zn

    y considerando el factor de población finita Nnnn

    1 .

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-33 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: ER AL )%1(100

    Por ejemplo, el error relativo al nivel de confianza del 95% para una proporción seria:

    1-npp

    Nnzp

    1-npp

    NnzppEApER

    ˆˆ11ˆ

    ˆ1ˆ1ˆˆˆ 975.0975.0

    donde

    n

    iiyn

    p1

    1ˆ con 96.1975.0 z

    Cuidado con las interpretaciones de los errores relativos en proporciones. Supóngase que N es muy grande y

    el factor de muestreo en población finita es prácticamente uno: 11

    Nn

    .

    El error relativo a tamaño muestral fijo crece de manera inversamente proporcional a la raiz de los odds

    p-1ppodd )( y para probabilidades target ( ) pequeñas los tamaños muestrales tienden a ser enormes:

    ER(n) IC95% en porcentaje p odd(p) 100 124 156 400 1600 3500 7000 40000

    0.01 0.0101 195% 175% 156% 98% 49% 33% 23% 10% 0.05 0.0526 85% 77% 68% 43% 21% 14% 10% 4% 0.1 0.1111 59% 53% 47% 29% 15% 10% 7% 3% 0.2 0.2500 39% 35% 31% 20% 10% 7% 5% 2% 0.5 1.0000 20% 18% 16% 10% 5% 3% 2% 1% 0.8 4.0000 10% 9% 8% 5% 2% 2% 1% 0% 0.9 9.0000 7% 6% 5% 3% 2% 1% 1% 0%

    0.95 19.0000 4% 4% 4% 2% 1% 1% 1% 0% 0.99 99.0000 2% 2% 2% 1% 0% 0% 0% 0%

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-34 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: CELDAS OD

    8.2-2.6 Muestreo Aleatorio Simple (ASSR): aplicación celdas de matriz OD

    En las encuestas de movilidad dirigidas a la estimación de matrices de movilidad OD, herramienta esencial en el esquema de planificación de las 4 etapas, las proporciones de viajes entre un origen fijado y los destinos suelen tener valores muy pequeños y la precisión en los valores totales estimados en las celdas OD suele ser muy, muy bajo.

    Hay referencias clásicas que lo han estudiado como Smith M.E. TRR701 (1979) “Design of small sample home interview travel surveys” y posteriormente en 2004 Ampt y Ortúzar en Transport Reviews “On best practice in Continuous Large-scale Mobility surveys” refinan la propuesta de Smith y otros autores posteriores, se puede acotar a tamaños – precisiones razonables la generación de viajes según grupos socioeconómicos (definidos por tipología de ingresos, tamaño de los hogares y disponibilidad de vehículos privados), pero muy difícilmente los totales OD (celdas de las matrices de movilidad):

    Las alfas son las proporciones muestrales en cada una de las zonas (se limita a máximo el 5%).

    Las hjx son las unidades totales de la clase h en la zona j (conocido de entrada). Se requiere un mínimo de 30 unidades muestras por clase h.

    Se puede programar en AMPL por ejemplo.

    hxjts

    x

    zonasjhjj

    j

    clasesh zonasjhjjj

    3005.00..

    min

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-35 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: CELDAS OD

    Según Smith (79), un tamaño muestral de un 4% de los viajes de un ámbito de estudio sería necesario recoger para estimar celdas origen-destino con valores absolutos mayores de 1100 viajes a un nivel de confianza del 90% y con un error absoluto del 25%. Menos del 4% de los viajes no permitiría detectar satisfactoriamente relaciones OD con un número de viajes inferior a 1100 viajes.

    Normalmente en las encuestas domiciliarias se dimensiona por familias (hogares) o bien individuos, no se dimensiona porcentajes de los viajes, ya que el universo de los viajes realizados se desconoce, por tanto estimar número de viajes a partir de unidades de muestreo individuos o familias implicará una ineficiencia por las intradepedencias implícitas en los viajes de los individuos y por tanto, en realidad el tamaño muestral de individuos (u hogares) debería ser mayor que el tamaño muestral en términos de viajes.

    Raramente se emplean encuestas domiciliarias para estimar matrices de movilidad del transporte público salvo que la cuota de mercado de éste sea muy elevada, tal como sucede en muchas ciudades compactas europeas.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-36 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: CELDAS OD

    8.2-2.7 Muestreo Aleatorio Simple (ASSR): Ejercicios

    8.2-2.7.1 Cuota de Mercado de una linea de transporte público Una muestra ASCR está compuesta por 400 usuarios de autobús en un ámbito de estudio, de los cuales 40 son usuarios de la Linea A. Se pide:

    1) Construir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.

    2) Supóngase que la extracción fuera ASSR y N=5.000: contruir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.

    3) Supóngase que la extracción fuera ASSR y N=1.000.000: contruir un intervalo de confianza a un nivell de confianza del 95% para la verdadera proporción de usuarios de la Línea A.

    4) Si se deseara un error absoluto del 1% (1 punto), cuales tendrían que ser los tamaños muestrales bajo extracción ASSR para poblaciones de N=5.000 y N=1.000.000?

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-37 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS

    8.2-2.7.2 Rendimento de una encuesta de movilidad domiciliaria por buzoneo Una empresa de estudios de mercado recibe el encargo de realizar una encuesta domiciliaria de movilidad por correo. Se tiene acceso a un fichero con N=200.000 individuos. Sea p el rendimiento desconocido del fichero, es decir, p es la proporción de individuos que devolverán rellenada la encuesta recibida por correo. Para estimar el

    rendimiento p, llamemos p̂ a la tasa de retorno conseguida a partir de un test sobre una pequeña muestra de n individuos, elegidos con probabilidades iguales y sin reemplazo. La experiencia de la empresa es que el rendimiento en estos tipos de muestreos no suele superar el 3%.

    1) ¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,5% a un nivel de confianza del 95%?

    2) ¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,3% a un nivel de confianza del 95%?

    3)¿Cual es el tamaño muestral n necesario para estimar p con una precisión absoluta del 0,1% a un nivel de confianza del 95%?

    4) Si finalmente la muestra tiene un tamaño n=10.000 y se contabilizan 230 retornos, cual es el intervalo de confianza bilateral al 95% para el rendimiento p y para el número total de individuos del fichero?

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-38 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS

    8.2-2.7.3 Sondeo de opinión pre-electoral Se desarrolla un sondeo de opinión preelectoral para recoger información sobre la opinión general de una

    personalidad política y se obtiene un porcentaje de opiniones favorables del 20%, 2,0ˆ p . 1) Si la extracción es ASCR, cuántas personas han sido interrogadas para poder decir con un nivel de confianza del

    95% que el verdadero porcentaje de opiniones favorables en la población no se desvía más de 2 puntos de p̂ ? 2) Si la extracción es ASSR, cuántas personas han sido interrogadas para poder decir con un nivel de confianza del

    95% que el verdadero porcentaje de opiniones favorables en la población no se desvía más de 2 puntos de p̂ (N=5.000.000)

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-39 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS

    8.2-2.7.4 Uno más Difícil de Muestreo Aleatorio Simple El único operador de transporte de una ciudad mediana de N=500.000 habitantes, cada mes publica los horarios de las 30 lineas de transporte diferentes que sirve, pero tiene grandes oscilaciones mensuales en la carga total, pero no así en el reparto por línea. Una linea se considera de alta demanda si la carga diaria son como mínimo de 12000 viajeros, y de demanda media, si la carga es como mínimo de 8000 viajeros. Los usuarios del transporte público son aquellos que compran un mínimo de 3 títulos mensuales por año y se quiere dimensionar una muestra de usuarios para promocionar una tarifa rebajada para los que soliciten un título mensual con 15 días de antelación mínimo al mes siguiente, a cambio de que faciliten información sobre sus desplazamientos programados para el siguiente mes (y así hacer planificación de la operación en función de las cargas previstas para cada linea). La experiencia dice que entre los usuarios contactados (n1) son un 30%, n2, los que compran el título para el siguiente mes con 15 días de antelación (n2=0.3n1). El objetivo es estimar n1 (dimensionamiento de la muestra de usuarios a los que se les ofrece la promoción si facilitan información de sus desplazamientos) a partir de unos ciertos requerimientos de precisión absoluta y relativa sobre las cargas diarias de las lineas de demanda media y alta.

    1) Determinar n1 para estimar las cargas de las lineas de demanda alta con un error absoluto de 1500 pasajeros a un grado de confianza del 95% (pasajeros).

    2) Qué precisión absoluta comporta el tamaño muestral n1 sobre las lineas de demanda media?

    3) Comparando 1 con 2, se constata que la precisión absoluta es mejor en 2 que en 1. Verifiquese que con precisión relativa es a la inversa.

    4) Cual es el tamaño muestral n1 necesario para lograr en las lineas de demanda media la misma precisión relativa la obtenida en las lineas de demanda alta para el mismo tamaño muestral calculado en el apartado 1 ?

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-40 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS

    Resolución:

    El estimador puntual de la proporción de usuarios de una línea de demanda alta es 024,0

    000.500000.12ˆ p

    Para calcular el interval de confianza al 95% se ha de disponer de la varianza del estimador p̂ , pV ˆ o en su defecto del estimador de la varianza del estimador pV ˆˆ y a partir de aquí imponer la condición la condición de precisión

    absoluta de 1.500 pasajeros, que representa un 0,3% (003,0

    000.500500.1

    ).

    Sea

    rpp

    npp

    Nn

    pVˆ1ˆ

    1ˆ1ˆ1ˆˆ

    1

    1

    , n1 la carga total diaria de viajeros y r el número equivalente si la N tuviera tamaño infinito y en nuestro caso:

    21

    1 003,0024,01024,096,1024,01024,0000.500

    196,1ˆˆ96,1

    rnnpV

    999.94,9998003,0

    024,01024,096,1003,0

    ˆ1ˆ96,12

    2

    2

    2

    ppr

    y

    804.91

    13,0 12

    Nr

    rnn

    y por tanto,

    680.323,02

    1 n

    n

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-41 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS

    Por tanto, se necesitaría contactar y anunciar la promoción de compra anticipada a 32680 usuarios para conseguir (fijando el 30% de anticipación) información de los viajes diarios a realizar y estimar las lineas de alta demanda con una precisión absoluta de 1500 pasajeros diarios.

    Una linea de carga media supone una 016,0

    000.500000.8ˆ p

    y para calcular un intérvalo de confianza para las lineas de demanda media al 95% se ha de calcular pV ˆ o de su estimador pV ˆˆ y la precisión absoluta de 8.000 pasajeros en una muestra de 9.9981 n usuarios que responden en un 30% a las lineas diarias que emplean.

    21

    1 00124,0997.9

    016,01016,0000.500

    998.911ˆ1ˆ1ˆˆ

    npp

    Nn

    pV

    00243,000124,096,1ˆˆ96,1 pV y la precisión absoluta en número de pasajeros por linea media sería 500000 x 0,00243=1215 pasajeros y por tanto es menor que el error absoluto de las lineas de alta demanda (1500 pasajeros de precisión absoluta).

    Sea 1 la precisión relativa de las lineas de 12.000 pasajeros, 125,0

    000.12500.1

    1 .

    Sea 2 la precisión relativa de las lineas de 8.000 pasajeros, 153,0

    000.8215.1

    2 , por tanto en las lineas de

    demanda alta la precisión relativa es mayor (error relativo menor 12.5% frente a 15,3% en demada media).

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-42 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-2 INTRODUCCIÓN A LA TEORIA DEL MUESTREO: EJERCICIOS

    El tamaño que debería tener la muestra de usuarios a los que se les oferta la reducción de tarifa por compra avanzada para garantizar una precisión relativa en las lineas de demanda media (8000 pasajeros/día) del 12.5% (la misma precisión relativa que para la demanda alta cuando se fija una precisión absoluta de la demanda alta de 1500

    pasajeros/día) se tendría que fijar una precisión absoluta en la demanda media de 000.1000.500125,0 pasajeros y según las fórmulas correspondiente para las precisiones absolutas en ASSR:

    r

    ppn

    ppNn

    pVˆ1ˆ

    1ˆ1ˆ1ˆˆ

    1

    1

    21

    1 002,0016,01016,096,1016,01016,0000.500

    196,1ˆˆ96,1

    rnnpV

    al 95% 121.15

    002,0016,01016,096,1

    002,0ˆ1ˆ96,1

    2

    2

    2

    2

    ppr

    considerando tamaño poblacional finito y tasa de éxito de la promoción del

    30% se tiene en este caso

    679.141

    13,0 12

    Nr

    rnn

    y 927.48

    3,02

    1 n

    n és el tamaño muestra para garantizar la

    precisión relativa requerida.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-43 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3. INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    Sea Y población con y2

    , n el tamaño total de una muestra tomada sobre una población de tamaño N (UPs). Las UPs son las USs, es decir las unidades finales.

    En lugar de extraer la muestra totalmente al azar, se extrae parte de la muestra en cada estrato ; de esta manera, se espera “representar mejor” el universo.

    La estratificación puede tener como objetivo principal :

    bien aumentar la precisión global ;

    bien obtener una precisión suficiente a nivel de cada estrato.

    Nos situamos aquí en el caso de una extracción, en el interior de cada estrato, aleatoria simple sin reposición.

    Se tienen H estratos (h = 1, 2, ..., H).

    Para el estrato h, el efectivo total de UPs es Nh y por tanto,

    H

    1hhN .

    nnh

    h H

    1

    n1

    nH-1

    nH

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-44 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    La media muestral por estrato de Y es hin

    hihh yn

    yh

    1

    1y el estimador de la varianza

    h

    h

    h

    hh n

    SNnyV

    2'1ˆ

    con

    21

    2

    11' hhi

    n

    hihh yyn

    Sh

    El número de unidades UPs extraídas es nh por estrato y el índice en la muestra es ih (ih = 1, ..., nh).

    Se presentarán a continuación estimadores insesgados calculados a partir de estadísticos estratificados para el total de Y y la media de Y.

    8.2-3.1 Estimación del total Y en el universo a partir del sondeo estratificado

    Para el estrato h el total de Y se estima por hh yN , por tanto la estimación del total de Y en el universo es

    hH

    Y yNT

    1h

    o bien

    H

    hi

    n

    hihi

    n

    hi

    H

    h

    H

    Y ynNy

    nNyNT

    hh

    1h h

    h

    111h h

    h

    1hh

    ˆ y su varianza estimada

    es 2hhh

    h

    1h

    2h '

    11ˆV̂ SnN

    nNT

    H

    Y

    Toda unidad observada en la muestra se pondera por el coeficiente h

    h

    nN

    (cuyo valor depende del estrato), a fin de

    extrapolar (o de “extender”) los resultados al universo : el factor de expansión.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-45 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    8.2-3.2 Estimación de la media de Y en el universo a partir del sondeo estratificado

    Para ésto, se utiliza la estimación del total de Y dividida por el número total de unidades del universo N (N es conocido). El estimador es :

    hH

    Ye yNN

    NT

    y

    1h

    y 2hhh

    h

    1h2

    2h '11V̂ S

    nNn

    NNy

    He

    con 2

    1

    2

    11' hhi

    n

    hihh yyn

    Sh

    Estas dos estimaciones de la varianza, respectivamente de los estimadores del total y de la media, permiten calcular la desviación-tipo de dichos estimadores y por tanto, proponer intervalos de confianza asociados a estos estimadores.

    8.2-3.3 Muestreo estratificado proporcional

    Las fórmulas presentadas anteriormente son válidas cualquiera que sea el número de unidades extraídas por

    estrato ; por tanto, la tasa de hfNn

    h

    h puede variar de un estrato a otro.

    Cuando se impone una tasa de sondeo idéntica para todos los estratos, se denomina el sondeo “estratificado

    representativo” o “estratificado proporcional” y hNnf

    Nn

    h

    h.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-46 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    La estimación del total es

    H

    hi

    n

    hihi

    n

    hi

    H

    h

    H

    Y ynNy

    nNyNT

    hh

    1h 111h1hh

    ˆ y su varianza estimada es

    2h1h

    h2

    '1ˆV̂ SNN

    nN

    NnT

    H

    Y

    .

    La varianza total puede descomponerse como una varianza intraestrato más una varianza interestrato, lo que permite reescribir de manera más compacta las fórmulas.

    2int2int211

    22 )( erraYhY

    H

    h

    hH

    h

    hY

    hY N

    NNN

    La estimación de la media es entonces

    H

    hi

    n

    hih

    HYep y

    ny

    NN

    NTy

    h

    1h 11h

    h 1ˆ y por tanto es la media simple calculada

    sobre la muestra que permite estimar la media en el universo ; se tiene un sondeo llamado "autoponderado".

    La varianza estimada de epy vale 2int2h

    1h

    h '11'11V̂ raH

    ep SnN

    nSNN

    nNny

    .

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-47 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    8.2-3.4 Estratificación óptima de Neyman

    El reparto representativo se presentó antes ; consiste en utilizar la misma tasa de sondeo para todos los estratos ; pero son posibles otros repartos. El reparto de Neyman consiste en respetar la igualdad :

    Utiliza una tasa de sondeo proporcional a la dispersión Sh en cada estrato de la variable Y estudiada : tanto más heterogéneo es un estrato con respecto a dicha variable, tanto mayor es la tasa de sondeo en él.

    La teoría muestra que este reparto es el que proporciona la varianza global más reducida posible (es decir, la mejor precisión para la estimación global en todo el universo), para unos estratos fijados y un tamaño mostral global n también fijado, a costa perjudicar la precisión individual de algunos estratos.

    Veámoslo, 2hhh

    h

    1h2

    2h '11V̂ S

    nNn

    NNy

    He

    ...

    cntSN

    nSN

    nH

    h hhhh

    h 1

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-48 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: M. ESTRATIFICADO ÓPTIMO

    La aplicación de la formula anterior para calcular el reparto de Neyman supone que los valores Sh se conocen a priori. Puede ser el caso, a partir de estudios anteriores al sondeo, pero en general no es así. Cuando el criterio de estratificación es el tamaño de las unidades (estratos definidos mediante “tramos” de tamaño), se constata que la desviación-tipo es sensiblemente proporcional al tamaño medio de las unidades del estrato. Es un orden de magnitud de dicho tamaño medio (más fácil de estimar que Sh) lo que se utiliza para calcular el reparto de los cuestionarios entre los estratos.

    hSN

    SNnn

    nnts

    SnN

    nNNy

    NNVyV

    H

    l ll

    hh

    h

    H

    h

    He

    nh

    1

    h

    h

    2h

    hh

    h

    1h2

    2h

    1h

    h

    ..

    '11min

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-49 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    En la práctica, se utiliza el reparto de Neyman cuando el fenómeno estudiado tiene una distribución muy asimétrica (por ejemplo, cuando se realizan sondeos a empresas y existen a la vez pequeñas empresas y algunas pocas empresas muy grandes que concentran una parte importante de la producción. En cambio, si este fenómeno tiene una distribución simétrica respecto a su media, un sondeo estratificado proporcional (o “representativo”) proporcionará resultados de suficiente calidad.

    8.2-3.5 Estratificación óptima según coste fijado total (variable por estrato)

    En muchas ocasiones el coste unitario del trabajo de campo depende de las características del estrato e interesa fijado un coste total del trabajo de campo dimensionar, asignar las unidades de muestreo de la manera más eficiente para maximizar la precisión absoluta (minimizar el error absoluto), suponiendo que los costes unitarios dependen del estrato. Si hC es constante implica maximizar la precisión global a tamaño muestral n fijado.

    hCCSN

    CSNCn

    CnCts

    SnN

    nNNy

    NNVyV

    H

    l llll

    hhh

    hh

    H

    h

    He

    nh

    1

    h

    h

    2h

    hh

    h

    1h2

    2h

    1h

    h

    ..

    '11min

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-50 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    8.2-3.6 Búsqueda de precisión a nivel de cada estrato

    Cuando se desea obtener información significativa en cada estrato, entonces el problema es completamente distinto, por ejemplo si se quiere estimar la tasa de viajes diarios para la población urbana y la población rural, o para diferentes zonas de transporte de un ámbito de estudio. Aquí, se debe dar una ventaja relativa a los estratos menos poblados, generalmente en detrimento de la precisión global.

    Si se desea la misma precisión a nivel de cada estrato y si se estima que los estratos presentan la misma heterogeneidad para el carácter estudiado, se deberán tomar tamaños de muestra similares en cada uno.

    8.2-3.7 Búsqueda trade-off: coste variable-dispersión con n fijo

    A menudo se fija el tamaño muestral global n y se desea obtener resultados en precisión que mejores cuando se aumenta el tamaño muestral, aceptando que los coste por estrato son distintos y sus varianzas también, en ese caso, el reparto óptimo que se realiza es:

    A más dispersión del estrato más muestra.

    A mayor coste del estrato menor muestra.

    A mayor tamaño poblacional del estrato mayor muestra en el estrato.

    Hl lll

    hhh

    CSN

    CSNnn

    1

    h

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-51 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    8.2-3.8 Valoración del muestreo estratificado y relación con ASSR

    Se debe otorgar un juicio favorable a la estratificación, pero una estratificación puede ser eficaz para un carácter y en absoluto para otro.

    La muestra autoponderada simplifica los recuentos, conduce a cálculos fáciles y no depara malas sorpresas en caso de error. Pero se corre el riesgo de acabar con resultados poco significativos para los estratos pequeños. Además, no ofrece, excepto excepciones, la mejor precisión global. Para las encuestas demográficas es el método más utilizado: ya que las varianzas de las variables no son suficientemente diferenciadas de un estrato a otro para justificar tasas de sondeo diferentes.

    La muestra de Neyman es de difícil aplicación ; supone disponer de una buena información previa y los errores en dicha información pueden acarrear graves consecuencias. Neyman perjudica a los estratos pequeños, pero proporciona buenos resultados globales. Es un método utilizado en el caso de encuestas sobre la producción destinadas a proporcionar estimaciones de totales (caso de las encuestas sobre las empresas, cuando una base de sondeo está disponible bajo la forma, por ejemplo, de un registro). Para finalizar, si se aumenta la precisión a nivel de estrato, se puede perder eficacia a nivel global.

    En general se demuestra que la varianza del estimador de la media estraficado está ligado a la varianza del

    estimador y obtenido en un sondeo aleatorio simple, para el mismo número de unidades y que el sondeo estratificado representativo tiene una varianza de estimador siempre menor o igual a la del sondeo “simple”, y tanto más pequeña cuando los estratos tienen medias diferentes de la media general.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-52 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    Se entiende intuitivamente este resultado al recordar que la extracción estratificada consiste en alterar el azar “general” para imponer a la muestra “el representar” al universo estrato por estrato, por tanto a concentrar los valores observados alrededor de las medias de cada estrato.

    Para y , el estimador del valor medio de la variable de interes se puede determinar:

    ASSR, nfyV

    2

    1')1()(

    Estratificado proporcional , nfyV ra

    2int

    2 )1()(

    Haciendo cociente de los errores en ambos tipos de muestreo:

    1'

    '1'''

    ''

    )()(

    2

    2int

    2

    2int

    2

    2

    2int

    1

    2

    ererra

    yVyV

    donde queda de manifiesto que si existen diferencias en los valores medios en los distintos estratos, entonces el muestreo estratificado proporcional siempre es mejor que el muestreo ASSR.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-53 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    8.2-3.9 La estratificación en las encuestas de movilidad a residentes según Smith 79

    En planificación del transporte es imperativa la partición del ámbito de estudio en macrozonas homogéneas respecto a los usos del suelo y las características socioeconómicas de la población residente. La realización de sondeos ad hoc de manera proporcional al tamaño de las macrozonas en términos de población es una práctica habitual, respectando una cuota mínica de unidades muestrales en las macrozonas más pequeñas en términos de población (no menos de 30 encuestas por zona). Esta práctica garantiza una cobertura más uniforme del ámbito global (apreciada en la construcción de matrices OD más creíbles) y a su vez que garantizan una precisión mayor que la obtenida por un muestreo al azar sobre el conjunto global, dadas las características comunes que comporten los residentes dentro de una macrozona.

    Las encuestas de movilidad a residentes se realizan cada 5 años aproximadamente, aunque actualmente se prefiere el tratamiento continuado de un panel con entradas y salidas que permita recoger la particularidades de de la movilidad en las distintas épocas del año y días, no una fotografía representativa del día laborable medio.

    Sea como sea, son de propósito múltiple y deben dimensionarse en los estratos (macrozonas) para satisfacer características diferenciales en media poblacional según distintos segmentos de población, cada uno de los cuales tiene una presencia distinta en cada una de las macrozonas.

    Smith (1979) propuso para la generación de viajes diarios por hogar usar segmentos caracterizados por tamaño hogar – nº autos, para conseguir una estimación global de viajes por hogar dentro de una precisión relativa. La metodología ha ido modificándose con el tiempo, pero que resulta muy didáctica.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-54 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    1. Fijar el error relativo %100 .

    2. Fijar el nivel de confianza %1100 para el verdadero valor de la esperanza de Y (número de viajes por hogar).

    3. Sea Y el número de viajes diarios por individuo: se acepta que dentro de un estrato la dispersión de la variable Y

    respecto a su media será menor que la dispersión global respecto la media poblacional. Sea hS ' la dispersión (desviación tipo-raiz cuadrada de la varianza muestral) estimada para el estrato.

    4. Sea ySS hYhh ~''' donde y~ estimador disponible de Y por prueba piloto o antiguo estudio de la

    generación media global por individuo. 'h es el coeficiente de variación de la generación diaria por persona en el

    estrato h.

    5. Sea c, entre 1 y H, el estrato crítico con 'h más elevado.

    6. Sea el coeficiente de variación global resultado de ponderar los CV por estrato por el tamaño del estrato:

    h

    hh NN'' .

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-55 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    7. Determinar el tamaño muestral ASSR con población infinita necesario para obtener un error relativo %100 al

    nivel de confianza %1100 con coeficiente de variación h

    hh NN'' .

    222

    121

    ''1 2

    2

    z

    nn

    zyER

    8. Si %90%1100 y %5%100 2222

    1 '1089'

    2

    z

    n .

    9. Afectar el tamaño muestral global por el factor de población finita: Nn

    nn

    1

    10. Sea '

    '

    '

    '

    NNn

    NNNNnn hh

    l ll

    hhoh el reparto óptimo proporcional al tamaño del estrato y al

    coeficiente de variación del estrato.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-56 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: MUESTREO ESTRATIFICADO

    11. Sea

    l l

    heh NN

    NNnn el reparto estratificado proporcional al tamaño del estrato. La mayor divergencia

    entre los efectivos muestrales óptimos y proporcionales se dará en el estrato crítico c.

    12. Sea ec

    occ nnf / .

    13. Sea

    l l

    hch NN

    NNnfn' el incremento muestral en cada estrato sobre el muestreo proporcional para

    satisfacer los requerimientos globales.

    8.2-3.10 Ejercicios de dimensionamiento

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-57 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO: EJERCICIOS

    8.2-3.10.1 Caso de Estudio 1: Tasa de residuos diarios por habitante Dimensionar la muestra de municipios por estratos (de 1 a 11) necesaria para la estimación de la tasa de generación diaria de residuos por habitante con un nivel de confianza del 95% y un error relativo global inferior al 10% e inferior al 20% por estrato.

    Unidades Municipales

    f.Rec Sel

    Residuos Totales de

    Fracción Resto (kg dia)

    Nh/N Coeficient e Variación

    Tasa generación

    total (kg hab y dia)

    Desviación Tasa

    generación total (kg hab

    y dia)

    Estrato

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-58 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS

    8.2-3.10.2 Caso de Estudio 2: Encuesta de Movilidad Domiciliaria en una ciudad mediana

    Se dispone de información relativa a la población por género y grupos de edad en las zonas de transporte del ámbito de estudio interior de un municipio de gran superficie y constituído por 10 distritos estrictamente urbanos. Se tiene información de una Encuesta de Movilidad anterior y se desea dimensionar estudios de muestreo bajo diversos supuestos para la actualidad (2010).

    El ámbito de estudio se dividió en 118 ZAT internas, organizado en 14 barrios autocontenidos en sólo un distrito cada uno de ellos. La población en el interior del ámbito se sitúa en 608875 residentes (605065 del D1 al D10) y está en vías de crecimiento por su buena oferta logística. A nivel físico está sobre una llanura y la atraviesa un rio de oeste a este. Datos disponibles para el dimensionamiento (a 2006).

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-59 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS

    Barrios según Distrito

    Hombres Mujeres Población

    Total

    Zonas Interiores

    Error medio por zona

    Total Encuestas*

    Promedio Encuestas/Zona

    Promedio Población/Zona

    1 21438 22909 44347 9 10.02% 845 94 4927

    2 25973 31292 57265 11 9.75% 1091 99 5206

    3 54107 57974 112081 21 9.63% 2135 102 5337

    4 24044 27778 51822 10 9.77% 987 99 5182

    2 7917 8109 16026 3 9.63% 305 102 5342

    5 32933 35765 68698 13 9.67% 1309 101 5284

    6 21604 22467 44071 8 9.47% 840 105 5509

    7 12567 13200 25767 5 9.79% 491 98 5153

    7 3904 33902 7806 1 7.95% 149 149 7806

    8 13538 13400 26938 5 9.58% 513 103 5388

    9 17435 18131 35566 7 9.87% 677 97 5081

    10 28626 28573 57199 11 9.75% 1090 99 5200

    10 36034 36116 72150 14 9.80% 1374 98 5154

    11 5118 5103 10221 2 9.83% 195 98 5111

    Rurales 15456 15421 30877 0 0 0 0

    Total 320718 340177 660895 120 0.89% 12001 100 5250

    *Dimensionamiento inicial de la muestra-cifras 2006: los resultados finales muestran algunas diferencias.

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-60 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS

    En la tabla adjunta, se ilustran algunos resultados relativos al número de viajes y a los factores de expansión promedio por distrito que se obtuvieron en la toma de datos. Los ejercicios que siguen persiguen dimensionar la toma de datos en función a unos parámetros de precisiones relativas y absolutas que no corresponden con la realmente efectuada en la toma de datos.

    Si la media de viajes diarios por individuo es de 3.42, la desviación típica es de 1.65 viajes y el coeficiente de variación de 0.4833526. Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error absoluto de 20000 viajes.

    Distrito Datos Total Expansion 1 Viajes Poblacion 143052 38.02 Viajes Muestra 3763

    2 Viajes Poblacion 189459 38.48 Viajes Muestra 4923

    3 Viajes Poblacion 361332 48.95 Viajes Muestra 7381

    4 Viajes Poblacion 228917 59.32 Viajes Muestra 3859

    5 Viajes Poblacion 219033 60.42 Viajes Muestra 3625

    6 Viajes Poblacion 145978 48.76 Viajes Muestra 2994

    7 Viajes Poblacion 92767 56.32 Viajes Muestra 1647

    8 Viajes Poblacion 105726 51.83 Viajes Muestra 2040

    9 Viajes Poblacion 114055 45.33 Viajes Muestra 2516

    10 Viajes Poblacion 403449 53.15 Viajes Muestra 7591

    Poblacion 2003768 49.67 Muestra 40339

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-61 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS

    El error absoluto al nivel de confianza del 95% para el total diario poblacional de Y seria:

    EATnSNyVNyNVzyNEAEA Y

    2

    1 9619612050'.ˆ.ˆˆ .

    Nn

    nnSEAT

    Nn1

    65.120000

    96.1'96.1 22

    22

    donde 22 651.S' con 9619750 .. z

    Se desea dimensionar una muestra ASCR de residentes para conseguir una estimación del total de viajes diarios con un error absoluto de 20000 viajes.

    Alumnos: Al desplegar el trabajo de campo las cifras de viajes por residente y día resultantes son de 3.4907, con una desviación típica de 1.9076 viajes por habitante y día, y por tanto, un coeficiente de variación de 0.5465. Calcular la precisión relativa y absoluta resultante para el total de viajes diarios.

    Se desea dimensionar una muestra ASSR de residentes para conseguir una estimación del total de viajes diarios con un error relativo del 1%.

    2

    222

    2

    29750

    2

    1 01048340961

    2050

    ...ˆ .. CV

    ERTznERT

    nCVzyERER Y

    Nn

    nn1

  • M2 – Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC

    Prof. Lídia Montero © Pàg. 8.2-62 Buenos Aires, 7 – 11 Diciembre 2009

    8.2-3 INTRODUCCIÓN Tª DEL MUESTREO ESTRATIFICADO: EJERCICIOS

    El problema de un muestreo ASSR es la dificultad de conseguir la representatividad deseada y de ahí la posibilidad de disponer únicamente de estimadores sesgados o de mala cobertura.

    Calcular un intérvalo de confianza al 90, 95% y 99% para el número medio de viajes diario por residente que viaja.

    Determinar un intérvalo de confiana al 95% para la proporción de residentes que viajan en un día medio, se sabe por la Encuesta anterior que sólo un 6.5% no viajan y son gente mayor y amas de casa.

    Si no se sabe cual es la verdadera proporción, pero con e