muestreo aleatorio arvelo

. ANGEL FRANCISCO ARVELO LUJAN

Angel Francisco Arvelo Luján es un Profesor Universitario Venezolano en el área de Probabilidad y Estadística, con más de 40 años de experiencia en las más reconocidas universidades del área metropolitana de Caracas. Universidad Católica “Andrés Bello”: Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposición desde 1993 al presente Universidad Simón Bolívar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son: Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrónico: [email protected] Teléfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Máster en Estadística Matemática CIENES, Universidad de Chile 1972 Cursos de Especialización en Estadística No Paramétrica Universidad de Michigan 1982 Doctorado en Gestión Tecnológica: Universidad Politécnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniería Industrial de la Universidad Católica “Andrés Bello” (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro “Capacidad de Procesos Industriales” UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el área de “Estadística General” y “Control Estadístico de Procesos”. Otras publicaciones del Prof. Arvelo, pueden ser obtenidos en la siguiente página web: www.arvelo.com.ve

http://www.arvelo.com.ve/

Muestreo Aleatorio Pag. Angel Francisco Arvelo

2

I INTRODUCCION

I.1 Población y Muestra

La Estadística tiene por objeto el estudio de los colectivos, y de las relaciones que existen entre ellos, entendiendo por colectivo, o universo, a un conjunto de elementos, personas o cosas, donde cada uno de ellos posee un carácter, que se denomina la variable estadística. La variable estadística puede ser cualitativa o cuantitativa. Así por ejemplo, en el caso de un estudio electoral, la variable estadística se refiere al candidato preferido por cada elector (variable cualitativa), mientras que en un estudio de calidad, la variable estadística se refiere a la longitud en milímetros de una cierta pieza (variable cuantitativa). El conjunto de valores de la variable estadística en cada uno de los elementos del universo se denomina “la población”. Un mismo universo puede tener varias poblaciones, ya que puede ocurrir que sobre cada elemento se definan varias variables estadísticas. Así por ejemplo, sobre un universo de personas podemos definir las variables estadísticas, sexo, edad, estatura y peso, lo que ocasiona que tengamos cuatro poblaciones diferentes en el mismo universo. El elemento sobre el cual se realiza la medición se denomina “la unidad de muestreo”, mientras que el número de unidades de muestreo existentes en la población se denomina “tamaño de la población” La Estadística no estudia casos individuales, como el ingreso de una persona, o la preferencia de un elector, sino conjuntos numerosos de personas en lo referente a su ingreso, o de electores en lo referente a la preferencia de cada uno de ellos. Una población puede tener un número finito de unidades de muestreo, o puede ser tan grande, que puede ser tratada como si fuera infinita. En “Estadística Matemática” por lo general, la población se considera infinita, pues el experimento puede ser repetido una y otra vez, y por lo tanto es posible coleccionar un número infinito de observaciones para la variable en estudio. Se llama “Parámetro Poblacional” a un valor que depende que los caracteres de cada uno de los elementos que forman la población, como por ejemplo, el porcentaje de elementos que posee un cierto atributo, o la suma de todos los caracteres asociados a cada uno de los elementos, en el caso de que éste sea un valor numérico, como por ejemplo el total de habitantes que residen en una localidad, que es la suma de los habitantes que residen en cada una de las viviendas ubicadas en esa localidad. Para obtener el valor de un parámetro poblacional, es necesario conocer el carácter de cada uno de los elementos de la población, y como la observación de todos ellos resulta prácticamente imposible por el elevado costo que representa, se procede a analizar sólo una parte de ella, con el objeto de inferir de ella el valor del parámetro poblacional. Esta parte de la población se denomina “muestra”; de manera que en un sentido amplio, una muestra es un subconjunto cualquiera de la población. El objetivo de


3

la “Inferencia Estadística” tal como se dijo antes, es analizar esta muestra, y de allí obtener conclusiones para la población.

Figura N° 1: Relación entre la muestra y la población La forma como se haga la selección de los elementos de la población para integrar la muestra se denomina “el plan de muestreo”, y determina la metodología estadística a seguir para hacer la inferencia. Según sea el “Plan de muestreo”, las muestras se clasifican de la siguiente forma:

Tipos de muestras

No Probabilisticas

Aleatoria

EstratificadaPr obabilisticas

Sistematica

Conglomerados

Una muestra es no probabilística cuando la selección de los elementos de la

población que pasan a formar parte de la muestra se hace a criterio de la persona que está tomando la muestra, sin que medie ningún tipo de procedimiento aleatorio para su selección. Los procedimientos de Inferencia Estadística no son aplicables a este tipo de muestras. Una muestra se dice probabilística cuando la selección de los elementos que intervienen en ella se hace a través de algún procedimiento aleatorio, o sorteo, que le concede a cada uno de los elementos de la población, un cierto chance de caer en ella. Existen diversos tipos de muestras probabilísticas: Muestra aleatoria simple: Es aquella en donde todas las muestras posibles son

igualmente probables, y en consecuencia cada elemento de la población tiene idéntica probabilidad de caer en la muestra. Muestra Estratificada: Es aquella en donde antes de tomar la muestra se divide a la población en grupos excluyentes llamados “estratos”, y posteriormente dentro de cada estrato se toma una muestra aleatoria simple. Muestra Sistemática: En este tipo de muestras, la metodología es como sigue:


4

Se divide la población en bloques de “k” elementos cada uno, y se numeran desde 1 hasta “k”. Se elige un número entero al azar entre 1 y k. Dentro de cada uno de los bloques se elige el elemento que corresponda al número aleatorio seleccionado. La muestra queda formada por los elementos elegidos, uno en cada uno de los bloques. Ejemplo: Supongamos que en una población de 3.000 elementos queremos tomar una muestra sistemática de 10 elementos. Para definir los elementos que van a formar parte de la muestra dividimos a la población en 10 bloques de 300 elementos cada uno. A continuación se elige un número al azar entre 1 y 300, digamos 158. La muestra quedará conformada por los elementos que ocupen el puesto N° 158 en cada uno de los diez bloques. Muestra por Conglomerados: Este tipo de muestreo consiste en dividir también a la población en grupos que se denominan “conglomerados”, y luego elegir aleatoriamente algunos de ellos. En los conglomerados que resulten seleccionados se realiza un censo, es decir, son examinados la totalidad de los elementos que lo conforman. La elección del “Plan de Muestreo” a utilizar en cada situación depende de varios factores tales como:

La homogeneidad o heterogeneidad de la población en estudio.

La factibilidad de poder identificar a todos los elementos que conforman a un determinado grupo, estrato o conglomerado.

El costo del muestreo. Antes de proceder a seleccionar el “Plan de Muestreo” a seguir, es necesario ponderar cada uno de estos factores, así como también la precisión del muestreo.

I.2 Variables Estadísticas y su clasificación Hemos visto que el universo está formada por elementos, y que cada uno de estos elementos posee un carácter, que varía de un elemento a otro. El conjunto de todos estos caracteres se denomina la población. Este carácter puede ser de muy variada índole; puede ser la estatura de cada uno de los habitantes de un país, el canal de televisión que en un momento determinado están siendo sintonizados en cada hogar de una ciudad, etc. Este carácter en estudio, y que puede ser diferente para cada uno de los elementos del universo se denomina la variable estadística.

Las variables estadísticas se clasifican de la siguiente forma:

Variables Estadísticas:

CualitativasNominales

Ordinales

CuantitativasDiscretas

Continuas


5

Se dice que una variable estadística es cualitativa cuando representa una

cualidad o un atributo, como por ejemplo la ciudad en que reside un habitante de un país, o la religión que profesa una persona. Las variables cualitativas se clasifican en: Variables Nominales o Categóricas. Este es el caso en que entre los distintos

valores de la variable no existe ninguna relación de orden o de jerarquía. Tal es el caso por ejemplo, en que la variable estadística en estudio es el estado civil de los empleados de una empresa. Aquí los posibles valores de esta variable son: Soltero, Casado, Viudo y Divorciado. En algunos casos, a ciertas variables nominales, por comodidad en el tratamiento de los datos se les asignan valores numéricos, sin que este artificio le haga perder su condición de Variable Nominal. Por ejemplo, en una encuesta se podría presentar la siguiente situación: Pregunta: ¿Cual canal de televisión prefiere Ud.?

Respuestas: 1- El Canal 2.

2- El Canal 4.

3- El Canal 5.

4- El Canal 8.

5- El Canal 10. En este caso ni los números que identifican a la respuesta del encuestado (1,2,3,4 o 5) , ni los números que corresponden a cada uno de los canales de televisión (2,4,5,8 o 10), cuantifican una magnitud en sí, sino que representan una cualidad como es la preferencia del televidente. De forma pues que esta variable, a pesar de tomar valores numéricos, es una Variable Cualitativa, y además Nominal, puesto que los números mencionados no sugieren una relación de orden, debido a que no podemos decir que el televidente de un determinado canal, es mejor o peor que el televidente de otro canal, porque el número que identifica al canal es mayor o menor que el otro. b) Variables Ordinales. Este es el caso en que entre las diferentes cualidades

existe una relación de orden jerárquico entre ellas, y es posible decir que cierta categoría es mayor o menor, o mejor o peor, que otra. Por ejemplo, al clasificar a un grupo de personas según sus edades en infantes, adolescentes, adultos, maduros y ancianos , es posible establecer un orden , o también al clasificar a los miembros del ejército según su rango, es posible establecer un orden , y decir que ser General de División es más que ser Coronel, etc. Algunas veces, variables estadísticas que pueden ser medidas numéricamente por comodidad de trabajo, son tratadas como variables cualitativas ordinales. Tal es el caso por ejemplo, de la clasificación socio - económica que se suele hacer en grupos familiares , tomando únicamente como elemento de juicio su nivel de ingresos, y clasificarla así en Clase Alta, Media Alta, Media, Media Baja o Marginal . Aquí se está tomando en cuenta una variable numérica, como es el ingreso familiar, para decidir acerca de una cualidad como es la condición de vida de la familia. En estos casos se presenta el problema de definir cuáles son las fronteras numéricas, para ubicar a un elemento en una u otra escala.


6

Las variables cuantitativas son aquellas que se refieren a magnitudes

numéricas, tales como la estatura de un grupo de personas, o el número de personas que residen en una vivienda. Las variables cuantitativas se clasifican en discretas y continuas. Una variable es discreta cuando el conjunto de valores que puede tomar es finito

o infinito numerable, es decir que puede ponerse en correspondencia con el conjunto de los números naturales. Por ejemplo, si en una determinada investigación estamos analizando el número de vehículos que posee cada una de las residencias de una urbanización, el resultado de nuestras observaciones serán números naturales, o cero; ésta es pues una variable discreta. Otros ejemplos de investigaciones que dan lugar a variables discretas son: Número de hijos que posee un matrimonio, número de clientes que acuden diariamente a un comercio, etc... Se dice que una variable es continua cuando puede tomar cualquier valor dentro de un intervalo real. Así por ejemplo, si consideramos el peso de una persona, el resultado de nuestra observación será un número real positivo, sin limitación en el número de cifras decimales. Hay que advertir que una variable continua no puede ser jamás medida en su exacto valor, pues por más pequeña que sea la unidad de medida que utilicemos, siempre podremos encontrar valores más pequeños que esa unidad. Así por ejemplo cuando decimos que un bombillo falló a las 532 horas de uso, esto no significa que la falla ocurrió en el preciso instante en que cumplía las 532 horas. Lo que significa es que falló en algún instante entre las 532 y las 533 horas, lo que representa un intervalo de tiempo. La variable discreta por el contrario, si puede ser medida en su valor exacto, y así por ejemplo, cuando decimos acudieron 532 clientes a un banco durante un día determinado, ésta cifra representa un valor exacto, y es puntual. Las variables continuas más frecuentes suelen ser el tiempo, longitud, área, volumen, etc. I.3 Escalas de Medición Una vez que ha sido definida la variable estadística que va a ser analizada, nos encontramos con el problema de cómo medirla. En muchas oportunidades este asunto no presenta ninguna dificultad, pues la variable considerada ya tiene una unidad de medida perfectamente definida. Tal es el caso por ejemplo, de una longitud, en donde ya existen varias unidades de medición universalmente aceptadas, como pudieran ser el metro, la pulgada, el milímetro, etc. En otros casos sin embargo, la situación no es tan clara, pues no existe tal unidad de medida, y se hace necesario definir una escala de medición. Por ejemplo, si el universo es el conjunto de clientes de una empresa de servicios, y lo que se quiere estudiar es el nivel de satisfacción de cada uno de ellos por el servicio prestado, inmediatamente nos preguntaremos: ¿cómo medir ese nivel de satisfacción?


7

La selección de una escala de medición adecuada es una decisión importante en cualquier investigación, pues de ella dependerá la metodología estadística a seguir, y las conclusiones que se deriven de la investigación. En 1948, el científico S.S. Stevens propuso una clasificación lógica para los tipos de medición, con la que no todos los estadísticos concuerdan, pero que es la más divulgada y conocida. Stevens señaló que si no existieran mediciones el mundo sería caótico, y no existiría ciencia estadística, y si las mediciones fuesen totalmente exactas, habría una demanda mucho más reducida para emplear la Estadística. Stevens reconoce cuatro tipos de escalas de medición: nominal, ordinal, de intervalos, y de razón. Las escalas nominales se emplean para medir variables cualitativas nominales, y se utilizan como medidas de identidad. Una escala de este tipo tendría que ser necesariamente usada para representar los distintos valores de variables como sexo, religión, etc. En una escala nominal, los diferentes valores de la variable se suelen numerar por orden alfabético de las categorías, y los números asignados no corresponden a ninguna medición, ni entre ellos existe relación jerárquica alguna. La escala ordinal refleja orden o jerarquía entre los distintos niveles de la

variable, y se disponen de la más alta a la más baja, o viceversa. El ejemplo clásico de este tipo de escala es el empleado para evaluar la dureza de los minerales. Esta propiedad se define como el grado de resistencia a la abrasión, y en esta escala el número 1 corresponde a un material muy suave y fácil de desmenuzar como el talco, mientras que el número 10 en el extremo opuesto de la escala, corresponde al diamante, que puede rayar a todos los demás, y no puede ser rayado por ninguno. Con relación a este tipo de escalas, hay dos comentarios importantes que hacer: Iguales diferencias entre los números de la escala, no necesariamente reflejan iguales diferencias de intensidad para la variable medida. Consideremos por ejemplo, el siguiente caso: Supongamos que para medir el grado de satisfacción de los clientes por un determinado servicio, se propone la siguiente escala nominal: 1. Totalmente insatisfecho. 2. Bastante insatisfecho. 3. Medianamente satisfecho. 4. Bastante satisfecho. 5. Totalmente satisfecho. En esta escala, a pesar de que la diferencia 5 - 3 = 3 -1, no podemos decir que la diferencia entre el grado de satisfacción entre los clientes del nivel 5 y los del nivel 3, es la misma que entre los clientes del nivel 3 y el nivel 1. En una escala nominal tampoco podemos hacer comparaciones de razón entre los diferentes niveles o números de la escala. Así por ejemplo, en el caso anterior sería absurdo decir que como 4 es el doble de 2, entonces los clientes del nivel 4 están doblemente satisfechos que los del nivel 2.


8

La escala de intervalos es para variables cuantitativas, y por lo tanto proporciona

valores numéricos .En este tipo de escala hay que seleccionar una unidad de medida, y la medición expresa el número de unidades que posee el elemento medido. En una escala por intervalos hay tres características fundamentales:

El cero es completamente arbitrario, y no significa necesariamente la ausencia de la cantidad medida.

Diferencias iguales reflejan idénticas diferencias, entre los niveles de la variable en estudio.

No se pueden hacer comparaciones de razón. Un ejemplo de escala por intervalos es la utilizada para medir la hora del día. En esta escala el cero que corresponde a la medianoche, es completamente arbitrario, el tiempo transcurrido entre las 5:00 y las 8:00, es el mismo que entre las 14:00 y las 17:00, y no se puede decir que 8:00 a.m. es el doble de 4:00 am. Otro ejemplo de escala por intervalos es la utilizada para medir la temperatura, bien sea en °C o en °F. En la escala centígrada el cero es arbitrario, y corresponde a la temperatura de congelación del agua, y la diferencia de temperatura entre 10°C y 14°C es la misma que entre 25°C y 29°C. En una escala por intervalos no se pueden hacer comparaciones de razón entre los valores de la variable, y así por ejemplo si en un día la temperatura fue de 15°C y en otro de 30°C, es incorrecto decir que en el segundo día hizo el doble de calor que en el primero. La escala de razón o de cociente es también para variables cuantitativas, y se

diferencia de la de intervalos en que en ella el cero no es arbitrario, y corresponde realmente a una total ausencia de la propiedad estudiada. En una escala de razón, lo mismo que en una de intervalos, a iguales diferencias entre los números asignados corresponden iguales diferencias de intensidad de la variable en estudio, pero ahora si es posible hacer comparaciones de razón entre los elementos, y decir que en un elemento “A” el valor de la variable es tres veces o cuatro veces el valor de otro elemento "B”. El peso y la estatura son ejemplos claros de una escala de razón, pues una persona que pese 90 Kg., pesa el triple que un niño que pese 30 Kg.

I.4 Etapas de una Investigación por Muestreo El muestreo es una herramienta fundamental en cualquier investigación, bien sea científica o social, y su aplicación requiere de una cierta metodología. Por lo general los problemas más frecuentes que hay que resolver a la hora de aplicar técnicas de muestreo en una investigación, son en este orden los siguientes: Formulación del problema: Esta es la fase conceptual de la investigación , y consiste en definir en primer lugar el objetivo de la investigación que se va a


9

realizar , las hipótesis que se pretenden probar , la definición de la población a considerar, y la selección de las variables a medir . En muchas oportunidades, esta fase también exige la creación de una escala de medición, porque la misma no existe para algunas de las variables que van a ser analizadas. Esta es quizás la fase más importante en la investigación, pues es la que condiciona todas las posteriores, y la validez de las conclusiones. Diseño del experimento: Una vez que ha sido definido el problema, el investigador debe decidir si estudiar toda la población o sólo una muestra. En caso de que decida hacer un muestreo, habrá que definir el tipo de muestreo a utilizar, si aleatorio simple, estratificado, por conglomerados, etc. También será necesario calcular el tamaño de muestra requerido, el cual dependerá de la precisión que se le quiera dar al muestreo; y también será necesario diseñar un cuestionario, o formato para ser llenado por la personas que van posteriormente a recoger la información. El diseño de la encuesta y la redacción de las preguntas es un aspecto muy importante en esta fase, pues de la sinceridad de las respuestas dependerá la validez de la investigación. Este es un problema más de carácter psicológico que estadístico, pues la Estadística supone que la respuesta obtenida es sincera, y en la práctica no necesariamente esto es cierto. La apariencia física del encuestador, el momento de realizar la encuesta, y la forma de hacer las preguntas son aspectos muy importantes a considerar aquí. En el caso de investigaciones en un laboratorio, esta fase exige también la selección de los instrumentos de medición, su calibración y la metrología. Otro aspecto que también debe ser analizado en esta fase es el relativo a los programas de computación que van a ser utilizados posteriormente para procesar la información recogida en el muestreo. Recolección de datos. Esta es la fase de campo propiamente dicha, en la que el investigador hace el sorteo aleatorio de las unidades de la población que van a pasar a formar parte de la muestra, y posteriormente las entrevista, o las ensaya en caso de que se trate de una investigación hecha en un laboratorio. En esta fase, el investigador debe poner especial cuidado en que la muestra quede conformada por estrictamente las unidades que resultaron sorteadas, y no por otras que le resulten más cómodas al encuestador. Cualquier error en este sentido haría que la investigación pierda fuerza, y podría incluso invalidar sus conclusiones. Tabulación y Descripción de los resultados. Esta es la fase descriptiva de la investigación, en donde los datos tomados en la fase anterior son organizados y resumidos en tablas estadísticas, y también representados en gráficas que de una manera rápida permitan visualizar su comportamiento.


10

En esta fase es indispensable el manejo de las técnicas de Estadística Descriptiva, y debe contarse con la ayuda del programa de computación seleccionado en la fase de diseño. Inferencia Estadística y Conclusiones: Esta es la fase final de la investigación, en donde los resultados obtenidos en la muestra son analizados con los métodos de la Inferencia Estadística, y se obtienen conclusiones para la población. Las conclusiones obtenidas en esta fase se refieren a las hipótesis que habían sido formuladas en la fase inicial, o también a la estimación del valor de ciertos parámetros poblacionales que eran desconocidos al comienzo de la investigación.

II. ESTIMACION II.1 Concepto de estimador Un parámetro poblacional es un valor que se calcula en base a todos y cada uno de los elementos de la población. Así por ejemplo, si en el universo de estudiantes inscritos en una Universidad, consideramos la variable estadística “estatura de cada uno de ellos”, la población será el conjunto de valores numéricos que representan sus respectivas estaturas. Si llamamos “N” al número de estudiantes en esta Universidad (Tamaño de la población), el conjunto de valores numéricos de sus estaturas {𝑥1, 𝑥2 ⋯ , 𝑥𝑁} representa a la población. Sobre esta población podemos definir al siguiente parámetro poblacional:

𝜇 =𝑥1+𝑥2+⋯+𝑥𝑁

𝑁=

∑ 𝑥𝑖𝑁𝑖=1

𝑁= Media Poblacional

Resulta obvio, que en la gran mayoría de las situaciones prácticas, este valor resultará desconocido, porque para calcularlo necesitaríamos conocer las estaturas de todos los estudiantes de la referida Universidad. El objetivo principal del muestreo es justamente, estimar el valor de estos parámetros poblacionales, a partir del resultado arrojado por una muestra de esta población; y de allí la necesidad de introducir el concepto de estimador. Un estimador es un valor calculado sobre la base del resultado muestral obtenido, y que se utilizará para estimar a un parámetro poblacional. En el ejemplo anterior, al tomar una muestra de “n” estudiantes (tamaño de la muestra), y medir sus estaturas, encontraremos un conjunto de valores numéricos {𝑦1, 𝑦2 ⋯ , 𝑦𝑛}, sobre los cuales podemos definir la siguiente función:

�̅� =𝑦1+𝑦2+⋯+𝑦𝑛

𝑛=

∑ 𝑦𝑖𝑛𝑖=1

𝑛= Media muestral

Este valor, como veremos más adelante, va a ser utilizado para estimar a su

correspondiente poblacional, y diremos que �̅� es el estimador de 𝜇 , lo que se designará mediante la siguiente notación: �̂� = �̅� Para una mejor comprensión de los problemas del muestreo, es importante resaltar las diferencias básicas entre el parámetro poblacional y su estimador: El valor del parámetro poblacional es una constante desconocida, mientras que el de su estimador es conocido para una muestra particular, pero variable entre las diferentes muestras posibles


11

En efecto, regresando al ejemplo, la media poblacional 𝜇 es una constante cuyo

valor no conocemos, mientras que el valor de la media muestal �̅� lo conocemos para la muestra particular tomada, pero pudo haber sido otro, si el azar hubiese dispuesto que la muestra seleccionada hubiese sido otra. De lo anterior se desprende que un estimador es una variable aleatoria, pues puede variar de una muestra a otra, y que lo que obtenemos al tomar una muestra, es un valor particular de dicha variable aleatoria. Inmediatamente surgen las siguientes preguntas: 1. ¿Cómo hacemos para obtener el mejor estimador para un parámetro poblacional cualquiera? 2. Si el estimador es una variable aleatoria, ¿cuál es su distribución de probabilidad? 3. ¿Cómo hacemos para inferir el valor del parámetro poblacional a partir de ese valor particular del estimador? La respuesta a estas preguntas no es sencilla, y no constituye el objetivo de este humilde resumen, pues representa la esencia de lo que se denomina “Inferencia Estadística”; sin embargo, aquí haremos uso de algunos de los resultados que allí se obtienen, y se demuestran, por lo que se recomienda al lector interesado en profundizar en estos aspectos consultar un texto de “Estadística Matemática e Inferencia Estadística” El siguiente cuadro resume las diferencias entre Parámetro Poblacional y Estimador:

Se calcula: Comportamiento Conocimiento

Parámetro Poblacional

Sobre toda la población

Constante Desconocido

Estimador Sobre la muestra

Aleatorio Conocido solo un valor particular

II.2 Propiedades de un buen estimador Un problema muy frecuente en Inferencia Estadística es el de comparar estimadores, pues a pesar de que existen diversos métodos y criterios para hacer la estimación, no siempre todos ellos conducen al mismo estimador, y por lo tanto, se hace necesario decidir cuál es el mejor. Con el objeto de facilitar las definiciones, adoptemos la siguiente nomenclatura: θ = Valor verdadero de un parámetro poblacional desconocido

𝜃 = Estimador de θ

Al ser 𝜃 una variable aleatoria, tendrá una cierta Distribución de Probabilidad, y en consecuencia un determinado valor esperado, y una cierta varianza

E (𝜃 ) = Valor Esperado de 𝜃

Var (𝜃)= Varianza de 𝜃 Las siguientes propiedades nos permiten reconocer a un buen estimador, y serán explicadas de una manera intuitiva, sin el tratamiento riguroso propio de la Estadística Matemática


12

1 Estimadores insesgados: Se dice que un estimador es insesgado, cuando su valor esperado coincide con el parámetro poblacional que pretende estimar, es decir

cuando E (𝜃 ) = θ; caso contrario, se dice que es sesgado. Para entender mejor desde un punto de vista práctico lo que significa sesgar una muestra consideremos el siguiente caso hipotético. Imaginemos que para realizar una encuesta electoral seleccionamos la muestra entre los asistentes a una concentración a favor de un candidato. Resulta obvio, que en esa muestra no esperamos encontrar un reflejo de lo que realmente opina la población. En este caso diremos que la muestra está sesgada, es decir adulterada. Un estimador sesgado es como un arma que no tiene la mira calibrada, que pretende dar en un blanco pero está apuntando a otro; mientras que un estimador insesgado es uno que realmente apunta hacia al blanco, en el caso de muestreo el parámetro poblacional θ, y que espera dar en él.

Suponiendo que tenemos dos estimadores 𝜃1 y 𝜃2 que siguen cada uno, una distribución normal, el primero insesgado y el segundo no, la siguiente gráfica nos muestra como con el primer estimador estamos en condiciones de hacer una mejor estimación que con el segundo, debido a que se espera que el primero coincida con el parámetro poblacional a estimar, mientras que con el segundo se esperar caer en un punto alejado de él

Figura N° 2: Comparación entre un estimador insesgado y otro sesgado

Un estimador puede presentar un sesgo negativo, cuando se espera tome un valor a la izquierda del parámetro poblacional a estimar, es decir lo subestime; o puede presentar un sesgo positivo, cuando se espera caiga a su derecha y lo sobreestime como en el ejemplo de la encuesta electoral antes mencionada. 2. Estimadores consistentes: Un estimador se dice consistente, cuando a medida que el tamaño de muestra es mayor, el estimador nos recompensa, proporcionándonos una mejor estimación; es decir, que a mayor tamaño de muestra existe una mayor probabilidad de que el estimador caiga muy cercano al parámetro poblacional que pretende estimar. Un estimador que carezca de esta propiedad queda prácticamente descalificado, pues no devuelve en precisión el esfuerzo de tomar un mayor tamaño de muestra.


13

Resulta fácil intuir que �̅� es un estimador consistente para “μ”, pues a medida que más grande sea el tamaño de muestra, más elementos de la población se

incorporan a ella, y por lo tanto el valor de �̅� se acercará más al de “μ”. De hecho cuanto n = N (censo), podemos afirmar con certeza que �̅� = μ 3. Estimadores suficientes: Se dice que un estimador es suficiente cuando utiliza toda la información contenida en la muestra, es decir, cuando no desperdicia información y toma en cuenta a todas las observaciones muéstrales.

Así por ejemplo �̅� es un estimador suficiente puesto que para calcular su valor, necesitamos conocer el valor de todas las observaciones que cayeron en la

muestra; si falta por determinar alguna de ellas, ya no podremos calcular �̅�. La mediana de una muestra es un ejemplo típico de un estimador que no es suficiente, pues para calcularla sólo tomamos en cuenta a los valores centrales, descartando a los extremos. 4. Estimadores de mínima varianza: Resulta frecuente que al comparar dos estimadores, ambos sean insesgados. En estos casos, el de menor varianza resulta ser el mejor, pues los valores que toma están más concentrados alrededor del parámetro que se desea estimar. La siguiente figura nos señala que con el estimador de menor varianza, se tiene una mayor probabilidad de realizar una mejor estimación debido a que presenta una menor dispersión.

Figura N° 3: Comparación entre dos estimadores insesgados

La Estadística Matemática proporciona una herramienta conocida como lo cota de Cramer - Rao, que permite reconocer al estimador insesgado con la mínima varianza; de manera que cuando lo encontremos, estaremos en presencia del mejor estimador posible para el parámetro poblacional que deseamos estimar.

En lo sucesivo, vamos a suponer que los estimadores propuestos en los diferentes casos que estudiaremos son los óptimos, y omitiremos el análisis

de sus propiedades.

II.3 Errores en el muestreo

Resulta natural que a la hora de hacer una estimación por muestreo no podamos pretender que ésta coincida exactamente con el verdadero valor del parámetro que queremos estimar, y que en consecuencia aparezcan errores.


14

Las causas que ocasionan estos errores pueden ser clasificados en dos categorías: asignables y aleatorias Las causas asignables son aquellas que se pueden identificar y corregir, y que son responsabilidad del investigador, tales como errores en el diseño de la encuesta, preguntas mal redactadas, entrenamiento inadecuado a los encuestadores, imprecisiones en la escala de medición, o fallas en la calibración de los instrumentos de medición. Lamentablemente, muchas veces este tipo de fallas son detectadas después que se ha tomado la muestra, lo que ocasiona un atraso en los estudios por muestreo y una pérdida de los recursos invertidos en la toma de la muestra. De allí la importancia de tomar muestras preliminares o pilotos, que permitan detectar de manera temprana tales errores. Las causas aleatorias son producto de la variabilidad propia del estimador. En efecto, hemos visto que todo estimador es una variable aleatoria, y que por lo tanto su valor varía de una muestra a otra. El valor que toma el estimador en una muestra específica representa un valor particular de esa variable que no necesariamente tiene que ser igual al parámetro que se quiere estimar. Se define como error de muestreo a la diferencia absoluta entre el valor que tomó el estimador en la muestra y el verdadero valor del parámetro poblacional, es decir:

Error de muestreo = │𝛉 ̂- θ│

Por ejemplo, si estimamos que un parámetro vale 1251 y después resulta que su verdadero valor es 1280, hemos cometido un error de │1251-1280│= 29 unidades El valor absoluto se debe a que el error de estimación puede ser negativo en caso de una subestimación, o positivo si se trata de una sobrestimación. Cuando se realiza un estudio por muestreo, el investigador debe establecer cuál es el máximo error que está dispuesto a tolerar en la muestra, y este se designa designará por ε = Máximo error absoluto tolerado La fijación del valor de “ε” dependerá del orden de magnitud del parámetro que se pretende estimar. Así por ejemplo, si se quiere estimar un parámetro que pensamos está en el orden de los millones, sería absurdo fijar “ε” en el orden de las unidades, pues le estaríamos exigiendo a la muestra un nivel de precisión tal, que seguramente redundará en un tamaño de muestra prácticamente igual a un censo. En caso de que el investigador no tenga idea alguna sobre el orden de magnitud del parámetro que está estimando, lo más prudente es fijar el error tolerado de muestreo en forma relativa o porcentual, definido por la siguiente expresión:

Error porcentual de estimación = │θ̂−θ│

θ 100%

En el ejemplo anterior, si un parámetro cuyo verdadero valor es 1280 fue estimado con un error absoluto de 29 unidades, entonces el error relativo de estimación es

de 29

1280 100% = 2,27%

Al analizar el informe de la muestra, el lector debe estar atento acerca del margen de error de la muestra, e identificar si el error de muestreo está expresado de manera absoluta o de manera relativa. Una regla muy simple para hacer esta identificación es la siguiente:


15

Esta regla presenta una única excepción:

Por ejemplo, si una encuesta electoral predice que un cierto candidato obtendrá un 32% de la votación, y una vez celebrada las elecciones resulta que obtuvo el 34% de los votos, entonces el error de estimación fue del 2% , y se trata una cifra absoluta, no relativa. Es práctica común en los estudios por muestreo fijar el máximo error relativo tolerado en 1%, 2,5% o 5% en el caso general, y en esos mismos valores porcentuales para el error absoluto, cuando se trate de la estimación de porcentajes. Lo anterior significa que cuando un estudio por muestreo concluye en una cierta estimación para un parámetro, el lector debe interpretar que el verdadero valor es

anunciado ± el porcentaje de error; de manera que si se lee en el informe, 𝜃 = 1251 unidades, ε=2,5 % entonces se debe inferir que el verdadero valor de θ está en el 1251 ± (2,5% de 1251) = 1251 ± 31,275, es decir dentro del intervalo [1219,725 ; 1282,275] , mientras que si el informe se refiere a la estimación de un porcentaje, como en el caso de una encuesta electoral, que dice

𝜃 =32%, ε=2,5 %, entonces la inferencia es que θ= Verdadero Porcentaje Poblacional, está en el intervalo 32% ± 2,5%, es decir dentro del intervalo [29,5%; 34,5%] II.4 Riesgo y Confianza en una estimación por muestreo

Tal como hemos visto en la sección anterior, cuando se hace una estimación por muestreo, lo ideal es que el error de estimación resulte como máximo igual al

tolerado. Esto sucede cuando │θ ̂- θ│≤ ε Sin embargo, en el momento de tomar la muestra no se puede garantizar que esto realmente va a ocurrir así, pues al ser el estimador una variable aleatoria, existe una cierta probabilidad de que el error de estimación sea mayor que el tolerado, y que por lo tanto, la muestra no satisfaga nuestras expectativas. Esta probabilidad se define como el riesgo del muestreo, y la designaremos por “α” Para ilustrar mejor esta idea, tomemos el siguiente caso: Si se efectúan 100 lanzamientos de una moneda legal, existe una probabilidad de aproximadamente 95% de que el número de caras obtenidas caerá en el intervalo 50 ± 10, ósea en el intervalo [40; 60]. Sin embargo, si tomamos una muestra de este experimento, es decir, si lo realizamos una sola vez, tendremos una probabilidad de aproximadamente 5% de que la predicción no se cumpla, lo representa el riesgo de hacer la predicción.

El error absoluto viene expresado en las mismas unidades que el parámetro a estimar, mientras que el error relativo siempre

viene expresado en porcentaje

Cuando el parámetro a estimar es un porcentaje, el error absoluto viene expresado también como un porcentaje, y no se trata de una cifra relativa


16

De igual manera en el muestreo, cuando tomamos una muestra de una población, ésta es una de las tantas muestras diferentes que pudieran ser tomadas, tantas como combinaciones podamos hacer entre los elementos que conforman el universo, y por lo tanto, es posible tener la mala suerte que resulte conformada por elementos extremistas, y en consecuencia se cometa un error mayor que el tolerado. En síntesis:

El complemento del riesgo, es decir, la probabilidad de que el error absoluto en la estimación resulte menor o igual que el máximo tolerado se define como la confianza que proporciona la muestra.

1 -α = P (│𝛉 ̂- θ│≤ ε) Suponiendo que el estimador es insesgado y que sigue una Distribución Normal, el siguiente gráfico explica los conceptos de riesgo y confianza del muestreo:

= Riesgo del muestreo = P(│𝛉 ̂- θ│> ε)

1-α= Confianza= P(│𝛉 ̂- θ│≤ ε)

Si el estimador se sale de la zona de buena estimación, se incurre en un

error mayor que el tolerado

La zona de buena estimación es:

│𝛉 ̂- θ│≤ ε

Figura N° 4: Riesgo y Confianza del muestreo

A partir del concepto de confianza, la Inferencia Estadística desarrolla la teoría de estimación por intervalos, y obtiene los llamados intervalos de confianza para un parámetro poblacional. Dado que en las diferentes metodologías de muestreo que analizaremos más adelante se utilizará este concepto, se recomienda al lector que consulte en textos de Inferencia Estadística, los procedimientos a seguir para obtener un intervalo de confianza

El riesgo del muestreo “α” representa la probabilidad de que el error absoluto en la estimación sea mayor que el máximo tolerado

α = P(│𝛉 ̂- θ│> ε)


17

Para facilitar la comprensión de este concepto, consideremos el siguiente ejemplo: Supongamos que una persona anuncia tener 10 billetes, uno de los cuales es falso, y se selecciona al azar uno de ellos. Antes de hacer la selección podría decirse que la probabilidad de seleccionar un billete bueno es del 90%; pero después de hecha la selección, ya no se podría decir lo mismo, pues el hecho aleatorio que era la selección del billete ya se realizó. Lo que cabría decir después de hecha la selección es que al billete seleccionado le tenemos una confianza del 90%. Lo mismo ocurre con el muestreo, existen muchas muestras posibles, y cada una de ellas arrojará intervalos de confianza distintos. Algunos de ellos contienen al parámetro y otros no. Antes de tomar la muestra, la probabilidad de seleccionar a una que contenga al parámetro es 1-α, pero después de tomada la muestra, lo que le tenemos al intervalo seleccionado es una confianza de 1-α Para finalizar estas secciones introductorias, y comenzar a estudiar las diferentes metodologías de muestreo, es importante aclarar que muchas veces se oye decir la siguiente frase: “la muestra debe ser representativa de la población para no incurrir en los errores del muestreo”. Esta frase establece un principio que en la práctica resulta difícil de garantizar, pues se supone que no conocemos a los elementos de la población, ya que si los conociéramos no estaríamos muestreando, y por lo tanto, no sabemos si todos ellos van a quedar representados en la muestra. De allí que siempre tengamos el riesgo de realizar una estimación errónea. Para ilustrar esta idea, supongamos que queremos estimar la estatura media de los alumnos de un colegio, en donde hay niños y adolescentes, y lo que disponemos es de una lista de los alumnos inscritos en el colegio. Si la muestra la tomamos haciendo un sorteo entre todos los alumnos del colegio (muestreo aleatorio simple como veremos en la próxima sección) resulta obvio que existe el riesgo de que solo caigan niños o solo adolescentes, lo que nos va a conducir a una estimación errónea de la media poblacional. Pudiéramos disminuir este riesgo, si ahora en lugar de tener una lista general, obtenemos una en donde aparezcan solo los alumnos de primaria por un lado, y los de secundaria por el otro, y ahora tomamos la muestra seleccionando al azar alumnos de uno y otro grupo (muestreo aleatorio estratificado). Este nuevo procedimiento tampoco está exento de riesgo, porque es posible que en cada una de las dos muestras, caigan solo alumnos de los primeros años de primaria y de secundaria, o exclusivamente de los últimos años de cada nivel. Se puede continuar afinando nuestra estimación, y decir que ahora vamos a conseguir las listas de cada uno de los salones de clase, y que tomaremos la

Un Intervalo del (1-α) de confianza para un parámetro poblacional desconocido

“θ”, se define como un intervalo aleatorio [𝜃1̂; 𝜃2̂] con 𝜃1̂ < 𝜃2̂ donde 𝜃1̂𝑦 𝜃2̂

dependen exclusivamente del resultado de la muestra, y que antes de tomarla, tiene una probabilidad (1-α) de contener al parámetro θ, es decir:

P(𝜃1̂ ≤ θ ≤ 𝜃2̂) = 1-α


18

muestra seleccionando al azar un cierto número de alumnos en cada salón; pero también nos encontramos que en dichas muestras existe el riesgo de que caigan en ella solo los más bajos, o solo los más altos de cada salón. Llegado este punto, no faltará alguien que sugiera que entonces lo mejor es que se estratifique a los alumnos por niveles de estatura, bajos, medianos y altos y se tome una muestra al azar en cada categoría, y pronto caeremos en cuenta que esto no es posible porque para hacer dicha clasificación, necesitaríamos conocer la estatura de cada uno de los alumnos, y el muestreo ya no tendría sentido.

III. MUESTREO ALEATORIO SIMPLE

Existen numerosas técnicas de muestreo, que se diferencian unas de otras, en la manera de seleccionar la muestra; en el muestreo aleatorio simple, la muestra debe ser tomada de manera que cada una de todas las posibles muestras, tenga la misma probabilidad de ser seleccionada. El principio de igualdad de probabilidad para todas las posibles muestras, es quizás el más violado a la hora de seleccionar la muestra; debido a que el investigador generalmente clasifica a la población en grupos, y luego toma la muestra de manera que en ella caigan representantes de cada grupo, pensando que de esa manera, la muestra es más representativa. Esta manera de tomar la muestra no es que sea incorrecta, por el contrario, por lo general conduce a resultados más precisos, que los que se obtendrían, aplicando muestreo aleatorio simple; lo que si no es correcto, es pretender aplicar las fórmulas y principios del muestreo aleatorio simple, a una muestra tomada de forma estratificada; ya que las fórmulas correspondientes al muestreo aleatorio simple , son obtenidas bajo la premisa de que todas las muestras son igualmente probables; principio que obviamente no se cumple , cuando la muestra se toma de forma estratificada, ya que una muestra formada por elementos de un mismo grupo, tendría una probabilidad nula de ser tomada, mientras que una muestra formada por elementos de grupos diferentes tendría una probabilidad muy alta de ser tomada. En caso de que la muestra se tome de forma estratificada, las fórmulas y principios a aplicar, son otros, diferentes a los que se verán en esta sección Los pasos a seguir para obtener una muestra aleatoria simple son los siguientes:

Conclusión; El riesgo es inherente al muestreo Al igual que en una rifa, la única manera de garantizar que ganaremos el premio es comprando todos los boletos. Desde el mismo momento en que decidimos realizar un estudio por muestreo debemos estar conscientes de que estamos asumiendo un riesgo, y de allí la importancia de conocer el margen de error y el nivel de confianza que nos ofrece la muestra


19

Paso 1: En primer lugar es necesario definir el universo sobre el cual se va a tomar la muestra Paso 2: En segundo lugar es necesario conseguir una lista numerada del 1 al N que contenga a todos los elementos del universo. La numeración puede ser hecha por cualquier criterio, alfabético, por el número de la cedula de identidad, etc. Si no es posible obtener esta lista, entonces se debe establecer previo a la muestra, una regla de conteo que permita identificar a cada elemento del universo. Ejemplo 3.1: En los estudios de calidad, es común que se deba examinar para su aceptación, lotes de piezas las cuales vienen empacadas dentro de una caja. Para tomar una muestra aleatoria, se deben enumerar las cajas, o en su defecto establecer una regla de numeración. Si están colocadas sobre el suelo, decir por ejemplo que la caja más a la izquierda es la No 1, luego la No 2, y así sucesivamente hasta la última. Posteriormente se debe también establecer otra regla de numeración dentro de la caja, que permita identificar cada pieza. Supongamos que se debe tomar una muestra de botellas para medir su contenido, y que estas se encuentran distribuidas en 100 cajas cada una de las cuales contiene 36 botellas. En este caso N = 100 x 36 = 3600 botellas Para identificar cada una de las botellas del universo, debemos asignarle un número a cada caja, y otro número a cada posición dentro de la caja, y así sabremos que la botella No 1 es la que ocupa la posición No 1 dentro de la caja No 1, la botella No 40 es la que ocupa la posición No 4 dentro de la caja No 2, la botella No 348 la que ocupa la posición No 24 dentro de la caja No 10, etc., y la botella No 3600, la que ocupa la posición No 36 de la caja No 100. Paso 3: Hacer un sorteo sin reemplazo, seleccionando al azar y con igual probabilidad, “n” números cualesquiera dentro de los “N” que existen en el universo. Para efectuar este sorteo, existen varios procedimientos. El más antiguo es escribir “N” papeles con los números del 1 al N, colocarlos dentro de un sombrero, y seleccionar uno a uno, los “n” elementos que conformarán la muestra. Otro procedimiento un poco más moderno para hacer el sorteo, es mediante la tabla de números aleatorios, la cual se construye seleccionando con reemplazo los dígitos del 0 al 9, y según vayan apareciendo se colocan en filas y columnas. Con la aparición de las calculadoras electrónicas esta tabla cayó en desuso, y hoy en día, el procedimiento más usado es el de la generación de número aleatorios, que consiste en un sorteo simulado, en donde se le pide a la calculadora que genere números enteros al azar entre 1 y N, y a través de un algoritmo interno, la calculadora lo selecciona según una distribución uniforme discreta. Paso 4: Una vez seleccionados los números que conforman la muestra, debemos ir a los elementos de la población identificados con esos números, y medir o preguntarles el valor de la variable estadística asociada a cada uno de ellos.


20

Es importante destacar que el número de muestras posibles en un muestreo

aleatorio simple es (Nn

) =N !

n! (N−n)! , y que al ser cada una igualmente probable, la

probabilidad de seleccionar una de ellas en particular es 1

(Nn)

Por ejemplo, si el universo está formado por los 5 elementos {a, b, c, d, e}, y se va a

tomar una muestra de 2 de ellos, entonces existen (52

) =5 !

2! 3!!= 10 muestras

posibles, que son {ab, ac, ad, ae, bc, bd, be, cd, ce, de}, y la probabilidad de seleccionar cualquiera de ellas es 1/10 Según sea el parámetro que se quiera estimar en la población, debemos distinguir entre "Muestreo aleatorio para Variables”, "Muestreo aleatorio para Proporciones y Porcentajes”, “Muestro aleatorio para Razones” III.1 Muestreo Aleatorio para Variables: En este caso, la población está formada por un conjunto de valores numéricos asociados a cada uno de los elementos del universo; tal como puede ser un grupo de personas, en donde estamos observando el peso de cada uno de ellos, o un conjunto de residencias que cada una tiene un número variable de habitantes, o una producción de cigarrillos, en donde cada uno tiene una longitud, o un diámetro distinto. La variable estadística en este caso es cuantitativa, y la población está formada por el conjunto de valores numéricos que ella toma sobre cada uno de los elementos del universo. La nomenclatura seguir es la siguiente: N = Tamaño de la Población

Población = {x1, x2, x3 ⋯ , xN} xi = Valor de la variable estadística asociado al i-ésimo elemento de la población

(i=1, 2,3...N); Cada xi es un número real

= i N

ii 1

x

= Total Poblacional.

i n

ii i

x

N N= Media Poblacional.

i N2

i2 i 1

(y )

N

= Varianza Poblacional.

n = Tamaño de la muestra.

Muestra= {y1, y2, y3 ⋯ , yn} yj = Valor de la variable estadística asociado al j-ésimo elemento de la muestra

(j=1, 2,3...n)


21

j n

jj 1

y

yn

= Media muestral =

= Estimador de μ

T =

= N y = Estimador de j n

2

jj 12

(y y)

sn 1

= Varianza muestral = 2

= Estimador de 2

f = n

N= Fracción de muestreo.

La notación convencional en muestreo consiste en designar a los parámetros poblacionales con letras griegas, mientras que a sus correspondientes estimadores muéstrales con letras latinas. Cabe destacar que se emplean diferentes letras, “y” para designar a los valores muéstrales , “x” para los poblacionales, puesto que estos no tienen por qué coincidir; de hecho por ejemplo ,el décimo elemento de la población puede no salir en la muestra, o si sale, puede ser que ocupe otro lugar. Usualmente los valores poblacionales son desconocidos, puesto que para conocerlos habría que conocer los valores numéricos asociados a cada uno de los elementos de la población, lo que dejaría al muestreo sin sentido. Los parámetros poblacionales a estimar suelen ser la media poblacional y / o, el total poblacional. En lo que se refiere a los valores muéstrales, estos son conocidos para la muestra tomada, pero deben ser vistos como valores particulares de una variable aleatoria; puesto que el valor que ellos toman, depende obviamente de los elementos que formen la muestra, los cuales se seleccionan aleatoriamente. Una vez tomada la muestra, es posible definir intervalos de confianza tanto para la media poblacional, como para el total poblacional, los cuales vienen dados por las siguientes expresiones:

zα/2 = Abscisa que en la Normal Tipificada deja a la derecha un área /2

El valor de z/2, depende del nivel de confianza (1-) deseado, siendo los más

frecuentes 90%, 95% o 99% de confianza, para los cuales el valor de z/2 puede ser leído en las tablas de La Distribución Normal, encontrándose:

Intervalo de confianza para μ: y̅ ± zα/2s

√n√1 − f

Intervalo de confianza para : N 𝑦 ± N zα/2s

√n√1 − f


22

Confianza zα/2

90 % 1,645

95 % 1,960

99 % 2,576

Figura N° 5: Abscisas de la Distribución Normal para un nivel de confianza dado

Es costumbre que los intervalos de confianza sean simétricos y que por lo tanto el riesgo “α” se reparta por mitad entre las dos colas de la Distribución Normal.

El término sin multiplica por la abscisa z/2, se suele llamar “el error estándar de la estimación”, mientras que una vez multiplicarlo por la abscisa, representa el error de muestreo para el nivel de confianza establecido.

Así por ejemplo 𝑠

√𝑛√1 − 𝑓 es el error estándar en la estimación de μ, mientras

que zα/2s

√n√1 − f representa el radio del intervalo de confianza, es decir el

margen de error tolerado, para un nivel del (1-α) de confianza Un comentario importante en las expresiones para el intervalo de confianza es el que se refiere a la relación entre el radio del intervalo y el nivel de confianza. Fácilmente se puede observar que cuanto mayor sea la confianza, mayor será el radio del intervalo, y viceversa; lo cual es completamente lógico, pues si al hacer un disparo sobre un blanco, queremos aumentar la probabilidad de acierto, se debe aumentar el radio del blanco. Ejemplo: Una de las áreas en donde las técnicas de muestreo han encontrado un gran campo de aplicación, es en las auditorías contables. En efecto, así como el contador debe preocuparse para que las cuentas cuadren al céntimo, el auditor debe certificar que el estado financiero refleja cifras creíbles, y en este sentido, el muestreo constituye una herramienta muy útil, pues si la cifra dada en el estado financiero cae dentro del intervalo de confianza obtenido por muestreo, el auditor puede validar esa cifra, sin necesidad de examinar la totalidad de documentos. Consideremos el siguiente caso: Se quiere estimar el monto total de las ventas de una empresa durante un periodo de tiempo dado. Existen 32.500 facturas de venta emitidas durante ese lapso. Una muestra aleatoria simple de 100 facturas los siguientes montos expresados en unidades monetarias:

1.565,81 1.681,15 1.569,50 2.179,82 1.448,19 3.202,97 1.791,71 1.652,48 1.538,34 2.225,79

1.272,97 2.160,39 1.426,80 1.797,69 1.572,99 1.151,57 2.326,23 2.722,45 1.618,40 1.565,78

1.589,60 2.554,25 2.145,41 2.387,37 1.966,96 999,62 1.415,03 1.652,15 1.810,55 1.554,80

1.712,11 2.413,25 2.085,90 1.599,76 2.393,09 1.443,49 1.967,46 1.944,56 1.098,63 1.928,56

2.120,34 1.781,19 2.530,04 1.662,57 1.956,70 2.081,10 1.494,16 1.099,40 2.428,79 1.681,24

1.164,33 1.819,62 782,58 2.476,30 1.942,82 2.166,43 817,62 1.132,65 1.671,05 2.342,90

1.894,14 1.772,66 1.192,46 2.362,04 1.877,08 2.002,05 1.793,70 2.249,14 1.546,75 674,06

2.130,09 2.095,72 2.239,11 1.960,13 1.593,56 1.398,05 1.832,01 1.467,12 1.372,94 1.719,57

948,98 1.587,10 1.900,94 2.428,22 1.727,20 778,04 2.098,32 1.209,68 2.797,18 2.363,02

1.077,25 876,39 1.628,44 1.150,14 2.565,92 1.061,72 842,67 2.091,25 1.825,83 2.389,28


23

Para inferir en base a esta muestra el monto total de las ventas (Total poblacional) hay que calcular la media y la desviación estándar de la muestra, que dan por resultado: y̅ = 1.776,90; s = 505,35 En base a esta información, el intervalo del 95% de confianza para el monto promedio de estas 32.500 facturas resulta ser:

1.776,90 ± 1,96 505,35

√100√1 −

100

32500 = 1.776,90 ± 98,90

Mientras que para el total poblacional, el intervalo del 95% de confianza es:

32500 x 1.776,90 ± 32500 x1, 96 505,35

√100√1 −

100

32500 = 57.749.250,00 ± 3.214.123,25

Esto significa que con 95% de confianza, se puede afirmar que las ventas totales están dentro del intervalo [54.535.126,75; 60.963.373,25], de manera que si estado financiero reporta un monto comprendido dentro del intervalo, el auditor considerará aceptable esta cifra, caso contrario hará una investigación más exhaustiva. 3.214.123,25 representa el error absoluto en la estimación, mientras que (3.214.123,25/ 57.749.250,00) 100% = 5,57% el error relativo Ejemplo: De un lote de 10.000 pilas, se tomó una muestra de 25, y se observó su duración en horas, encontrándose los siguientes resultados:

Duración (horas)

Frecuencia

10-40 2 40-70 4

70-100 8 100-130 5 130-160 6

Obténgase un intervalo del 95% de confianza, para la duración media de las pilas del lote. Solución: En primer lugar, es necesario calcular la media y la desviación estándar de la muestra.

Estas resultan ser: y = 95,80 s= 37,63

Se tiene n = 25, y Z0.025 = 1,96 para 95% de confianza Reemplazando, se obtiene que el intervalo del 95 % de confianza para μ es:

95,80 1,96 37,63 25

11000025

= 95,80 14,73 = 81,07; 110,53

Determinación del tamaño de la muestra: En la estimación de parámetros a través del muestreo, la pregunta clave siempre suele ser el tamaño de la muestra que es necesario tomar. Responder esta pregunta no es fácil, y para ello, es necesario definir con anterioridad dos conceptos:


24

Cuando se va a estimar un parámetro desconocido, como lo es μ, a través de un

valor aleatorio muestral, como lo es y , no podemos esperar que ambos coincidan,

y por lo tanto aparece un error de estimación definido por la diferencia absoluta entre ellos.

Tenemos entonces que: Error absoluto de estimación = | y - μ|

Evidentemente, este error de estimación es una medida de la precisión del muestreo, y cuanto menor sea el error que estamos dispuestos a aceptar, mayor será el tamaño de la muestra; hasta el punto, que si no estamos dispuestos a tolerar ningún error, no nos quedará más remedio, que hacer un censo de la población.

El máximo error que estamos dispuestos a tolerar, lo designaremos por "", y representa entonces, la precisión con que estamos trabajando en el muestreo.

= Error máximo tolerado = Max | y - μ|

Es frecuente, que en lugar de definir al error en términos absolutos, tal como se hizo anteriormente, se haga en términos relativos, dividiendo al error absoluto entre el verdadero valor del parámetro, y expresándolo en términos porcentuales:

Error relativo en la estimación de μ= y

% 100%

Fijar el error máximo que estamos dispuestos a tolerar, no basta para poder calcular el tamaño de la muestra, porque siendo ésta aleatoria, siempre tendremos un cierto riesgo de que este formada por elementos extremos, que nos lleven a una falsa inferencia; es por ello, que el otro término que hace falta fijar, para poder definir el tamaño de la muestra, es el riesgo del muestreo, que se define como la

probabilidad de tomar una muestra que nos haga cometer un error de estimación mayor que el máximo tolerado; es decir:

= Riesgo del muestreo = P( | y - μ| > )

Figura N° 6: Confianza en la estimación de una media poblacional Es también evidente, que cuanto menor sea el riesgo que estemos dispuestos a

correr, mayor será el tamaño de muestra necesario, y que en el caso =0, se necesitará un censo, es decir: n = N. Usualmente el riesgo se fija en 1%, 5% o 10%. Una vez definido el error máximo tolerado, y el riesgo del muestreo, el tamaño de la muestra puede ser calculado mediante la aplicación de la siguiente fórmula:


25

n =N zα/2

2 σ2

zα/22 σ2 + (N − 1) ε2

En donde: N = Tamaño de la población.

2= Varianza Poblacional.

= Máximo error absoluto tolerado.

= Riesgo del muestreo

z/2

= Abscisa que en la normal estándar deja a la derecha un área "/2".

Con relación a la fórmula anterior, es importante hacer las siguientes observaciones: a) Una de las creencias más arraigadas, es la de pensar que para un nivel de riesgo y de error fijos, el tamaño de muestra es siempre un porcentaje fijo de la población. La fórmula anterior, nos muestra que esta creencia es falsa, puesto que si graficamos la forma como varia el tamaño de muestra al variar el tamaño de la población, manteniendo fijos el error tolerado, y el riesgo, encontramos una curva como la siguiente:

En esta curva podemos fácilmente ver, que el tamaño de muestra no crece linealmente con el tamaño de población; por el contrario, crece mucho más lentamente, haciéndose asintótica a la recta horizontal:

𝑛∞= zα/2

2 σ2

ε2

Debido a que : lim 𝑁⟶∞

N zα/22 σ2

zα/22 σ2+(N−1) ε2

= zα/2

2 σ2

ε2

lo que nos indica que en una población infinita, no necesitamos una muestra infinita. Es aquí donde radica la gran importancia del muestreo, puesto que cuanto mayor es la población, más económico es el muestreo en comparación con el censo; mientras que en poblaciones pequeñas, es posible que la muestra represente una proporción muy apreciable de ella.


26

Una consecuencia práctica de este resultado es que cuando en una población no sabemos exactamente cuál es su tamaño, perfectamente podemos suponer que es infinita, y esto no ocasionara un incremento significativo en el tamaño de muestra requerido b) La segunda observación que es necesario plantear, con relación a la fórmula para obtener el tamaño de muestra, es la que se refiere al desconocimiento acerca

del valor de la varianza poblacional 2 ; en efecto, todos los términos que intervienen

en la fórmula : N, z/2 y son conocidos o fijados, a excepción de 2, el cual ni se conoce , ni se podrá conocer, puesto que para calcularla, sería necesario conocer los valores numéricos de la población, lo cual obviamente, dejaría sin objetivos al muestreo. Este detalle hace que no exista una solución matemáticamente exacta para resolver el problema del tamaño de muestra, y que la solución sugerida a continuación, solo nos brinde una aproximación. En la sección anterior vimos la conveniencia de realizar muestras preliminares o pilotos, para detectar de manera temprana posibles errores en el diseño de la encuesta. Este tipo de muestras también pueden ser utilizadas para obtener una estimación preliminar de σ2 , que sustituida dentro de la fórmula del tamaño de muestra, dará una solución aproximada al problema. La estimación preliminar de σ2 a partir de la muestra piloto, puede hacerse a través del su varianza muestral s2, o como sugieren algunos autores, estimando σ tomando la cuarta parte del rango de la muestra piloto (el rango es la diferencia

entre el mayor y el menor valor de la muestra), es decir: �̂� = 𝑦𝑚𝑎𝑥−𝑦𝑚𝑖𝑛

4

Sin embargo, ahora aparecen dos nuevas preguntas, que no estaban planteadas inicialmente, que son: ¿de qué tamaño debe ser esta muestra piloto? , y

¿Qué garantía tenemos de que la estimación hecha de 2, a través de s2, o a través del rango de la muestra piloto, es satisfactoria? Lamentablemente, la solución a toda esta problemática nos conduce a un proceso iterativo de ensayo y error, que comienza asumiendo un tamaño de muestra piloto, que no debería exceder del 1% del tamaño de la población, o del 0,5% en el caso de poblaciones grandes; una vez tomada esta primera muestra piloto, se estima el valor de σ2, y se calcula "n”. Si este valor de “n”si resulta inferior al de la muestra piloto nos indica que con esta basta, y si resulta mayor, es necesario completar la muestra, hasta que al recalcular el valor de "n”, el tamaño resulte igual o menor que el tomado. La siguiente gráfica resume la metodología a seguir:

Figura N° 6: Etapas en la investigación por muestreo Para más detalle sobre estas etapas, se recomienda ir a la sección I.4


27

c) Una tercera observación con relación a la fórmula del tamaño de muestra, es la

que se refiere a la selección del "" (error máximo tolerado), el cual tiene que ser fijado en términos absolutos, para poder ser sustituido en la fórmula.

Obviamente la fijación de un "" inadecuado, redundará negativamente en el

tamaño de muestra a tomar, puesto que si "" es muy grande entonces el muestreo

será impreciso y la estimación será poco confiable, y si "" es muy pequeño, entonces el tamaño de muestra resultará gigantesco, aproximándose casi a un censo, perdiendo así las ventajas del muestreo. Mucho más prudente, es fijar el error máximo tolerado en términos relativos, es decir como un porcentaje del parámetro a estimar; pero a la hora de sustituir dentro de la fórmula, éste debe ser absoluto, y entonces se plantea la pregunta de cómo calcularlo, si ignoramos el verdadero valor del parámetro. Es decir, si por ejemplo, decimos que la estimación de la media poblacional, debe

ser con un error máximo del 5%, entonces estamos diciendo = 0,05 μ, pero "μ" lo ignoramos, y entonces ¿cómo lo sustituimos dentro de la fórmula? Esta situación se resuelve, fijando el error máximo tolerado en términos relativos, y a la hora de tomar la muestra piloto, entonces se utiliza el valor estimado del parámetro, que en el caso de la media poblacional sería, la media de la muestra piloto, para calcular el error máximo tolerado, en términos absolutos, el cual es sustituido dentro de la fórmula del tamaño de muestra, a lo fines de determinar si la muestra piloto fue insuficiente o no. Por supuesto, que ahora se plantea un nuevo elemento en la iteración, puesto que cada vez se complete la muestra, se necesita recalcular el valor estimado del parámetro, y por ende, del error máximo tolerado en términos absolutos. Ejemplo: En un lote de 20.000 bombillos, se quiere estimar su duración media con un error máximo del 1%, y un riesgo del 5%. Si una muestra piloto de 50 bombillos, arrojó una duración media de 5.200 horas, con una desviación típica de 350 horas. a) ¿Qué tamaño de muestra se necesita? b) Si la nueva muestra anterior arroja una duración media de 5640 horas con una desviación típica de 320 horas, ¿es suficiente con esa muestra? c) Obtenga un intervalo del 95% de confianza, para la duración media del lote Solución: a) Tomando la información de la muestra piloto, tenemos que �̂� = 350 �̂� = 5200 Además ε= 1% de 5200 = 52 horas, zα/2= 1,96

Sustituyendo encontramos: 𝑛 =20000 ∙ 1,962∙ 3502

1,962 ∙ 3502+ 19999 ∙ 522 = 172,54

Es decir, que se necesita una muestra de 173 bombillos. Como la muestra piloto era de solo 50 bombillos, es necesario examinar 123 adicionales (en teoría deberían ser otros 173 bombillos) b) Con la información de la nueva muestra se tiene: que �̂� = 320 �̂� = 5640 Además ε= 1% de 5640 = 56,40 horas, zα/2= 1,96

Sustituyendo encontramos: 𝑛 =20000 ∙ 1,962∙ 3202

1,962 ∙ 3202+ 19999 ∙ 56,402 = 122,91 < 173


28

Esto significa que la muestra con n= 173 es suficiente. Si “n” hubiese resultado mayor que 173, en teoría se debería continuar iterando, pero en la práctica se suele detener el proceso aquí, a pesar de que la estimación va a resultar con un margen de error mayor que el previsto. c) El intervalo de confianza para “μ” será entonces

5640± 1,96 320

√173√1 −

173

20000 = 5640,00 ± 47,48

En caso de que el parámetro a estimar, sea el total poblacional, la fórmula anterior del tamaño de muestra, y los procedimientos iterativos descritos, siguen teniendo vigencia, pero distinguiendo dos casos:

Caso 1. Si el error máximo tolerado para estimar al total poblacional “𝜏””esta fijado de manera relativa, la fórmula para el tamaño de muestra se aplica sin modificaciones, pues estimar al total poblacional con un determinado porcentaje de error equivale a estimar la media poblacional con ese mismo porcentaje de error.

Caso 2. Si el error máximo tolerado para estimar al total poblacional “𝜏””esta fijado de manera absoluta, la fórmula para el tamaño de muestra se aplica pero tomando “ε” al error absoluto para el total poblacional dividido entre el tamaño de población. Esta modificación se debe a que en la dicha fórmula para el tamaño de muestra, “ε”

representa el error tolerado en la estimación de “μ”, no en la estimación de “𝜏””, y

𝜇 =𝜏

𝑁

Ejemplo Nº2: En un almacén en donde existen 5000 objetos diferentes, se quiere estimar el valor total de ellas, con un error no mayor del 5%, y un nivel de riesgo del 10%. Una muestra piloto de 20 piezas seleccionadas al azar arrojó los siguientes valores, según la opinión de un perito auditor:

134 276 784 756 503 1076 432 178 675 987

654 860 906 398 187 1655 543 765 534 610

a) Calcule el tamaño de la muestra que es necesario tomar. b) Si la muestra calculada anteriormente da una media de Bs. 685, con una desviación típica de Bs. 346. ¿Cree Ud. que la muestra tomada fue suficiente? c) Encuentre un intervalo del 90% de confianza para el valor total de las piezas almacenadas. Solución: a) En primer lugar, es necesario estimar σ, y para ello tenemos dos opciones, a partir de la desviación estándar de la muestra, o a partir de la cuarta parte del rango.

Si lo hacemos a partir de la desviación estándar de la muestra: �̂� = s= 359,81

Si lo hacemos a partir de la cuarta parte del rango: �̂� = 1655−134

4 = 380,25


29

Cuanto mayor sea “σ”, mayor será el tamaño de muestra requerido, por lo tanto si se quiere un cálculo de “n” que evite futuras iteraciones, se deberá tomar la estimación mayor, en este caso 𝜎 ̂=380,25

Hay que calcular también la media de la muestra piloto �̅� = �̂� = 645,65 Además N = 5000 ε= 5% de 645,55 =32,28, zα/2= 1,645 para 90 % de confianza Nótese que a pesar de que se desea estimar un total poblacional, se procede de la misma manera como si se tratara de una media poblacional. Esto es debido a que estimar un total poblacional con un error relativo del 5% es equivalente a estimar la media poblacional con ese mismo error relativo

𝑛 =5000 ∙ 1,6452∙ 380,252

1,6452 ∙ 380,252+ 4999 ∙ 32,282 = 349,23 > 20 ⇒ la muestra piloto fue insuficiente

b) Si tomada ahora la muestra con n= 350 objetos, se encuentra 𝜎 ̂=346 �̂� = 685, se tiene entonces ε= 5% de 685= 34,25, y sustituyendo:

𝑛 =5000 ∙ 1,6452∙ 3462

1,6452 ∙ 3462+ 4999 ∙ 34,252 = 261,76 < 350 ⇒ la muestra es suficiente

c) El intervalo del 90% de confianza para el total poblacional “𝜏” resulta:

5000 x 685 ± 5000 x 1,645 346

√350√1 −

350

5000 = 3.425.00, 00 ± 146.696,40

III.2 Muestreo Aleatorio para proporciones y porcentajes:

En numerosas oportunidades, el parámetro que se quiere estimar, es el porcentaje de elementos que en una población determinada, poseen una cierta característica o atributo. Este atributo puede ser cualquier cualidad que divida al universo en dos categorías, los que lo poseen, y los que no lo poseen; como por ejemplo, un universo de piezas que pueden ser clasificadas como buenas o defectuosas, o un universo de consumidores que prefieren o no prefieren una cierta marca. En tales casos, es posible aplicar el muestreo aleatorio simple, tomando por supuesto, la muestra de la misma manera como se describió al principio, con igualdad de chance para todas las muestras posibles. Este caso es un caso particular del anterior por variables. En efecto, en el muestreo por variables, la población está constituida por un conjunto de valores numéricos {x1, x2, x3 ⋯ , xN} en donde cada xi es un número real cualesquiera. En el muestreo por atributos:

i

0 ; si el i-ésimo elemento de la población no posee el atributox

1 ; si el i-ésimo elemento de la población posee el atributo

La nomenclatura a seguir es la siguiente: N = Tamaño de la población. 𝜏 = Total de elementos que en la población, poseen una cierta característica.

π =τ

N= Proporción de elementos con la característica, en la población.

n = Tamaño de la muestra. t = Total de elementos que en la muestra, poseen una cierta característica.


30

p =𝑡

𝑛 = Proporción de elementos con la característica, en la muestra.

𝑓 =n

N= Fracción de muestreo

En vista de que los xi de la población son ceros o unos, y los yi de la muestra

también, el total poblacional = i N

ii 1

x

resulta ser el número de unos existentes en

la población, pues evidentemente una suma de ceros y unos da por resultado el total de unos, es decir el total de elementos con el atributo en la población, mientras

que t =i n

ii 1

y

representa el número de elementos con el atributo presentes en la

muestra. Con este simple argumento, resulta fácil caer en cuenta, que en el muestreo por

atributos, “π” desempeña el papel de “μ”, mientras que “p” el de 𝑦

Los parámetros a estimar por muestreo, suelen ser "π" y/o “𝜏”, siendo sus correspondientes intervalos de confianza:

Ejemplo: Si de un lote de 7.000 piezas, se toma una muestra aleatoria de 150 piezas, encontrándose 12 defectuosas. Halle un intervalo del 95% de confianza, para el porcentaje de defectuosas, y para el total de defectuosas en el lote.

Solución: 𝑝 =12

150= 0,08 N = 7000 z0,025 = 1,96 n= 150

Intervalo para "π”: 0.08 ± 1,96 √(0,08) ∙(0,92)

149√1 −

150

7000 = 0,0800 ± 0,0431

Es decir, que con 95% de confianza, se puede afirmar que el porcentaje de defectuosos en el lote está entre 3,69% y 12,31%

Intervalo para “𝜏”:7000 (0.08) ± 7000 (1,96) √(0,08) ∙(0,92)

149√1 −

150

7000 = 580

± 301,70 Es decir, que con 95% de confianza, se puede afirmar que el número de defectuosos en el lote está entre 278 y 882 Determinación del tamaño de la muestra en muestreo para proporciones y porcentajes:

Intervalo del (1-α) de confianza para "π”: 𝑝 ± zα/2√p(1−p)

n−1√1 − f

Intervalo del (1-α) de confianza para“𝜏”: 𝑁𝑝 ± Nzα/2√p(1−p)

n−1√1 − f


31

Los conceptos anteriormente definidos de error y riesgo, siguen siendo necesarios en este tipo de muestreo, sin embargo, como este caso el parámetro a estimar es "π”, tenemos que:

Es importante aclarar, que en este tipo de estimación jamás se trabaja con errores relativos; siempre que se dé un error, este debe interpretarse como absoluto. Así por ejemplo, cuando decimos que se quiere estimar el porcentaje de votos que va a obtener un candidato en unas elecciones, con un error del 1%; este 1% debe interpretarse como la diferencia absoluta, entre la estimación hecha, y el verdadero porcentaje de votos a favor del candidato. Una vez definido el error máximo tolerado y el riesgo, el tamaño de la muestra puede ser calculado mediante la aplicación de la siguiente fórmula:

𝑛 =𝑁𝑍𝛼/2

2 𝜋(1 − 𝜋)

(𝑁 − 1)𝜀2 + 𝑍𝛼/22 𝜋(1 − 𝜋)

Para poblaciones infinitas, el tamaño de muestra requerido resulta ser:

𝑛 = lim𝑁⟶∞

𝑁𝑍𝛼/22 𝜋(1 − 𝜋)

(𝑁 − 1)𝜀2 + 𝑍𝛼/22 𝜋(1 − 𝜋)

=𝑍𝛼/2

2 𝜋(1 − 𝜋)

𝜀2

Nuevamente aquí, se presenta la misma situación descrita antes, ya que como el valor de "π", es desconocido, el mismo debe ser estimado a través de una muestra piloto, lo que conduce a un proceso iterativo, que consiste en ir completando la muestra, hasta que al recalcular el valor de "n", se obtenga un valor igual o menor al ya tomado. Es importante aclarar sin embargo, que en caso de la estimación de proporciones y porcentajes, existe un artificio para obviar la muestra piloto, ya que matemáticamente, puede demostrarse que para un tamaño de población dado "N", el valor máximo del tamaño de muestra corresponde al caso π =0,50, lo que da por tamaño máximo:

𝑛𝑚𝑎𝑥 =𝑁𝑍𝛼/2

2

4 (𝑁 − 1)𝜀2 + 𝑍𝛼/22

de forma, que si el investigador, sospecha que el valor de "π" está cercano al 50%, puede tomar de una vez el máximo tamaño de muestra, sin necesidad de tomar muestra piloto. En caso de que el investigador sospeche que el valor de "π" está muy alejado del 50%, se justifica tomar las muestras piloto y el proceso iterativo, ya que tomar de entrada la muestra máxima, puede resultar antieconómico, debido a que

Error de estimación = | p -π | Error máximo tolerado = ε = Máxima diferencia tolerada de | p -π |

Riesgo = α = Probabilidad (| p -π | > ε)


32

posiblemente, esté tomando una muestra triple o cuádruple, de la que realmente necesita.

El tamaño de la muestra máxima para poblaciones infinitas es: 𝑛 =𝑍𝛼/2

2

4 𝜀2 , y

representa el tamaño más desfavorable, para un error tolerado y un nivel riesgo dado. Otra opción es el de establecer a criterio, o por opinión de expertos, un intervalo donde se piense que debe estar π , y sustituir dentro de la fórmula aquel, que dentro del intervalo se encuentre más cercano a 0,5. Así por ejemplo, si se piensa que π debe estar entre 20% y 35%, 0,20 ≤ π ≤ 0,35, entonces sustituimos dentro de la fórmula el valor de π más desfavorable, es decir π=0,35; pero si se sospecha que π debe estar entre 40% y 60%, 0,40 ≤ π ≤ 0,60, entonces sustituimos dentro de la fórmula el valor de π más desfavorable, es decir π=0,50 Resumiendo: Para calcular el tamaño de muestra en el caso de proporciones y porcentajes, se puede aplicar uno de los siguientes criterios: 1o) Criterio de la muestra máxima: Consiste en sustituir dentro de la fórmula se π por 0,5, y obtener el máximo tamaño de muestra requerido para el nivel de riesgo y error permisible. Si se toma ese tamaño de muestra se obtiene siempre una solución válida para el problema. 2o) El criterio anterior puede resultar antieconómico cuando se sospeche que π anda muy alejado de 0,5, bien cercano a 0 o cercano a 1. En estos casos se recomienda tomar una muestra piloto, que además de evaluar el diseño de la encuesta, permita obtener una estimación preliminar de π. Este procedimiento presenta el riesgo de que puede requerir aproximaciones sucesivas, y a tener que tomar otras muestras piloto. 3o) Otro criterio es el de establecer un intervalo donde se sospeche debe estar π, y sustituir dentro de la fórmula aquel, que dentro del intervalo se encuentre más cercano a 0,5. Este procedimiento permite ahorrar recursos al tomar una muestra menor que la máxima, pero puede requerir futuras iteraciones, en caso de una sospecha errónea acerca del intervalo seleccionado. En caso de que el parámetro a estimar, sea el total de elementos con la

característica en la población “𝜏”, las fórmulas y criterios para hallar el tamaño de muestra requerido son los mismos anteriores, pero teniendo en cuenta que el error tolerado en la estimación de “𝜏”, debe ser dividido entre "N", a fin de reducirlo, a un error tolerado en la estimación de "π”. Ejemplo: Se quiere estimar el porcentaje de defectuosas en un lote de 50.000 piezas, con un error no mayor del 2%, y 5% de riesgo. a) ¿Qué tamaño de muestra se necesita?, en cada uno de los siguientes casos: a.1) El experto en calidad opina que según su experiencia, el porcentaje de defectuosos en estos lotes suele ser entre 3% y 6% a.2) En una muestra piloto de 80 piezas se encontraron 10 defectuosas a.3) Muestra máxima


33

b) Si en la muestra calculada en a.2, se encuentran 7% de defectuosas, determine un intervalo del 95% de confianza, para el porcentaje de defectuosas en el lote. Solución: a.1) En el caso de la opinión del experto, se toma como valor de “π” para ser sustituido dentro de la fórmula, aquel dentro del intervalo que proporcione un mayor tamaño de muestra, que es aquel valor más próximo a 0,5., en este caso 6% = 0,06 Se tiene entonces N= 50000, zα/2 = 1,96, ε= 0,02 y sustituyendo:

𝑛 =50000 (1,96)2 (0,06)(0,94)

(49999)(0,02)2+(1,96)2 (0,06)(0,94)= 536 piezas

Este cálculo de “n” presenta el inconveniente que si al tomar la muestra, la proporción de defectuosos contradice la opinión del experto, y resulta superior al 6%, entonces el error de estimación va a resultar mayor que el tolerado 0,02, y por lo tanto la muestra de 536 será insuficiente

a.2) La estimación de π según la muestra piloto es π̂ =10

80= 0,125, y sustituyendo:

𝑛 =50000 (1,96)2 (0,125)(0,875)

(49999)(0,02)2+(1,96)2 (0,125)(0,875)= 1029 piezas

Este cálculo de “n” presenta el inconveniente que si al tomar la muestra definitiva, la proporción de defectuosos contradice la estimación de la muestra piloto, y resulta superior al 12,5%, entonces el error de estimación va a resultar mayor que el tolerado 0,02, y por lo tanto la muestra piloto de 1029 será insuficiente.

a.3) Para tomar la muestra máxima, basta con hacer π̂ = 0,50 que representa el

caso más desfavorable en cuanto a tamaño de muestra necesario

𝑛𝑚𝑎𝑥 =𝑁𝑍𝛼/2

2

4 (𝑁−1)𝜀2+𝑍𝛼/22 =

50000 (1,96)2

4 (49999)(0,02)2+(1,96)2 = 2291 piezas

Este cálculo no puede resultar jamás insuficiente, pero tiene el inconveniente en caso de que el verdadero valor de π esté muy alejado del 50%, sobre estima el tamaño de muestra requerido, con el desperdicio de recurso que eso conlleva. Como se ve, cada uno de estos tres criterios para calcular el tamaño de muestra presenta sus pros y sus contras, y la decisión de cuál de ellos aplicar dependerá del investigador.

b) Si la muestra de n=1029 arroja p= π̂ = 0.07, entonces el intervalo de 95% de

confianza para π es:

0.07 ± 1,96 √(0,07) ∙(0,93)

1029−1√1 −

1029

50000 = 0,0700 ± 0,0154 = 7,00% ± 1,54 %

En error de muestreo resulto ser de 1,54 % < el 2 % tolerado, debido a que en la muestra definitiva de n= 1029, el porcentaje de defectuoso resultó ser menor que en la muestra piloto. De no haber sido así, el error de muestreo hubiese resultado mayor que el tolerado, y en consecuencia la muestra de n= 1029 hubiese sido


34

insuficiente, cuestión esta que no puede ocurrir si de una vez se toma la muestra máxima. III.3 Muestreo aleatorio simple para razones: En algunos estudios, la población está formada por un conjunto de pares {(𝑥1, 𝑦1) (𝑥2, 𝑦2) ⋯ (𝑥𝑁, 𝑦𝑁)}, y el parámetro poblacional que se desea estima es:

R = ∑ 𝑦𝑖

𝑁1

∑ 𝑥𝑖𝑁1

= 𝜏𝑦

𝜏𝑥

Este es el caso de un estudio en donde lo que se quiere estimar es por ejemplo “el ingreso per cápita” en una localidad en donde residen “N” familias, y la unidad de muestreo, es decir, lo que tiene igual probabilidad de ser seleccionado en la muestra, es la familia no la persona. Cada familia tendrá un par (X, Y), en donde: X= Número de personas que componen la familia Y = Ingreso familiar El ingreso per cápita en esa localidad viene dado por la sumatoria de todos los ingresos dividido entre el total de personas residentes en la localidad. Al tomar la muestra, caerán en ella “n” pares, y el estimador de “R” es:

𝑟 = �̂� = �̅�

�̅�

mientras que el intervalo del (1-α) de confianza para “R” resulta ser;

r ± z𝛼/2 √1−f

x̅ √n √

∑ yi2−2r ∑ xiyi+r2 ∑ xi

2n1

n1

n1

n−1

En aquellos casos donde el valor de”𝜏𝑦” sea una porción de "𝜏𝑥 “, entonces el

valor de “R” representa la proporción o el porcentaje que representa “Y” con relación a “X”. En estos casos, tanto “Y” como “X” deben estar expresados en las mismas unidades. Por ejemplo, si en el par (X, Y), Y representa el gasto que una familia dedica mensualmente para alimentación, y “X” representa el ingreso mensual de esa familia; entonces “R” representa la proporción de los ingresos familiares que son destinados para alimentación. Ejemplo: (Tomado del texto "Técnicas de Muestreo" de William G. Cochran, Pag. 58) La siguiente tabla, muestra el número de personas (Tamaño), el ingreso semanal ($) de la familia (Ingreso), y los gastos semanales ($) de la familia en alimentación (y). Una muestra aleatoria de 33 familias tomada al azar en una gran ciudad arrojó: Tamaño Ingreso Alimentación Tamaño Ingreso Alimentación 2 62 14.3 4 83 36.0 3 62 20.8 2 85 20.6 3 87 22.7 4 73 27.7 5 65 30.5 2 66 25.9 4 58 41.2 5 58 23.3


35

7 92 28.2 3 77 39.8 2 88 24.2 4 69 16.8 4 79 30.0 7 65 37.8 2 83 24.2 3 77 34.8 5 62 44.4 3 69 28.7 3 63 13.4 6 95 63.0 6 62 19.8 2 77 19.5 4 60 29.4 2 69 21.6 4 75 27.1 6 69 18.2 2 90 22.2 4 67 20.1 5 75 37.7 2 63 20.7 3 69 22.6 Totales: 123 2394 907.2 A partir de la muestra, se quiere estimar con 95%, los siguientes parámetros poblacionales: a) el promedio de gasto semanal en alimentación por familia, b) el gasto semanal en alimentación por persona c) el porcentaje de los ingresos familiares que son destinados a alimentación. Solución: El caso a) es claramente una estimación por variables, pues cada familia tiene un solo valor numérico asociado, mientras que los casos b) y c) son estimaciones de razón. Las estimaciones puntuales obtenidas para estos tres parámetros, resultan: a)

�̅� = 907,2

33 = 27.49 $/familia, b) 𝑟1 =

907,20

123= 7,38 $/persona, y c) 𝑟2=

907,20

2394= 0,3789 o

37.98% de los ingresos familiares son destinados a alimentación. Para obtener intervalos del 95 % de confianza, es preciso realizar los siguientes cálculos, donde x1 = Tamaño, x2 = Ingreso, y= Alimentación ∑ 𝑥1𝑖

233𝑖=1 =533, ∑ 𝑥2𝑖

233𝑖=1 =177254, ∑ 𝑦𝑖

233𝑖=1 = 28224, ∑ 𝑥1𝑖

233𝑖=1 𝑦𝑖=3595,5

∑ 𝑥2𝑖233

𝑖=1 𝑦𝑖= 66678 En los tres casos, la fracción de muestreo “f” se puede

despreciar, pues la población se considera infinita. Sustituyendo, se obtienen los siguientes intervalos de confianza:

a) 𝑠𝑦2 =

∑ (𝑦𝑖−�̅�)2𝑖=33𝑖=1

32=

∑ 𝑦𝑖233

𝑖=1 −33�̅�2

32=

28224−33(27,49)2

32 = 102,68⇒ 𝑠𝑦 = 10,13

Intervalo del 95 % de confianza para el ingreso medio poblacional por familia “μY”:

27, 49 ± 1, 96 10,13

√33 = 27, 49 ±3, 46

b) 𝑥1̅̅̅ =123

33= 3,73

Intervalo del 95% de confianza para 𝑅1 =∑ 𝑦𝑖

𝑁1

∑ 𝑥1𝑖𝑁1

7,38 ± 1,96 1

3,73√33 √

28224 −2(7,38)(3595,50)+(7,38)2(533)

33−1 = 7,38 ± 1.05

c) 𝑥2̅̅ ̅ =2394

33= 72,55


36

Intervalo del 95% de confianza para 𝑅2 =∑ 𝑦𝑖

𝑁1

∑ 𝑥2𝑖𝑁1

0,3789 ± 1,96 1

72,55√33 √

28224 −2(0,3789)(66678)+(0,3789)2(177254)

33−1 = 0,3789 ± 0,0466

En conclusión, con 95% de confianza se puede afirmar que entre el 33,23% y el 42,55% de los ingresos familiares, se destinan para alimentación

PREGUNTAS Y EJERCICIOS DE RECAPITULACION

1º) Suponga que para seleccionar una muestra del universo de estudiantes en su Facultad, se utiliza el siguiente procedimiento: Se consigue la lista de la totalidad de asignaturas que se dictan, y de cada asignatura se seleccionan al azar dos estudiantes. ¿Considera Ud. que la muestra resultante cumple con los requisitos para ser considerada como aleatoria simple?, y en caso de que no lo sea, sugiera un procedimiento para obtenerla.

2º) Suponga que un universo está formado por las personas {𝑎, 𝑏, 𝑐, 𝑑, 𝑒} , cuyas

edades son {12,15,24,30,48} años respectivamente, y que se va a tomar una muestra aleatoria simple de 3 de ellos, a los fines de estimar la media poblacional. a) Calcule el valor de μ y de σ2, media y varianza poblacional respectivamente b) ¿Cuántas muestras diferentes es posible tomar? c) ¿Cuál es la probabilidad de seleccionar cada una de estas muestras? d) Calcule el valor de la media muestral 𝑦 ̅ para cada una de estas muestras posibles e) Halle el valor esperado de 𝑦 ̅ , y verifique que E (𝑦 ̅) = μ. ¿Cómo se llama esta propiedad? e) Calcule ahora la varianza de la media muestral, y verifique que se satisface la

siguiente propiedad: Var (𝑦 ̅) = 𝜎2

𝑛(

𝑁−𝑛

𝑁−1)

3º) En un estudio electoral, se quiere estimar el porcentaje de votos que va a obtener un cierto candidato, en una determinada zona, en donde existen 30.000 viviendas. No se disponen datos acerca del número de familias extranjeras que residen en la zona (los extranjeros no votan). A pesar de esto, se decidió tomar una muestra aleatoria de 10 viviendas, encontrándose los siguientes resultados: Familia Nº Habitantes Extranjeros Niños Votantes Votantes a favor 1 5 2 3 0 0 2 8 0 2 6 4 3 4 0 1 3 0 4 5 0 2 3 1 5 7 2 2 3 1 6 8 0 3 5 5 7 6 0 2 4 1


37

8 7 4 3 0 0 9 4 0 2 2 2 10 5 0 1 4 2 Obtenga intervalos del 95% de confianza para cada uno de los siguientes parámetros poblacionales: a) Porcentaje de votos a favor del candidato, calculado sobre la base de la población votante. b) Número total de habitantes en la zona. c) Porcentaje de extranjeros en la zona, calculado sobre la base de la población adulta. d) Porcentaje de familias nacionales en la zona, asumiendo que las familias nacionales son aquellas en donde no reside ningún extranjero. 4º) En un estudio de mercado, se quiere estimar el número total de personas que trabajan en una determinada zona de la ciudad, y que no poseen vivienda propia; a fin de decidir acerca de la factibilidad de desarrollar una zona residencial cercana. El número total de trabajadores en la zona se estima en 32.000, y se quiere realizar la estimación con un error no mayor de 500 personas, y con 10% de riesgo. Una muestra piloto de 200 trabajadores arrojó que 125 de ellos, no poseían vivienda propia. a) ¿Qué tamaño de muestra debe tomarse, para cumplir los requisitos establecidos? b) Si en la muestra calculada anteriormente, se encuentra que el 70% de los trabajadores no poseen vivienda propia. Construya un intervalo del 90% de confianza para la demanda que tendría este desarrollo residencial. Solución: a) n= 2402 b) 22.400 ± 473 5º) En una determinada zona residencial donde existen 2.000 viviendas, se quiere estimar el total de niños en edad escolar, a fin de establecer la capacidad mínima que ha de tener la escuela. Una muestra piloto efectuada entre 10 viviendas, dio los siguientes resultados: Niños en edad escolar 0 1 2 3 4 Frecuencia 2 4 2 1 1 Si se quiere que la estimación del total de niños en edad escolar realizada a través de un muestreo aleatorio simple, no difiera en más de 100 del verdadero valor, con un 95% de probabilidad. ¿Cuántas viviendas deben encuestarse como mínimo? Solución: n= 1106 6º) En una fábrica, se quiere estimar el total de piezas que se encuentran en un almacén. Estas piezas se encuentran dentro de cajas, que contienen un número aleatorio de piezas. En total hay 100 cajas en el almacén. Se toma una muestra aleatoria de 5 cajas, y se cuenta su contenido, clasificándolas en piezas buenas y defectuosas. Los resultados fueron: Caja Nº 1 2 3 4 5


38

Total de piezas 15 10 12 20 18 Piezas defectuosas 2 3 1 3 2 a) Construya un intervalo del 95% de confianza para el total de piezas almacenadas. b) Construya un intervalo del 95% de confianza para el porcentaje de piezas defectuosas. Solución: a) 1500 ± 352 b) (14.67 ± 5.24) %

EJERCICIOS ESPECIALES 7º) Un investigador desea estimar la resistencia media a la compresión de un cierto material, y para tal fin, toma dos muestras de probetas de ese material, y las ensaya, examinando su resistencia. Los resultados obtenidos para cada muestra fueron:

n1 = 8 y1 = 5,4 Kgs/cm2. s1= 0,6 Kgs/cm2.

n2 = 15 y2 = 4,8 Kgs/cm2. s2= 0,4 Kgs/cm2.

Encuentre un intervalo del 95% de confianza, de la menor amplitud posible, y que use la información contenida en las dos muestras, para la resistencia media de las probetas preparadas con ese material. Sugerencia: Deduzca fórmulas para calcular la media y la varianza de la unión de dos muestras, en función de las medias y las varianzas de cada una. 8º) Un fabricante de una nueva fibra sintética, desea estimar la diferencia en resistencia, entre su fibra con relación a la fibra natural, con un error no mayor de 10 Kgs., y 0.05 de riesgo. Mediante una muestra piloto, se sabe que la varianza en la resistencia de las fibras,

es de 1636 Kgs2, para la natural, y de 1892 Kgs2, para la sintética. a) Si se utiliza como estimador de la diferencia de resistencias, a la diferencia de medias muéstrales. ¿Qué tamaño de muestra se necesita tomar, suponiendo tamaños iguales para cada tipo de cuerdas? b) Si con el tamaño de muestra calculado anteriormente, se obtuvo una resistencia media de 272 Kgs., con una desviación típica de 38 Kgs, para la fibra natural, y de 335 Kgs., con una desviación típica de 45 Kgs., para la fibra sintética. Construya un intervalo del 95% de confianza, para el incremento de resistencia dado por la fibra sintética. Solución: a) n= 136. b) (63.00 ± 9.90) Kgs.

IV. MUESTREO ALEATORIO ESTRATIFICADO

Cuando la población es muy heterogénea (Presenta una varianza grande), las estimaciones hechas con muestreo aleatorio simple suelen ser muy imprecisas,


39

pues concluyen en un intervalo de confianza muy amplio, o requieren un tamaño de muestra demasiado grande, lo que ocasiona que el estudio hecho por esta metodología resulte extremadamente costoso. En estos casos, conviene estratificar a la población. La estratificación consiste en una partición del universo en subconjuntos llamados estratos, no necesariamente de igual tamaño, de manera que cada elemento del universo pertenezca a uno y solo a un estrato, y que además, la unión de todos ellos resulte igual al universo.

Criterios para la estratificación

Hay L estratos, no necesariamente de igual tamaño

Cada elemento del universo pertenece a uno y solo a un estrato, es decir, la intersección entre cualquier par de estratos debe ser vacía:

𝐸𝑖 ∩ 𝐸𝑗 = ∅

La unión de todos los estratos es igual

al Universo

𝐸1 ∪ 𝐸2 ⋯ ∪ 𝐸𝐿 = 𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜 Figura N° 7: Partición del Universo en Estratos

Teóricamente, la estratificación puede ser hecha por cualquier criterio que satisfaga los criterios antes señalados; pero en la práctica, si se quiere obtener una estimación precisa utilizando esta metodología, es necesario utilizar un criterio que proporcione estratos que sean muy homogéneos, es decir que la varianza dentro de cada uno de ellos sea muy pequeña. Metodología de muestreo: El principio básico que se debe respetar al tomar una muestra estratificada, es que cada muestra dentro de un mismo estrato debe ser aleatoria simple, es decir, que dentro de cada estrato, las muestras deben tomarse aplicando los principios de muestreo aleatorio simple, como si cada estrato fuese una población en sí misma. Lo anterior significa que todas las muestras posibles dentro de un mismo estrato deben tener idéntica probabilidad de ser seleccionadas, pero esto no implica que esa probabilidad sea la misma, cuando se le compara con la de otro estrato. Para tomar la muestra estratificada es necesario entonces contar con una lista numerada de los elementos de cada estrato, y realizar el sorteo aleatorio o la generación de números aleatorios ya descrita anteriormente, para configurar una muestra en cada estrato, teniendo en cuenta que el tamaño de muestra, y la fracción de muestreo para cada estrato podrá ser diferente. Al igual que el muestreo aleatorio simple, el estratificado puede ser utilizado en el caso de variables, o en el caso de atributos.


40

IV.1 Muestreo estratificado para variables

En este caso, la nomenclatura a seguir es la siguiente: L = Número de estratos Ni = Tamaño del estrato i, i = 1, 2,……, L

N = Tamaño de población = ∑ Nii=Li=1

Wi = Ni

𝑁 = Factor de ponderación o Peso del estrato i

Obviamente W1 + W2 + …..+ WL = 1

{𝑥𝑖1, 𝑥𝑖2. ⋯ , 𝑥𝑖𝑁𝑖}= Población perteneciente al estrato i

𝜏𝑖 = ∑ 𝑥𝑖𝑗𝑗=𝑁𝑖𝑗=1 = Total del estrato i

μi = τi

Ni=

∑ xijj=Nij=1

Ni = Media del estrato i

σi2 =

∑ (xij−μi)2Ni1

Ni = Varianza del estrato i

𝜏 = ∑ 𝜏𝑖𝑖=𝐿𝑖=1 = ∑ ∑ 𝑥𝑖𝑗

𝑗=𝑁𝑖𝑗=1

𝑖=𝐿𝑖=1 = Total Poblacional

𝜇 =𝜏

𝑁=

∑ 𝜏𝑖𝐿1

𝑁=

∑ 𝑁𝑖𝜇𝑖𝐿1

𝑁= ∑ 𝑊𝑖

𝐿𝑖=1 𝜇𝑖= Media Poblacional

Lo anterior significa que la Media Poblacional es la Media Ponderada entre las medias de los diferentes estratos según el peso de cada uno de ellos ni = Tamaño de muestra en el estrato i, i = 1, 2,……, L

n = Tamaño total de muestra = ∑ nii=Li=1

{𝑦𝑖1 , 𝑦𝑖2 . ⋯ , 𝑦𝑖𝑛𝑖}= Valores que cayeron en la muestra del estrato i

𝑦�̅�= ∑ yij

j=nij=1

ni = Media muestral del estrato i

si2 =

∑ (yij−𝑦�̅�)2𝑗=nij=1

ni−1 = Varianza muestral del estrato i

Aunque los parámetros a estimar en el muestreo estratificado pueden ser muy variados, tales como diferencia entre medias de dos estratos, o diferencia entre totales de dos estratos, aquí nos limitaremos al caso tradicional donde se quiere

estimar la Media Poblacional “μ” , y/o el Total Poblacional "𝜏”, siendo sus

correspondientes estimadores:

𝑦𝑠𝑡̅̅ ̅̅ conocida como “media muestral estratificada”, corresponde a la media ponderada entre las media muéstrales de cada estrato.

�̂� = ∑ 𝑊𝑖𝑖=𝐿𝑖=1 𝑦�̅� = 𝑦 𝑠𝑡̅̅ ̅̅ ̅

�̂� = N 𝑦𝑠𝑡̅̅ ̅̅


41

Una vez tomada la muestra dentro de cada estrato, el intervalo de confianza para cada uno de estos dos parámetros poblacionales resulta ser:

Ejemplo: Se quiere estimar la nómina de una organización que tiene en total 6500 empleados, pero dado que existen diferencias importantes entre sus sueldos, según sus responsabilidades, se decide estratificarlos en tres categorías: E1

obreros, E2 empleados administrativos y E3 personal profesional, donde caen 1000, 5000 y 500 personas respectivamente. Se tomó una muestra de 50 obreros, 100 empleados administrativos y 20 profesionales, encontrándose una media mensual de $1200, $ 1800 y $ 4000, con desviaciones típicas de $180, $350 y $ 250 respectivamente. En base a esta información, obtenga un intervalo del 95% de confianza para la nómina mensual.

Solución: Los pesos de cada estrato son: W1 =1000

6500 , W2 =

5000

6500 , W3 =

500

6500

𝑦𝑠𝑡̅̅ ̅̅ = 1000

6500(1200) +

5000

6500(1800) +

500

6500(4000) =1876,92

El intervalo del 95% para la nómina mensual "𝜏” es:

6500(1876,92)±(6500)(1,96)√(10

65)

2 (180)2

50(1 −

50

1000) +

(50

65)

2 (350)2

100(1 −

100

5000) +

(5

65)

2 (250)2

20(1 −

20

500)

= 12.200.000,00 ± 347.191,75 Criterios de estratificación y coeficiente de variación: No siempre el muestreo estratificado proporciona resultados más precisos que el aleatorio simple; depende de la manera como se realice la estratificación. En efecto, si se analiza el error estándar en la estimación de “μ” con muestreo

estratificado, encontramos que este es √∑Wi

2 Si2

ni

L1 (1 −

𝑛𝑖

𝑁𝑖) ; mientras que con

muestreo aleatorio simple es s

√n√1 − f

Al comparar estas dos expresiones, se puede fácilmente ver que en el muestreo aleatorio simple, el error estándar depende de la varianza poblacional pues “s2” es el estimador de σ2, mientras que en el estratificado depende de las varianzas de cada uno de los estratos. Debido a que σ2 es una constante propia de la población, lo anterior significa que con el muestreo aleatorio simple, el investigador no tiene ningún poder para reducir el error estándar salvo incrementando el tamaño de la muestra, mientras que con

Para μ: 𝑦𝑠𝑡̅̅ ̅̅ ± zα/2 √∑Wi

2 Si2

ni

L1 (1 −

𝑛𝑖

𝑁𝑖)

Para 𝜏: N 𝑦𝑠𝑡̅̅ ̅̅ ± N zα/2 √∑Wi

2 Si2

ni

L1 (1 −

ni

Ni)


42

el estratificado, si se definen los estratos de manera que su variabilidad interna resulte muy pequeña, entonces a pesar de que exista una gran variabilidad en la población, la estimación resultará muy precisa. De hecho, si se lograra hacer una estratificación tan perfecta en donde todos los elementos de un mismo estrato fuesen iguales entre si y por tanto σi

2 = 0 para todos los estratos, entonces el error estándar seria 0. Si por el contrario, la estratificación se hace a través de un criterio que arroje estratos heterogéneos, y por lo tanto σi

2 resulte muy grande para cada estrato, entonces lo que se habrá logrado es un efecto contraproducente en la estimación, pues el error estándar resulta quizás tan grande como el correspondiente por muestreo aleatorio simple, a pesar del trabajo adicional que representa la estratificación. Si decide estratificar el investigador se encuentra ahora con el dilema de cómo hacerlo, pues existen varias alternativas, puede por ejemplo estratificar por regiones, estratificar por edades, estratificar por sexo, por niveles sociales, etc. A la hora de decidir cuál criterio utilizar, debe hacerse dos preguntas básicas:

1. ¿Se dispone o se puede obtener un listado que permita identificar a los elementos de cada estrato?

2. ¿Son esos estratos así definidos lo suficientemente homogéneos como para lograr una buena precisión en la estimación?

Si la respuesta a la primera pregunta es negativa, entonces ese criterio de estratificación no es factible, debido a que no se podrá tomar una muestra aleatoria simple dentro de cada estrato. Si la respuesta es positiva, no necesariamente el criterio es adecuado, pues ahora debe responder la segunda pregunta, y analizar si los estratos son lo suficientemente homogéneos, como para garantizar precisión. La varianza dentro del estrato es una medida de su variabilidad, pero no basta para medir su homogeneidad, pues se trata de una cifra dimensional cuyas unidades son unidades cuadradas de la variable en estudio. Una forma mucho más efectiva para medir la homogeneidad de un estrato, es a través de su dispersión relativa o coeficiente de variación, definido por:

C. Vi= Coeficiente de variación del Estrato “i” = σi

μi 100%

Este coeficiente tiene la ventaja de ser una cifra adimensional, libre de unidades, que compara de manera porcentual, la magnitud de la desviación estándar de un estrato con su correspondiente media. En términos generales, podría decirse que un estrato con un coeficiente de variación de hasta 10% o 15%, podría considerarse bastante homogéneo, y hasta de 30% con una variabilidad aceptable. Por supuesto, que nuevamente se presenta el ya conocido inconveniente de que ni μi , ni σi son conocidos, pues al hacer la estratificación se ignoran los parámetros con que resultaran los diferentes estratos. En este sentido, las muestras piloto representan una ayuda importante, pues ellas nos pueden advertir acerca de la bondad del criterio de estratificación utilizado.


43

Es perfectamente posible que después de tomada la muestra piloto, además de corregir posibles errores en el diseño de la encuesta, se deba revisar el criterio de estratificación utilizado, pues estratos que inicialmente se creían homogéneos, en realidad no lo sean, o viceversa; y por lo tanto se deban subdividir estratos, o en otros casos fundir estratos en uno solo, según su heterogeneidad u homogeneidad respectivamente. En el ejemplo anterior, el coeficiente de variación para cada estrato resulto ser:

Obreros: 180

1200∙ 100% = 15% ; Empleados:

350

1800∙ 100% = 19,44%

Profesionales: 250

4000∙ 100% = 6,25 %

Dado que el estrato de empleados es el de mayor peso, y a la vez el de mayor variabilidad, si la muestra tomada fuese una piloto, cabría preguntarse ¿es posible subdividir al estrato de empleados en dos nuevos estratos según algún otro criterio, como su antigüedad?

Tamaño de muestra requerido: Los conceptos de error de estimación, de riesgo

y de confianza se mantienen en el muestreo aleatorio estratificado, y por lo tanto,

el error absoluto en la estimación de la media poblacional es: |𝑦𝑠𝑡̅̅ ̅̅ - μ| ≤ ε

Mientras que 1-α = Confianza = Probabilidad (|𝑦𝑠𝑡̅̅ ̅̅ - μ| ≤ ε)

Sin embargo, el cálculo del tamaño de muestra puede complicarse por que es necesario calcular el correspondiente para cada estrato. Es importante aclarar que cuando se fija un máximo error tolerado para el parámetro poblacional, este mismo máximo error tolerado no aplica para cada estrato individualmente; en otras palabras, exigir un error máximo tolerado de por ejemplo 2% para media poblacional no implica estimar la media de cada estrato con ese mismo 2% de error, pues perfectamente puede suceder que un estrato tenga un peso muy bajo dentro de la población, y un error grande en la estimación de su media no influya de manera significativa dentro de estimación poblacional. Por lo anteriormente explicado, el tamaño de muestra para cada estrato no puede ser calculado a través de las fórmulas de las secciones precedentes, como si cada estrato fuese una población aislada en sí misma. La manera como la muestra se reparte entre los diferentes estratos, se denomina la asignación, y existen varios criterios para realizarla:

Asignación proporcional

Asignación de Neyman

Asignación óptima Aquellos lectores que deseen profundizar más sobre este asunto deben consultar el excelente texto: "Técnicas de Muestreo" de William G. Cochran. En este humilde resumen, nos vamos a limitar exclusivamente al criterio de asignación proporcional, que a pesar de no ser el mejor en todos los casos, resulta ser el más intuitivo, y sobre todo el más fácil de defender a la hora de presentar un estudio por muestreo. Se dice que la asignación es proporcional, cuando a cada estrato le corresponde la misma porción de muestra que lo que ese estrato representa en la población.


44

Así por ejemplo, si un estrato representa el 20% de la población, con asignación proporcional, a ese estrato le corresponde el 20% de la muestra. En el ejemplo recién analizado sobre la nómina de la empresa, fácilmente se puede ver que la asignación no es proporcional.

Para una asignación proporcional se verifica: ni

n=

Ni

N= Wi ⇒ ni = Wi n

De manera, que una vez calculado el tamaño de muestra “n”, lo que le corresponde a cada estrato se calcula según su parte proporcional.

Al igual que en las secciones precedentes, el desconocimiento de las varianzas de cada estrato σi

2 , hace que se necesiten muestras piloto, con el objeto de obtener una estimación preliminar de cada una de ellas, y también una estimación de “μ”, en caso de que el error “ε” se fije de manera relativa. Por lo general, la muestra piloto se reparte de manera proporcional, y es posible que se deban reformular los estratos, en caso de que algunos de ellos resulten con un coeficiente de variación alto. Ejemplo: Se desea estimar el consumo total de agua en una determinada zona de la ciudad, en donde existen 200 industrias y 10.000 residencias. Una muestra piloto entre 5 industrias dio: Consumo (Litros) 0 - 1000 1000-2000 2000-3000 3000-4000 Frecuencia 1 1 2 1 Una muestra piloto entre 20 residencias arrojó: Consumo (Litros) 0 - 500 500-1000 1000-1500 1500-2000 Frecuencia 4 6 7 3 a) ¿Qué tamaño total de muestra se requiere, si se quiere un error relativo de estimación del 5 % como máximo, con un riesgo también del 5%? b) Si en esa muestra se obtiene un consumo medio de 2000 litros para las industrias, con una desviación típica de 1400; y de 750 litros con una desviación típica de 200 litros para las residencias. Obtenga un intervalo del 95% de confianza para el consumo total de agua.

Para un error absoluto tolerado “ε” y un riesgo “α”, el tamaño total de muestra necesario para estimar a la media poblacional “μ”, con asignación proporcional, puede ser calculado con la siguiente fórmula:

n =Nzα/2

2 ∑ Wiσi2L

1

zα/22 ∑ Wiσi

2L1 + N ε2


45

Solución: En primer lugar, hay que calcular la media y la desviación estándar de cada estrato, según lo obtenido en la muestra piloto.

Industrias: 1

1

y 2100,00

s 1140,18

Residencias 2

2

y 975,00

s 499,34

Al analizar el resultado de la muestra piloto, se encuentra que el coeficiente de variación para cada estrato es relativamente alto 54,29% para las industrias, y 51,21% para las residencias, lo que sugiere una reformulación de los estratos, y a preguntarnos si es posible subdividirlos, y considerar si es posible por ejemplo distinguir varios tipos de industrias, y varios tipos de residencias, como por ejemplo, quintas y apartamentos. Suponiendo que decide seguir adelante con estos dos estratos, para calcular el tamaño de muestra se necesita ahora fijar el error absoluto tolerado, para lo que se debe hacer una estimación preliminar de “μ”, a partir de la muestra piloto:

�̂� = 200

10200(2100) +

10000

10200(975) = 997,06 ⟹ ε = 5% de 997,06 = 49,85

y por consiguiente: n =10200 (1,96)2(

200

102001140,182 +

10000

10200499,342)

(1,96)2(200

102001140,182 +

10000

10200499,342)+10200(49,85)2

= 401

la cual deberá ser repartida proporcionalmente entre los dos estratos

𝑛1 =200

10200401 ≈ 8 industrias; mientras que: 𝑛2 =

10000

10200401 ≈ 393 residencias

b) Al suponer que en esa muestra se obtuvo:

Industrias: 1

1

y 2000

s 1400

Residencias 2

2

y 750

s 200

�̂�=𝑦𝑠𝑡̅̅ ̅̅ =200

10200(2000) +

10000

10200(750) = 774,51 litros

El intervalo del 95% de confianza para μ es:

774,51 ± 1,96 √(

200

10200)

2(1400)2

8(1 −

8

200) +

(10000

10200)

2(200)2

393(1 −

393

10000) =

774,71 ± 27,15; lo que representa un error relativo de 27,15

774,71100% = 3,50%

La estimación de 𝜏 = Consumo total de agua en la zona, es 10200 (774,71 ± 27,15)= (7.902.042 ± 276.930) litros en total, con 95% de confianza IV.2 Muestreo estratificado por atributos Al igual que en el muestreo aleatorio simple, lo que se quiere estimar en un muestreo por atributos es la proporción y / o el total de elementos, que dentro de una población posee un cierto atributo, con la diferencia de ahora la población va a ser subdividida en estratos.


46

Ya hemos visto que en este caso, la población solo contiene unos y ceros, según el elemento posea o no posea el atributo respectivamente. La nomenclatura a seguir es la siguiente: L = Número de estratos Ni = Tamaño del estrato i, i = 1, 2,……, L

N = Tamaño de población = ∑ Nii=Li=1

Wi = Ni

𝑁 = Factor de ponderación o Peso del estrato i

Obviamente W1 + W2 + …..+ WL = 1

{𝑥𝑖1, 𝑥𝑖2. ⋯ , 𝑥𝑖𝑁𝑖}= Población perteneciente al estrato i 𝑥𝑖𝑗= 0 o 1

𝜏𝑖 = ∑ 𝑥𝑖𝑗𝑗=𝑁𝑖𝑗=1 = Total de elementos con el atributo en el estrato i

π i = τi

Ni=

∑ xijj=Nij=1

Ni = Proporción de elementos con el atributo en el estrato i

𝜏 = ∑ 𝜏𝑖𝑖=𝐿𝑖=1 = ∑ ∑ 𝑥𝑖𝑗

𝑗=𝑁𝑖𝑗=1

𝑖=𝐿𝑖=1 = Total Poblacional

𝜋 =𝜏

𝑁=

∑ 𝜏𝑖𝐿1

𝑁=

∑ 𝑁𝑖𝜋𝑖𝐿1

𝑁= ∑ 𝑊𝑖

𝐿𝑖=1 𝜋𝑖= Proporción Poblacional

Lo anterior significa que la Proporción Poblacional es la Media Ponderada entre las proporciones de los diferentes estratos según el peso de cada uno de ellos ni = Tamaño de muestra en el estrato i, i = 1, 2,……, L

n = Tamaño total de muestra = ∑ nii=Li=1

{𝑦𝑖1 , 𝑦𝑖2 . ⋯ , 𝑦𝑖𝑛𝑖}= Valores que cayeron en la muestra del estrato i; 𝑦𝑖𝑗= 0 o 1

pi= ∑ yij

j=nij=1

ni = Proporción muestral del estrato i

fi = ni

𝑁𝑖 = Fracción de muestreo en el estrato i

Los parámetros a estimar son π y 𝜏 , cuyos estimadores son:

�̂� = pst = ∑ 𝑊𝑖𝐿𝑖=1 𝑝𝑖 ; �̂� =N pst = N ∑ 𝑊𝑖

𝐿𝑖=1 𝑝𝑖 = ∑ 𝑁𝑖

𝐿𝑖=1 𝑝𝑖


47

Ejemplo: En un estudio de mercado se quiere estimar la proporción de consumidores que prefiere una determinada marca de consumo masivo. Se decidió estratificar por sexo, pues se piensa que existe una diferencia significativa entre las proporciones de hombres y mujeres que prefieren dicha marca. Dado que el universo de consumidores es muy grande, la población se puede considerar infinita, y que está repartida por igual entre hombre y mujeres. Una muestra aleatoria de 500 hombres y de 500 mujeres, arrojó que 80 y 360 respectivamente, preferían la marca. Obtenga un intervalo del 95% para la proporción poblacional. Solución: Por tratarse de una población infinita, las fracciones de muestreo fi se pueden considerar nulas, y además se tiene W1=W2= 0,50= ½

Para los hombres: p1 = 80

500 = 0,16; Para los mujeres: p2 =

360

500 = 0,72

En consecuencia �̂� = pst = ½ (0,16) + ½ (0,72) = 0,44 = 44%

El intervalo del 95% para la proporción poblacional "𝜋” es:

0,44 ± (1,96)√(1

2)

2 (0,16)(1−0,16)

500−1+

(1

2)

2 (072)(1−0,72)

500−1 = 0.4400 ± 0.0254 = 44.00% ± 2.54%

Criterios de estratificación y coeficiente de variación: Al igual que en el muestreo estratificado por variables, en el caso de atributos, el investigador debe ser muy cuidadoso al momento de definir los estratos, pues no siempre, la estratificación conduce a intervalos de confianza más estrechos que los que se obtendrían por muestreo aleatorio simple. La estratificación debe ser hecha de manera que los estratos resultantes sean homogéneos; en el caso de variables, esta homogeneidad se mide a través del coeficiente de variación, pero en el caso de atributos no es así. En efecto, al observar el error estándar del estimador “pst” se observa que este es

√∑𝑊𝑖

2𝑝𝑖(1−𝑝𝑖)

𝑛𝑖−1𝐿𝑖 (1 − 𝑓𝑖) el cual se ve obviamente afectado por el valor del

producto pi (1-pi) para cada estrato, y resulta ser que este producto alcanza su valor máximo cuando pi = ½ De lo anterior se deduce que si la estratificación es tal que el atributo en cuestión divide a cada estrato en dos mitades iguales, mitad que lo tiene y mitad que no lo tiene, entonces se habrá hecho una pésima estratificación, pues el error estándar alcanzará su valor máximo, y el intervalo de confianza resultará muy amplio.

El intervalo de confianza para cada uno de ellos es:

Para π : pst ± 𝑧𝛼/2√∑𝑊𝑖


𝑛𝑖−1𝐿𝑖 (1 − 𝑓𝑖)

Para 𝜏 : N pst ± 𝑧𝛼/2√∑𝑁𝑖


𝑛𝑖−1𝐿𝑖 (1 − 𝑓𝑖)


48

Por el contrario, cuando pi este cercano a 0 ó cercano a 1, en cualquiera de estos dos casos, el producto pi (1-pi) resultara próximo a cero, y en consecuencia el error estándar será muy pequeño. De allí se deduce la siguiente regla para hacer la estratificación:

Por supuesto que al hacer la estratificación no se sabe de antemano si esta regla se cumplirá, y de allí la importancia de las muestras piloto que permitan redefinir aquellos estratos que no la cumplan. Resulta difícil decir con exactitud cuándo se puede considerar a un estrato homogéneo y cuando no; pero en términos generales, un estrato que en la muestra piloto tenga pi ≤0,10 o pi ≥0,90 podría decirse que es muy homogéneo, mientras que otro que resulte con 0,35 ≤ pi ≤ 0,65 es bastante heterogéneo, y debería plantearse una subdivisión en él. Tamaño de muestra requerido: Tan pronto como se tengan las estimaciones preliminares de cada una de las proporciones de cada estrato πi, mediante las correspondientes proporciones muéstrales obtenidas en la muestra piloto, y una

vez fijado el error máximo absoluto tolerado en la estimación de π, es decir |𝑝𝑠𝑡̅̅ ̅̅

- π| ≤ ε, y el riesgo α = Probabilidad (|𝑝𝑠𝑡̅̅ ̅̅ - π| > ε) , el tamaño de muestra de la

muestra definitiva, suponiendo asignación proporcional puede ser calculado mediante la expresión siguiente

Los estratos deben ser definidos de manera tal que el atributo en cuestión sea muy raro o muy frecuente dentro de cada estrato.

En poblaciones finitas:

n =Nzα/2

2 ∑ Wi𝜋𝑖L1 (1 − 𝜋𝑖)

zα/22 ∑ Wi𝜋𝑖

L1 (1 − 𝜋𝑖) + N ε2

En poblaciones infinitas:

𝑛∞ =zα/2

2 ∑ Wi𝜋𝑖L1 (1 − 𝜋𝑖)

ε2


49

En caso de que el investigador considere que no es conveniente tomar una muestra piloto para obtener una estimación preliminar de cada uno de los π i, le quedan las siguientes dos opciones:

a) Tomar la muestra máxima dada por: 𝑛𝑚𝑎𝑥𝑖𝑚𝑎 =Nzα/2

2

zα/22 +4 N ε2

para poblaciones

finitas, o 𝑛∞,𝑚𝑎𝑥𝑖𝑚𝑎 =zα/2

2

4 ε2 para poblaciones infinitas, y luego repartirla

proporcionalmente dentro de los estratos. Este procedimiento puede resultar extremadamente costoso, pues conduce a una muestra mucho más grande de la necesaria, ya que equivale a realizar el cálculo del tamaño de muestra desde el punto de vista más pesimista posible, que es suponer que cada πi = ½, lo que significa que la estratificación ha sido muy mal hecha. b) Basarse en encuestas anteriores, en estudios similares o en opinión de expertos para establecer un posible intervalo en donde se considere puede encontrarse cada uno de los πi, y tomar como valor de πi para ser sustituido dentro de la fórmula del tamaño de muestra, aquel valor que dentro del intervalo se encuentre más cercano a ½, o igual a ½ si lo contiene. Lo negativo de esta metodología es que puede conducir a tamaños de muestra insuficientes, debido a que el intervalo de predicción antes señalado puede resultar erróneo. Ejemplo: En un estudio que considera dos estratos, se quiere estimar la proporción "π" de elementos que en la población posee una cierta característica. El primer estrato representa el 75% de la población, y el segundo estrato el 25% restante. Se quiere que la estimación de “π” a través de la proporción muestral estratificada (pst) no difiera de "π", en más de 1%, con 90% de probabilidad.

a) SI la asignación de la muestra se va a realizar proporcionalmente. Calcule el tamaño de muestra necesario en cada estrato, sabiendo que una muestra preliminar arrojó que el 20% en el primer estrato, y el 45% en el segundo estrato, posee la característica. (Suponga que la población es grande, y que por lo tanto, se puede despreciar la fracción de muestreo). b) Si con el tamaño de muestra calculado anteriormente, se encuentra que el 25% en el primer estrato, y el 38% en el segundo, posee la característica. Construya un intervalo del 90% de confianza para la "Proporción Poblacional". Solución: El hecho de encontrar en la muestra piloto del 2º estrato un 45% de elementos con el atributo, sugiere que este estrato resultó heterogéneo, y que debería subdividirse a fin de lograr una mayor homogeneidad. De no ser factible esta corrección, el cálculo del tamaño de muestra es:

𝑛∞ =zα/2

2 ∑ Wi𝜋𝑖L1 (1−𝜋𝑖)

ε2 = (1,645)2(0,75 (0,20)(1−0,20)+(0,25 (0,45)(1−0,45))

(0,01)2= 4922


50

Al repartir proporcionalmente este tamaño total de muestra, entre los dos estratos,

se obtiene: 1

2

n 0,75( 4922) 3692

n 0,25( 4922) 1231

La estimación puntual de “π” es: π̂ = pst = 0,75(0,25) + 0,25(0,38) = 0,2825

y el intervalo del 90% de confianza para “π”:

0,2825 ± 1,645 √(0,75)2(0,25)(1−0,25)

3692−1+

(0,25)2(038)(1−0,38)

1231−1 = 0,2825 ± 0,0105 =

28,25 % ± 1.05 %

EJERCICIOS POPUESTOS

1°) Una industria tiene dos máquinas, que trabajan en paralelo para producir un mismo artículo. Las características de estas máquinas son: Máquina 1: Es una máquina moderna, cuya velocidad de producción es el triple de la otra, y que según una muestra piloto, produce apenas un 1% de defectuosas. Máquina 2: Es una máquina antigua, cuya velocidad de producción es la tercera parte de la otra, y que según una muestra piloto, produce un 8% de defectuosas. Se quiere estimar el porcentaje de piezas defectuosas dentro de la producción total, con un error no mayor al 0.5%, y un 5% de riesgo. Calcule con ese tamaño de muestra, se obtiene un 0.8% de defectuosas en la máquina 1, y un 8.6 % de defectuosas en la máquina 2, establezca un intervalo del 95 % de confianza, para el porcentaje de defectuosos producidos por la industria. 2°) Se tiene un lote de 60.000 bombillos, de los cuales 40.000 son de una marca “A” y 20.000 de otra marca “B”. Se quiere estimar la duración media de los bombillos del lote, con un error no mayor al 2,5% y 5% de riesgo. Una muestra piloto de ambas marcas, arrojó los siguientes resultados: Duración (hrs) 0 a 100 100 a 200 200 a 300 300 a 400 400 a 500

Marca “A” 2 8 25 31 14

Marca “B” 6 24 10 5 0

a) Con asignación proporcional, calcule el tamaño de muestra necesario para cada marca b) Suponga que con el tamaño de muestra calculado en a.3, se obtienen los siguientes resultados:

Media Muestral (hrs) Desviación estándar (hrs)

Marca “A” 320 90

Marca “B” 170 50

Obtenga un intervalo del 95% de confianza para la duración media de los bombillos del lote.


51

3°) En una población con 100.000 elementos, se quiere estimar el total poblacional, a través de un muestreo estratificado, que considera dos estratos que representan el 35% y 65%. Una muestra piloto arrojó las siguientes estimaciones preliminares: Estrato 1 Estrato 2 Media 80 220 Desviación típica 21 30 a) Calcule el tamaño de muestra para cada estrato, utilizando asignación proporcional, y se quiere un error no mayor al 3%, con 5% de riesgo b) Suponga que con los tamaños de muestra calculados, se obtiene: Estrato 1 Estrato 2 Media 85 208 Desviación típica 20 25 Obtenga un intervalo del 95% de confianza para el total poblacional.

muestreo aleatorio arvelo

Documents

Transcript of muestreo aleatorio arvelo