esomar-tecnicas encuesta por muestreo – Aedemo · por una similitud en cuanto al procedimiento o...

23
371 TÉCNICAS DE ENCUESTA POR MUESTREO Copyright © ESOMAR, 1995 Joan S. Alòs Texto presentado en el Seminario de ESOMAR celebrado en Caracas y México en 1990 Vamos a abordar en este capítulo en qué forma podemos obtener informa- ciones representativas del mercado, especialmente en cuanto acudimos a fuentes de información primarias y externas a la empresa. 1. EL UNIVERSO Si habláramos de población en general el universo consistiría en el censo detallado de dicha población; si habláramos de un canal de distribución, por ejemplo de alimentación, el censo de establecimientos que vendieran productos alimenticios constituiría el universo de este canal de distribu- ción. Consecuentemente el universo va a ser la totalidad de elementos que deseamos investigar, es algo que siempre hay que definir puesto que rara vez el universo es toda la población, incluso en sondeos de población se suelen excluir sectores que por sus características o no son votantes o se considera que no están en edad de opinar, por ejemplo las edades infantiles o las ya muy avanzadas; pero ciertamente cuando estamos hablando de una investigación de mercado tendente a aportar información operativa encua- drada dentro de un plan de marketing, el universo es lo primero que hay que definir con claridad, ¿nos estamos refiriendo a todo el público?, ¿sólo a los compradores?, ¿a aquellos compradores que ya consumen nuestra mar- ca?, ¿a los que consumen cierta categoría de producto?, ¿a los de todo el Estado?, ¿o sólo a los que viven en algunas zonas o áreas metropolitanas? La definición del universo consecuentemente debe ser precisa ya que ello nos permitirá cuantificar el potencial del mercado, abordar debidamente los medios de comunicación, elegir asimismo un estilo de producto y de comunicación, y en definitiva constituirá aquel colectivo que desde el punto

Transcript of esomar-tecnicas encuesta por muestreo – Aedemo · por una similitud en cuanto al procedimiento o...

371

TÉCNICAS DE ENCUESTAPOR MUESTREOCopyright © ESOMAR, 1995

Joan S. AlòsTexto presentado en el Seminario de ESOMAR

celebrado en Caracas y México en 1990

Vamos a abordar en este capítulo en qué forma podemos obtener informa-ciones representativas del mercado, especialmente en cuanto acudimos afuentes de información primarias y externas a la empresa.

1. EL UNIVERSO

Si habláramos de población en general el universo consistiría en el censodetallado de dicha población; si habláramos de un canal de distribución,por ejemplo de alimentación, el censo de establecimientos que vendieranproductos alimenticios constituiría el universo de este canal de distribu-ción. Consecuentemente el universo va a ser la totalidad de elementos quedeseamos investigar, es algo que siempre hay que definir puesto que raravez el universo es toda la población, incluso en sondeos de población sesuelen excluir sectores que por sus características o no son votantes o seconsidera que no están en edad de opinar, por ejemplo las edades infantileso las ya muy avanzadas; pero ciertamente cuando estamos hablando de unainvestigación de mercado tendente a aportar información operativa encua-drada dentro de un plan de marketing, el universo es lo primero que hayque definir con claridad, ¿nos estamos refiriendo a todo el público?, ¿sólo alos compradores?, ¿a aquellos compradores que ya consumen nuestra mar-ca?, ¿a los que consumen cierta categoría de producto?, ¿a los de todo elEstado?, ¿o sólo a los que viven en algunas zonas o áreas metropolitanas?

La definición del universo consecuentemente debe ser precisa ya que ellonos permitirá cuantificar el potencial del mercado, abordar debidamentelos medios de comunicación, elegir asimismo un estilo de producto y decomunicación, y en definitiva constituirá aquel colectivo que desde el punto

372

de vista marketing deberá aportarnos los ingresos necesarios para nuestraactividad y que desde el punto de vista de la investigación ha de aportar-nos aquella información necesaria para la buena marcha del plan demarketing.

Los elementos más clásicamente definitorios del universo suelen ser detipo sociodemográfico: sexo, edad, clase social, lugar de residencia, etc. yde consumo: ser o no consumidor de cierta categoría de producto o deciertos productos específicos o incluso de ciertas marcas o variedadesespecíficas.

Una vez elegido el universo será preciso cuantificarlo, tener una ideani que sea aproximada de cuántos cientos, miles o millones de perso-nas se trata. Generalmente vamos a trabajar en investigación de merca-dos con universos que estadísticamente se consideran infinitos, es de-cir que el tamaño de la población que hemos de estudiar no tiene unarepercusión sensible sobre el tamaño de la muestra, prácticamente sonindependientes. El universo suele expresarse convencionalmente conla letra N (mayúscula) y la muestra con la letra n (minúscula), puesbien cuando

(N — n)√———–— ≥ 0.95n — 1

se considera que a efectos prácticos el universo es infinito; ello sucedecuando, el número de elementos del universo es superior a los 100.000,pero de manera práctica también podemos considerar universos ya infini-tos cuando N es igual a 50.000 salvo que la muestra que haya que entresa-car sea proporcionalmente muy elevada.

Pero podríamos preguntarnos porqué entresacar una muestra y no hacer elestudio sobre la totalidad del universo, lo que si se quiere es una preguntaretórica ya que simplemente el coste económico nos haría desistir de nues-tro empeño; en efecto es enormemente costoso obtener información detoda la población, o de todo el universo, lo cual no obstante se hace deforma regular aproximadamente cada 10 años a través de los censos depoblación. Pero al margen de los motivos estrictamente económicos haytambién otros que nos hacen desistir de plantearnos seriamente realizaruna investigación sobre el conjunto del universo, uno es el factor tiempo:la dinámica del marketing no permite unos plazos de obtención de infor-

373

mación excesivamente largos como exigiría un estudio censal, pero tam-bién hay otro factor importante y es que difícilmente obtendríamos res-puesta por parte de todo el universo, siempre habría personas ilocalizableso que finalmente se negarían a facilitar información, con lo cual evidente-mente estaríamos produciendo un sesgo en los resultados sin que pudié-ramos precisar exactamente cuáles; consecuentemente por todo este cú-mulo de razones debemos pensar en otras formas de representar aquelloscolectivos o universos que interesan a nuestros fines.

2. LA MUESTRA

La muestra es precisamente la forma ideada para lograr representar ununiverso, con ello indicamos ya la cualidad fundamental de una muestra:ser representativa, es decir que nos permita tomar la parte por el todo;aquella información obtenida de la muestra debe ser válida para la totali-dad del universo, es decir debe ser extrapolable al universo o dicho en unlenguaje sencillo: si nosotros extraemos 400 personas de un universoestadísticamente infinito y tabulamos sus respuestas, éstas dentro de unosciertos márgenes de error previamente conocidos, van a ser las mismasque obtendríamos de otro conjunto de 400 personas de este mismo univer-so, en caso contrario no se trataría de una muestra sino únicamente de unavisión parcial, sectorial, polarizada y definitivamente sesgada.

El hecho de que la muestra deba ser representativa, puesto que es precisa-mente una extracción representativa del universo, nos va a llevar a todauna sistemática de actuación para obtenerla y a la aplicación de una cier-tas leyes de tipo estadístico; digamos que estas premisas en investigaciónde mercados hacen referencia a cualquier muestra, cualquiera que sea sutamaño y cualquiera que sea la utilización que se hace de la misma, por lotanto una muestra debe ser representativa tanto en un panel, que va a darcomo resultado unas magnitudes al mercado, como en una encuesta, queva a dar como resultado unas determinadas proporciones o porcentajes deopiniones y hechos del mercado, como en un estudio de tipo cualitativo,descriptivo o motivacional que nos va a decir las actitudes y motivacionesque subyacen en el comportamiento de las personas; quiere ello decir quesi realizamos un estudio basado en 4 dinámicas de grupo debemos tener lacerteza de que caso de realizar 4 dinámicas con otras personas distintas,las conclusiones a las que llegaríamos serían las mismas, pudiendo variarsólo en matices pero no llevándonos en ningún caso a una toma de deci-siones en marketing distinta; si ello no fuera así la investigación de merca-dos no tendría sentido.

374

Dentro de este contexto general de lo que es una muestra, debemos indi-car también que en ocasiones se hacen estudios a muestras especialmen-te sesgadas, es decir no representativas de un universo; es simplementepor una similitud en cuanto al procedimiento o en cuanto al léxico quese les llama en esta forma, podemos imaginar por ejemplo encuestas alíderes de opinión, cuyas respuestas ciertamente no van a ser represen-tativas del conjunto de la población pero que sin embargo pueden tenerun peso importante en sí mismas o incluso como conjunto, y es bajo estaperspectiva que hay que verlas; en este caso, también en un sentido es-tricto, podríamos decir que el universo que pretendemos representar noes por ejemplo el de nuestro conjunto de consumidores sinoespecíficamente el de líderes de opinión que pueden afectar a nuestraactividad o nuestros planteamientos.

3. COMO GARANTIZAR UNA BUENA REPRESENTACIÓN

Este es realmente el quid del muestreo. Fundamentalmente para podergarantizar una buena representatividad hemos de tener presentes dos prin-cipios:

1.º la aleatoriedad, es decir la no intencionalidad en la selección de unelemento determinado del universo

2.º la probabilidad, en el sentido de respetar que todos los elementos deluniverso tengan la misma probabilidad de entrar a formar parte de lamuestra.

Esta probabilidad no siempre es pareja a la proporcionalidad; nos explica-mos, en ocasiones el universo viene estratificado en formas muydescompensadas, es posible que ciertas regiones de un país o ciertas áreasmetropolitanas tengan una concentración de población mucho mayor queotras; consecuentemente si queremos representar las áreas menos exten-sas y guardar la proporcionalidad en las áreas con mayor proporción, po-dríamos irnos a unos niveles de muestra muy elevados y por otra parteinnecesarios para dar respuestas válidas sobre estas áreas; por el contrariosi elegimos unas muestras mínimamente representativas para las áreasmayores y guardamos el principio de proporcionalidad, nos vamos a en-contrar con que en las áreas menores la muestra es totalmente insuficien-te. Consecuentemente la probabilidad en muchas ocasiones se respeta anivel de cada uno de los estratos en que podemos subdividir el universopero no entre los estratos; lógicamente ello proporciona unas ciertas dife-

375

rencias en cuanto a la precisión pero salvo que se trabaje con despropor-ciones muy elevadas la incidencia sobre el grado de precisión es realmen-te aceptable; en todo caso siempre existe la posibilidad, y suele hacerse,de reequilibrar esta muestra por ordenador para dar unos resultados tota-les, es decir dar a cada estrato teóricamente la muestra que le correspondeaunque no se haya hecho, así por ejemplo la zona menos favorecida puedetener un peso de reequilibraje igual a 1 y aquellas más favorecidas en quese ha hecho proporcionalmente menos muestra, multiplicarlas precisa-mente por el factor de desproporcionalidad.

Para garantiza la aleatoriedad hay básicamente dos procedimientos: elprocedimiento aleatorio simple, y el procedimiento aleatorio sistemático.

En el aleatorio simple todos los elementos del universo forman parte decada una de las extracciones de elementos muestrales en cada una de lasextracciones; un ejemplo ilustrativo puede ser el de un sistema de loteríaen que todos los números, uno por uno, están en el bombo y cada vez se vaextrayendo una bola. Para llevar a cabo este procedimiento en la práctica,lo ideal es poder disponer de un censo nominal de la población y hacerunas extracciones por sorteo; este proceso aleatorio simple, sin duda elmás puro, presenta no obstante algunos problemas de consideración quehacen que sea desestimado en la mayor parte de los casos. Por un ladopuede suceder que la muestra obtenida sea enormemente dispersaterritorialmente, lo que encarecería enormemente el coste de obtención deinformación; por otra parte, salvo que el tamaño muestral sea realmentemuy grande, existe el riesgo de que por azar algunos estratos del universono hayan sido cubiertos o apenas cubiertos y en otros, en cambio, hayauna proporción bastante mayor, lo que sin duda podría introducirnos unossesgos en los resultados.

El procedimiento aleatorio sistemático se ilustra por ejemplo en el caso dela lotería, en que hay un bombo correspondiente a cada una de las cifrasde unidades, decenas, centenas, millares y centenas de millar que puedencontener el número premiado y se extrae una bola de cada bombo. En elterreno de los estudios de mercado, el procedimiento aleatorio sistemáti-co pretende garantizar a priori la representatividad de todos los estratos,de manera que aseguremos la proporcionalidad, dentro de los límites queantes hemos señalado, y dentro de cada estrato la probabilidad nos vendrágarantizada ya por un procedimiento de selección que puede ya, si se de-sea, ser aleatorio simple. No obstante, dadas las dificultades existentes enla inmensa mayor parte de países en tener unos censos nominales de losuniversos, se suele proceder a un sistema de selección polietápica de ma-

376

nera que nos vayamos acercando hasta el último elemento de la muestra,que en el caso que consideramos sería un individuo.

Una selección muestral polietápica pasa por las siguientes fases:

1.ª una repartición de la muestra por estratos, generalmente se trata deregiones de un determinado país o de diversos países en estudiosmultinacionales.

2.ª dentro de estos estratos, por zonas, se reparte también la muestra porniveles de hábitats, asegurando así la representatividad tanto dehábitats rurales, como semiurbanos, urbanos o metropolitanos.

3.ª dentro de estas celdillas de zona hábitat, se eligen por sorteo lasciudades, o en general las poblaciones a entrevistar, participandocada población con tantos números en el sorteo como número dehabitantes tenga.

4.ª dentro de los pueblos y ciudades elegidos se hace una selección deedificios, generalmente a través del sistema de rutas aleatorias o«random route», que esencialmente consiste en recorrer una ruta enzig zag, una vez elegido aleatoriamente un punto de partida en aque-lla población o ciudad y si el tamaño de la muestra es grande, ésta sesubdivide en rutas que suelen oscilar entre las 5 y 10 entrevistasteniendo cada una de ellas un punto de partida y un itinerario en zigzag a seguir.

5.ª consiste en la selección aleatoria de viviendas dentro del edificio,para lo cual el entrevistador con la ayuda de un selector sortea el pisoal que debe acudir y dentro del rellano elegido la puerta concreta, ola vivienda concreta, en la que debe hacer la entrevista.

6.ª se sortea el individuo a entrevistar dentro de la vivienda, sorteandoentre aquellos que reúnen las características fijadas en el universotales como sexo y edad por ejemplo.

Sin embargo pese a que la teoría nos indica que el sistema de randomsampling o muestra aleatoria es el indicado, de forma creciente las mues-tras se realizan por el sistema de cuotas.

En el muestreo por cuotas exigimos a priori unas proporciones de deter-minadas características, generalmente conocidas por estudios anteriores,y así podemos exigir que en la muestra formen parte determinada propor-ción de hombres y de mujeres dentro de cada uno de estos grupos, unasproporciones determinadas de edades y por ejemplo dentro de estossubgrupos unas proporciones determinadas de usuarios del producto aestudiar o de algunas marcas concretas. Si en la selección de estas perso-

377

nas no ha intervenido la intencionalidad, sino que dentro de cada una delas cuotas establecidas se ha dejado la selección al azar, puede ser tambiénun buen método de muestreo y suficientemente representativo.

¿Por qué se hacen relativamente tan pocos muestreos por un procedi-miento aleatorio simple o aleatorio sistemático? Un primer factor es elcoste ya que en muchas ocasiones la persona que deberíamos entrevis-tar en aquel momento no está presente en el hogar o en el lugar dondehayamos ido a buscarla o no dispone de tiempo; teóricamente habríaque hacer un segundo intento o quizá hasta un tercero y finalmente sino se logra la entrevista, hacer una sustitución estricta por cuotas; elloya es de por sí costoso en entrevistas realizadas en grandes ciudadespero el coste ya puede ser prohibitivo cuando estas entrevistas se estánrealizando en hábitats rurales, con entrevistadores desplazados, y quese verían imposibilitados de acabar su ruta, su labor en el transcursodel día, o máxime dos días, que suelen estar en cada uno de estos pun-tos. Además del problema de coste está también el problema de tiem-po, podríamos tardar demasiado tiempo en obtener información y qui-zá una vez obtenida esta información ya no nos fuera útil para la tomade decisiones. Pero existen asimismo problemas de tipo técnico paragarantizar que verdaderamente toda la labor de sistema aleatorio se estáhaciendo con absoluto rigor, ya que en muchas ocasiones nos faltarándatos suficientes para poder precisar estos extremos, por ejemplopodemos encontrarnos ciudades o áreas en que el número de viviendaspor edificio varíe fuertemente de un edificio a otro: ¿es justo entoncesdar la misma probabilidad de contacto a todos los edificios?, podemoshallarnos también en ocasiones con una variación relativamente am-plia del número de miembros del hogar de una a otra vivienda, ¿pode-mos conocer ésto a priori y consecuentemente hacer un sistema demuestreo más preciso?. Si a estos inconvenientes en coste, en tiempo ytécnicos, añadimos el conocimiento que venimos acumulando por elhecho de que la investigación lleva años de existencia y que general-mente es sistemática, vamos adquiriendo una gran cantidad de conoci-mientos acerca de cómo está estratificado el mercado y podemosentonces ya garantizar a priori las distintas proporciones en que laspersonas deben aparecer en la muestra, sea en función de su sexo, edad,poder adquisitivo, lugar de residencia, o bien en función de otros as-pectos referidos al consumo habitual, ocasional, o no consumo de unproducto de una marca determinada, o aspectos referidos por ejemploa su audiencia de medios, etc.; si tenemos en cuenta además que amenudo el tamaño de la muestra es bastante pequeño, casi en el límitede lo tolerable por motivos de tipo económico, el riesgo en un sistema

378

de muestreo estrictamente aleatorio es ciertamente grande, en tanto queun sistema de cuotas nos va a garantizar mejor la representatividad dela muestra.

Consecuentemente el sistema aleatorio va a quedarnos para estudios conmuestras suficientemente amplias y cuando no dispongamos de unainformación lo bastante precisa sobre aquel mercado, siendo verdadera-mente difícil establecer unas cuotas a priori cuando en muchas ocasio-nes ésto es precisamente lo que estamos intentando descubrir; de ahíque el sistema de muestreo por cuotas tenga una implantación creciente.Ciertamente en países en donde existen unas fuentes estadísticas com-pletas, manejables y de bajo coste, es más fácil acudir a sistemas aleatorios,puesto que se dispone de listado de individuos, de viviendas, o se sabeen un núcleo determinado por ejemplo cuántas familias viven, cómoestán agrupadas y distribuidas en la población, cuál es el tamaño de cadauna de estas familias, etc. Pero de forma creciente se está acudiendo almuestreo por cuotas o de tipo mixto.

4. EL TAMAÑO DE LA MUESTRA Y EL MARGEN DE ERROR

Sin duda cuando se habla de muestra el aspecto más candente es el deltamaño y la precisión que este tamaño pueda aportarnos. Comencemospor decir de qué depende y de qué no depende el tamaño de la muestra.El tamaño de la muestra en general dentro de la investigación de merca-dos, por lo que hemos comentado anteriormente, no depende del tamañodel universo, en cambio si puede depender del grado de homogeneidaddentro de este universo o de la característica que estemos buscandodentro del mismo.

Pongamos un ejemplo sencillo: disponemos de dos bolsas, en una de lascuales hay naranjas y en otra limones; las naranjas debemos servirlas enel postre y los limones durante la comida, si encargamos al pinche decocina que nos entregue la bolsa conteniendo naranjas ¿qué número deextracciones tendrá que hacer?, evidentemente le bastará con abrir unade las bolsas y examinar uno de sus elementos, en el supuesto evidente-mente de que nuestro proveedor no nos haya hecho la jugarreta de mez-clar naranjas y limones; si abre la bolsa y en ellas saca un limón, eviden-temente en aquella bolsa habrá limones y es la que tendremos que utili-zar durante la comida, y en la otra habrá naranjas y es la que tendremosque utilizar en los postres. Si aquello que intentamos averiguar es muysencillo y viene repartido además de forma muy homogénea en todo el

379

universo, podemos permitirnos unas muestras menores que si aquelloque intentamos averiguar u observar es bastante más complejo; suponga-mos que en una bolsa tenemos una variedad de frutos secos, si nosotrospretendemos saber cuál es esta variedad desde un punto de vista cualita-tivo, es decir qué tipo de frutos secos hay, nos bastará una extracciónrelativamente pequeña, pero si además queremos saber la proporción enque se hallan presentes estos frutos secos, sin duda necesitaremos untamaño de muestra mayor.

Dicho ésto vamos a operar como si el grado de homogeneidad nos fueradesconocido. Ello estadísticamente se expresa en la forma en que p=q=50%,es decir la probabilidad de que se de un fenómeno o su contrario son igua-les; cualquier otra probabilidad, mayor o menor, nos permitiría unos ta-maños de muestra más reducidos, en el caso de las naranjas o los limones,por definición la probabilidad de que si en una bolsa sacamos un limóntodos fueran limones es del 100%, con independencia del número delimones (universo) que pudiera haber en la bolsa, con lo que nos basta,como hemos indicado, con sacar un solo elemento.

Hay otro factor que también nos va a influir en el tamaño de la muestra yes nuestro grado de permisividad, es decir hasta qué punto nos importaque los resultados sean más o menos exhaustivos, qué transcendenciatiene ésto para nosotros; generalmente consideramos que las respuestasobtenidas se distribuyen conforme a una ley normal y la curva de la leynormal es prácticamente asintótica con el eje de abcisas, es decir que seencuentra con ella en más infinito y en menos infinito; evidentementeen investigación de mercados no precisamos una rigurosidad tan eleva-da como si de un experimento científico de alta tecnología se tratara,podemos perfectamente prescindir de esta parte de la curva, que ya esmuy próxima al eje de abcisas, es decir que las frecuencias que aparecencon estos valores extremos es ya evidentemente muy pequeña, son loque podríamos llamar casos marginales, casos atípicos, consecuentementeque dentro de un universo la probabilidad de que aparezcan es muyreducida.

¿Pero hasta qué punto vamos a ser permisivos en este sentido?

En líneas generales se establece que para la investigación de mercados elpunto de permisividad es el de 2 σ a uno y otro lado, por lo tanto ± 2 σ delvalor medio de la curva de distribución normal, y ello nos cubre el 95,5%de las respuestas posibles; sabemos por lo tanto que hay 4,5% de posibili-dades de que aparecieran otras respuestas distintas a las que hemos tenido

380

y que consecuentemente nos pudieran hacer variar ligeramente los resul-tados, pero el coste de obtener esta información marginal sería ciertamen-te caro; por poner un ejemplo, si en vez de este nivel de confianza, que asíse le llama, de 2 σ lo quisiéramos de 3 σ –que nos cubriría el 99,7% delárea de distribución normal– para ganar este 4% precisaríamos de un ta-maño de muestra más de 2 veces superior, consecuentemente seguimostrabajando con el nivel de confianza de 2 σ. El nivel de confianza de 2 σviene a decirnos que si repitiéramos la muestra con elementos distintos100 veces, el valor promedio obtenido no diferiría significativamente delque hemos hallado en el 95,5% de los casos, en el otro 4,5% este valorpodría diferir pero evidentemente no alejarse hasta extremos que pudie-ran llevarnos a unas conclusiones de marketing distintas.

Y finalmente otro aspecto influyente en el tamaño de la muestra es el errormuestral que estemos dispuestos a asumir, el cual nos vendrá muy condi-cionado por la gravedad de la decisión que tengamos que tomar. Final-mente pues el tamaño muestral para poblaciones infinitas lo podemosexpresar con esta fórmula:

K2 p qn = —————–

e2

Dentro de la fórmula n es el tamaño muestral para una población infi-nita, K es la constante que nos representa el nivel de confianza y quecomo comentábamos en la investigación de mercados usualmente tomael valor 2; observemos que si quisiéramos reducir el riesgo en cuanto alnivel de confianza y pasáramos a un valor 3, el tamaño de la muestranos aumentaría exactamente en 9/4 puesto que es K2 y no K la que afec-ta directamente al tamaño de la muestra; p y q son las probabilidadescomplementarias de respuesta y que cuando no dispongamos de otrotipo de información vamos a suponer que son igual a 50%, es decir elcaso más desfavorable en que se maximiza más la muestra; e es el errormuestral que estamos dispuestos a admitir, el grado de precisión, y queviene afectado inversamente al cuadrado, consecuentemente cuantomayor sea el error admitido menor va a ser la muestra.

A partir de la fórmula de tamaño muestral podemos deducir fácilmentela fórmula del error muestral, que tomando ya como referencia K igual a2, la fórmula sería la siguiente:

381

p qe = ± 2 √

—————n

ello referido como siempre a poblaciones infinitas; en el caso de que lapoblación fuera finita la fórmula sería la siguiente:

p q (N – n)n = ± 2 √

———————n (N – 1)

¿Cómo hay que interpretar el margen de error?

En el supuesto de que estemos examinando un porcentaje del 50% yhubiéramos realizado 100 entrevistas, el valor de e (margen de error)sería de ± 10; ello quiere decir que el valor del 50% que hemos halladoen la muestra, dentro del universo podría oscilar entre 60 y 40 —es decirentre 50 + 10 y 50 – 10— 95,5 de cada 100 veces; para reducir este abani-co la solución es ir ampliando el tamaño de la muestra. Si pretendemosreducir este margen de error de ± 10 a ± 5 observaremos que la muestranecesaria no es el doble, es decir 200 entrevistas, sino el cuádruple, 400entrevistas. Consecuentemente enseguida nos podemos construir unatabla sencilla que nos ponga en relación los errores muestrales con eltamaño muestras para el caso de máxima indeterminación en quep=q=50% y siempre para este nivel de confianza igual a 2.

Error muestral Tamaño muestral

± 10 100± 5 400± 2.5 1.600± 1.25 6.400± 0.62 25.600

Puede observarse que reducir drásticamente el margen de error supone unesfuerzo económico enormemente elevado, puesto que los tamañosmuestrales se van cuadriplicando cada vez. Consecuentemente hay quehilar muy fino en cuanto al margen de error, el riesgo que uno está dis-

382

puesto a asumir, el grado de precisión que necesita para no ir a tamañosque acabarían siendo impagables, pero por otra parte no quedarse en unostamaños tan reducidos, por baratos que sean, a partir de los cuales nopudiéramos tomar decisiones operativas.

¿En qué forma consecuentemente hay que determinar el tamaño muestral?

5. LA ESTRATIFICACIÓN. EL ERROR RAZONABLE

Conocemos qué aspectos estadísticos afectan el tamaño muestral y suimplicación en el grado de precisión y en el riesgo que corremos. ¿Cómopodemos compaginar estos aspectos con una inversión en investiga-ción razonable? En primer lugar si disponemos ya de información ante-rior o de apreciaciones fiables respecto al valor de p, consecuentemen-te respecto al grado de homogeneidad, inmediatamente al calcular eltamaño muestral en vez de hacer p=q=50% pondremos el valor de pque haga al caso, supongamos un valor de 75%; si siguiéramos mante-niendo un tamaño muestras de 100 entrevistas, el error muestral nosdisminuiría de un 10 a un 8.7, pero podemos optar por no disminuir elmargen de error y seguir aceptando el valor 10%, y consecuentementedisminuir el tamaño muestral, lo que nos abarata el estudio; en estesupuesto nos bastaría con realizar 75 entrevistas en vez de 100, redu-ciendo el coste, sino de manera proporcional en un 25%, si de unaforma sensible. Sin embargo en la mayor parte de ocasiones no dispon-dremos de estimadores previos o la variedad de objetivos a cubrir serátan amplia que en algún caso tendremos que admitir esta indetermina-ción en que p=q=50%; en estos casos que suelen ser la generalidad, notiene sentido plantearse el error muestral que uno está dispuesto a ad-mitir para el total del universo, sino para el estrato de universo máspequeño sobre el que razonablemente deban tomarse decisiones.

Imaginemos por un momento un país de 15 millones de habitantes, quese divide en cuatro regiones distintas en las que es posible emprenderacciones de marketing diferenciadas y que estas regiones tengan unapoblación respectivamente:

Región A: 1 millón de habitantesRegión B: 2 millones de habitantesRegión C: 4 millones de habitantesRegión D: 8 millones de habitantesTotal: 15 millones de habitantes

383

Plantearnos el margen de error para el conjunto de 15 millones es pocooperativo; imaginemos que estamos dispuestos a aceptar un margen deerror de ± 5 para este total de 15 millones, el tamaño muestral sería de 400entrevistas; si estas entrevistas se distribuyeran de forma proporcional–como es ideal hacerlo–, la región más pequeña, con un millón de habi-tantes, se representaría únicamente en base a 27 entrevistas, lo que nos daun margen de error para esta región de ± 19%, es decir que ante un porcen-taje de un 50% únicamente podemos afirmar que en 95 de cada 100 casos,dentro de la población de esta región, este porcentaje puede oscilar entre69% y 31%, en una proporción consecuentemente que en números redon-dos va de 1 a 2; huelga decir por otra parte que difícilmente podríamoslograr una buena representatividad a partir únicamente de 27 entrevistas,ya que sería enormemente difícil poder respetar los principios dealeatoriedad y probabilidad dentro de esta región.

El proceso de construcción del tamaño muestral consecuentemente es elcontrario. Fijémonos el margen de error que estamos dispuestos a asumiren la región más pequeña y admitamos por ejemplo que pueda ser de± 10%, en cuyo caso en esta región deberíamos de realizar 100 entrevis-tas y si hiciéramos un muestreo estrictamente proporcional representa-ríamos la totalidad de este país con 1.500 entrevistas; el error muestralpara el conjunto consecuentemente sería fruto de esta construcciónmuestral, no sería un error inicialmente buscado; en este caso concretopara 1.500 entrevistas sería de ± 2.6%, pero de hecho nos da igual quesea este valor, como que sea un 4 ó un 5%; ello nos puede llevar enalgunos casos en que la desproporción entre áreas es manifiesta a hacermuestras no proporcionales como anteriormente hemos indicado; unamuestra razonable podría ser por ejemplo:

Habitantes Muestra Error muestral %

Región 1 1.000.000 100 ± 10.0Región 2 2.000.000 200 ± 7.1Región 3 4.000.000 300 ± 5.8Región 4 8.000.000 400 ± 5.0Total 15.000.000 1.000 ?

para el conjunto de las 1.000 entrevistas el error teórico sería de ± 3.2%,aunque ésta es sólo una aproximación puesto que el error muestral delconjunto viene algo afectado por la desproporción; concretamente el mar-gen de error para muestras no proporcionales nos viene dado por la si-guiente fórmula:

384

p q np2

e = ± 2 √ ——— Σ ———

n2 na

siendo np la muestra proporcional que correspondería al estrato y na lamuestra aproporcional.

En el caso que nos ocupa el error muestral final de estas 1.000 entrevis-tas no sería de ± 3.2% sino de ± 4.9%, es decir que los datos totalespodrían oscilarnos, en el caso del 50% entre 45 y 55, pero en vez dehacer 1.500 entrevistas hemos hecho 1.000, lo que supone un ahorro decoste importante.

Como se suele decir, finalmente el tamaño muestral no depende tantodel error y de la estadística como del presupuesto disponible, sin em-bargo hay que coger este aserto con toda precaución y saber hacer losnúmeros, teniendo presente que en ocasiones es preferible no disponerde información que disponer de alguna que nos pueda llevar a tomardecisiones erróneas.

Este aspecto de la estratificación y el error que estamos dispuestos a asu-mir para el estrato más pequeño es como hemos comentado el básico en laconstrucción del tamaño muestras y de su reparto, y ello es válido tantopara estudios de tipo cuantitativo como de tipo cualitativo. Observemosque para los estudios cualitativos el número de reuniones o entrevistas enprofundidad a hacer, va a depender del número de distintos estratos deluniverso, entendiendo aquí los estratos desde un punto de vista cualitati-vo como algo más reducido o más segmentado, puesto que al margen dediferencias objetivas en grupos de consumidores, hay que pensar tambiénen la productividad de los grupos, y esta productividad se da fundamen-talmente, salvo en algunas técnicas específicas de contraste, cuando losgrupos son homogéneos, quiere ello decir que en general dentro de ungrupo no podremos mezclar personas de distinto sexo, de edades muydiferenciadas, de niveles sociales muy diversos y es posible que en ocasio-nes en ciertos países haya otros aspectos que también impidan una buenacomunicación, ya sea en función de raza o religión, por ejemplo.

El tamaño muestral cualitativo para cada estrato se aconseja que seade un mínimo de dos reuniones de grupo y de cinco entrevistas en

385

profundidad; en ocasiones será preciso utilizar ambos tipos de técni-cas, en otros nos bastará con una de ellas. Si el número de estratos esmuy amplio, en ocasiones será posible reducir este número de gruposhasta 1 por estrato.

6. LOS OTROS ERRORES

Podemos medir y apreciar con bastante finura los errores estrictamenteestadísticos, los errores esperados; sin embargo hay otras fuentes de erroro de sesgo en las encuestas que difícilmente pueden medirse en forma detantos por ciento, por lo que la única solución es intentar minimizarlos almáximo. Estos errores provienen de dos tipos de fuentes distintas, por unaparte de quienes no contestan a la encuesta siendo requeridos para ello ypor otra parte de aquellos que han contestado.

Quienes no contestan a la encuesta puede ser bien por un motivo expreso,es decir se les ha podido abordar pero se niegan a contestar, o por unmotivo tácito: la persona que teóricamente teníamos que entrevistar, porejemplo en un proceso de rutas aleatorias, no ha podido ser contactadapor no hallarse en el hogar o porque no hay acceso permitido a esta vivien-da, ignorando cómo habrían contestado estas personas si hubiéramos po-dido convencerlas o si en vez de hacer el intento de entrevista una vez, lohubiéramos repetido en más ocasiones. Al respecto existen algunos estu-dios y ciertamente los «no contestan» o las personas sustituidas tienen engeneral una opinión distinta a aquellas que han contestado y ello vienedado tanto por su posición socioeconómica, como por su talante social,como por un distinto tamaño o estructura familiar, etc., pero difícilmentese puede decir y menos prever a priori cuál es exactamente el sesgo produ-cido. En función del riesgo en la decisión a tomar, en ocasiones habrá queexigir un segundo intento de entrevista o lograr un contacto vía telefónicaprevio por ejemplo a un contacto personal, con el fin de asegurarse lamayor cobertura posible de gente entrevistada; también podrá exigirse quelas sustituciones de una persona que no se encuentra, o de una vivienda ala que no se puede acceder, o en la que no hay nadie, se hagan por unsistema de cuotas, es decir tomando aquellos datos mínimos del hogar quequizá un vecino nos puede contestar, o que podemos observar, y buscaruna vivienda o una persona de aquellas mismas características.

La otra gran posible fuente de errores proviene de aquellas personasque han contestado, bien sea porque han contestado con inexactitud,bien sea por la forma en que les hemos preguntado. Las inexactitudes

386

por parte de las personas entrevistadas, si las preguntas han sidocorrectamente formuladas, en general vienen a compensarse por la leyde los grandes números; estamos hablando de omisiones o equivoca-ciones totalmente involuntarias y que tanto podían producirse en unsentido como en otro; sin embargo en ocasiones ésto no es así y el ses-go, cuando se produce, se produce siempre en el mismo sentido, porejemplo de aquel tipo de respuesta que haga quedar mejor al entrevis-tado; en estos casos conviene tener recursos a lo largo de la entrevistapara poder verificar algunas de las respuestas. Pero generalmente elproblema no viene tanto de la respuesta en sí misma como de ésta enrelación a la pregunta que se ha efectuado; es de capital importanciadisponer de cuestionarios que sean absolutamente neutros, que permi-tan al máximo la facilidad de expresión y de opinión por parte de losentrevistados, y que sean formuladas de una manera estrictamente pro-fesional por parte de los entrevistadores.

Hay algunos temas que son más difíciles de abordar que otros y queconsecuentemente producen sesgos en las respuestas, hay que ser cons-ciente de ello y si acaso tomar las respuestas partiendo de unas mismaspreguntas en un sentido no absoluto sino relativo, viendo como hanido evolucionando a lo largo del tiempo aún sabiendo a ciencia ciertaque la respuesta obtenida no refleja exactamente el pensamiento o for-ma de actuar de la población.

Tras la recogida de información sobre el terreno caben aún algunos erroresen el procesamiento de los datos puesto que algunas de las respuestas sonabiertas y hay que codificarlas; puede haber aquí un error en la interpreta-ción o incluso un error propiamente en la codificación –poner un códigoen vez de otro inadvertidamente– y ello puede seguir en la grabación deesta información en un soporte informático que puede asimismo dar lugara unas desviaciones indeseadas. Todo y con ello, como decíamos, lo másque se puede hacer es poner un exquisito cuidado en todos estos aspectos,no descuidarnos en ningún momento puesto que el margen de error esta-dístico podría ser ridículamente mínimo en relación a los errores verdade-ramente cometidos.

Digamos por último que el error real no siempre se corresponde con elerror teóricamente estimado; en líneas generales si se han cuidado todoslos detalles es posible que el error real sea menor que el error teórico, yello viene influenciado sobre todo por el grado de homogeneidad que existadentro de la población en cuanto a los temas que se han investigado. Hayformas de conocer cuál es este error a posteriori, fórmulas que son senci-

387

llas en el caso de que hayamos obtenido unos promedios a partir de unaspuntuaciones, por ejemplo a grados de acuerdo o desacuerdo sobre algu-nas frases que hayamos podido sugerir, puesto que podemos calcularfácilmente la desviación típica.

Respecto a los porcentajes hay una forma sencilla de ver hasta qué puntooscilan dentro de la muestra, que es repartir las respuestas entre los cues-tionarios pares y los impares, entendiendo que tanto pares como impa-res son dos submuestras representativas de la muestra realizada; si sequiere llegar a mayor detalle y la muestra es suficientemente amplia,pueden dividirse estos resultados entre los 10 números terminales de loscuestionarios dando lugar consecuentemente a 10 submuestras.

7. BIBLIOGRAFÍA

ORTEGA MARTÍNEZ, M.: Manual de investigación comercial, EdicionesPirámide, Madrid 1990.

AZORÍN, F.: Curso de muestreo y aplicaciones, Aguilar, Madrid.

COCHRAN, W.: Técnicas de muestreo, Cecsa, México.

DAVIS, S. A.: Análisis elemental de encuestas, Trillas, México.

DENING, W. E.: Sample Desing in Business Research, John Wiley and Sons,Nueva York.

DESAIE, J.: Théorie et pratique des sondages, Dunod, París.

KISH, L.: Muestreo de encuestas, Trillas, México.

SÁNCHEZ, J. L.: Muestreo de poblaciones finitas aplicado al diseño deencuestas, INE, Madrid.

STEPHAN, F. F. y McCATHY, P. J.: Sampling Opinions: An Analysis ofSurvey Procedure, John Wiley and Sons, Nueva York.

388

8. FORMULARIOS

La mayor parte de las realizaciones prácticas que se realizan en investi-gación de mercados en cuanto al tema estadístico están recogidos en for-mularios y en prontuarios que facilitan extraordinariamente las laboresde cálculo, asimismo las calculadoras de bolsillo o de sobremesa facili-tan los cálculos especialmente de los errores muestrales; por ejemplopara el caso de p=q=50% y un nivel de confianza de 2, para averiguar elerror muestral de un tamaño de muestra determinado basta con teclear eltamaño, por ejemplo 400, sacar la raíz cuadrada y el inverso: el resultadoes 0.05, el error muestral sería exactamente este resultado multiplicadopor 100, es decir 5.0%.

En este capítulo de formularios vamos a dar también una tabla denúmeros aleatorios, que son las que se utilizan para los procesos deselección muestral, por ejemplo sortear dentro de la población de unestrato determinado exactamente el número de habitantes al que toca-ría hacer una entrevista lo cual –salvo que dispongamos de un censonominal de habitantes– nos va a indicar el pueblo en el que vive; apartir de ahí podemos aplicar una selección ya sistemática e ir obte-niendo el resto de puntos muestrales.

Adjuntamos también una tabla de distribución normal tipificada, otra decálculo de tamaño muestral para un nivel de confianza de 2 y para distin-tas probabilidades de p y de q; basta con leer en el margen izquierdo cuáles el límite de error que uno está dispuesto a tolerar y cruzarlo con lacolumna de los valores p/q, obteniendo el tamaño muestral necesario paraque el error sea el deseado; imaginemos que estamos dispuestos a admitirun error de ± 5.0 y la probabilidad de respuesta que esperamos es del 30%,en este caso el tamaño muestral necesario sería de 336 entrevistas.

En otra tabla indicamos el tamaño de la muestra en poblaciones finitas,también para un nivel de confianza igual a 2 y para p=q=50%; paraaveriguar el tamaño de la muestra entramos por la columna de la iz-quierda que nos indica el tamaño de la población, supongamos 5.000, ycruzamos hasta hallar la columna del error muestral que estemos dis-puestos a tolerar, supongamos un 5%, en este caso la muestra sería de370 entrevistas; obsérvese que si el tamaño de la población fuerade 100.000, para un error de ± 5%, el tamaño de la muestra necesariosería 398, en tanto que en poblaciones infinitas es de 400; incluso parauna muestra de 50.000 la diferencia es de 3 entrevistas, seríannecesarias 397.

389

Otro cuadro nos dará los márgenes de error para poblaciones infinitas,para un nivel de confianza igual a 2 y para distintas probabilidades dep y q; en la columna de la izquierda podemos entrar por ejemplo conuna muestra de 600 entrevistas y observar que para una probabilidaddel 10% el error muestras sería de ± 2.5.

Adjuntamos también una tabla de distribución x2 de Pearson, lo que nospermitirá reconocer si existen o no diferencias significativas entre dos dis-tribuciones provenientes de muestras distintas.

Y por último adjuntamos unos formularios de entre los más usuales que seutilizan en investigación de mercados.

390

FORMULARIO BÁSICO

1) Cálculo del error muestral

a) Muestras proporcionales

p q N – nE = ± 2 √

——— × ————n N – 1

E = error estadísticop = probabilidad entre 1 y 100q = complementario de pN = tamaño del universon = tamaño de la muestra

p qy entonces E = ± 2 √

——— para N ≥ 100.000 pueden

N – neliminarse ——— (universo infinito)

N – 1

Para un nivel de confianza de 2 σ (95,5%)

El error muestral para universos «infinitos» se reduce a la mitad cadavez que se cuadruplica la muestra

E ± 20 10 5 2,5 1,25 0,62(para p=q=50) ———————————————————————————

n 25 100 400 1.600 6.400 25.600

391

b) Muestras no proporcionales

p q np2

E = ± 2 √ ——— Σ ———

n2 na

np: muestra proporcional del estratona: muestra aproporcional del estraton: muestra total

2. Cálculo del tamaño muestral

4 p q Nn = ———————— (universo finito)

E2 (N–1) + 4p q

4 p qn = ———— (universo infinito)

E2

3. Cálculo del número de puntos muestrales

NPuntos Muestrales = 30 + √

———— – 1501.000

4. Cálculo de diferencias significativas

a) Entre dos porcentajes de una misma muestra

Si p1 > p2 numéricamente, y p1 – E1 > p2 + E2 significativo realmente

392

b) Entre dos porcentajes de muestras independientes

Si p1 > p2 numéricamente, y

p1 q1 p2 q2p1 – p2 > 2 √

——— + ——— significativo realmente

c) Entre dos distribuciones

Aplicar test de X2

grados de libertad = n.º de resultados – 1

Resultados F1 F2 F1 – F2 (F1 – F2)2 (F1 – F2)2

————–F1

ABC••

valor X2

Total

Frecuencia absoluta de la muestra patrón

id. de la muestra a comparar

393

Si el valor X2 es mayor que el de la tabla la diferencia puede ser signi-ficativa dejando al azar únicamente el porcentaje de probabilidadesindicado en la columna de la izquierda.

gradoslibertad 1 2 3 4 5 6 7 8 9 10

5% valormáx. X2 3,84 5,99 7,81 9,49 11,07 12,6 14,1 15,5 16,9 18,3

95% valormáx. X2 0,04 0,10 0,35 0,71 1,14 1,63 2,17 2,73 3,32 3,94

d) Entre dos medias de muestras independientes

Si m1 > m2 numéricamente, y

G12

G22

m1 – m2 > 2 √ ——— + ——— significativo realmente

n1 n2

m = media

(X1 – X)2

G = desviación típica = √ Σ —————

n

e) Entre dos medias de muestras dependientes

Si m1 > m2 numéricamente, y

G1 G2m1 – —— > m2 + —— significativo realmente√ n √ n