BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de...

54
BLOQUE III PROBABILIDAD Y MUESTREO PEDRO M. VALERO MORA GRUPO D CURSO 2008-2009

Transcript of BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de...

Page 1: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

BLOQUE IIIPROBABILIDAD Y MUESTREO

PEDRO M. VALERO MORA

GRUPO D

CURSO 2008-2009

Page 2: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

Parte IProbabilidad

Page 3: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.1. Caos v. aleatorio.

1.1.Caos v. aleatorio

• Puede que parezcan lo mismo pero:– Lo aleatorio sigue unas reglas concretas y si

hacemos un número suficiente de ensayos al final veremos un patrón consistente y claro

– En lo caótico no existiría ese patrón. Nunca habría regularidad (o no somos capaces de detectarla).

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 3 de 54

Page 4: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.2. Fenómenos aleatorios.

1.2.Fenómenos aleatorios

• Hay muchas situaciones en la vida real que pueden ser descritas por medio de fenómenos aleatorios.

• Esas descripciones nos permiten conocer las probabilidades de que ocurran unas cosas u otras.

• Los resúmenes de esas probabilidades se denominan distribuciones o modelos de probabilidad– Los juegos de azar siguen modelos de probabilidad

uniforme (por ejemplo, todos los números de la lotería tienen la misma probabilidad de salir)

– Muchos fenómenos naturales siguen un modelo de probabilidad normal

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 4 de 54

Page 5: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.2. Fenómenos aleatorios.

– Muchos fenómenos económicos siguen modelos de probabilidad lognormal o similares

– Muchos fenómenos que se producen con poca frecuencia siguen el modelo de la distribución de Poisson

• Finalmente, hay modelos de probabilidad que no se suelen asociar con fenómenos en la realidad pero que se utilizan para los análisis estadísticos como una herramienta más . Los veremos en el siguiente bloque del curso. Estos modelos son la distribución t, F, etc.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 5 de 54

Page 6: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.3. Modelos de probabilidad uniforme.

1.3.Modelos de probabilidad uniforme

• En estos modelos la probabilidad de un suceso es la misma para todos los resultados.– La probabilidad de que salga un uno en un dado es

1/6.– La probabilidad de que salga un número de loteria es

1 dividido por la cantidad de números de lotería que se hagan, etc.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 6 de 54

Page 7: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.3. Modelos de probabilidad uniforme.

• Cuando trabajamos con probabilidades homogéneas nos podemos hacer una serie de preguntas que se resuelven matemáticamente.– Cual es la probabilidad de que salga un valor en un

experimento en el que hay dos posibles resultados: Aplicamos la distribución de Bernoulli (ejemplo, probabilidad de sacar cara al lanzar una moneda)

– Cual es la probabilidad de tener al menos un acierto en una serie de intentos: Distribución geométrica (cual es la probabilidad de sacar una cara al menos en cinco lanzamientos)

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 7 de 54

Page 8: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.3. Modelos de probabilidad uniforme.

– Cual es la probabilidad de obtener un número concreto de aciertos en una serie de intentos: Distribución binomial (por ejemplo cual es la prob. de 3 caras en cinco lanzamientos)

• Estos modelos de probabilidad son sobre todo importantes en los casos de juegos de azar o cosas parecidas. Algunos ejemplos en que podriamos utilizarlas en Psicología son:– Queremos evaluar si alguien tiene poderes mentales

y comparamos el número de veces que adivina una carta un sujeto con supuesta telepatía

– Cuantas veces acierta un ratón la puerta correcta para salir de un laberinto

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 8 de 54

Page 9: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.4. Modelos de probabilidad normal.

1.4.Modelos de probabilidad normal

• Ya hemos visto el tema de la distribución normal en Section 3.30. Aquí sólo comentar que la distribución normal es la apropiada para fenómenos que tienen un punto medio que es más probable y que los resultados alejados de la media son progresivamente menos probables.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 9 de 54

Page 10: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.4. Modelos de probabilidad normal.

• El modelo de probabilidad normal es apropiado para muchos fenómenos. Cualquier situación en la que se produzcan una serie de cambios pequeños y aditivos (que suman o restan) producirán datos que siguen aproximadamente la distribución normal. Si los efectos no son aditivos, sino multiplicativos entonces las distribuciones serán del tipo de la lognormal (Section 1.5.)– Ya vimos varios ejemplos en la Section 1.5. de

fenómenos que siguen la distribución normal– En general, se piensa que muchos fenómenos

siguen un modelo de distribución normal lo suficientemente bien como para que la usemos como aproximación

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 10 de 54

Page 11: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

1.5.El modelo lognormal

• El modelo lognormal es un ejemplo de distribuciones asimétricas positivas– Una variable sigue la distribución lognormal si el

logaritmo de esa variable sigue la distribución normal

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 11 de 54

Page 12: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

– La forma que tiene la distribución de probabilidad comparada con la normal es la siguiente.

– Lo más importante de esta distribución es que la moda está hacia la izquierda, la distribución está limitada por el cero y hay una larga cola hacia la derecha

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 12 de 54

Page 13: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

• La distribución lognormal no es la única de este estilo: otras distribuciones que tienen un aspecto parecido se llaman la distribución de Pareto, Weibull, etc.

• Este tipo de distribuciones se ha encontrado que son las apropiadas para muchas situaciones en la realidad– Psicología: Tiempos de respuesta sobre items de

tests, tiempos de reacción– Economía (Vida media de objetos, distribución de

salarios, distribución de riqueza, tiempo que un grupo de gente que entra a la vez permanece en el mismo empleo, reclamaciones a las compañías de seguros)

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 13 de 54

Page 14: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

– Medicina: Periodos de latencia (tiempo de la infección hasta primeros síntomas, duración de la consulta al médico, pesos de niños)

– Geología: La concentración de elementos y su radiactividad

– Biología: La distribución de partículas y organismos en el medio ambiente es a menudo log-normal (calidad del aire, lluvia de nubes tratadas con óxido de plata, etc.)

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 14 de 54

Page 15: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

• Lo más importante en este caso es no olvidar que las proporciones que usamos cuando la distribución es normal no sirven en este caso. Veamos un ejemplo:– Este es el valor de mercado de una serie de

empresas

-1458.5 7925.6 17309.7 26693.8 36077.9 45462.0 54846.1 64230.2 73614.3 82998.4 92382.5

0

20

40

60

80

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 15 de 54

Page 16: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

– Vemos que se da la acumulación típica en los valores inferiores y un par de casos extremos

– Si calculamos la media y la desviación típica aritméticas (es decir las habituales) tenemos lo siguiente:

– En estos datos 67 de 77 valores están por debajo de la media y sólo 10 están por encima (esto es por ser asimétrica la variable). O sea el 87% de los caso está por debajo de la media (y no el 50% que podríamos esperar).

x 3223=

sx 11436=

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 16 de 54

Page 17: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

– También, si usamos la regla de que estar por encima o por debajo de tres desviaciones típicas respecto de la media es un valor muy extremo tenemos que hay un caso (que tiene un 92382) que sería extremo.

– Cuando los datos siguen el modelo de la distribución normal podemos usar la regla 68%-95%-99% para los intervalos marcados por 1, 2 o 3 desviaciones típicas. En este caso, sin embargo en este caso el 97% de las puntuaciones ya está en el intervalo de una desviación típica arriba y abajo de la media.

– En conclusión, cuando los datos siguen la distribución lognormal la media aritmética y la desviación típica son grandes comparadas con las que obtendríamos usando la normal

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 17 de 54

Page 18: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

• Algunas consecuencias de lo anterior cuando los datos siguen la distribución lognormal:– Estar en la media aritmética no es ser normalito sino

que es en realidad estar bien (tener una riqueza media por ejemplo es ser bastante rico)

– Estar una desviación típica aritmética por encima de la media aritmética es estar muy pero que muy bien (casi igual a tres desviaciones típicas si los datos fueran normales)

– En definitiva, CUANDO OS DEN UN RESULTADO BASADO EN MEDIAS Y DESVIACIONES TÍPICAS HAY QUE PENSAR SI EL MODELO NORMAL ES EL RAZONABLE PARA ESOS DATOS, de lo contrario, la media y la d.t. aritméticas no valen

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 18 de 54

Page 19: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

• ¿Cómo podríamos hacerlo bien? Hay dos métodos equivalentes– Calcular la media y la d.t. geométrica. Esto lo malo es

que la fórmula cuando hay muchos casos se hace muy difícil de calcular.

– Calcular los logaritmos de los números, calcular la media aritmética y la d.t. y luego calcular el antilogaritmo (el resultado es el mismo que con el método anterior)

• En nuestro ejemplo tendríamos:– ->La media geométrica es un tercio de

la aritmética (era 3223)– ->La desviación típica geométrica es

unas trescientas veces menor (era 11436)

xgeo 1046.5=

sgeo 3.40=

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 19 de 54

Page 20: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.5. El modelo lognormal.

– Si hacemos los intervalos para 1, 2 o 3 desviaciones típicas tenemos (hay que calcular los logaritmos, hacer los intervalos y luego antilogaritmos otra vez) tenemos: (307, 3561); (90, 12118); (26, 41236)

– En el primer intervalo están el 76% de los datos(que es un poco más del 68%), en el segundo está el 94% (cerca del 95%) y en el tercero el 98.7% (casi el 99%). Como vemos estos intervalos se acercan mucho a los que haríamos con la media aritmética sobre distribuciones que siguen el modelo normal.

– Por último, el valor extremo sigue siendo extremo ya que supera el valor de 41236 que era el límite superio con el intervalo de las tres desviaciones típicas

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 20 de 54

Page 21: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

1.6.El modelo de Poisson

• El modelo de Poisson es un modelo de distribución de probabilidad para datos discretos (frente a los contínuos como las anteriores)– Este modelo surge como el número de veces que

ocurre un fenómeno que tiene una probabilidad muy baja de ocurrir

– Lo que controla esa distribución es la media del número de veces que ese fenómeno ocurre, pero lo interesante es para esa media hasta que punto es normal que se den ciertos valores extremos.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 21 de 54

Page 22: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

• Supongamos que la media de gente esperando en una cola para que te atiendan es de 1, 5 o 10 personas

Para una media de 1 habría ocasiones en las que habría 5 esperando

Para una media de 10 habría ocasiones en las que habría hasta 19 esperando

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 22 de 54

Page 23: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

• En estos modelos, los resultados son generalmente recuentos de sucesos que ocurren en una serie de grupos– En la II guerra mundial, dividiendo Londres en zonas,

el modelo de Poisson describia el número de cohetes que cayeron en cada zona (supuesto de independencia)

– El número de accidentes en un periodo de tiempo (por ejemplo por día)

– El número de personas que están en una cola por periodo de tiempo

– El número de casos de leucemia por ciudad puede ser modelado con Poisson. Veremos este ejemplo con más detalle.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 23 de 54

Page 24: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

• En la película Una acción civil, John Travolta es un abogado que intenta ganar un caso de contaminación en una ciudad donde ha habido al parecer muchos casos de leucemia– En la ciudad de Woburn ocurrieron 7 casos de

leucemia– En Estados Unidos hay 30.800 casos de leucemia al

año y una población de 280 millones de personas. En Woburn había 35000 habitantes así que tocarían 3.85 casos de promedio

– Para ver si 7 casos es mucho o poco podríamos usar varios métodos (la binomial por ejemplo) pero el cálculo tiene partes que ni siquiera con ordenador se harían fácilmente. Es mejor usar Poisson.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 24 de 54

Page 25: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

– La fórmula para Poisson es: (una calculadora de

probabilidades se puede encontrar aquí)– es 3.85 en este caso (es la media de sucesos del

fenómeno a estudiar). Con esta fórmula podemos calcular la probabilidad de que haya cero enfermos, un enfermo, dos enfermos, etc. x es el número de casos

P X x=( ) e λ– λx

x!--------------=

λ

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 25 de 54

Page 26: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

– Puesto que en Woburn hubo 7 casos,podemos calcular la probabilidad de exactamente 7 casos. Esto da 0.05 (5%).

– Si dividimos Estados Unidos en agrupaciones de 35000 habitantes tendríamos 8000. El 5% de 8000 es 400. Por tanto, si el modelo de Poisson es correcto para el reparto de casos de leucemia podemos esperar hasta 400 ciudades de ese tamaño con exactamente 7 casos de leucemia por año. 7 ya no parece tan exagerado dado este resultado (también podriamos calcular en cuantos casos hay 7 o más de 7).

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 26 de 54

Page 27: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

– ¿Qué hubiera sido un valor realmente extremo? Uno que sólo hubiera 1 caso en todo Estados Unidos. Para obtener este valor necesitaríamos 13 casos de leucemia (casi el doble)

• En resumen, aunque 7 casos parece mucho, usando el razonamiento anterior este resultado no es tan extraordinario como pudiera parecer al principio

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 27 de 54

Page 28: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

• Conclusiones sobre Poisson– Este modelo es apropiado para cosas que no ocurren

muy a menudo pero hay muchos intentos en que pueden ocurrir

– A menudo en este tipo de situaciones las impresiones subjetivas que tenemos las personas no son adecuadas (es dificil valorar si algo es mucho o poco a ojo). Pongamos el caso de 7 o 13 casos de leucemia en Woburn: nuestra impresión subjetiva puede ser muy diferente antes que después de hacer los cálculos

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 28 de 54

Page 29: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

ACTIVIDADESACTIVIDADESACTIVIDADES

EJERCICIO 1.6.1 ¿Qué distribución de probabilidad teórica crees que se parecerá más a las contesta-ciones a la pregunta: ¿Cuántas horas pasas al día viendo la televisión?

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 29 de 54

Page 30: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

EJERCICIO 1.6.2 Abajo se muestra el diagrama de barras de las contestaciones de 1500 sujetos. ¿A qué distribución de probabilidad teóricas dirias que se parece más este diagrama de barras?

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 30 de 54

Page 31: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

EJERCICIO 1.6.3 ¿A qué distribución teórica dirias que se parece la edad en años del primer matrimo-nio de ese grupo de 1500 personas?

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 31 de 54

Page 32: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

1.6. El modelo de Poisson.

EJERCICIO 1.6.4 ¿Y la distribución del número de hijos? ¿Dirias que hay irregularidades con res-pecto a un modelo de Poisson? ¿Por qué?

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 32 de 54

Page 33: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

Parte IIMuestreo

Page 34: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.1. Introducción.

2.1.Introducción

• En la primera parte del curso hemos trabajado con los datos disponibles– Esto significa que lo que obtenemos es válido para

las condiciones en las que fueron recogidos los datos pero no sabemos si es válido para otras condiciones

– Esto puede ser suficiente en algunos casos, pero en muchos queremos ir más allá: Queremos que los resultados sean generalizables para la mayoría de las condiciones y situaciones posibles de interés

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 34 de 54

Page 35: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.1. Introducción.

• Una forma de garantizar que nuestros resultados son generalizables es recoger datos de todos aquellos individuos o casos que satisfacen esas condiciones de interés (esto se puede expresar como que la muestra sea tan grande como la población)– Población son todos aquellos individuos o casos que

satisfacen una serie de condiciones– Muestra es un grupo de individuos o casos que

representan a la población• Pero, ¿es posible estudiar la población entera de algo?

A menudo no por diversas razones:– La población cambia con el tiempo por lo que el

estudio llega tarde (por ejemplo, las encuestas electorales)

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 35 de 54

Page 36: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.1. Introducción.

– Por razones económicas (por ejemplo, es costoso examinar a toda la población, o hacer el estudio implica dañar lo examinado)

– Por que es imposible (estudios astronómicos, químicos, etc.)

• Como hacer las muestras tan grandes como las poblaciones no es posible en muchos casos, lo que tenemos es que garantizar que las muestras sean representativas. Depende del objeto de estudio esto presenta una dificultad diferente:– Si el objeto es muy homogéneo cualquier muestra

seguramente será bueno (para probar si la sopa está bien de sal basta con una cuchara)

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 36 de 54

Page 37: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.1. Introducción.

– Si el objeto es heterogéneo hay que tomar muestras de diferentes sitios/lugares/situaciones, etc.

• ¿Cómo es el objeto en Psicología? Depende del tema que estemos tratando:– Cuestiones más relacionadas con la conducta básica

de los sujetos se entiende que hay bastante homogeneidad salvo en algunos aspectos claves. Estas suelen ser el género, la edad y si existen grupos especiales. Esto lleva a que no se considere necesario muestrear en diferentes zonas geográficas, condiciones educativas etc. Esta situación se relaciona con experimentos

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 37 de 54

Page 38: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.1. Introducción.

– Cuestiones relacionadas con la conducta social y con la opinión sí que se entiende que hay heterogeneidad entre gente que vive en diferentes lugares, tiene diferentes niveles educativos, trabajos, etc. Esta situación se relaciona con la realización de encuestas y estudios de opinión

• A continuación veremos una serie de consideraciones sobre como conseguir muestras representativas para encuestas y estudios de opinión

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 38 de 54

Page 39: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.2. Muestras representativas (y no representativas) en encuestas y estudios de

2.2.Muestras representativas (y no representativas) en encuestas y estudios de opinión

• Conseguir una muestra representativa de una población parece es mucho más sencillo en teoría que en la práctica.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 39 de 54

Page 40: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.2. Muestras representativas (y no representativas) en encuestas y estudios de

EjemploEn 1936 se llevó a cabo una encuesta electoral para saber quién sería el siguiente presidente en la campaña que acababa de empezar. Los que hicie-ron esta campaña enviaron 10 millones de cuestio-narios y obtuvieron 2.4 millones de respuestas. Este es un número impresionante ya que hoy en día las encuestas se suelen hacer con unos cuantos miles de sujetos. La predicción es que Landon ganaría a Roosvelt por 57% a 43%. Sin embargo el resultado final fue 62% a 37% para Roosvelt.

• ¿Qué es lo que fue mal en esta encuesta? Los errores que cometieron en aquel momento se consideran clásicos hoy en dia. La muestra que usaron provenía de:

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 40 de 54

Page 41: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.2. Muestras representativas (y no representativas) en encuestas y estudios de

– Las guías telefónicas (en 1936 sólo los más acomodados tenían teléfono)

– Gente con licencia de conducir (igual)– Miembros de clubs sociales (?)

• En principio el error de los que hicieron esta encuesta es obvio, su muestra no representaba a la población

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 41 de 54

Page 42: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.2. Muestras representativas (y no representativas) en encuestas y estudios de

• ¿Cómo podemos hacer que una muestra represente adecuadamente a una población? En principio, la receta es muy simple, necesitamos:– Un listado completo de la población– Una forma de generar números aleatorios para

seleccionar del listado anterior

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 42 de 54

Page 43: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.2. Muestras representativas (y no representativas) en encuestas y estudios de

• Listados completos de la población (censos)– Si la población objetivo está bien limitada estos

censos pueden existir (por ejemplo, estudiantes de la universidad de valencia) pero puede haber bastantes casos difíciles o incorrectos (p.e. gente que se ha matriculado y abandona, errores, ...)

– Cuando las poblaciones son muy grandes (censo de un país por ejemplo), los censos suelen estar limitados ya que ese censo no se hace todos los años.

– A menudo, los grupos peor censados tienen características que los hace importantes (los más pobres, los que no tienen casa, los más ricos y que tienen más movilidad, etc.)

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 43 de 54

Page 44: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.2. Muestras representativas (y no representativas) en encuestas y estudios de

– Una estrategia que se ha utilizado durante unos años es hacer las encuestas por teléfono pero no consultando el listín telefónico sino generando por ordenador los números de teléfono a los que llamar. Esto se hacía así porque a menudo la gente que no aparecía listada en el listín telefónico tenía unas características especiales

– Esta estrategia está hoy en día limitada por el aumento de los teléfonos móviles.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 44 de 54

Page 45: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.2. Muestras representativas (y no representativas) en encuestas y estudios de

• Números aleatorios– Los números aleatorios se suelen generar hoy en día

por ordenador (antes se usaban libros)– A partir de cada número se elegiría a un sujeto del

censo

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 45 de 54

Page 46: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.3. Más allá del muestreo aleatorio simple.

2.3.Más allá del muestreo aleatorio simple

• Hay dos problemas que llevan a tipos de muestreo especial– Grupos con poco tamaño pueden estar

infrarepresentados en nuestra muestra– Resulta muy costoso desplazarse para hacer pocas

entrevistas• Los veremos con más detalle a continuación

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 46 de 54

Page 47: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.3. Más allá del muestreo aleatorio simple.

• Queremos que todo el mundo esté representado– Cuando sacamos una muestra tenemos la seguridad

de que proporcionalmente todos los grupos en la población estarán representados

– Tendremos aproximadamente la misma proporción de hombres que mujeres que en la población, la misma proporción de aficionados al futbol que no, la misma de consumidores de drogas que no etc.

– Ahora bien, en algunos casos esas proporciones pueden ser muy bajas. Por ejemplo, si tomamos una muestra para una encuesta de 100 sujetos en Valencia y queremos saber la opinión de los inmigrantes (sobre un 10% en Valencia según la Wikipedia) nos tendrían que salir sobre 10 personas

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 47 de 54

Page 48: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.3. Más allá del muestreo aleatorio simple.

en total. Como 10 no son muchos para sacar conclusiones acerca de sus opiniones sería interesante aumentar la representación de emigrantes en nuestra muestra hasta llegar a 20 0 30 sujetos.

– El procedimiento anterior se denomina muestreo por estratos. Un estrato es una característica de los sujetos en la población. La idea es fijar un número dado de representantes de ese estrato para luego muestrar aleatoriamente dentro de ese estrato. Eso garantiza que haya una cierta cantidad de miembros de cada estrato en las muestras elegidas.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 48 de 54

Page 49: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.3. Más allá del muestreo aleatorio simple.

• Es caro desplazarse para hacer pocas encuestas– Supongamos que hacemos una encuesta electoral

“a pie de urna” y para hacerlo aleatorio tenemos que coger un sujeto de un colegio electoral, otro sujeto de otro colegio y así. Queremos unas 200 personas en en la muestra

– Para hacer esa encuesta necesitaríamos un ejercito de encuestadores que cada uno de ellos tendría que hacer una encuesta o dos como mucho (o estar desplazándose de un colegio electoral a otro)

– Una solución es enviar a los encuestadores cada uno a un colegio electoral y allí hacer todas las encuestas (o al menos un número razonable). Esto en principio parece que no es razonable ya que si cogemos

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 49 de 54

Page 50: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.3. Más allá del muestreo aleatorio simple.

muchas respuestas de un colegio electoral dado y ese colegio corresponde a un determinado barrio con una cierta tendencia habrá más respuestas de gente con esa tendencia.

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 50 de 54

Page 51: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.3. Más allá del muestreo aleatorio simple.

– Veamos el ejemplo siguiente sobre elecciones municiales en el 2007

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 51 de 54

Page 52: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.3. Más allá del muestreo aleatorio simple.

– Vemos en el mapa anterior que algunos distritos tienen un porcentaje de voto mucho mayor que otros. Si hicieramos las encuestas en sólo uno de los colegios electorales y ese colegio coincide con uno de los extremos los resultados no serían fiables

– Una forma de solucionarlo es muestrear los distritos y elegir uno o dos colegios electorales en cada uno y hacer un número de encuestas en cada uno de ellos. Esto nos garantizaría que cubriríamos más posibilidades y que los resultados no están sesgados por el colegio elegido.

– Lo anterior se denomina muestreo por clusters (cluster es una palabra inglesa que se traduce por aglomerado o conglomerado)

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 52 de 54

Page 53: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.4. ¿Cuánta gente hace falta muestrear?.

2.4.¿Cuánta gente hace falta muestrear?

• Si tomamos muestras aleatorias, las muestras no tienen que ser muy grandes

• No obstante, tener en cuenta que la respuesta correcta no es una fracción o porcentaje del total sino un números absoluto. Si la población es muy grande no hace falta muestrear más.

• Generalmente para hacer una estimación general de una cuestión basta con unos cien elementos en la muestra y eso vale tanto para una población de una ciudad, como un país

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 53 de 54

Page 54: BLOQUE III PROBABILIDAD Y MUESTREO - uv.es 2/Prob y... · 1 dividido por la cantidad de números de lotería que se hagan, etc. Bloque III probabilidad y muestreo-Pedro M. Valero

2.4. ¿Cuánta gente hace falta muestrear?.

– Ahora bien, si al hacer la encuesta también queremos detalles sobre las subpoblaciones (hombres y mujeres, ricos/medios/pobres, etc.) necesitaremos aumentar la muestra para que en cada uno de esos subconjuntos haya una cantidad razonable (y a menudo también muestrear por estratos)

• La justificación de porqué sólo hace falta muestrear sobre unos 100 para estar razonablemente seguros de los resultados se encuentra en el siguiente tema

Bloque III probabilidad y muestreo-Pedro M. Valero Mora 2008-2009 54 de 54