Ece ua publi223 investigacion de mercado - pp unidad 04 - carlos rojas - primavera 2011 - 12

Post on 04-Jun-2015

849 views 0 download

Transcript of Ece ua publi223 investigacion de mercado - pp unidad 04 - carlos rojas - primavera 2011 - 12

Investigación de Mercado

Investigación de Mercado

Medidas de dispersión de datos

• Las medidas de tendencia central no entregan información suficiente

• Necesitamos medidas de amplitud de la distribución• Indican en qué medida los datos se agrupan en torno a un

valor central. • Muestran el grado de homogeneidad de los datos

Medidas de dispersión

• Hay medidas de dispersión absolutas, • la varianza, la desviación tipica, la desviación

media o los recorridos

• Hay medidas de dispersión relativas, • coeficiente de variación, el coeficiente de

apertura o los recorridos relativos

Medidas de dispersión

• Cuando describimos una distribución de manera numérica, siempre informamos de la dispersión junto con el valor central

• El rango de los datos es la diferencia en los valores máximos y mínimos:

Rango = max – min• Una desventaja de los rangos, es que un solo valor

extremo puede crear rangos muy largos que no son representativos

Medidas de dispersión: recorridos

• El resumen de cinco-números de una distribución es: la mediana, los cuartiles y los extremos (máximo y mínimo)

• ejemplo:

El resumen de cinco números

• Consiste en el punto medio, la primera cuartila (Q1), la tercera cuartila (Q3), el valor mínimo, y el valor máximo del grupo de datos

• El resumen de cinco números del grupo de datos 2, 4, 5, 6, 6, 8, 9 es:

• Mínimo: 2• Q1: 4• Punto medio: 6• Q3: 8• Máximo 9

El resumen de cinco números

• Un boxplot es una presentación gráfica del resumen de cinco-números

• Los boxplots son particularmente útiles cuando se comparan grupos

Boxplots, Turkeys box o diagrama de caja

• El siguiente grupo de boxplots compara la efectividad de varios contenedores de café:

¿Qué nos dice esta gráfica?

Comparando grupos con boxplots

• La suma de todas las desviaciones respecto al parámetro más utilizado, la media aritmética, es cero

• Si se desea una medida de la dispersión sin los inconvenientes para el cálculo que tienen las desviaciones medias, una solución es elevar al cuadrado tales desviaciones antes de calcular el promedio

Medidas de dispersión: la varianza

• La desviación típica, σ, se define como la raíz cuadrada de la varianza

Medidas de dispersión: la desviación típica

Medidas de dispersión: la desviación típica

• Las medidas de forma caracterizan la forma de la gráfica de una distribución de datos estadísticos

• La mayoría de estos parámetros tiene un valor que suele compararse con la campana de Gauss

• La gráfica de la distribución normal es una de las que con más frecuencia se ajusta a fenómenos reales• caracteres morfológicos de individuos como la estatura• caracteres fisiológicos como el efecto de un fármaco• caracteres sociológicos como el consumo de cierto producto por

un mismo grupo de individuos• caracteres psicológicos como el cociente intelectual• nivel de ruido en telecomunicaciones

Medidas de forma

Medidas de forma

• Asimetría:– Índice que expresa el grado de asimetría de la

distribución– Asimetría positiva: los valores extremos se

encuentran por encima de la media– Asimetría negativa: los valores extremos se

encuentran por debajo de la media– Los índices cercanos a cero indican simetría

Distribución

• Se dice que una distribución de datos estadísticos es simétrica cuando la línea vertical que pasa por su media • Divide a su representación gráfica en dos partes simétricas• Los valores equidistantes de la media, a uno u otro lado,

presentan la misma frecuencia

• En las distribuciones simétricas los parámetros media, mediana y moda coinciden

• Si una distribución presenta cierta asimetría, de un tipo o de otro, los parámetros se sitúan como muestra el siguiente gráfico:

Medidas de forma: asimetrías

Medidas de forma: asimetrías

• Curtosis:– Índice que expresa el grado en que una

distribución acumula casos en sus colas– Positiva indica que en las colas de la

distribución hay acumulados más casos que en una distribución normal

– Los índices cercanos a cero, indican una semejanza con la distribución normal

Distribución

• Se pretende medir cómo se reparten las frecuencias relativas de los datos entre el centro y los extremos, tomando como comparación la campana de Gauss

Medidas de forma: curtosis

• Percentiles: sólo para variables, al menos, ordinales– No tiene sentido en nominales

• Media: sólo variables cuantitativas

• Mediana: típicamente ordinal

• Moda: para todo tipo de variables

¿Cuándo utilizar cada estadístico?

• Dispersión (desviación típica, varianza, error típico): sólo para variables cuantitativas

• Amplitud o rango: todas la variables, excepto nominales

• Asimetría y Curtosis: sólo para variables cuantitativas

¿Cuándo utilizar cada estadístico?

• Barras: cada barra es la frecuencia absoluta o porcentual

• De sectores: circular, tamaño la frecuencia absoluta o porcentual

• Histogramas: sólo para formato numérico

• Con curva normal: curva normal superpuesta

Tipos de gráficos

• Tiene forma de campana. Los valores centrales son más probables de encontrar en el centro de la distribución

• Es simétrica respecto de su valor central• Media=Mediana=Moda• Es asintótica respecto de las abscisas• Los puntos de inflexión se encuentran a una

desviación típica de la media• Cualquier combinación lineal de variables se

distribuyen según el modelo normal

Curva normal

• Son estimadores de tendencia central basados en la máxima verosimilitud (estimadores M)– Huber, Andrew, Hamptel y Turkey

• Los estimadores M son una media ponderada de las distancias al centro

• Los estimadores M son menos sensibles a la presencia de otros extremos

• Cuando la distribución es asimétrica, estimadores M.

Estimadores robustos centrales

• Estadísticos: el grado de relación entre dos variables categóricas no puede ser establecido observando las frecuencias en la tabla

• Para determinar si dos variables se encuentran relacionadas se deben utilizar medidas de asociación– Chi cuadrado– Fischer

Variables categóricas: tablas de contingencia

• Correlación de Pearson: asociación lineal entre variables de intervalo o razón

• Correlación de Spearman: asociación lineal entre variables ordinales

Ambos coeficientes poco útiles en la tabla de contingencia típica

Correlaciones categóricas

• Coeficiente de Contingencia: toma valores entre 0 y 1– Un coeficiente 0 indica independencia

mientras que 1 asociación perfecta

• Phi y V de Cramer: adopta valores entre 0 y 1, igual a Pearson

Datos ordinales

• Con los datos ordinales tiene sentido hablar de dirección de la relación– Gamma: oscila entre –1 y 1, cuando

gamma=0, independientes– D de Somer– Tau-b de Kendall– Tau-c de Kendall

Datos ordinales

Muchas Gracias

Email: carlosrojasarancibia@gmail.com

Blog: economiaymedios.blogspot.com

Twitter: reds_cl

Slideshare: www.slideshare.net/reds_cl

LinkedIn: http://cl.linkedin.com/in/carlosrojasa

Skype: reds_cl