Post on 04-Jun-2015
Investigación de Mercado
Investigación de Mercado
Medidas de dispersión de datos
• Las medidas de tendencia central no entregan información suficiente
• Necesitamos medidas de amplitud de la distribución• Indican en qué medida los datos se agrupan en torno a un
valor central. • Muestran el grado de homogeneidad de los datos
Medidas de dispersión
• Hay medidas de dispersión absolutas, • la varianza, la desviación tipica, la desviación
media o los recorridos
• Hay medidas de dispersión relativas, • coeficiente de variación, el coeficiente de
apertura o los recorridos relativos
Medidas de dispersión
• Cuando describimos una distribución de manera numérica, siempre informamos de la dispersión junto con el valor central
• El rango de los datos es la diferencia en los valores máximos y mínimos:
Rango = max – min• Una desventaja de los rangos, es que un solo valor
extremo puede crear rangos muy largos que no son representativos
Medidas de dispersión: recorridos
• El resumen de cinco-números de una distribución es: la mediana, los cuartiles y los extremos (máximo y mínimo)
• ejemplo:
El resumen de cinco números
• Consiste en el punto medio, la primera cuartila (Q1), la tercera cuartila (Q3), el valor mínimo, y el valor máximo del grupo de datos
• El resumen de cinco números del grupo de datos 2, 4, 5, 6, 6, 8, 9 es:
• Mínimo: 2• Q1: 4• Punto medio: 6• Q3: 8• Máximo 9
El resumen de cinco números
• Un boxplot es una presentación gráfica del resumen de cinco-números
• Los boxplots son particularmente útiles cuando se comparan grupos
Boxplots, Turkeys box o diagrama de caja
• El siguiente grupo de boxplots compara la efectividad de varios contenedores de café:
¿Qué nos dice esta gráfica?
Comparando grupos con boxplots
• La suma de todas las desviaciones respecto al parámetro más utilizado, la media aritmética, es cero
• Si se desea una medida de la dispersión sin los inconvenientes para el cálculo que tienen las desviaciones medias, una solución es elevar al cuadrado tales desviaciones antes de calcular el promedio
Medidas de dispersión: la varianza
• La desviación típica, σ, se define como la raíz cuadrada de la varianza
Medidas de dispersión: la desviación típica
Medidas de dispersión: la desviación típica
• Las medidas de forma caracterizan la forma de la gráfica de una distribución de datos estadísticos
• La mayoría de estos parámetros tiene un valor que suele compararse con la campana de Gauss
• La gráfica de la distribución normal es una de las que con más frecuencia se ajusta a fenómenos reales• caracteres morfológicos de individuos como la estatura• caracteres fisiológicos como el efecto de un fármaco• caracteres sociológicos como el consumo de cierto producto por
un mismo grupo de individuos• caracteres psicológicos como el cociente intelectual• nivel de ruido en telecomunicaciones
Medidas de forma
Medidas de forma
• Asimetría:– Índice que expresa el grado de asimetría de la
distribución– Asimetría positiva: los valores extremos se
encuentran por encima de la media– Asimetría negativa: los valores extremos se
encuentran por debajo de la media– Los índices cercanos a cero indican simetría
Distribución
• Se dice que una distribución de datos estadísticos es simétrica cuando la línea vertical que pasa por su media • Divide a su representación gráfica en dos partes simétricas• Los valores equidistantes de la media, a uno u otro lado,
presentan la misma frecuencia
• En las distribuciones simétricas los parámetros media, mediana y moda coinciden
• Si una distribución presenta cierta asimetría, de un tipo o de otro, los parámetros se sitúan como muestra el siguiente gráfico:
Medidas de forma: asimetrías
Medidas de forma: asimetrías
• Curtosis:– Índice que expresa el grado en que una
distribución acumula casos en sus colas– Positiva indica que en las colas de la
distribución hay acumulados más casos que en una distribución normal
– Los índices cercanos a cero, indican una semejanza con la distribución normal
Distribución
• Se pretende medir cómo se reparten las frecuencias relativas de los datos entre el centro y los extremos, tomando como comparación la campana de Gauss
Medidas de forma: curtosis
• Percentiles: sólo para variables, al menos, ordinales– No tiene sentido en nominales
• Media: sólo variables cuantitativas
• Mediana: típicamente ordinal
• Moda: para todo tipo de variables
¿Cuándo utilizar cada estadístico?
• Dispersión (desviación típica, varianza, error típico): sólo para variables cuantitativas
• Amplitud o rango: todas la variables, excepto nominales
• Asimetría y Curtosis: sólo para variables cuantitativas
¿Cuándo utilizar cada estadístico?
• Barras: cada barra es la frecuencia absoluta o porcentual
• De sectores: circular, tamaño la frecuencia absoluta o porcentual
• Histogramas: sólo para formato numérico
• Con curva normal: curva normal superpuesta
Tipos de gráficos
• Tiene forma de campana. Los valores centrales son más probables de encontrar en el centro de la distribución
• Es simétrica respecto de su valor central• Media=Mediana=Moda• Es asintótica respecto de las abscisas• Los puntos de inflexión se encuentran a una
desviación típica de la media• Cualquier combinación lineal de variables se
distribuyen según el modelo normal
Curva normal
• Son estimadores de tendencia central basados en la máxima verosimilitud (estimadores M)– Huber, Andrew, Hamptel y Turkey
• Los estimadores M son una media ponderada de las distancias al centro
• Los estimadores M son menos sensibles a la presencia de otros extremos
• Cuando la distribución es asimétrica, estimadores M.
Estimadores robustos centrales
• Estadísticos: el grado de relación entre dos variables categóricas no puede ser establecido observando las frecuencias en la tabla
• Para determinar si dos variables se encuentran relacionadas se deben utilizar medidas de asociación– Chi cuadrado– Fischer
Variables categóricas: tablas de contingencia
• Correlación de Pearson: asociación lineal entre variables de intervalo o razón
• Correlación de Spearman: asociación lineal entre variables ordinales
Ambos coeficientes poco útiles en la tabla de contingencia típica
Correlaciones categóricas
• Coeficiente de Contingencia: toma valores entre 0 y 1– Un coeficiente 0 indica independencia
mientras que 1 asociación perfecta
• Phi y V de Cramer: adopta valores entre 0 y 1, igual a Pearson
Datos ordinales
• Con los datos ordinales tiene sentido hablar de dirección de la relación– Gamma: oscila entre –1 y 1, cuando
gamma=0, independientes– D de Somer– Tau-b de Kendall– Tau-c de Kendall
Datos ordinales
Muchas Gracias
Email: carlosrojasarancibia@gmail.com
Blog: economiaymedios.blogspot.com
Twitter: reds_cl
Slideshare: www.slideshare.net/reds_cl
LinkedIn: http://cl.linkedin.com/in/carlosrojasa
Skype: reds_cl