5 Semana Analisis Multivariante Parte II

40
1 UNIVERSIDAD NACIONAL UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS MAYOR DE SAN MARCOS Universidad del Perú, DECANA DE AMERICA Universidad del Perú, DECANA DE AMERICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA Mg. María Estela Ponce Aruneri Mg. María Estela Ponce Aruneri ESCUELA ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ANÁLISIS MULTIVARIANTE ANÁLISIS MULTIVARIANTE SEMESTRE ACADÉMÍCO 2009 -II SEMESTRE ACADÉMÍCO 2009 -II

Transcript of 5 Semana Analisis Multivariante Parte II

Page 1: 5 Semana Analisis Multivariante Parte II

1

UNIVERSIDAD NACIONAL UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOSMAYOR DE SAN MARCOS

 Universidad del Perú, DECANA DE AMERICAUniversidad del Perú, DECANA DE AMERICA

DEPARTAMENTO ACADÉMICO DE ESTADÍSTICADEPARTAMENTO ACADÉMICO DE ESTADÍSTICA

Mg. María Estela Ponce AruneriMg. María Estela Ponce Aruneri

ESCUELAESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ACADÉMICO PROFESIONAL DE ESTADÍSTICA

ANÁLISIS MULTIVARIANTEANÁLISIS MULTIVARIANTE

SEMESTRE ACADÉMÍCO 2009 -IISEMESTRE ACADÉMÍCO 2009 -II

Page 2: 5 Semana Analisis Multivariante Parte II

2

ANÁLISIS EXPLORATORIO ANÁLISIS EXPLORATORIO DE DATOS DE DATOS

MULTIVARIANTESMULTIVARIANTES

CONTINUACIÓNCONTINUACIÓN

Page 3: 5 Semana Analisis Multivariante Parte II

3

3° Homocedasticidad

Es una hipótesis muy habitual en algunas técnicas estadísticas como el Análisis de la Varianza, el Análisis Discriminante y el Análisis de Regresión, entre otras.

Dicha hipótesis se refiere a suponer la igualdad de varianzas de las variables dependientes en diversos grupos formados por los distintos valores de las variables independientes. Si dicha hipótesis no se cumple, puede alterar la potencia y el nivel de significación de los contrastes utilizados por dichas técnicas, por ello es necesario analizar si se verifica o no , en caso contrario, poner los remedios oportunos.

Page 4: 5 Semana Analisis Multivariante Parte II

4

Los gráficos de cajas es una herramienta de gran utilidad para evaluar la diferencia o semenjanzas entre grupos, además permite ubicar datos discordantes o extremos.

Por ejemplo:

¿Existen diferencias en las características de las viviendas de los distritos del cono norte y sur?

Page 5: 5 Semana Analisis Multivariante Parte II

5

Page 6: 5 Semana Analisis Multivariante Parte II

6

Las pruebas de hipótesis permite analizar la existencia de esta igualdad que, en muchas ocasiones, esta relacionado con una falta de normalidad de las variables analizadas. En la literatura se han propuesto diversos tests o pruebas (ver, por ejemplo, Jobson, 1991, Volumen 1). Uno de los más utilizados es el test de Levene basado en aplicar un ANOVA a las diferencias absolutas respecto a una medida de tendencia central de los diversos grupos. Dicho test toma como hipótesis nula la existencia de homocedasticidad y como alternativa la de heterocedasticidad.

Un posible remedio contra la heterocedasticidad es transformar los datos originales.

Page 7: 5 Semana Analisis Multivariante Parte II

7

Un grupo de transformaciones muy utilizadas son las de Box-Cox que vienen dadas por la siguiente expresión:

( ) 10

ln( ) 0

X C

X C

El valor de C se elige de forma que X + C sea positiva. El valor de λ se suele determinar de forma empírica.

En general este tipo de transformaciones suelen ser efectivas si no hay un número excesivo de outliers y si el cociente de la desviación típica dividida por la media es mayor que ¼ o si el cociente de la observación más

Page 8: 5 Semana Analisis Multivariante Parte II

8

grande dividida por la más pequeña es mayor que 2.

Es importante que la transformación elegida sea fácilmente interpretable y, en caso de duda, se aconseja repetir el análisis con los datos transformados y sin transformar y observar si los resultados obtenidos difieren demasiado. En éste último caso y si el procedimiento utilizado es poco robusto a la hipótesis de normalidad, utilizar los resultados con los datos transformados.

En el caso multivariado, se utiliza la prueba M de Box, para verificar homocedasticidad en poblaciones

Page 9: 5 Semana Analisis Multivariante Parte II

9

Tarea:Con la base de datos asignada a cada grupo,

verificar si se cumple el supuesto de homocedasticidad.

Multivariadas.

Page 10: 5 Semana Analisis Multivariante Parte II

10

QUINTA ETAPA DEL AED:DATOS ATÍPICOS (OUTLIERS)

Los casos atípicos son observaciones con características diferentes de las demás.

Este tipo de casos no pueden ser caracterizados categóricamente como benéficos o problemáticos sino que deben ser contemplados en el contexto del análisis y debe evaluarse el tipo de información que pueden proporcionar. Su principal problema radica en que sonelementos que pueden no ser representativos de la población pudiendo distorsionar seriamente el comportamiento de los contrastes y resultados estadísticos.

Page 11: 5 Semana Analisis Multivariante Parte II

11

Por otra parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las características de un segmento válido de la población y, por consiguiente, una señal de la falta de representatividad de la muestra.

Tipos de outliers

Los casos atípicos pueden clasificarse en 4 categorías:La primera categoría contiene aquellos casos atípicos que surgen de un error de procedimiento, tales como la entrada de datos o un error de codificación. Estos casosatípicos deberían subsanarse en el filtrado de los datos, y si no se puede, deberían eliminarse del análisis o recodificarse como datos ausentes.

Page 12: 5 Semana Analisis Multivariante Parte II

12

La segunda clase es la observación que ocurre como consecuencia de un acontecimiento extraordinario. En este caso, el outlier no representa ningún segmento válido de la población y puede ser eliminado del análisis.

La tercera clase contiene las observaciones cuyos valores caen dentro del rango de las variables observadas, pero que son únicas en la combinación de los valores de dichas variables. Estas observaciones deberían ser retenidas en el análisis pero estudiando qué influencia ejercen en los procesos de estimación de los modelos considerados.

Page 13: 5 Semana Analisis Multivariante Parte II

13

La cuarta y última clase comprende las observaciones extraordinarias para las que el investigador no tiene explicación. En estos casos lo mejor que se puede hacer es replicar el análisis con y sin dichas observaciones con el fin de analizar su influencia sobre los resultados. Si dichas observaciones son influyentes el analista debería reportarlo en sus conclusiones y debería averiguar el por qué de dichas observaciones.

Identificación de outliers

Los casos atípicos pueden identificarse desde una perspectiva univariante o multivariante.

Page 14: 5 Semana Analisis Multivariante Parte II

14

La perspectiva univariante examina la distribución de observaciones para cada variable, seleccionando como casos atípicos aquellos casos cuyos valores caigan fuera de los rangos de la distribución. La cuestión principal consiste en el establecimiento de un umbral para la designación de caso atípico. Esto se puede hacer gráficamente mediante histogramas o diagramas de caja o bien numéricamente, mediante el cálculo de puntuaciones tipificadas. Para muestras pequeñas (de 80 o incluso menos observaciones), las pautas sugeridas identifican como atípicos aquellos casos con valores estándar de 2.5 o superiores. Cuando los tamaños muestrales son mayores, las pautas sugieren que el valorumbral sea 3.

Page 15: 5 Semana Analisis Multivariante Parte II

15

Pueden analizarse conjuntamente pares de variables mediante un gráfico de dispersión. Casos que se ubiquen fuera del rango del resto de las observaciones pueden identificarse como puntos aislados en el gráfico de dispersión. Para ayudar a determinar el rango esperado de las observaciones, se puede superponer sobre el gráfico de dispersión una elipse que represente un intervalo de confianza especificado para una distribución normal bivariante.

Lo que proporciona una representación gráfica de los límites de confianza y facilita la identificación de casos atípicos.

Page 16: 5 Semana Analisis Multivariante Parte II

16

Page 17: 5 Semana Analisis Multivariante Parte II

17

Finalmente existen procedimientos para detectar atípicos multivariantes.

Entre los métodos gráficos, se tiene:Caras de Chernoff, cada observación se representa mediante una cara, a cada variable se le asocia un rasgo o característica de la cara, como por ejemplo:

(1)Área de cara(2) Forma de la cara(3)Longitud de la nariz(4) Localización de la boca.(5) Curva de la sonrisa(6) Grosor de la boca(7)Localización, separación, inclinación, forma y

grosor de los ojos, etc.

Page 18: 5 Semana Analisis Multivariante Parte II

18

Fuente: Banco Mundial (2002), FAO (2002) y PNUD (2001).

Page 19: 5 Semana Analisis Multivariante Parte II

19

El Gráfico, contiene las “Caras de Chernoff para los 5 países por encima y los 5 por debajo de Cuba en términos de PIB per cápita a PPA. En este caso se utilizan sólo las 9 variables explicativas tomadas para el ejercicio, excluyendo por supuesto al PIB percápita.

Cada rasgo de las caras tienen en cuenta la magnitud relativa para cada país, de la siguiente forma:mientras la boca sea más sonriente, el consumo de kilocalorías per cápita diaria es mayor, mientras la boca sea más larga, mayor es la proporción de la población con acceso a fuentes de agua mejorada, cuando la boca está más pegada a la nariz, menor es la cantidad de Computadoras personales por mil habitantes,

Page 20: 5 Semana Analisis Multivariante Parte II

20

la nariz más grande indica más cantidad de teléfonos y celulares por cien habitantes, una cara más ancha expresa una mayor esperanza de vida al nacer, mientras más para abajo se encuentre el nivel de las orejas, menor tasa de mortalidad para menores de 5 años, un mentón más pronunciado, corresponde a un consumo de electricidad per cápita menor, mientras más achatada sea la parte superior de la cara, mayor será la tenencia de televisores, una cara más alargada, describe una mayor tasa total de matrícula.

Este gráfico fue propuesto originalmente por Chernoff (1973) y extendida por Flury y Riedwyl (1981).

Page 21: 5 Semana Analisis Multivariante Parte II

21

Gráfico de estrellas, (Chambers, 1983). Cada estrella representa una observación, se define a partir de un conjunto de radios, que forman el mismo ángulo, y que confluyen en un centro geométrico. Cada radio representa a una variable. Su longitud es proporcional a la magnitud de la variable representada, relativizada al máximo valor que alcanza ésta en la población. La línea que conecta los extremos los radios determina el gráfico de estrella. Las variables empiezan a representarse desde la derecha y en dirección a las agujas del reloj. El tamaño de cada línea, respecto al centro de la estrella, está relacionado con los valores reeescalados de cada variable.

Page 22: 5 Semana Analisis Multivariante Parte II

22

Un Gráfico de Estrellas suele utilizarse para responder a las siguientes preguntas:

1.Fijado un elemento de la población, ¿qué variables son las dominantes? 2.¿Pueden establecerse similitudes entre los elementos de la población?. A tenor de esto, ¿podían establecerse grupos (“clusters”)? 3.¿Existen valores atípicos ?

Page 23: 5 Semana Analisis Multivariante Parte II

23

Finalmente existen otros procedimientos para detectar atípicos multivariantes, dicha detección se puede hacer mediante un Análisis de Componentes Principales.

Tarea:Con la base de datos asignada a cada grupo,

identificar datos atípicos a nivel univariado, bivariado y multivariado.

Page 24: 5 Semana Analisis Multivariante Parte II

24

SEXTA ETAPA DEL AED:DATOS AUSENTES

Los datos ausentes son algo habitual en el Análisis Multivariante; de hecho, rara es la investigación en la que no aparece este tipo de datos.

En estos casos la ocupación primaria del investigador debe ser determinar las razones que subyacen en el dato ausente buscando entender el proceso principal de esta ausencia para seleccionar el curso de acción más apropiado.

Page 25: 5 Semana Analisis Multivariante Parte II

25

Para ello se debe determinar cuál es el proceso de datos ausentes, entendido como cualquier evento sistemático externo al encuestado (errores en la introducción de datos) o acción por parte del encuestado (tales como rehusar a contestar) que da lugar a la ausencia de datos.

En particular, el investigador debe analizar si existe algún patrón no aleatorio en dicho proceso que pueda sesgar los resultados obtenidos debido a la pérdida derepresentatividad de la muestra analizada.

Page 26: 5 Semana Analisis Multivariante Parte II

26

Tipos de valores ausentesSe distinguen las dos situaciones siguientes:

1)Datos ausentes prescindibles: son resultado de procesos que se encuentran bajo el control del investigador y pueden ser identificados explícitamente. En estos casos no se necesitan soluciones específicas para la ausencia de datos dado que dicha ausencia es inherente a la técnica usada.Ejemplos de estas situaciones son aquellas observaciones de una población que no están incluidas en la muestra o los llamados datos censurados que son observaciones incompletas como consecuencia del proceso de obtención de datos seguido en el análisis.

Page 27: 5 Semana Analisis Multivariante Parte II

27

2) Datos ausentes no prescindibles: son resultado de procesos que no se encuentran bajo el control del investigador y/o no pueden ser identificados explícitamente.Ejemplos de estas situaciones son los errores en la entrada de datos, la renuncia del encuestado a responder a ciertas cuestiones o respuestas inaplicables.

En estos casos se debe analizar si existen o no patrones sistemáticos en el proceso que puedan sesgar los resultados obtenidos.Si los datos ausentes son no prescindibles conviene, por lo tanto, analizar el grado de aleatoriedad presente en los mismos.

Page 28: 5 Semana Analisis Multivariante Parte II

28

Según este grado el proceso de datos ausentes sepuede clasificar del siguiente modo:

a)Datos ausentes completamente aleatorios (MCAR), este es el mayor grado de aleatoriedad y se da cuando los datos ausentes son una muestra aleatoria simple de la muestra, sin un proceso subyacente que tiende a sesgar los datos observados. En este caso se podría solucionar el problema sin tener cuenta el impacto de otras variables

Page 29: 5 Semana Analisis Multivariante Parte II

29

b) Datos ausentes aleatorios (MAR), en este caso el patrón de los datos ausentes en una

variable Y no es aleatorio sino que depende de otras variables de la muestra X.

Ahora bien, para cada valor de X, los valores observados de Y sí representan una muestra aleatoria de Y.

Así, por ejemplo, si X es el género del encuestado e Y es su renta, un proceso MAR se tendría si existen más valores ausentes de Y en hombres que en mujeres y, sin embargo, los datos son aleatorios para ambos géneros en el sentido de que, tanto en los hombres

Page 30: 5 Semana Analisis Multivariante Parte II

30

en las mujeres, el patrón de ausentes es completamentealeatorio.

Si, además, tampoco existen diferencias por género los datos ausentes serían MCAR.

Si los datos ausentes son MAR cualquier solución al problema deberá tener en cuenta los valores de X dado que afectan al proceso generador de datos ausentes.

Page 31: 5 Semana Analisis Multivariante Parte II

31

c) Datos ausentes no aleatorios: en este caso existen patrones sistemáticos en el proceso de datos ausentes y habría que evaluar la magnitud del problema calibrando, en particular, el tamaño de los sesgos introducidos por dichos patrones. Si éstos son grandes habría que atacar el problema directamente intentando averiguar cuáles son dichos valores.

Localización de datos ausentes

El primer paso en el tratamiento de datos ausentes consiste en evaluar la magnitud del problema. Para ello se comienza analizando el porcentaje de datos ausentes por variables y por casos.

Page 32: 5 Semana Analisis Multivariante Parte II

32

Si existen casos con un alto porcentaje de datos ausentes se deberían excluir del problema. Así mismo si existe una variable con un alto porcentaje de este tipo de casos su exclusión dependerá de la importancia teórica de la misma y la posibilidad de ser reemplazada por variables con un contenido informativo similar.

Como regla general, sin embargo, si dicha variable es dependiente debería ser eliminada ya que cualquier proceso de imputación de valores puede distorsionar lasignificación estadística y práctica de los modelos estimados para ella.

Page 33: 5 Semana Analisis Multivariante Parte II

33

Diagnóstico de la aleatoriedad en el proceso de datos ausentesExisten 3 métodos:

a)Para cada variable Y formar dos grupos (observaciones ausentes y presentes en Y) y aplicar pruebas de comparación de dos muestras para determinar si existen diferencias significativas entre los dos grupos sobre otras variables de interés.

Si se encuentran diferencias significativas el proceso de datos ausentes no es aleatorio.

Page 34: 5 Semana Analisis Multivariante Parte II

34

b) Utilizar correlaciones dicotomizadas para evaluar la correlación de los datos ausentes en cualquier par de valores. Estas correlaciones indicarían el grado de asociación entre los valores perdidos sobre cada par de variables. Bajas correlaciones implican aleatoriedad en el par de variables y que los datos ausentes pueden clasificarse como MCAR. En caso contrario son MAR.

c) Realizar hipótesis conjuntas de aleatoriedad que determinen si los datos ausentes pueden ser clasificados como MCAR. Estos contrastes analizan el patrón de datos ausentes sobre todas las variables y las compara con el patrón

Page 35: 5 Semana Analisis Multivariante Parte II

35

esperado para un proceso de datos ausentes aleatorio. Si no se encuentran diferencias significativas el proceso puede clasificarse como MCAR; en caso contrario deben utilizarse los procedimientos a) y b) anteriores para identificar los procesos específicos de datos ausentes que no son aleatorios.

Aproximaciones al tratamiento de datos ausentesSi se encuentran procesos de datos ausentes MAR o no aleatorios, el investigador debería aplicar sólo el método diseñado específicamente para este proceso. Sólo si elinvestigador determina que el proceso de ausencia de datos puede clasificarse como MCAR pueden utilizarse las siguientes aproximaciones:

Page 36: 5 Semana Analisis Multivariante Parte II

36

a)Utilizar sólo los casos completos: conveniente si el tamaño muestral no se reduce demasiado.

b) Supresión de casos y/o variables con una alta proporción de datos ausentes. Esta supresión deberá basarse en consideraciones teóricas y empíricas. En particular, si algún caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto que cualquier proceso de imputación puede distorsionar los modelos estimados.

Así mismo una variable independiente con muchos datos ausentes podrá eliminarse si existen otras variables muy similares con datos observados.

Page 37: 5 Semana Analisis Multivariante Parte II

37

c) Imputar valores a los datos ausentes utilizando valores válidos de otras variables y/o casos de la muestra

Métodos de imputación

Los métodos de imputación pueden ser de tres tipos:

1) Métodos de disponibilidad completa que utilizan toda la información disponible a partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan habitualmente para estimar medias, varianzas y correlaciones

Page 38: 5 Semana Analisis Multivariante Parte II

38

2) Métodos de sustitución que estiman valores de reemplazo para los datos ausentes, sobre la base de otra información existente en la muestra. Así se podría sustituir observaciones con datos ausentes por observaciones no muestrales o sustituir dichos datos por la media de los valores observados o mediante regresión sobre otras variables muy relacionadas con aquella a la que le faltan observaciones.

3) Métodos basados en modelos que construyen explícitamente el mecanismo por el que se producen los datos ausentes y lo estiman por máxima verosimilitud. Entran en esta categoría el algoritmo EM o los procesos de aumento de datos.

Page 39: 5 Semana Analisis Multivariante Parte II

39

Tarea:Con la base de datos asignada a cada grupo, realizar

el análisis de datos ausentes.

Page 40: 5 Semana Analisis Multivariante Parte II

40

BIBLIOGRAFÍA

1. DANIEL PEÑA, 2002. Análisis de Datos Multivariados. McGRAW-HILL/ Interamericana de España.

2. URIEL, EZEQUIEL, ALDAS JOAQUIN. 2005 Análisis Multivariante Aplicado. Editorial Thompson Editores. España

3. DALLAS E. JOHNSON. 2000. Métodos Multivariados Aplicados al Análisis de Datos. International Thomson Editores.

4. HAIR J., ANDERSON R., TATHAM R., BLACK W. 2001. Análisis Multivariante. Prentice Hall.