5 Semana Analisis Multivariante Parte I

43
1 UNIVERSIDAD NACIONAL UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS MAYOR DE SAN MARCOS Universidad del Perú, DECANA DE AMERICA Universidad del Perú, DECANA DE AMERICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA Mg. María Estela Ponce Aruneri Mg. María Estela Ponce Aruneri ESCUELA ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ANÁLISIS MULTIVARIANTE ANÁLISIS MULTIVARIANTE SEMESTRE ACADÉMÍCO 2009 -II SEMESTRE ACADÉMÍCO 2009 -II

Transcript of 5 Semana Analisis Multivariante Parte I

Page 1: 5 Semana Analisis Multivariante Parte I

1

UNIVERSIDAD NACIONAL UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOSMAYOR DE SAN MARCOS

 Universidad del Perú, DECANA DE AMERICAUniversidad del Perú, DECANA DE AMERICA

DEPARTAMENTO ACADÉMICO DE ESTADÍSTICADEPARTAMENTO ACADÉMICO DE ESTADÍSTICA

Mg. María Estela Ponce AruneriMg. María Estela Ponce Aruneri

ESCUELAESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA ACADÉMICO PROFESIONAL DE ESTADÍSTICA

ANÁLISIS MULTIVARIANTEANÁLISIS MULTIVARIANTE

SEMESTRE ACADÉMÍCO 2009 -IISEMESTRE ACADÉMÍCO 2009 -II

Page 2: 5 Semana Analisis Multivariante Parte I

2

ANÁLISIS ANÁLISIS EXPLORATORIO DE EXPLORATORIO DE

DATOS DATOS MULTIVARIANTESMULTIVARIANTES

Page 3: 5 Semana Analisis Multivariante Parte I

3

1. INTRODUCCIÓN

La finalidad del Análisis Exploratorio de Datos es examinar los datos previamente a la aplicación de cualquier técnica estadística.

De esta forma el analista consigue un entendimiento básico de sus datos y de las relaciones existentes entre las variables analizadas.

El AED proporciona métodos sencillos para organizar y preparar los datos, detectar fallas en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes, identificación de casos atípicos y comprobación de los supuestos que requieren la mayorparte de las técnicas multivariantes.

Page 4: 5 Semana Analisis Multivariante Parte I

4

2.- OBJETIVOS

1) Definir qué es el Análisis Exploratorio de Datos y cuáles son sus objetivos.2) Indicar cuáles son las etapas a seguir en la realización de un A.E.D.3) Seleccionar los métodos gráficos y numéricos apropiados para examinar las características de los datos y/o relaciones de interés.4) Comprobar si se verifican algunas hipótesis de interés en los datos (normalidad, linealidad, homocedasticidad).5) Identificar casos atípicos univariantes, bivariantes y multivariantes.6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial.

Page 5: 5 Semana Analisis Multivariante Parte I

5

¿QUÉ ES EL ANÁLISIS EXPLORATORIO DE DATOS?

El Análisis Exploratorio de Datos es un conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relacionesexistentes entre las variables analizadas.

Para conseguir este objetivo el A.E.D. proporciona métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallas en el diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), identificación de casos atípicos (outliers) y comprobación de los supuestos que requieren la mayor parte de las técnicas multivariantes

Page 6: 5 Semana Analisis Multivariante Parte I

6

(normalidad, linealidad, homocedasticidad).

El examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier análisis estadístico

Page 7: 5 Semana Analisis Multivariante Parte I

7

ETAPAS DEL A.E.D.

Para realizar un A.E.D. conviene seguir las siguientes etapas:1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística.2) Realizar un examen gráfico de la naturaleza de las variables individuales analizar y un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos.3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.

Page 8: 5 Semana Analisis Multivariante Parte I

8

4) Evaluar, si fuera necesario, algunos supuestos básicos que requieren muchas técnicas estadísticas como, por ejemplo, la normalidad, linealidad y homocedasticidad.

5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores.

6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.

Page 9: 5 Semana Analisis Multivariante Parte I

9

PRIMERA ETAPA DEL AED:PREPARACIÓN DE LOS DATOS

El primer paso en un A.E.D. es hacer accesible los datos a cualquier técnica estadística. Ello lleva la selección del método de entrada de los datos, así como la de un paquete estadístico adecuado para procesarlos.

Los paquetes estadísticos son conjuntos de programas que implementan diversas técnicas estadísticas en un entorno común. Algunos de los más utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y últimamente MINITAB, S-PLUS, EVIEWS, STATGRAPHICS y MATLAB.

Page 10: 5 Semana Analisis Multivariante Parte I

10

La codificación de los datos depende del tipo de variable. Los paquetes estadísticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena,numéricos, nominales, ordinales, etc).

La inmensa mayoría de los paquetes estadísticos permite realizar manipulaciones de los datos previo a un análisis de los mismos. Algunas operaciones útiles son las siguientes:- Combinar conjuntos de datos de dos archivos distintos- Seleccionar subconjuntos de los datos- Dividir el archivo de los datos en varias partes- Transformar variables

Page 11: 5 Semana Analisis Multivariante Parte I

11

- Ordenar casos- Agregar nuevos datos y/o variables- Eliminar datos y/o variables- Guardar datos y/o resultados

Finalmente, y con el fin de descifrar con facilidad los datos almacenados, conviene asociar a la base de datos utilizada, un libro de códigos en el que se detallen los nombres de las variables utilizadas, su tipo y su rango de valores, su significado así como las fuentes de donde se han obtenido los datos.

Page 12: 5 Semana Analisis Multivariante Parte I

12

SEGUNDA ETAPA DEL AED:ANÁLISIS ESTADÍSTICO UNIVARIADO

Una vez organizados los datos, el segundo paso de un A.E.D. consiste en realizar una análisis estadístico gráfico y numérico (medidas resumen) de las variables del problema con el fin de tener una idea inicial de la información contenida en el conjunto de datos, así como detectar la existencia de posibles errores en la codificación de los mismos.

Page 13: 5 Semana Analisis Multivariante Parte I

13

El tipo de análisis a realizar depende de la escala de medida de la variable bajo estudio. En la Tabla 1 se sugieren las representaciones gráficas y resúmenes descriptivos numéricos más aconsejables para realizar dicho análisis. En dicha Tabla se sobreentiende que las escalas más informativas pueden utilizar las medidas numéricas y representaciones gráficas de las escalas menos informativas además de las suyas propias (razón > intervalo > ordinal > nominal).

Page 14: 5 Semana Analisis Multivariante Parte I

14

Tabla 1Medidas Descriptivas Numéricas y Representaciones Gráficas aconsejadas en función de la escala de medida de la variable

ESCALA DE MEDIDA

REPRESENTACIÓN GRÁFICA

MEDIDA DE TENDENCIA

CENTRALMEDIDA DE DISPERSIÓN

MEDIDA DE ASIMETRÍA Y

CURTOSIS

NOMINAL

Diagrama de barras, líneas y

sectoresModa IVQ y EN

ORDINAL Gráficos de cajasMediana,

Media truncada

Rango intercuartílico

CVQ

SP50, SP 90

K2 , K3

INTERVALO

Histograma, polígonos de frecuencias

MediaDesviación

estándar

Medidas clásicas o la que se basan

en la distancia de mahalanobis

RAZÓNMedia

geométricaCoeficiente de

variación

Page 15: 5 Semana Analisis Multivariante Parte I

15

Page 16: 5 Semana Analisis Multivariante Parte I

16

( )( )

( )( )

( )( )

( )

2

1 10

1 10

3 1

3 1 2 95 5 250 90

3 1 95 5

90 10 87.5 12.52 3

1log

1 log

( ) _ _ _" "_

2 20

1,9 1,7

k

i ki i i

i

i

fh h

IVQ ENk k

k

RICVQ MT valor medio despues excluir casos

Q Q

Q Q Q P P QSP SP SP simetrica

Q Q P P

P P P PK K K

RI RI

α α

=

=

− = = −

= = −+

+ − + −= = ⇒ = ⇒

− −− −= = ⇒

∑∑

1i mesocurtica= ⇒

Los gráficos y medidas resumen presentados, nos permite evaluar la naturaleza de cada variable en forma individual.Tarea:Con la base de datos asignada a cada grupo,

realizar el análisis estadístico univariado.

Page 17: 5 Semana Analisis Multivariante Parte I

17

    TERCERA ETAPA DEL AED:

ANÁLISIS ESTADÍSTICO BIVARIADO

Una vez realizado el estudio unidimensional de cada variable por separado, el siguiente paso consiste en analizar la existencia de posibles relaciones entre ellas. Dicho estudio puede realizarse desde una óptica bivariada o multivariado. En esta sección centraremos nuestra atención en el análisis bivariado.

Las tres situaciones generales que pueden presentarse en este caso son las siguientes:1) Ambas variables son cualitativas.2) Ambas variables son cuantitativas.3) Una variable es cuantitativa y la otra cualitativa.

Page 18: 5 Semana Analisis Multivariante Parte I

18

Análisis de dos variables cualitativas

Se utiliza una tabla de contingencia que contiene en cada casilla la correspondiente frecuencia conjunta que representa el número de datos que pertenecen a la modalidad iésima de la primera variable y a la modalidad j-ésima de la segunda. A partir de dicha tabla podemos estudiar si las dos variables están o no asociadas, evaluar su grado de asociación (nominales) o concordancia (ordinales).

Para profundizar la asociación entre variables nominales se puede revisar análisis de correspondencias simples.

Page 19: 5 Semana Analisis Multivariante Parte I

19

Medidas de Asociación para variables medidas en escala nominal:•Indice Chicuadrado.•Indice de Yule .•Indice de Contingencia.•Indice Phi•Indice de Cramer

Medidas de Asociación para variables medidas en escala ordinal:•Indice de Goodman-kruskal•Indice de Kendall

Page 20: 5 Semana Analisis Multivariante Parte I

20

•Análisis de dos variables cuantitativasLa distribución conjunta de dos variables puede expresarse gráficamente mediante un diagrama  de dispersión que proporciona una buena descripción de la relación entre dos variables.La relación entre las variables también puede expresarse de forma numérica. Una medida de la relación entre dos variables que resuma la información del gráfico de dispersión y que no dependa de las unidades de medida es el coeficiente de  correlación  lineal.  Cuando  las  variables  están relacionadas  linealmente  de  forma  exacta,  el coeficiente de correlación lineal será igual a uno en valor absoluto.

Page 21: 5 Semana Analisis Multivariante Parte I

21

Cuando las variables no están relacionadas linealmente entre sí, el coeficiente de correlación lineal es cero. Para interpretar este coeficiente conviene mirar siempre el diagrama de dispersión de los datos para comprobar que son homogéneos y que no existen datos atípicos. La existencia de correlación no implica una relación de causalidad entre las variables ni, en general, la no existencia de correlación permite deducir falta de causalidad.Cuando se estudia la relación entre dos variables es importante asegurarse de que los individuos estudiados son homogéneos respecto a dichas variables. La siguiente figura muestra dos casos frecuentes de heterogeneidad.

Page 22: 5 Semana Analisis Multivariante Parte I

22

En el caso (a) hay un dato atípico o discordante con el resto, que modifica el signo de la correlación. Puede comprobarse que si el punto A no existiese, el coeficiente de correlación sería positivo, mientras que su presencia hace la correlación negativa.

Page 23: 5 Semana Analisis Multivariante Parte I

23

Ante una situación como ésta conviene asegurase de que no se ha cometido un error de medida o de trascripción del dato y que el individuo de la población al que le corresponde el dato atípico es homogéneo con respecto a los demás.La figura (b) presenta otro caso de heterogeneidad. En este caso el gráfico indica que la relación entre las variables es distinta para los individuos del grupo A que para los del B y si calculamos un coeficiente de correlación para todos los datos obtendremos un valor muy pequeño. Sin embargo, si obtenemos los coeficientes para los grupos A y B separadamente, encontraremos que dentro de cada grupo hay una relación fuerte.

Page 24: 5 Semana Analisis Multivariante Parte I

24

La conclusión fundamental de este análisis es que conviene asegurarse mirando el gráfico de dispersión que el coeficiente es un buen resumen del mismo. Tratar de interpretar un coeficiente de correlación sin haber visto previamente el gráfico de las variables puede ser muy peligroso.

Medidas de Correlación:•Correlación de Pearson.•Correlación de Spearman.

Page 25: 5 Semana Analisis Multivariante Parte I

25

Diagramas de dispersión matricialesExisten muchos tipos de gráficos de dispersión, pero un formato que se ajusta particularmente cuando se aplican técnicas multivariantes son los llamados diagramas  de  dispersión matriciales  que  permiten analizar,  de  forma  simultánea,  las  relaciones existentes entre un grupo de variables cuantitativas. Consisten en representar los diagramas de dispersión para todas las combinaciones de las variables analizadas. Con p variables existen, por lo tanto, p(p-1)/2 gráficos posibles, que pueden disponerse en forma de matriz para entender el tipo de relación existente entre los distintos pares de variables.

Page 26: 5 Semana Analisis Multivariante Parte I

26

particular, estos gráficos son importantes para apreciar si existen relaciones no lineales, en cuyo caso la matriz de covarianzas puede no ser un buen resumen de la dependencia entre variables.

Cuando se dispone de dos variables cuantitativas, se analiza la existencia de relaciones lineales entre ellas, mediante:•Diagrama de dispersión matriciales•Matriz de correlaciones.Cuando el número de variables es superior a 3:•Correlaciones Múltiple• Correlaciones Parciales•Coeficiente de dependencia efectiva

Page 27: 5 Semana Analisis Multivariante Parte I

27

Análisis de una variable cuantitativa y otra cualitativa.Cuando se dispone de una variable cuantitativa y otra cualitativa, el estudio se enfoca como un problema de comparación del comportamiento de la variable numérica en las diferentes subpoblaciones que define la variable cualitativa. Ignorar la heterogeneidad debida a la presencia de subpoblaciones puede conducir a conclusiones equivocadas en el análisis.Métodos a utilizar:Gráfico de cajas.Índice de asociación de Cohen, Eta, Biserial puntual, biserial, tetracórico, etc.

Page 28: 5 Semana Analisis Multivariante Parte I

28

Tarea:Con la base de datos asignada a cada grupo, realizar

el análisis estadístico bivariado.

Page 29: 5 Semana Analisis Multivariante Parte I

29

CUARTA ETAPA DEL AED: SUPUESTOS BÁSICOS

Muchas técnicas estadísticas requieren el cumplimiento de determinados supuestos antes de aplicarlas; por ejemplo, la normalidad, linealidad y homocedasticidad.

1° Linealidad; es un supuesto implícito de todas las técnicas  multivariantes  basadas  en medidas de correlación, tales como la regresión múltiple, regresión logística, análisis componentes principales, análisis factorial y los modelos de ecuaciones estructurales.

Page 30: 5 Semana Analisis Multivariante Parte I

30

Dado que las correlaciones representan sólo la asociación lineal entre variables, los efectos no lineales no estarán representados en el valor de la correlación.

Como resultado, es siempre prudente examinar todas las relaciones para identificar cualquier desplazamiento de la linealidad que pueda impactar la correlación.

La forma más común de evaluar la linealidad es examinar los gráficos de dispersión de las variables e identificar cualquier pauta no lineal en los datos.

En la etapa 3, se mencionaron gráficos y medidas para evaluar la linealidad bivariada y multivariada.

Page 31: 5 Semana Analisis Multivariante Parte I

31

2° Normalidad; muchos métodos estadísticos se basan en la hipótesis de normalidad de la variable objeto de estudio. De hecho, si la falta de normalidad de la variable es suficientemente fuerte, muchos de los contrastes utilizados en los análisis estadístico-inferenciales no son válidos.

Incluso aunque las muestras grandes tiendan a disminuir los efectos perniciosos de la no normalidad, el investigador debería evaluar la normalidad de todas las variables incluidas en el análisis.

Existen varios métodos para evaluar la normalidad de un conjunto de datos: los métodos gráficos y las pruebas de    hipótesis.

Page 32: 5 Semana Analisis Multivariante Parte I

32

•Métodos gráficos

El método gráfico univariante más simple para diagnosticar la normalidad es una comprobación visual del histograma  que  compare  los  valores  de  los  datos observados con una distribución normal. Este método no es apropiado para muestras pequeñas, donde la construcción del histograma puede distorsionar la representación visual de tal forma que el análisis sea poco fiable.Otras posibilidades, también basadas en gráficos, consisten en realizar diagramas de cuantiles (Q-Q plots).

Page 33: 5 Semana Analisis Multivariante Parte I

33

Los diagramas de cuantiles comparan en un sistema de coordenadas cartesianas, los cuantiles muestrales (eje X) con los cuantiles esperados bajo la hipótesis normalidad.

Si la distribución de partida es normal dichos diagramas tenderán a ser rectas que pasan por el origen. Cuanto más se desvíen de una recta menos normales serán los datos.

En la siguiente figura se muestran posibles diagramas de cuantiles según la forma de la distribución de frecuencias.

Page 34: 5 Semana Analisis Multivariante Parte I

34

Page 35: 5 Semana Analisis Multivariante Parte I

35

•Pruebas de HipótesisLa segunda de las formas para comprobar la normalidad de una distribución se efectúa a través de una prueba de hipótesis. No existe una prueba óptima para probar lahipótesis de normalidad. La razón es que la potencia relativa depende del tamaño muestral y de la verdadera distribución que genera los datos. Desde un punto de vista poco riguroso, la prueba de Shapiro y Wilks es, en términos generales, el más conveniente en muestras pequeñas (n < 30), mientras que el contraste de Kolmogorov-Smirnov, en la versión modificada de Lilliefors es adecuado para muestras grandes.

Page 36: 5 Semana Analisis Multivariante Parte I

36

Otras pruebas muy utilizadas son los tests de asimetría y curtosis cuyos estadísticos muestrales vienen dados por:

3 * 212

1 1

1

6

n np

p ij pi j

AA d A n

= =

= ∴ =∑∑ :

2

( x)( x)1,2,...i j

ij

x xd i j n

s

− − = = =

2

1

*

1 24, 3;

3(0,1)

24

n

p ii pi

pp

K d K Nn n

KK N

n

=

= −

=

∑ :

:

2

2

( x)1,2,...i

ii

xd i j n

s

−= = =

Page 37: 5 Semana Analisis Multivariante Parte I

37

Las hipótesis en todos los casos es:Ho : La variable X tiene distribución normal.H1 : La variable X no tiene distribución normal.

En ocasiones la falta de normalidad de una variable puede arreglarse mediante una transformación de la misma. En la Tabla siguiente se muestran algunas de las transformaciones más utilizadas:

Page 38: 5 Semana Analisis Multivariante Parte I

38

Normalidad Multivariante

i) Método gráfico, utilizaremos el gráfico Chi- cuadrado: Calcular la distancia de mahalanobis y ordenarlas en

forma creciente. Calcular el percentil ( j- 0.5)/n Calcular los valores Chi-cuadrado de los percentiles de

una distribución chi-cuadrado con “p” grados de libertad. Trazar un gráfico de dispersión de la distancia de

Mahalanobis y el valor chi-cuadrado.

Este método proporciona resultados adecuados cuando el tamaño de muestra es suficientemente mayor al número de variables consideradas.

Page 39: 5 Semana Analisis Multivariante Parte I

39

3 22

1 1

1 1, ( 1)( 2)

6 6

n np

p ij fi j

AA d n f p p p

= =

= ∴ = + +∑∑ :

1( ) ( ) 1,2,...ij i jd i j n− = − − = = 'x x S x x

ii) Pruebas de Hipótesis

Mardia en 1970 propuso el siguiente test que se basa en las medidas de asimetría y kurtosis.

Ho: La distribución de Xnxp es simétrica

H1: La distribución de Xnxp no es simétrica

Utlizaremos la siguiente estadística:

Rechazaremos la hipótesis nula con un nivel de significación “α” si:

Page 40: 5 Semana Analisis Multivariante Parte I

40

2

6p

f

An χ>

2

1

*

1 8 ( 2), ( 2);

( 2)(0,1)

8 ( 2)

n

p ii pi

pp

p pK d K N p p

n n

K p pK N

p pn

=

+ = + − +

=+

∑ :

:

Ho: La distribución de Xnxp es mesocúrtica

H1: La distribución de Xnxp no es mesocúrtica

La estadística de prueba es:

Rechazaremos la hipótesis nula con un nivel de significación “α” si:

Page 41: 5 Semana Analisis Multivariante Parte I

41

Sí las dos hipótesis no son rechazadas, podemos afirmar que los datos tienen distribución normal p-variada; aunque para casos prácticos es suficiente que se cumpla la simetría de la distribución.

La potencia del test es adecuada si el tamaño de muestra es muy grande.

Situaciones por las que se rechaza la hipótesis de normalidad p-variada:

1º Presencia de datos atípicos, a pesar que se las distribuciones marginales son aproximadamente simétricas y las relaciones entre las variables son lineales.

* */ 2 / 2p pK z o K zα α> < −

Page 42: 5 Semana Analisis Multivariante Parte I

42

2º Algunas o todas distribuciones marginales son asimétricas y las relaciones entre las variables son no lineales.

Tarea:Con la base de datos asignada a cada grupo,

verificar si se cumplen los supuestos básicos.

Page 43: 5 Semana Analisis Multivariante Parte I

43

BIBLIOGRAFÍA

2. DANIEL PEÑA, 2002. Análisis de Datos Multivariados. McGRAW-HILL/ Interamericana de España.

3. URIEL, EZEQUIEL, ALDAS JOAQUIN. 2005 Análisis Multivariante Aplicado. Editorial Thompson Editores. España

4. DALLAS E. JOHNSON. 2000. Métodos Multivariados Aplicados al Análisis de Datos. International Thomson Editores.

5. HAIR J., ANDERSON R., TATHAM R., BLACK W. 2001. Análisis Multivariante. Prentice Hall.