Análisis Miltivariado Ejemplo Motivadorcms.dm.uba.ar/academico/materias/2docuat2017/sem... · i=1...

68
Análisis Miltivariado Ejemplo Motivador

Transcript of Análisis Miltivariado Ejemplo Motivadorcms.dm.uba.ar/academico/materias/2docuat2017/sem... · i=1...

Análisis Miltivariado Ejemplo Motivador

Características de la base •  Base de datos numérica •  3265 individuos •  9 variables •  10 primeros casos:

•  X1 250 243 232 234 227 219 235 232 216 260!•  X2 488 511 452 503 461 449 483 465 442 506!•  X3 518 568 509 518 525 479 532 528 473 558!•  X4 858 856 788 730 779 732 779 788 737 842!•  X5 664 723 652 612 626 603 644 696 646 783!•  X6 775 859 711 712 692 702 746 786 713 869!•  x7 !838 826 766 778 766 757 837 781 725 753!•  x8 532 549 512 547 540 510 547 533 508 566!•  X9 !338 359 311 323 331 309 315 328 292 315! …

Variables X1, X2 y X3

Variables X4, X5 y X6

Variables X7, X8 y X9

Variables X1, X2 y X3 con observación agregada

Observación agregada

Variables X4, X5 y X6 con observación agregada

Observación agregada

Variables X7, X8 y X9 con observación agregada

Observación agregada

Origen de los Datos: AnthroKids - Anthropometric

Data of Children

•  Fuente: http://www.itl.nist.gov/iaui/ovrt/projects/anthrokids/ncontent.htm

10 primeros casos de la base

•  FOOT.LENGTH 250 243 232 234 227 219 235 232 216 260!•  KNEE.HEIGHT 488 511 452 503 461 449 483 465 442 506!•  BUTTOCK.KNEE.LENGTH 518 568 509 518 525 479 532 528 473 558!•  HIP.CIRCUMFERENCE 858 856 788 730 779 732 779 788 737 842!•  WAIST.CIRCUMFERENCE 664 723 652 612 626 603 644 696 646 783!•  CHEST.CIRCUMFERENCE 775 859 711 712 692 702 746 786 713 869!•  ERECT.SITTING.HEIGHT 838 826 766 778 766 757 837 781 725 753!•  HEAD.CIRCUMFERENCE 532 549 512 547 540 510 547 533 508 566!•  SHOULDER.ELBOW.LENGTH 338 359 311 323 331 309 315 328 292 315!

Las 9 variables

Relacion entre Muslo y Canilla

Observación agregada

Relacion entre cintura, cadera y pecho

Observación agregada

Dos chicos Chico promedio Chico agregado

La Independencia estocástica

son independientes, si y solo si

Motivación del Análisis Multivariado en Control de

Calidad

Control Univariado

X1

T

X2 Xd

T T

Control Multivariado

X1

X2

O

X1(O)

X2(O)

Distancia de Mahalanobis

X1

X2

C1 C2 E

Que grande es el espacio

Proyeccion sobre X

Proyeccion sobre Y

La Maldición de la Dimensionalidad Distancia promedio (100 puntos) = 0.32

Distania promedio (100 puntos)= 0.51

Distania promedio (100 puntos)= 0.66

Problemas del Análisis Multivariado

Positivo •  Tener muchas variables

provee mucha información relevante.

•  Tener muchas observaciones (información) aumenta la potencia estadística.

Negativo •  Tener muchas variables

dificulta el análisis (maldición de la dimensionalidad).

•  Tener muchas observaciones produce la detección de patrones irrelevantes (rechazo todos los test)

Solución

NO •  Eliminar observaciones. •  Eliminar variables.

SI •  Realizar un buen análisis

descriptivo de los datos. •  No utilizar “test de

hipótesis” como única herramienta de análisis.

Caso Bivariado

Correlación

x

y

Curvas de nivel

Varianzas

Medias

El Modelo Normal Multivariado

Vector de valuación

Matriz de Varianzas/Covarianzas

Dimensión (cantidad de variables)

Vector de medias X ~ N( µ , Σ )

Componentes Principales

(PCA)

Componentes Principales

•  Técnica exploratoria que procura hallar aquellas combinaciones (lineales) de las variables originales que maximizan la varianza (información).

Componentes Principales: La Intuición

X1

X2 V1

V2

Espacio original

Finalidad de los Componentes Principales

•  Hallar variables latentes (componentes o factores).

•  Reducir la dimension del problema. •  Eliminar redundancias de la información. •  Obtener una representación gráfica de

información multidimensional.

Matriz de datos centrada

X =

Matriz de varianzas-covarianzas empírica

p

p

p

p p

S = { }

La primer componente

Componente

Sujeto a la restriccion

Componente

Tal que Autovector 1 (Loading 1)

La segunda componente

Sujeto a las restricciones

Componente

Tal que Autovector 2 (Loading 2)

Ortogonalidad

Propiedades de las componentes

λ1 ≥ λ2≥ … ≥ λν ≥ … ≥ λp

Componente generica

No correlacionados

Orden

Autovalor

Los scores

Y11

Y12

… Y1p

Yn1

Yn2

… Ynp

Y =

Y11

Y12

Origen de coordenadas

Espacio original

Espacio de las componentes

PCA con matriz de correlaciones

Xs = (X-µX)/σX

Ys = (Y-µY)/σY

V(Xs) = 1

V(Ys) = 1

Cov(Xs,Ys) = ρX,Y

PCA con matriz de correlaciones equivale a PCA con matriz de varianzas/covarianzas de las variables estandarizadas.

Propiedad importante

Vector de p X 1

Matriz de p X p Matriz de p X p

Vector de p X 1

S = { }

Matricialmente: Descomposición Espectral

S = V Λ V’ = λi vi vi’ i=1 p

Matriz de covarianzas

Matriz ortogonal de autovectores

Matriz diagonal de autovalores

Autovector i-esimo

Autovalor i-esimo

Matricialmente: Descomposición en Valores

Singulares (SVD)

(X*)’ = V Σ W’

Matriz de datos (centrada) traspuesta (p x n)

Matriz ortogonal de autovectores (p x p) Matriz diagonal de

autovalores (p x n)

Matriz de scores (n x n)

Ejemplo: AnthroKids - Anthropometric

Data of Children

•  FOOT.LENGTH 250 243 232 234 227 219 235 232 216 260!•  KNEE.HEIGHT 488 511 452 503 461 449 483 465 442 506!•  BUTTOCK.KNEE.LENGTH 518 568 509 518 525 479 532 528 473 558!•  HIP.CIRCUMFERENCE 858 856 788 730 779 732 779 788 737 842!•  WAIST.CIRCUMFERENCE 664 723 652 612 626 603 644 696 646 783!•  CHEST.CIRCUMFERENCE 775 859 711 712 692 702 746 786 713 869!•  ERECT.SITTING.HEIGHT 838 826 766 778 766 757 837 781 725 753!•  HEAD.CIRCUMFERENCE 532 549 512 547 540 510 547 533 508 566!•  SHOULDER.ELBOW.LENGTH 338 359 311 323 331 309 315 328 292 315! …

Componente 1: Efecto talla

Componente 2: Contraste

Componente 3: Contraste

Proyecciones en las Componentes 2 y 3

Ejemplos de variabilidad: 4 casos

Biplot

Distancia de Mahalanobis(T2)

X1

X2

C1 C2 E

X1

X2

C1 C2 E

Culpa de X2 (X2|X1)

2 2 2 2

1 1 1

2

X1

X2

C1 C2 E

2 2

21

1 2 1 1

Culpa de X1 (X1|X2)

Descomposición MYT

=

Variable sospechosa

Distancias de Mahalanobis (chicos)

Ejercicio de Componentes Principales: Corredores

Salida de SPSS

Variavilidad representada

Biplot

Ejercicio 2: Proteinas

Salida de SPSS

Biplot

Ejemplo 3: Gorriones

Salida de SPSS (datos estandarizados)

Las componentes

Proyección bivariada

Los extremos mueren mas ?

Ejemplo 4: Riesgo Coronario

Advertencia

•  Componentes Principales, al igual que otros métodos multivariados basados en la matriz de varianzas/covarianzas, usan solo una pequeña parte de la información disponible.

Algunas cuentas – Información (#I)

#I = n * p

#I = p

#I = (p+1) * p / 2

Ejemplo de perdida de información

Vector de medias

Matriz de varianzas y covarianzas

La Información Completa

Varianzas (Desvios) Correlación

Medias