Capitulo Vi Acp

19
CAPITULO VI. ANÁLISIS DE COMPONENTES PRINCIPALES El análisis de componentes principales (ACP), es una técnica estadística debida a Hottelling (1933), que fue propuesta a principios del siglo XIX por Karl Pearson (1901) en su aporte “Ajustes ortogonales por mínimos cuadrados”, y como parte del análisis Factorial. Sin embargo la complejidad de los cálculos retrasó su desarrollo hasta la aparición de los computadores y su utilización en la segunda mitad del siglo XX. En el análisis estadístico el investigador se encuentra en situaciones en las que el volumen de variables es muy grande, desconoce las relaciones entre las variables, las semejanzas entre los elementos de análisis, requiere establecer jerarquizaciones de sus individuos, y entonces piensa en: reducir la dimensionalidad para tener la posibilidad de comprender mejor la información que posee, identificar grupos de individuos que sean semejantes, detectar relaciones entre las variables que den lugar al establecimiento de tipologías, caracterizar los grupos de individuos según las tipologías de variables encontradas. Ejemplo 1: - el analista financiero está interesado en conocer de la “salud” financiera de las empresas de una industria, a partir de un sin número de variables (tales como costos, precios, tiempo, etc.) que pueden ser usadas para tal propósito. - En control de calidad, se persigue el desarrollo de índices de numerosas piezas, resultantes del proceso de manufactura. - Un investigador de mercados, se interesa por encontrar el modelo de regresión para realizar una serie de pronósticos de ventas. Pero encuentra problemas por la colinealidad de las variables independientes. 1. OBJETIVOS El Análisis de Componentes Principales, ACP (ó PCA Principals Components Analysis), persigue representar adecuadamente un conjunto de p variables algunas de ellas correlacionadas, X, con un número menor de variables, Y, construidas como combinaciones lineales de las originales, pero no correlacionadas. Es decir, ACP pretende: Como técnica de análisis exploratorio descubrir interrelaciones entre los datos, y de acuerdo con los resultados, propone los análisis estadísticos más apropiados. Reducir la dimensionalidad de la matriz de datos con el fin de evitar redundancias y destacar relaciones.

description

acp

Transcript of Capitulo Vi Acp

Page 1: Capitulo Vi Acp

CAPITULO VI. ANÁLISIS DE COMPONENTES PRINCIPALES

El análisis de componentes principales (ACP), es una técnica estadística debida a Hottelling (1933), que fue propuesta a principios del siglo XIX por Karl Pearson (1901) en su aporte “Ajustes ortogonales por mínimos cuadrados”, y como parte del análisis Factorial. Sin embargo la complejidad de los cálculos retrasó su desarrollo hasta la aparición de los computadores y su utilización en la segunda mitad del siglo XX.

En el análisis estadístico el investigador se encuentra en situaciones en las que el volumen de variables es muy grande, desconoce las relaciones entre las variables, las semejanzas entre los elementos de análisis, requiere establecer jerarquizaciones de sus individuos, y entonces piensa en:

reducir la dimensionalidad para tener la posibilidad de comprender mejor la información que posee,

identificar grupos de individuos que sean semejantes, detectar relaciones entre las variables que den lugar al establecimiento de tipologías, caracterizar los grupos de individuos según las tipologías de variables encontradas.

Ejemplo 1:

- el analista financiero está interesado en conocer de la “salud” financiera de las empresas de una industria, a partir de un sin número de variables (tales como costos, precios, tiempo, etc.) que pueden ser usadas para tal propósito.

- En control de calidad, se persigue el desarrollo de índices de numerosas piezas, resultantes del proceso de manufactura.

- Un investigador de mercados, se interesa por encontrar el modelo de regresión para realizar una serie de pronósticos de ventas. Pero encuentra problemas por la colinealidad de las variables independientes.

1. OBJETIVOS

El Análisis de Componentes Principales, ACP (ó PCA Principals Components Analysis), persigue representar adecuadamente un conjunto de p variables algunas de ellas correlacionadas, X, con un número menor de variables, Y, construidas como combinaciones lineales de las originales, pero no correlacionadas. Es decir, ACP pretende:

Como técnica de análisis exploratorio descubrir interrelaciones entre los datos, y de acuerdo con los resultados, propone los análisis estadísticos más apropiados.

Reducir la dimensionalidad de la matriz de datos con el fin de evitar redundancias y destacar relaciones.

Page 2: Capitulo Vi Acp

Una vez realizada la transformación, se toma como un resultado parcial que se convierte en una entrada para alcanzar una solución más precisa. Por ejemplo, en el caso de:

o regresión múltiple cuando las variables independientes presentan alta colinealidad es preferible hacer la regresión sobre los componentes principales en lugar de usar las variables originales, haciendo más estable el análisis y más eficientes sus estimaciones,

o MANOVA, para evitar que el número de variables de respuesta y el número de grados de libertad, sean cercanos,

o Par verificar supuestos de normalidad, valores atípicos, etc.

Construir variables no observables, ó latentes, (Componentes Principales) a partir de variables observables.

Evaluar la semejanza entre los individuos a través de los atributos considerados, buscando responder a las preguntas ¿Existen grupos de individuos semejantes...?, ¿Se observa una tipología de individuos...?

Evaluar la relación existente entre las características consideradas, se contestarán los interrogantes ¿Existen grupos de variables correlacionadas entre ellas...? ¿Se observa una tipología de variables...?

Ejemplo 2.

La inteligencia de una persona no es observable directamente, en cambio, se puede medir distintos aspectos de ésta mediante pruebas psicométricas. Las variables que miden los distintos aspectos de la inteligencia tienden a covariar; esto sugiere que expresan la mismas características pero de diferente forma y que sólo hay un pequeño número de rasgos no directamente medibles, que se denominan Indicadores Sintéticos y que vienen estimados por los componentes.

2. Hallazgo de COMPONENTES PRINCIPALES

La metodología del análisis de componentes principales implica transformar el espacio de representación de p variables, P, en un nuevo espacio, P´, tal que las nuevas p variables sean incorrelacionadas, por lo tanto la matriz de covarianza en ese espacio P´ será diagonal. Esto requiere, encontrar un nuevo conjunto de ejes ortogonales en el que la varianza de los datos se mantenga ó sea máxima.

Las p nuevas variables (Componentes Principales) son: Obtenidas como combinaciones lineales de las variables originales.

Page 3: Capitulo Vi Acp

Los componentes se construyen en función del porcentaje de varianza explicada. En este sentido, el primer componente será el más importante por ser el que explica mayor porcentaje de la varianza de los datos.

Son incorrelacionados De ellos, y según el criterio del investigador, se decide cuántos componentes se elegirán

para efectuar los restantes análisis del estudio.

Supóngase la representación de un conjunto de patrones (observaciones) bidimensionales, X1 y X2, que presentan cierto grado de correlación está dada aproximadamente por la elipse de la Figura 1. Si se representan estos patrones en un nuevo espacio generado por las variables Y1 e Y2, (Figura 2), que se corresponden con los ejes de la elipse, la proyección de los patrones sobre el eje Y1 hace que su dispersión sea mayor que sobre cualquier otro eje (y en particular sobre cualquiera de los originales).

Figura 1. X1 y X2 están correladas. Figura 2. Y1 e Y2 están incorreladas.

Es fácil comprobar que si los datos están correlacionados en P la dirección de máxima varianza es la del eje principal de la elipse que los caracteriza. El nuevo eje, C1=Y1, se calcula como una rotación de magnitud , el ángulo de la rotación del primer eje, X1 de P. Si el nuevo sistema de coordenadas es ortogonal, el segundo eje, Y2, se establece en base al segundo eje, C2=X2, del sistema original, mediante una rotación de la misma magnitud, , que la aplicada al primero. En definitiva, los nuevos ejes y los antiguos siguen la relación lineal:

Y1= W11Xc1 + W12Xc2 : W1T Xc

Y2= W21Xc1 + W22Xc2 : W2T Xc

Con WT W =1, W asume la rotación de los ejes iniciales. La mayor parte de la información del espacio original queda contenida en el eje Y1, el cual es llamado Componente principal, e implica la reducción del espacio bidimensional a unidimensional. En consecuencia, dependiendo de la relación entre los ejes originales, la mayor parte de la información contenida en el espacio P puede retenerse únicamente en el primer eje

Page 4: Capitulo Vi Acp

principal o componente principal, Y1, lo que implica una reducción de características en el espacio transformado P'. Desde una perspectiva geométrica, se tiene una rotación de magnitud alrededor del origen y las ecuaciones pueden escribirse como:

Y1 = (cos )X1 - (sin )X2

Y2 = (sin )X1 + (cos )X2

de manera que el problema se reduce a encontrar el ángulo de rotación . Este problema, no obstante, depende mucho de la muestra observada.

Las ecuaciones se pueden notar en términos matriciales como:

11 11 12

22 21 22

Tc

c

XY W W

XY W W Y = W T Xc = C

y el objetivo será encontrar los coeficientes de transformación Wij con las restricciones:

1. Los ejes que definen P' son ortogonales, W T W=I.

2. Los datos en P' no están correlacionados, ΣY Diagonal.

3. Yi representa la dirección de los nuevos ejes con máxima varianza.

4. La distancia al origen de las nuevas variables es igual.

1.1 Transformación a componentes principales de espacios multidimensionales Si se trabaja con datos de dimensionalidad mayor que 2 el procedimiento es similar: los nuevos ejes se obtienen secuencialmente de manera que un nuevo eje se define como aquel que es perpendicular al seleccionado anteriormente y su dirección es la de la máxima varianza, que falta por explicar ó no lo ha sido en los nuevos ejes previos al que se va a determinar, de entre todos los ejes posibles.

Para generalizar la solución al problema, se usaran espacios multidimensionales (p > 2), la búsqueda de una transformación lineal, W, de los datos originales en P, X, que da lugar a nuevas coordenadas Y en P' tal que

Y = W T * Xc equivalente a

11 12 11 1

21 22 22 2

1 21

Td c

p c

p cpp p pp

W W WY XW W WY X

Y XW W W

Page 5: Capitulo Vi Acp

La trasformación consiste, básicamente, en una rotación rígida de los ejes de P tomando como referencia el origen de coordenadas. La consecuencia es que si los ejes de P' deben ser ortogonales, la distancia Euclídea entre el origen y los puntos se mantiene inalterada con esta transformación. Para que esto sea cierto, la matriz de transformación W debe ser ortogonal, esto es, que W -1 = W T, por lo que

W TW = WW T = I

1.1.1 Sobre la incorrelación en P' Si Y se calcula a partir de X mediante la transformación dada, puede demostrarse que: T T T

Y XE{Y } = E{W X } = W E{X} = W

TTY XY YE{(Y - )(Y - ) } = W W

Si los datos en P' deben estar incorrelados, la matriz de covarianza en P', Y , será diagonal.

1.1.2 Obtención de la matriz de transformación W El problema puede formularse como un problema de maximización de la varianza en P', T

Y XW W con restricciones, la ortogonalidad de W, W TW = I. La técnica adecuada es la utilización de los multiplicadores de Lagrange, la solución es como sigue:

Se construye la función , tal que

( ) T TXW W W W I

y derivando con respecto a W, se tiene

( X -I) W = 0

y se encuentra la solución no trivial del sistema de ecuaciones, esto es, hacer

| X - I| = 0

ecuación característica de la matriz X y su expresión es una ecuación polinómica de .

Las soluciones a esta ecuación (los valores de ) son los autovalores ó valores propios de

X . Hallados estos, se sustituyen uno por uno, en ( X -I)W = 0 y se obtienen los

vectores asociados a cada valor de , autovectores ó vectores propios , los cuales son

normalizados, de X tal que

Page 6: Capitulo Vi Acp

1 2 3, , ,... pW

Como X es de orden p x p, tendrá p autovalores asociados 1 2 3, , ,... p y como X es simétrica, todos los autovalores serán reales.

El k-ésimo componente principal se obtiene bajo los criterios:

- la varianza de Yk debe ser la k-ésima más grande, e inferior a la varianza de orden k-1, - Wk

TWk=1 - La correlación de Yk-1 y Yk debe ser igual a cero.

1.1.3 Conclusiones Como X es simétrica y definida positiva, todos sus autovalores serán reales y sus

autovalores están ordenados: 1 2 3 ... p

La matriz de covarianza Y = WTX W será una matriz diagonal formada por los

autovalores de X :

1

2

0 ..... 00 ..... 0

.... .... ..... ....0 0 .....

Y j j

p

V(Y ) j=1,2,...,p

Cada autovalor j tiene asociado un autovector j y cada autovector define la

dirección de un eje en el espacio transformado, P'. Dado que los autovalores están ordenados y cada uno tiene asociado un autovector, se

establece un orden entre las variables transformadas de forma que:

Y1: Primer eje en P' (primera componente principal). La dirección de la máxima varianza de los patrones en P está determinada por este eje.

Y2: Segundo eje en P' (segunda componente principal). La dirección de la máxima varianza en P entre todos los ejes ortogonales a Y1 está determinada por este eje, segunda varianza más grande con respecto a P´.

y así sucesivamente:

Yp: p-ésimo eje en P' (p-ésimo componente principal). La dirección de la máxima varianza en P entre todos los ejes ortogonales a Y1 está determinada por este eje, segunda varianza más grande con respecto a P´.

Page 7: Capitulo Vi Acp

Con estas consideraciones, el teorema fundamental del análisis de componentes principales se enuncia como sigue:

Dado un conjunto de variables Xj (j = 1, 2,..., p) con matriz de covarianzas X , no singular, siempre se puede derivar a partir de ellos un conjunto de variables incorreladas Yj (j = 1, 2,..., p) mediante un conjunto de transformaciones lineales que corresponden a una rotación rígida cuya matriz de transformación W está formada por columnas con los autovectores de X . La matriz de covarianzas del nuevo conjunto de variables, Y , es diagonal, y contiene los autovalores de X .

La transformación de componentes principales definida, con la restricción de diagonalidad, se conoce también como transformación de Karhunen-Loéwe o de Hotelling.

A modo de resumen, y con una interpretación geométrica, los autovalores j representan la varianza de las observaciones en el espacio transformado y están relacionados con el rango de los patrones en cada uno de los ejes de este espacio, mientras que los autovectores j

son vectores ortogonales que determinan la dirección de estos ejes.

La transformación por componentes principales es una transformación que preserva la varianza total. Si se define la varianza total de un conjunto de datos multidimensionales como la suma de las varianzas asociadas a cada atributo, cada una ubicada en la diagonal de la matriz de covarianzas, el cálculo de la varianza global se reduce al cálculo de la traza de la matriz de covarianzas. Resulta evidente que si Y es la matriz que contiene en su diagonal los autovalores 1 2 3, , ,... p , de X , entonces,

( ) ( ) X Y iitraza traza

Los nuevos ejes (CP), señalan la dirección con variabilidad máxima, y proveen una descripción sencilla de la estructura de covarianzas, siendo los ejes de una nube de forma elipsoidal.

Si algunas de las p variables originales son correlacionadas significativamente se tendrán menos de p componentes principales.

1.1.4 Algoritmo de cálculo de W. El algoritmo de cálculo puede plantearse en 4 pasos: i. Calcular la matriz de covarianza global X . ii. Calcular los autovalores de X , 1 2 3, , ,... p .

iii. Calcular los autovectores 1 2 3, , ,..., p , asociados a 1 2 3, , ,... p ,

respectivamente.

Page 8: Capitulo Vi Acp

iv. Formar la matriz 1 2 3, , ,..., pW

v. Expresar Y = WTX=C

Ejemplo 3: Como ilustración, se aplica la transformación de componentes principales a un conjunto de datos que presenta cierta correlación. En la Figura 3, se observan 6 patrones sobre los cuales se va a efectuar la transformación. Como se ve, las variables X1 y X2 presentan una correlación positiva.

Figura 3: Patrones X en el espacio original P

i. Calcular X y X

3.503.50X

1.9 1.11.1 1.1X

ii. Calcular los valores propios de X . Como p = 2 habrán dos autovalores asociados a X : 1 2, estos serán las soluciones a la ecuación | X - I| = 0. En particular,

1.9 1.1 1 00 3 0.88 0 2.67 0.33

1.1 1.1 0 1

21 2 y

iii. Calcular los vectores propios 1 2, asociados a 1 2,

El autovector 1 , correspondiente a 1 2 .6 7 se calcula como:

Considerando la ecuación, ( X - 1 I )W = 0. Esto es,

1 1 1 1

1 2 1 2

1 .9 1 .1 1 02 .6 7 0 0

1 .1 1 .1 0 1

-0 .7 7 1 .1

1 .1 -1 .5 7

equivalente a

Page 9: Capitulo Vi Acp

-0.77 1 1 + 1.10 1 2 = 0

1.10 1 1 - 1.57 1 2 = 0

Este sistema de ecuaciones tiene una solución no trivial porque el determinante es cero. Tomando cualquiera de ellas se deduce que

1 1 = 1.43 1 2

Como la matriz W debe ser ortogonal (W T = W -1) se requiere que los autovectores estén normalizados, esto es,

21 1 + 2

1 2 = 1 y el sistema de ecuaciones a resolver es:

1 1 = 1.43 1 2 2

1 1 + 21 2 = 1

De donde 1 1 = 0.82 y 1 2 0 . 5 7

El resultado del primer vector propio, asociado a 1 , es 10.820.57

El autovector correspondiente a 2 = 0.33 se calcula de manera similar, 20.57

0.82

Los autovectores que se acaban de calcular están normalizados. Esto implica que son de longitud 1. Efectivamente, para ambos autovectores se verifica

21 1 + 2

1 2 = 0.822 + 0.572 = 0.67 + 0.33 = 1

22 1 + 2

2 2 = - 0.572 + 0.822 = 0.33 + 0.67 = 1

Las componentes de un autovector indican la dirección de los nuevos ejes respecto al sistema de coordenadas original. La interpretación geométrica del nuevo sistema de coordenadas (Y1, Y2) respecto al original (X1, X2) con base en los autovectores 1 y 2 se detalla en la Figura 4.

Page 10: Capitulo Vi Acp

Figura 4: Los autovectores determinan el nuevo sistema de coordenadas

iv. Formar la matriz de transformación W La matriz de transformación es una matriz cuadrada 2 x 2 cuyas columnas son los autovectores 1 y 2 :

1 20.82 0.57

,0.57 0.82

W

Finalmente, se procede a la transformación de coordenadas para expresar los patrones X en las coordenadas del nuevo espacio,

11

22

¨0.82 0.570.57 0.82

c

c

XYXY

Si aplicamos esta transformación a las observaciones originales Xc1, Xc2,..., Xc6, el resultado se muestra en la Figura 5.

Figura 5: Seis patrones en dos sistemas de coordenadas

Page 11: Capitulo Vi Acp

OBSERVACIONES La matriz de covarianza en Y es diagonal y contiene los autovalores asociados a X .

En este caso,

2.67 00 0.33Y

Este hecho es evidente de manera gráfica en la figura anterior. Sea el nuevo sistema de coordenadas (Y1, Y2), al comparar las matrices de covarianza en P y P'

1.9 1.11.1 1.1X

2.67 0

0 0.33Y

- Las variables Y1 e Y2 no están correlacionadas ( 1 2 ( ) 0Y ) mientras que las variables X1 y X2 si lo están.

12

11 22

( ) 1.112 ( ) ( ) 1.9 * 1.1

( ) 0.76 X

X XX

- La transformación aplicada ha tenido el efecto de maximizar la varianza. La varianza en el primer eje principal, Y1, es 2.67, bastante mayor que en X1, 1.9. Además, no existe ningún otro eje en el que haya una varianza mayor.

De manera gráfica puede verse en la Figura 6, en la que se proyectan los patrones con menor y mayor valor de la variable X1 sobre los ejes X1 e Y1.

Figure 6: Rango de los patrones en los ejes originales y transformados

- La transformación preserva la varianza global:

tr( X ) = 1.9 + 1.1 = 3 y ( )Y iitraza = 2.67 + 0.33 = 3

Page 12: Capitulo Vi Acp

Y también puede calcularse como Y = WTX W.

0.82 0.57 1.9 1.1 0.82 0.57 2.67 00.57 0.82 1.1 1.1 0.57 0.82 0 0.33

T

Y

La matriz de transformación indicada en W debe ser ortogonal. En este caso,

0.82 0.57 0.82 0.57 1 00.57 0.82 0.57 0.82 0 1

TT TW W WW I

2. ANÁLISIS DE SEMEJANZA DE INDIVIDUOS Y DE RELACIÓN DE VARIABLES

Admitiendo un conjunto de n observaciones de p variables, se puede conformar la matriz X, la cual es posible centrar y reducir (normalizar, estandarizar), es decir, pasar de X a Z, el

término genérico Xij se transforma a ( )/ rij ij j j ijZ X X S X

La comparación de los individuos i y h es evaluada con la distancia euclidiana clásica entre i y h:

2 2

1( )

p

ih k ik hkk

d m x x

Si todas las variables pesan igual (tienen igual importancia) 1km En el ACP, la relación entre las variables k y j es evaluada con el coeficiente de correlación (excepcionalmente: la covarianza):

2 2

1

( )( )

n ij jik k

kj i kjk ji

x xx xd m RS S

2.1 Representación geométrica. El proceso de estandarización se representa a continuación para el caso tridimensional, tal proceso equivale a cambiar de base, pasar a la base ortonormal (e1, e2, e3) centrada en G, 1 2 3( , , )X X X , entonces:

- la variable 1rX le corresponde el eje engendrado por e1=(1,0,0).

- el individuo i, está representado por

1 2 31 2 3

1 2 3

( , , )i i i

X X X

X X X X X XS S S

- y el individuo medio por el origen G del nuevo espacio. (con wi=Xi)

Page 13: Capitulo Vi Acp

El extremo del vector Wi = Wi, representa la combinación lineal de los vectores de la base ortonormal

1 2 31 2 3

1 2 3

1

1 2 3 2

3

( ) ( ) ( )i i i

X X X

iX X X X X X

ii S S S

i

WW e e e W

W

2.2 INERCIA TOTAL (VARIANZA TOTAL) DE LA NUBE DE INDIVIDUOS

En el espacio original se define la inercia total como:

( ) ( )

2 2 210 1 10 0

( )n pkikn i ki i

I d = traza( ) con d X X

ó también es igual, en el nuevo espacio con las variables estandarizadas, a

2 211 1( )kik

k

2n p X XG i in Si kI W = traza( )= p con W

Siendo la matriz TZ DZ , donde Z es la matriz centrada y reducida de las variables

originales X(S) y D una matriz diagonal de pesos, para el caso de idéntica importancia de las

X(S) tales pesos toman el valor 1n .

La inercia total en el espacio original es igual a la inercia total en el nuevo espacio, Io = IG

Page 14: Capitulo Vi Acp

2.2.1 Contribución de los individuos a la inercia total

Cada individuo i contribuye a la variabilidad total en la cantidad 2 21

1( )2p

i ij jci cin jI X con X X X

lo cual en términos porcentuales es

21. ( ) * 100 *100

X ci I iI Io o

nC ontr I i

2.2.2 Proyección ortogonal de la nube de individuos sobre un eje Al proyectar los n puntos sobre un eje, por ejemplo el primero, se genera una inercia equivalente a:

1 21 1 10 11 1( )

2n n 2

icin ni i X1I X = X X =S

2.2.3 Proyección ortogonal de la nube de individuos sobre un plano factorial Siguiendo el caso anterior, pero considerando un plano factorial, por ejemplo el formado por el primero y el segundo eje se tiene:

2 221,2 21 10 1 1 1 1( )n n 2 2

kikcin ni k i k X X1 2I X = X X =S +S

NOTA En términos de la solución del problema: - El subespacio más cercano a la nube de puntos es aquel que genera la inercia más

cercana a la inercia total (ó la inercia máxima de todos los posibles subespacios), equivalente a considerar la mínima distancia entre la nube de puntos y el subespacio

20( , ) sd Nube Subespacio I I

- Las «direcciones principales de alargamiento » de la nube de puntos, dos a dos, definen los «planos principales» sobre los cuales se proyecta ortogonalmente la nube de puntos. Lo que implica que: Cada «dirección principal» de la serie debe ser ortogonal a las direcciones definidas

precedentemente. Cada dirección principal debe maximizar la inercia con respecto al origen de la

proyección de la nube a lo largo de cada eje principal. El primer plano engendrado maximiza la inercia con respecto al origen de la

proyección de la nube sobre ese plano.

Page 15: Capitulo Vi Acp

El subespacio engendrado por los tres primeros componentes maximiza la inercia con respecto al origen de la proyección de la nube sobre ese subespacio.

3. REPRESENTACIÓN DE LOS INDIVIDUOS PROYECTADOS EN EL PRIMER

PLANO PRINCIPAL Suponiendo el individuo i centrado y proyectado como ˆ ciw en p , con p=2, entonces las coordenadas sobre los nuevos ejes son (Ci1, Ci2), de donde

2 2 21 2ˆ ( ) ( )ci i iw C C

Entonces la inercia proyectada 2 2 21

1 2 1 2 1 21 1 1ˆ ˆ ( ) ( ) ( ) ( )n n n

ci i in i i iI w C C V C V C

La calidad global de la representación es dada por

1 2ˆ( )o

II traza

La calidad de representación del individuo i centrado y proyectado en el nuevo espacio es 2

2 2

2 2 2

ˆ ( ) ( )2 2 21 21 2ˆcos ( , ) cos ( , ) cos ( , )

w C Cci i ici ci ci ci

w w wci ci ci

w w w w

4. LA NUBE DE PUNTOS-VARIABLES

Una variable es representada con un vector en Rn. El conjunto de extremidades de los vectores que representan las variables constituyen la nube de puntos Np.

221 1,1 , ( ) ( )1 1;

n n

X X X Y Y Y V Xj ij j j j j ij jn ni i Y con

( ) ij ij jY X X

1, * ,1 ( , )

k j

nY Y Y Yk j ik ij k j X Xn i Cov X X

,,

( , )cos( , ) X Xk j k j

k jk jj

Y Yk j X X

Y Yk

Y Y

- Las k variables centradas-reducidas, forman la nube Nk, son vectores cuyas

extremidades se ubican sobre la esfera de radio 1, tal que para la variable j

Page 16: Capitulo Vi Acp

( ) ˆ, 1 , 1 1 j j jX X Y rj j

X Yj j

= < X , 1 > = V ( Z ) =

- La coordenada de la proyección de una variable sobre otra es igual al coeficiente de

correlación entre las variables. 3.1 Calidad de representación de las variables

Las componentes principales, Yk = Ck, forman una base ortogonal del subespacio en Rn de dimensión p dadas las variables originales. Entonces si se hace

con k=1,2,..,pkk

k

Yf

se logra una base ortonormal del subespacio (equivalente a los componentes principales estandarizados) y se obtiene:

( , )1

1,2,...,

p

j X Y kj kk

Z f j p

Constituyendo vectores cuyas extremidades se ubican en una esfera de radio 1.

La proyección de Zj sobre el primer plano principal es:

2( , )

1ˆ 1,2,...,

j X Y kj k

kZ f j p

3.1.1 Calidad de representación de las variables sobre el primer plano

Page 17: Capitulo Vi Acp

Teniendo dibujado el círculo unidad, en el primer plano, visualmente se puede observar la

calidad de representación de la variable Zj mediante jZ , puesto que =1jZ y si la

extremidad de jZ se ubica cerca de la unidad también ocurre que ˆ 1jZ , entonces se

obtiene una buena calidad de representación.

En la esfera de la figura, iz se encuentra mejor representada que ˆ jz y ˆkz .

OBSERVACIÓN:

ˆ ˆ 1rj jx z

3.1.2 Correlaciones de las variables con las componentes principales Las coordenadas de las variables centradas y reducidas sobre el primer plano principal y los valores originales de las variables están correlacionadas según la medida

( , )X Cj k

Las correlaciones altas determinan la formación del componente por las correspondientes variables. Cuando sobre el mismo componente tales correlaciones son positivas se dice que el eje determina la forma de la distribución, mientras que si son una mezcla de positivas y negativas se habla de la determinación de la escala. Las coordenadas de las variables centradas y reducidas sobre el primer plano principal son las correlaciones de las variables con las direcciones principales; calculando ˆ jz se obtiene

la representación aproximada de la variable j sobre el plano. 3.1.3 Variables en el espacio de representación de los individuos

Page 18: Capitulo Vi Acp

Las variables están representadas por vectores y los individuos lo son por puntos. Valores similares de las distancias entre individuos hacen las semejanzas entre ellos y su buena representación en el espacio, mientras las correlaciones altas de las variables determinan la dependencia entre las variables y su buena representación en el espacio.

Proyectando las direcciones de los vectores variables en el espacio de los puntos-individuos, se puede «explicar» la configuración de distancias inter-individuales. Si la k-ésima variable está bien representada en un subespacio, la dirección asociada a ese vector puede ser considerada como una buena representación de la k-ésima variable en el espacio de representación de los individuos.

Sobre el espacio de los individuos, se hace la representación de los ejes generados por los vectores que representan a las variables iniciales de la base canónica (e1, e2, .., ep ).

1 1Para k=1,2,…,p u con e

p pk jk j j jk k

j ju e u U

El vector ej proyectado sobre el espacio principal S engendrado por (u1, u2, .., up ) es

1e

pj jk k

ju U

Si éste vector está bien representado, el eje engendrado por éste vector se considera una buena representación de la variable original centrada Xcj en el espacio de los individuos.

Page 19: Capitulo Vi Acp

4. ANALISIS NORMADO Si las variables originales son medidas en escalas diferentes (rangos muy distintos) ó si las unidades de medida no son comparables, ó las dos cosas, por ejemplo, ventas anuales de un negocio, entre 10.000 y 35.000 dólares; la razón del ingreso anual neto con respecto a los activos totales, cuyos valores oscilan entre 0.01 y 0.6; entonces la variación de la primera variable tendrá un peso muy grande frente a la variación de la segunda, lo cual sesga el hallazgo de los CP, puesto que se encuentran en función de la máxima varianza. Para eliminar este fenómeno, se estandarizan las variables originales antes de proceder a calcular los CP.

El trabajo realizado anteriormente se hará sobre la matriz de de correlación, los vectores y valores propios se obtienen sobre ρ.

5. SELECCIÓN DEL NÚMERO DE COMPONENTES PRINCIPALES A INTERPRETAR

Existen las siguientes reglas.

o Dibujar un polígono de frecuencias ó un histograma a partir de las parejas (i, i).

Empezar seleccionando componentes hasta cuando los valores restantes i sean

semejantes ó se estabilice su valor. Equivale a buscar un “codo”, el punto de inflexión donde los valores propios tienden a ser semejantes.

o Seleccionar CP hasta cumplir con un porcentaje de varianza determinada por el investigador.

o Tomar los CP, cuyos valores propios sean superiores ó iguales al valor propio medio. (En caso del análisis normado ese valor propio es 1).