Cap´ıtulo1 ANALISISDE´ COMPONENTES...

54
Cap´ ıtulo 1 AN ´ ALISIS DE COMPONENTES PRINCIPALES El An´alisis de Componentes Principales transmite la informa- ci´ on contenida sobre “n” individuos en un conjunto de “p” variables correlacionadas entre s´ ı a un conjunto m´ as sencillo con un menor umero (“k”) de variables incorreladas. De esta forma, mejora la interpretaci´ on de los datos y la de los modelos construidos a par- tir de ellos. En contrapartida , se pierde una peque˜ na parte de la informaci´on original. Las nuevas“k”variables, los Componen- tes Principales, son combinaciones lineales de las originales. Su etodo de c´ alculo se fundamenta en la obtenci´ on, a partir de la matriz de correlaciones de las variables originales, de los valores propios (“eigenvalues”) y sus vectores propios (“eigenvectors”) que ser´ an, precisamente, los Componentes Principales. En el 1 de los ejemplos del Cap´ ıtulo se reduce el n de variables de tres a dos que contienen el 98% de la Variabilidad. En el 2 ejemplo, el n de variables se reduce de ocho a tres que cuentan con el 95 % de la Va- riabilidad original. El An´ alisis de Componentes Principales suele utilizarse combin´ andolo con otro An´ alisis posterior. Por ejemplo, con un An´alisis de Regresi´ on o con un An´ alisis “Cluster”.

Transcript of Cap´ıtulo1 ANALISISDE´ COMPONENTES...

Page 1: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1

ANALISIS DECOMPONENTESPRINCIPALES

El Analisis de Componentes Principales transmite la informa-cion contenida sobre“n”individuos en un conjunto de“p”variablescorrelacionadas entre sı a un conjunto mas sencillo con un menornumero (“k”) de variables incorreladas. De esta forma, mejora lainterpretacion de los datos y la de los modelos construidos a par-tir de ellos. En contrapartida , se pierde una pequena parte dela informacion original. Las nuevas “k” variables, los Componen-tes Principales, son combinaciones lineales de las originales. Sumetodo de calculo se fundamenta en la obtencion, a partir de lamatriz de correlaciones de las variables originales, de los valorespropios (“eigenvalues”) y sus vectores propios (“eigenvectors”) queseran, precisamente, los Componentes Principales. En el 1� de losejemplos del Capıtulo se reduce el n� de variables de tres a dosque contienen el 98% de la Variabilidad. En el 2� ejemplo, el n� devariables se reduce de ocho a tres que cuentan con el 95% de la Va-riabilidad original. El Analisis de Componentes Principales sueleutilizarse combinandolo con otro Analisis posterior. Por ejemplo,con un Analisis de Regresion o con un Analisis “Cluster”.

Page 2: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

2 Analisis multivariante aplicado a la investigacion

1.1. INTRODUCCION

La primera tecnica de Analisis Multivariante que aplicaremossera el Analisis de Componentes Principales (ACP). Se trata detransferir la informacion proporcionada por p variables originalescorrelacionadas entre si : x1, x2 ...xp a un conjunto con menornumero (k) de nuevas variables: y1, y2 . . . yk. Esto se conseguiraa costa de una pequena perdida de informacion. A la evidenteventaja de que el numero de variables k sea menor que p, se anadeque la nuevas variables, a las que denominaremos componentespincipales, estaran incorreladas entre si con lo que mejorara lainterpretacion de los datos y la de los modelos que elaboremos apartir de dichos componentes.

1.2. FUNDAMENTODEL ANALISIS DE COM-

PONENTES PRINCIPALES

El procedimiento matematico para obtener los k componentesse fundamenta en el calculo de k combinaciones lineales a partirde las p variables originales:

y1 = v11 · x1 + v12 · x2 + · · · + v1p · xp

y2 = v21 · x1 + v22 · x2 + · · · + v2p · xp

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·

yk = vk1 · x1 + vk2 · x2 + · · · + vkp · xp

Page 3: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 3

La informacion proporcionada por las p variables originales estacontenida en la matriz de datos [X]. El orden de dicha matriz es(n, p) siendo n el n� de observaciones realizadas:

[X] =

x11 x12 · · · x1p

x21 x22 · · · x2p...

.... . .

...xn1 xn2 · · · xnp

Por otra parte, sera de gran importancia como base de loscalculos posteriores, la matriz de correlacion de las p variablesoriginales. Esta matriz es de orden (p,p):

[R] =

1 r12 · · · r1pr21 1 · · · r2p...

.... . . ...

rp1 rp2 · · · 1

Se trata de una matriz simetrica en la que un elemento talcomo rij es el coeficiente entre las variables xi, xj. Dado que enel Analisis Multivariante es habitual estandarizar las variables,la matriz de correlacion coincidira con la matriz de covarian-zas. La estandarizacion consiste en transformar cada variable enotra sustrayendo el valor medio y dividiendo por la desviaciontıpica. Las variables estandarizadas tendran de media cero y devarianza 1.

Para encontrar las k componentes principales, hemos de cal-cular k combinaciones lineales de las p variables originales quese formaran segun su orden de importancia en cuanto a la va-riabilidad total que recogen de la muestra original. La primeracomponente principal:

y1 = v11 · x1 + v12 · x2 + · · · + v1p · xp

Page 4: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

4 Analisis multivariante aplicado a la investigacion

sera aquella que tenga la maxima varianza entre todas las com-binaciones lineales posibles. La siguiente componente sera la queproporcione la 2� mayor varianza con la restriccion de que sea or-togonal a la anterior y ası sucesivamente. Todas las componentesseran, tambien, vectores de modulo = 1 cumpliendose por tantoque

�v2

ij = 1

V ar(y1) = V ar(v11 · x1 + v12 · x2 + · · · + v1p · xp)

Puesto en forma vectorial: V ar(y1) = V ar(v’1j · xj) Siendo:

v’1j = [v11v12 · · · v1p]*

xj =

x1

x2...

xp

V ar(y1) = V ar(v’1jxj) = v’1j ·S · v1j en la que S es la matrizde covarianzas de las variables originales.

La restriccion de que el modulo sea 1 supone que v’1j · v1j = 1equivalente a v’1j ·v1j−1 = 0. Introducimos esta restriccion en lafuncion a maximizar mediante el multiplicador de Lagrange (λ):

L = v’1jSv1j − λ(v’1j · v1j − 1)

La incognita es el vector v1j que optimiza L. Calculamos v1j

derivando e igualando a cero.

∂L

∂v1j= 0 ⇒

∂L

∂v1j= 2Sv1j − 2λv1j = 0

*Los vectores se representan en “negrita”

Page 5: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 5

La expresion anterior es equivalente a Sv1j = λv1j

Esto implica que v1j es un vector propio (“eigenvector”) dela matriz S y λ su correspondiente valor propio (“eigenvalue”).

Recordemos del algebra lineal que una matriz aplicada sobreun vector actua modificando, en general, tanto su magnitud comosu direccion en la transformacion lineal representada por dichamatriz: y = [A]x. Sin embargo, dada una matriz [A] existen unosvectores asociados a ella (vectores propios) tales que el vector re-sultante [A]x tiene la misma direccion que x cambiando tan solosu magnitud que queda multiplicada por el escalar λ (valor pro-pio): [A]x = λx. Para calcular los valores propios de una matriz[A] se calculan las raices de la ecuacion |A – λ · I| = 0 en laque I es la matriz unidad. Dicha ecuacion se denomina ecuacioncaracterıstica.

Ejemplo: Calcular los valores y vectores propios de la matriz

A =

�1 22 1

����1− λ 22 1− λ

���� = 0

λ2 − 2λ − 3 = 0⇒ λ1 = 3;λ2 = −1

Asociado al valor propio λ1 = 3 obtenemos el siguiente vectorpropio:

�1 22 1

� �x1

x2

= 3

�x1

x2

�x1 + 2x2

2x1 + x2

=

�3x1

3x2

⇒x1 + 2x2 = 3x1

2x1 + x2 = 3x2

equivalentes a x1 = x2. Por tanto, cualquier vector con compo-nentes iguales excepto (0,0), sera un vector propio. Por ejemplo,

Page 6: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

6 Analisis multivariante aplicado a la investigacion

�11

sera un vector propio asociado al valor propio λ1 = 3.

En definitiva, para calcular el primer componente principal, ob-tendremos el vector propio de la matriz de covarianzas S asociadoal mayor valor propio de dicha matriz S. Dado que las variablesx1, x2, · · · xp se estandarizan, la matriz S coincide con la matriz decorrelacion R. Se demuestra, que los siguientes componentes prin-cipales son los vectores propios correspondientes a los restantesvalores propios. Todos los componentes principales son ortogona-les entre sı y tienen por modulo 1.

1.3. Ejemplo n� 1: Indices MICUM de Resis-

tencia Mecanica del coque metalurgico

(Fuente: A. Trigueros)

Los conceptos de ACP expuestos los desarrollaremos en el si-guiente ejemplo: Disponemos de 3 ındices de resistencia mecanicadel coque metalurgico : MICUM 80 (M80), MICUM 40 (M40) yMICUM 10 (M10) obtenidos mediante ensayo de 80 muestras decoque tomadas en el proceso industrial de una Planta de coquiza-cion. Los datos de la muestra se recogen en la pag. 15.

Partiendo de las variables originales M80, M40 y M10 procede-remos a extraer los componentes principales que aporten la maxi-ma informacion disminuyendo el n� de variables.

Tanto en el presente ejemplo como en los siguientes utiliza-remos la aplicacion estadıstica STATGRAPHICS que, en dis-tintas versiones hemos venido usando durante muchos anos conoptimo resultado.

Previamente al desarrollo de los calculos deseamos exponer losiguiente:

Page 7: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 7

Los ensayos MICUM miden la degradacion granulometrica queexperimenta el coque sometido a rotacion dentro de un tamborgiratorio. La muestra para ensayo, 50 Kg. de coque, es introducidaen un tambor cilındrico horizontal donde es sometida a un totalde 100 revoluciones a una velocidad uniforme de 25 r.p.m. Trasretirar el coque del tambor, la muestra se criba mediante un juegode cribas con aberturas de diametros 80 mm, 40 mm y 10 mm.Tras el cribado, se pesan las diferentes fracciones y se obtienentres ındices:

MICUM 80(M80): Proporcion, en tanto por ciento, delpeso del coque de tamano superior a 80 mm.

MICUM 40 (M40): Proporcion del peso mayor de 40 mm.

MICUM 10 (M10): Proporcion del peso de tamano inferiora 10 mm.

Los ındices M80 y M40 se han considerado, tradicionalmente,como ındices de resistencia a la fisuracion y el M10 como ındice deresistencia a la abrasion. Un coque de calidad destinado a fundi-cion tendrıa los ındices M80 y M40 lo mas grandes posibles cum-pliendo M80 >70 y M40 >80 y el ındice M10 lo menor posiblecumpliendo M10 <12.

Exponemos a continuacion la discusion y conclusiones delos calculos y graficos contenidos en las pags. 11 a 15.

La matriz de correlaciones de las variables M80, M40 y M10contenida en la pag. 11 es la base de partida de los calculosy la denominaremos [R].

Las variables originales se estandarizan sustrayendolas susvalores medios y dividiendo por la desviacion tıpica respec-tiva. Las variables estandarizadas se recogen en la pag. 15con las denominaciones M80s; M40s y M10s.

Page 8: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

8 Analisis multivariante aplicado a la investigacion

Los valores propios de la matriz [R] son: 2.03073; 0.903782 y0.0654875 (pag. 12). La suma de los tres valores propios es3 coincidiendo con el n� de variables originales que al estarestandarizadas tienen, cada una, por varianza 1.

Los vectores propios correspondientes a los anteriores valo-res propios son, precisamente, los componentes principalesque se expresan como combinaciones lineales de las variablesoriginales estandarizadas. Las ecuaciones de las componentesprincipales estan indicadas en la pag. 13. La 1� componentetiene, por ejemplo, de ecuacion:

CP1 = - 0.322505 M80 – 0.68548 M40+0.652769 M10

Observese como en CP1 y en las restantes componentes,�vij2 = 1. Por ejemplo, en CP1 : (−0,322505)2+(−0,68548)2+

(0,652769)2 = 1.

El porcentaje de variabilidad explicado por cada componente

viene dado por el ratioλi

3·100%. Ası, CP1 explica el 67,691%

de la variabilidad, CP2 el 30,126% y CP3 el restante 2,183%(pag.12).

Dado que el porcentaje de variabilidad explicada por la 1�componente (67,691%) lo estimamos insuficiente y que la 3�componente explica tan solo el 2,183%, optaremos por ex-traer las dos primeras componentes: CP1 y CP2 cuya varia-bilidad acumulada es asi el 98% (97,817%). En definitiva,hemos sustituıdo las tres variables originales por dos com-ponentes principales: CP1 y CP2 con una mınima perdidade informacion equivalente, aproximadamente, al 2% de lavariabilidad existente en las variables originales.

En los resultados de la pag. 11 podemos comprobar como lascomponentes principales tienen por media cero y por varian-zas los respectivos valores propios:

2.03073; 0.903782 y 0.0654875.

Page 9: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 9

Comprobamos, tambien, que los componentes principales sonortogonales entre si ya que sus productos escalares son nulos:

CP1 = −0,322505M80− 0,68548M40 + 0,652769M10

CP2 = 0,933244M80− 0,114964M40 + 0340351M10−−→CP1·

−−→CP2 = (−0,322505)(0,933244)+(−0,68548)(−0,114964)+

(0,652769)(0,340351) = 0

Asimismo, en la matriz de correlacion (pag. 11) que com-prende las variables originales y los componentes principales,podemos apreciar que el coeficiente de correlacion entre CP1y CP2 es cero.

Aunque el punto de vista relativo a la interpretacion de lasnuevas variables extraıdas en los procedimientos de AnalisisMultivariante sera tratado con especial atencion en el Ana-lisis Factorial, senalamos ahora que en el componente CP1dominan los terminos relativos al M40 y al M10 puesto queestan afectados por coeficientes sensiblemente mayores queel del M80. En cuanto al componente CP2, esta claro el pre-dominio del termino relativo al M80. Esto tambien se puedecomprobar en la matriz de la pag. 11 donde podemos apre-ciar los elevados coeficientes de correlacion de CP1 con M40(r=-0.9768) y M10 (r=0.9302) ası como la fuerte dependenciade CP2 con M80 (r=0.8872). Definiremos, en consecuencia,el componente CP1 como un factor de resistencia a la genera-cion de finos en el coque mientras que CP2 sera esencialmenteun factor de resistencia mecanica a la fisuracion.

Los graficos de la pag. 14 reflejan la posicion relativa de lasvariables originales y de los datos de la muestra respecto delos ejes formados por los dos primeros componentes principa-les. Se hace patente la dependencia, por una parte, de M40 yM10 con CP1 ası como la de M80 con CP2. En el ultimo delos graficos se identifican algunos de los elementos extremosde la muestra.

Podemos comprobar como la matriz cuyas columnas son lostres componentes principales: [V] diagonaliza la matriz de

Page 10: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

10 Analisis multivariante aplicado a la investigacion

correlaciones [R] resultando en la diagonal los valores propios:[V]’[R][V]=[D]. Tambien se cumple: [R]=[V][D][V]’.

[V ] =

�−0,322505 0,933244 0,158259−0,68548 −0,114964 −0,7189580,652769 0,340351 −0,676796

; [V ]� =

�−0,322505 −0,68548 0,6527690,933244 −0,11464 0,3403510,158259 −0,718958 −0,676796

[R] =

�1 0,3445 −0,1475

0,3445 1 −0,9122−0,1475 −0,9122 1

; [D] =

�2,03073 0 0

0 0,903782 00 0 0,0654875

Puesto que [V] es una matriz ortogonal, tambien se cumple [V][V]’=[I].Siendo I la matriz identidad:

�1 0 00 1 00 0 1

Page 11: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 11

Page 12: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

12 Analisis multivariante aplicado a la investigacion

Page 13: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 13

Page 14: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

14 Analisis multivariante aplicado a la investigacion

Plot of Component Weights

Component 1

Co

mp

on

en

t 2

M80

M40

M10

-1 -0.6 -0.2 0.2 0.6 1-0.2

0.2

0.6

1

Biplot

Component 1

Co

mp

on

en

t 2

M80

M40

M10

-5 -4 -3 -2 -1 0 1 2 3 4 5-3

-2

-1

0

1

2

3

4

Scatterplot

Component 1

Co

mp

on

en

t 2

3

15

71

52

-3 -2 -1 0 1 2 3 4 5-3

-2

-1

0

1

2

3

54

Page 15: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 15

Page 16: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

16 Analisis multivariante aplicado a la investigacion

1.4. Ejemplo n� 2: Componentes principales

de un conjunto de ocho variables relati-

vas a una muestra de n=26 embarques de

coque metalurgico de importacion (Fuente:

A. Trigueros)

Es evidente que las ventajas proporcionadas por el ACP se hacen maspatentes cuando lo aplicamos a un numero elevado, por ejemplo p = 20, devariables originales altamente correlacionadas. Si la matriz de datos para untamano muestral, por ejemplo n = 100, tiene de dimensiones (100, 20) con2000 datos y extraemos 4 componentes principales, la matriz de las nuevasvariables tendra de dimensiones (100, 4) con un total de 400 datos. Porello en el presente ejemplo ampliaremos el numero de variables originales ap=8 aplicando el procedimiento de Componentes Principales a 8 variablesreferentes a la calidad del coque metalurgico de importacion recibido en 26embarques de diferentes orıgenes: China, Polonia, Rusia, etc.

Las 8 variables en estudio son las siguientes:

CSR: Resistencia mecanica tras ensayo de reactividad.

CRI: Reactividad.

PFC: Punto de Fusion de Cenizas.

BASICIDAD: Ratio entre componentes basicos y acidos de las cenizasdel coque.

M40: Indice de Resistencia mecanica MICUM 40.

M10: Indice de Resistencia mecanica MICUM 10.

I20: Indice de dureza Irsid 20.

I10: Indice de dureza Irsid 10.

Los siguientes apartados contienen la discusion y conclusiones a los calcu-los y graficos de las pags. 18 a 23.

La matriz de correlaciones de las variables: CSR, CRI, PFC, Basicidad,M40, M10, I20, I10 sera la base de partida de los calculos. Dicha matrizesta recogida en la pag. 18 y la denominaremos [R].

Page 17: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 17

Los valores propios de la matriz [R] son, de mayor a menor los si-guientes: 5.15097; 1.84313; 0.58776; 0.244949; 0.0913233; 0.0487124;0.0190198 y 0.0141301. La suma de los valores propios coincide conel numero de variables originales (8).

Los componentes principales son los vectores propios correspondientesa los anteriores valores propios siendo sus ecuaciones las que figuran enla pag. 21. Por ejemplo, la 1� componente tiene de ecuacion:

CP1 = 0.334621 CSR - 0.369775 CRI + 0.401989 PFC- 0.384849 Basicidad + 0.398763 M40 - 0.293917 M10 + 0.360979 I20- 0.256684 I10.

El porcentaje de variabilidad expresado por el 1er componente es 64.39%.En el grafico de la pag. 20 observamos que a partir del 4� componente,los valores propios son muy bajos. Por ello, optamos por extraer tansolo los tres primeros componentes con un porcentaje de variabilidadacumulada del 94.77% (pag. 20). Esto representa una evidente ventajaya que pasamos de 8 variables originales a 3 componentes con una per-dida de informacion de aproximadamente el 5%. Suele ser una practicahabitual, aunque subjetiva, tomar solamente los valores propios hastael punto que corresponde al “codo” del grafico.

Observamos que en la ecuacion de la 1� componente CP1 tienen unpeso bastante similar las variables originales pudiendose considerar, portanto, a CP1 como un promedio de ellas. En la segunda componentedominan los pesos de I10 y M10 mientras que en la tercera componentedominan CSR y M40. Esto mismo se pone de manifiesto en la tabla dela pag. 19: Observamos que CP1, CP2 y CP3 estan mas fuertementecorreladas con las citadas variables.

En los graficos de la pag. 22 podemos observar las posiciones relativasde los 3 componentes principales y las 8 variables originales y en lapag. 23 los valores correspondientes al conjunto de todas las variablesutilizadas en el ejemplo.

Page 18: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

18 Analisis multivariante aplicado a la investigacion

Page 19: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 19

Page 20: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

20 Analisis multivariante aplicado a la investigacion

����������������

�������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������

���������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Scree Plot

Component

Eig

en

va

lue

0 2 4 6 8

0

1

2

3

4

5

6

Page 21: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 21

Page 22: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

22 Analisis multivariante aplicado a la investigacion

Plot of Component Weights

Component 1

Co

mp

on

en

t 2 CSR

CRI

PFC

BASICIDAD

M40

M10

I20

I10

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

Plot of Component Weights

Component 1

Co

mp

on

en

t 3

CSR

CRI PFC

BASICIDAD

M40

M10I20

I10

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

-0.5

-0.3

-0.1

0.1

0.3

0.5

0.7

Page 23: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 1. Analisis de componentes principales 23

Page 24: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

24 Analisis multivariante aplicado a la investigacion

Page 25: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2

ANALISIS FACTORIAL

El Analisis Factorial, a similitud del Analisis de Componen-tes Principales, reduce el numero de variables “p” medidas sobreun conjunto de “n” individuos a un numero menor (“k”) de varia-bles combinaciones lineales de las primitivas. Sin embargo, tienela particularidad de centrarse en la busqueda e interpretacion delas nuevas variables considerandolas como variables latentes quesubyacen como causa de las “p” variables originales medibles. Enel presente Capıtulo se exponen dos metodos: El metodo de Com-ponentes Principales y el metodo Clasico. En ambos, tras extraerlas “k” nuevas variables se procede a rotar los factores a fin de ob-tener una solucion con mayor significado conceptual. El Capıtulorecoge un ejemplo que, en su 1� parte, desarrolla por el metodode Componentes Principales. Se trata de un caso con ocho va-riables originales que se reducen a dos aplicandoles despues variostipos de rotacion: Varimax, Quartimax y Equimax. En la 2� parte,el ejemplo desarrolla el metodo Clasico seguido de las rotacionesVarimax y Quartimax.

Page 26: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

26 Analisis multivariante aplicado a la investigacion

2.1. INTRODUCCION

El Analisis Factorial esta estrechamente relacionado con el Ana-lisis de Componentes Principales tratado en el capıtulo anterior encuanto que ambos reducen la informacion contenida en un numerogrande de variables (p) a la proporcionada por un numero menorde nuevas variables (k). Sin embargo, el Analisis Factorial tiene laparticularidad de centrarse en la busqueda e interpretacion de kvariables latentes que subyacen en la informacion proporcionadapor las p variables originales medibles y que, aunque son causa deestas, no son medibles directamente.

En el presente capıtulo expondremos dos metodos de AnalisisFactorial: El metodo de Componentes Principales y el metodo Cla-sico. En ambos, tras extraer las k nuevas variables (los factores),se procedera a efectuar una rotacion de las mismas con objeto deconseguir una solucion mas sencillas y con un mejor significadoconceptual.

2.2. ANALISIS FACTORIAL DE COMPO-

NENTES PRINCIPALES

Los k factores son combinaciones lineales de las p variablesoriginales x1, x2, ...xp:

Fi =�j=p

j=1 �ijxj = �i1x1 + �i2x2 + · · ·+ �ipxp

A su vez, cada una de las variables originales xj se expresa en unmodelo de regresion multiple en funcion de los factores Fi :

xj = cj1F1 + cj2F2 + · · ·+ cjkFk + �

Page 27: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 27

Al coeficiente de determinacion R2 de dicha regresion le deno-minaremos Comunalidad por ser la variabilidad explicada porlos k factores comunes F. El termino � sera el termino de error.

A fin de calcular los coeficientes �ij, partiremos, como en elACP, de la matriz de correlaciones [R] de orden (p,p) referentea las p variables originales. Las variables xj estan estandarizadaspor lo que su varianza es 1.

[R] =

1 r12 · · · r1pr21 1 · · · r2p...

.... . .

...rp1 rp2 · · · 1

Como en el ACP, calcularemos, en primer lugar, los valorespropios y los vectores propios de la matriz [R] procediendo dela misma forma que lo hicimos en el Capıtulo I para obtener lascomponentes principales.

Sea [V ] la matriz cuyas columnas son los k vectores propiosasociados a los k valores propios mas grandes (componentes prin-cipales). Para determinar la matriz de cargas factoriales [L]que define los coeficientes �ij que expresan los k factores en funcionde las p variables originales: Fi =

��ijxj aplicamos la expresion:

[L] = [V ][D]12

Siendo D la matriz diagonal cuyos elementos no nulos son, pre-cisamente, los valores propios:

[D]12 =

√λ1 0 · · · 00

√λ2 · · · 0

......

. . . ...0 0 · · ·

√λk

Page 28: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

28 Analisis multivariante aplicado a la investigacion

En definitiva, tanto [V ] como [L] son matrices formadas porcolumnas de vectores propios de [R] a distintas escalas. Losvectores propios que contituyen [L] estaran formados por los queconstituyen [V ] multiplicados, respectivamente, por la constante√

λi.

Por otra parte, los coeficientes �ij coinciden con los coeficien-tes de correlacion entre los factores Fi y las variables originalesxj. Esta circunstancia la utilizamos para interpretar los factoresFi.

Los elementos de la matriz [L] de orden (p,k) de cargas facto-riales.

[L] =

�11 �12 · · · �1k�21 �22 · · · �2k...

.... . . ...

�p1 �p2 · · · �pk

son tales que la suma de cuadrados por columnas:�

�2ij resulta

igual a los Valores Propios y la suma de cuadrados�

�2ij segunlas filas resulta igual a las Comunalidades. Esto ultimo tambiense puede expresar diciendo que la diagonal de la matriz del pro-ducto [L][L]� son las Comunalidades. Desde luego, si extraemostantos factores como variables originales haciendo k=p, entoncesla suma de cuadrados por filas

��2ij sera igual a 1. En este caso,

tambien se cumple [L][L]� = [R]. Cuanto mayor sea el numero kde factores extraidos, mas se asemejara [L][L]� a la matriz [R].

Los factores Fi son ortogonales entre si y su producto escalares nulo. Por ejemplo, sea F1 = �11x1 + �21x2 + · · ·+ �p1xp y F2 =�21x1 + �22x2 + · · ·+ �p2xp, se cumplira:

�11�12 + �21�22 + · · ·+ �p1�p2 = 0

Page 29: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 29

Puntuaciones factoriales (“scores”): La matriz original Xde dimensiones (n,p) correspondiente a n observaciones tomadassobre las p variables originales, podemos sustituirla por una ma-triz de dimensiones (n,k) correspondiente a los valores resultantespara cada uno de los factores Fi. Se comprueba que la desviaciontıpica de las puntuaciones factoriales resultantes (“scores”) coin-cide con los valores propios de la matriz [R]. No deben confundirselas puntuaciones factoriales con los factores Fi definidos por lascombinaciones lineales Fi =

��ijxj.

2.3. ANALISIS FACTORIALMETODO CLA-

SICO

En el Analisis Factorial de Componentes Principales, el mo-delo de regresion multiple que expresa cada variable original xj

en funcion de los k factores Fi es;

xj = cj1F1 + cj2F2 + ...+ cjkFk + �

� es el termino de error y el coeficiente de determinacion R2 deeste modelo de regresion son las Comunalidades.

En el Analisis Factorial clasico, el modelo de regresion incluye,ademas de los factores Fi y del termino de error �, un factor es-pecifico uj que denominaremos Especificidad. En consecuencia, lavariabilidad de xj se descompone en una variabilidad explicadapor los factores Fi comunes a todas las variables (Comunalidades)y otra parte explicada por los factores especıficos uj (Especifici-dades):

xj = cj1F1 + cj2F2 + ...+ cjkFk + uj

Las variables aleatorias uj incluyen el termino de error � yse las supone ortogonales entre si y con los k factores Fi. A la

Page 30: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

30 Analisis multivariante aplicado a la investigacion

matriz diagonal cuyos elementos no nulos son las variables de lasespecificidades se la denomina matriz de especificidades:

[Ψ] =

Ψ1 0 · · · 00 Ψ2 · · · 0...

.... . .

...0 0 · · · Ψp

Para calcular la matriz de cargas factoriales [L], aplicaremosel procedimiento de componentes principales a la matriz [Rs] =[R]− [Ψ] siendo [R] la matriz de correlacion de las variables origi-nales y [Ψ] la matriz de especifidades. Esto supone, en definitiva,sustituir la diagonal de la matriz de correlaciones [R] de las varia-bles originales xj formada por valores 1, por las distintas comuna-lidades dado que para cada variable xj : 1−Ψj = Comunalidad.

Como al inicio del procedimiento no se dispone ni de los fac-tores, ni de las comunalidades, se efectua una estimacion inicialde las mismas. Como valores iniciales de 1 − Ψj suelen tomarselos coeficientes de determinacion R2 resultantes en el modelo deregresion multiple que expresa xj en funcion de las restantes (p-1)variables.

A partir de la matriz:

Rs =

1−Ψ1 r12 · · · r1pr21 1−Ψ2 · · · r2p...

.... . . ...

rp1 rp2 · · · 1−Ψp

se calculan los valores propios, los vectores propios y la ma-triz de cargas factoriales [L] igual que en el procedimiento decomponentes principales. Realmente, el metodo de componentesprincipales es un caso particular del metodo clasico en el que lasespecificidades iniciales Ψj son nulas y por tanto 1−Ψj = 1.

Page 31: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 31

Si extraemos k factores, la matriz de cargas factoriales tendradimensiones (p,k) cumpliendose que la diagonal del producto ma-tricial [L][L]’ seran las comunalidades finales.

2.4. ROTACION DE FACTORES

Para la interpretacion del significado de cada factor Fi es fun-damental analizar la matriz de cargas factoriales. Serıa deseableque los factores extraıdos tuvieran cargas fuertes con algunasde las variables originales y bajas con las restantes. Eneste caso, podrıamos definir facilmente los factores tomando comoreferencia las variables originales con las que estan intensamentecorrelacionados. Sin embargo, esto puede no ser ası y de ahı la di-ficultad de interpretacion, en algunos casos de los factores latentesFi. Por esta razon, suele ser habitual rotar los factores Fi inicial-mente extraidos y obtener de esta forma una mejor interpretacion.

La rotacion puede ser ortogonal u oblicua. Si la rotacion es orto-gonal, los factores rotados, por ejemplo, F ∗

1 y F ∗2 , estaran incorre-

lados entre si como lo estaban los factores inicialmente extraıdosF1 y F2. En la rotacion oblicua no se presenta la ortogonalidad.Geometricamente, con solo 2 factores extraıdos, la rotacion serıaequivalente a un giro de ejes.

La rotacion queda definida aplicando a la matriz de cargas [L]una matriz de rotacion [T ] que origina una nueva matriz de cargasrotada [LR] = [L][T ]. En la rotacion ortogonal [T] es una matrizortogonal cumpliendose por lo tanto [T ][T ]� = I siendo I la matrizunidad.

Si la rotacion es oblicua, a [T ] tan solo se le exige que no seasingular, es decir, que |T | �= 0.

Es importante senalar que en la notacion ortogonal u obli-cua, cambiaran los elementos de la nueva matriz de carga perose mantendran las comunalidades. Tambien cambiara la va-

Page 32: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

32 Analisis multivariante aplicado a la investigacion

rianza explicada por cada factor aunque no lo hara su suma. Larotacion no modifica el producto matricial [L][L]�.

En la rotacion ortogonal, usaremos tres metodos: Varimax,Quartimax y Equimax. El metodo Varimax trata de minimizarel numero de variables con cargas altas en un factor buscando quealgunas de las cargas sean cercanas a la unidad y las restantessean casi nulas. En el metodo Quartimax se trata de que cada va-riable tenga cargas elevadas con un pequeno numero de factores.El metodo Equimax trata de optimizar el promedio de los crite-rios seguidos en Varimax y Quartimax. Si consideramos la matrizde cargas factoriales rotada [LR], el metodo Varimax tratara deoptimizarle por columnas y el Quartimax por filas.

2.5. Ejemplo n� 3: Conjunto de 8 variables

relativas a la calidad del coque metalur-

gico de importacion (Fuente: A. Trigue-

ros) segun el metodo de COMPONEN-

TES PRINCIPALES

En el presente ejemplo aplicaremos en primer lugar el proce-dimiento de Analisis Factorial por el metodo de ComponentesPrincipales a las mismas variables y datos del ejemplo n�2. Enla segunda parte del ejemplo aplicaremos el metodo Clasico.

En el ejemplo trataremos de reducir el numero de variablesbuscando, sobre todo, la existencia de variables latentes en lainformacion proporcionada por las 8 variables originales.

Exponemos a continuacion la discusion y conclusiones de loscalculos contenidos en las paginas 36 a 46.

La matriz de correlaciones [R] de las 8 variables esta reco-gida en la pagina 36. Los 2 valores propios mayores de la

Page 33: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 33

matriz [R] son:5,15097 y 1,84313. De acuerdo con el “ScreePlot” de la pag.37 extraeremos tan solo 2 factores siguiendoel criterio de que los valores propios sean>1.La variabilidadexplicada por dichos 2 factores es del 87,4% de la contenidaen las variables originales con una considerable reduccion deltamano de la matriz de datos. Esta primera parte del analisises identica a la utilizada en el Capıtulo I para el ACP.

De los vectores propios que resultan en el ACP (pag. 38):V1 = 0,335CSR−0,370CRI+0,402PFC−0,385Basicidad+0,399M40−0,294M10+ 0,366I20− 0,257I20− 0,257I10

V2 = 0,294CSR − 0,344CRI + 0,211PFC − 0,291Basicidad − 0,022M40+ 0,476M10− 0,366I20 + 0,553I10

obtenemos la matriz de cargas factoriales multiplicando los coeficien-tes de los vectores propios por los valores

√5,15097 y

√1,84313. En

la parte superior izquierda de la pag. 39 se presenta la matriz de car-gas factoriales [L] de la que resultan los siguientes factores antes de larotacion:

F1 = 0,759CSR − 0,839CRI + 0,912PFC − 0,873Basicidad + 0,905M40− 0,667M10 + 0,819I20− 0,583I10

F2 = 0,399CSR − 0,467CRI + 0,287PFC − 0,395Basicidad − 0,030M40+ 0,646M10− 0,497I20 + 0,750I10

Se comprueba que los factores F1 y F2 son ortogonales al ser nulo suproducto escalar. En el grafico superior de la pag. 40 se puede observarla posicion relativa de las variables originales respecto de los factoresantes de la rotacion.

Comprobamos, tambien. que la diagonal del producto matricial [L][L]�

esta formada por las ocho comunalidades. Por otra parte, dichas comu-nalidades son equivalentes a

��2ij sumado por filas. Tambien tenemos

que la expresion�

�2ij sumada por columnas equivale a los valores pro-pios 5.15097 y 1.84313. Se comprueba, igualmente, que las comunalida-des son los coeficientes de determinacion R2 en los modelos de regresionde cada variable con F1 y F2 (pag 41). Finalmente, indicaremos que loscoeficientes �ij equivalen a los coeficientes de correlacion de los factoresF1 y F2 con las 8 variables originales (pag 42).

Con objeto de interpretar mejor los factores latentes F1 y F2 proce-deremos a efectuar una rotacion de dichos factores segun los metodosVarimax y Quartimax que ofrece STATGRAPHICS. En la pag. 39 serecogen las diferentes matrices de carga. Las matrices ortogonales [T]que aplicadas a la matriz de carga sin rotar dan lugar a los factoresrotados son:

Page 34: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

34 Analisis multivariante aplicado a la investigacion

Tvarimax =

�0,817147 −0,5764290,576429 0,817147

Tquartimax =

�0,860875 −0,5088160,508816 0,860875

Sea [L] la matriz de cargas sin rotar, las matrices de cargas rotadasson: [L]V arimax = [L] · [T ]V arimax y [L]Quartimax = [L] · TQuartimax.

Se cumple la igualdad de los siguientes productos matriciales:

[L][L]� = [L]V arimax[L]�V arimax = [L]Quartimax[L]

�Quartimax

En los tres casos, la diagonal de la matriz resultante coincide con lascomunalidades que no varıan en la rotacion. En este caso la rotacionEQUIMAX da el mismo resultado que la VARIMAX (pags 39 y 43).

Si comparamos los graficos de cargas sin rotar y despues de las rota-ciones (pag 40 y 43) es evidente que las rotaciones mejoran la inter-pretacion de los factores al hacerlos coincidir mejor con algunas de lasvariables como veremos a continuacion.

En los graficos de la pag 43 podemos comprobar en la rotacion VA-RIMAX la notable coincidencia del factor F1 con las variables CRI,BASICIDAD, PFC y CSR con coeficientes de carga: -0,9548; -0,9415;0,911 y 0,851 respectivamente. De ahı que F1 lo definiremos comoun factor ligado a la resistencia mecanica “en caliente” y a la“basicidad de las cenizas”. En cuanto a F2 es patente su coincidenciacon las variables I10, M10 y I20 con coeficientes de carga 0,9487; 0,9122y -0,8782. Se trata, pues de un factor de resistencia mecanica “enfrıo” que proporciona una buena informacion sobre la tendencia delcoque a la degradacion granulometrica con formacion de “finos”.

En los graficos de la pag 43 y en las matrices de la pag 39 podemos apre-ciar que los resultados proporcionados por el metodo QUARTIMAX sonmuy similares a los de VARIMAX y, por tanto, la interpretacion serıapracticamente la misma.

Senalamos que las comunalidades tras las rotaciones coinciden con lascomunalidades antes de la rotacion. Esto significa que la rotacion nomodifica la informacion (variabilidad) global existente y que tan solola redistribuye entre los factores F1 y F2.

En las tablas de correlacion da las pags 44 y 45 podemos comprobar laortogonalidad de los factores sin rotar (r=0) y que las cargas antes dela rotacion coinciden con los coeficientes de correlacion entre variablesoriginales y factores. Sin embargo, los factores F1, F2 rotados no sonortogonales (R �= 0) y los coeficientes de correlacion entre factores yvariables originales no coinciden con las cargas.

Page 35: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 35

Finalmente, en las pags 40 (grafico inferior) y 46 se presentan, respec-tivamente, un grafico de dispersion de los valores muestrales en funcionde los factores F1 y F2 sin rotar y la base de datos.

Page 36: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

36 Analisis multivariante aplicado a la investigacion

Page 37: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 37

������������������������������������������������

�������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Scree Plot

Factor

Eig

en

va

lue

0 1 2 3 4 5 6 7 8

0

1

2

3

4

5

6

Page 38: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

38 Analisis multivariante aplicado a la investigacion

��������������������������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������

Scree Plot

Component

Eig

en

va

lue

1 2 3 4 5 6 7 8

0

1

2

3

4

5

6

Page 39: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 39

Page 40: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

40 Analisis multivariante aplicado a la investigacion

Page 41: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 41

Page 42: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

42 Analisis multivariante aplicado a la investigacion

Page 43: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 43

Plot of Factor Loadings- ANTES DE ROTACION -

Factor 1

Facto

r 2

CSR

CRI

PFC

BASICIDAD

M40

M10

I20

I10

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Plot of Factor Loadings- ROTACION VARIMAX -

Factor 1

Facto

r 2

CSRCRI

PFC

BASICIDAD

M40

M10

I20

I10

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Plot of Factor Loadings- ROTACION QUARTIMAX-

Factor 1

Facto

r 2

CSR

CRI PFC

BASICIDAD

M40

M10

I20

I10

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Plot of Factor Loadings- ROTACION EQUIMAX-

Factor 1

Facto

r 2

CSRCRI

PFC

BASICIDAD

M40

M10

I20

I10

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Page 44: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

44 Analisis multivariante aplicado a la investigacion

Page 45: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 45

Page 46: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

46 Analisis multivariante aplicado a la investigacion

Page 47: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 47

2.6. Ejemplo n� 3 (Desarrollado segun el Me-

todo Clasico)

Aplicaremos a continuacion el metodo clasico de Analisis Fac-torial a los datos del ejemplo n�3. Los calculos estan contenidosen las pags 49 a 53 y la discusion de los aspectos mas destacableses la siguiente:

STATGRAPHICS sustituye la diagonal, formada por valores1, de la matriz de correlaciones [R] entre variables por unaestimacion de valores iniciales de las comunalidades para for-mar la matriz [Rs]. Estos valores iniciales: 0.9536; 0.9756;0.9688; 0.9615; 0.9216; 0.8390; 0.9162; 0.8991 son, precisa-mente, los valores de los coeficientes de determinacion R2 delas regresiones multiples que expresan cada variable en fun-cion de las 7 restantes (pag 49). A continuacion, calcula losvalores propios de la matriz sustituıda [Rs] y los porcentajesde variacion que correspondan a cada valor propio (pag 50).

Hemos optado por extraer dos factores que contienen un por-centaje de variabilidad acumulada del 90.94% ( pag 50). Lamatriz de cargas antes de la rotacion [L] esta recogida en latabla superior de la pag 51. Los dos factores extraıdos tienenlas siguientes expresiones:F1 = −0,7596CSR + 0,8431CSR − 0,9141PFC + 0,8746Basicidad − 0,8964M40+ 0,6465M10− 0,8081I20 + 0,5704I10.

F2 = 0,388522CSR − 0,4593CRI + 0,2719PFC − 0,3803Basicidad − 0,0462M40+ 0,6147M10− 0,5010I20 + 0,7362I10.

Los elementos �ij de la matriz de cargas [L] cumplen las siguientes rela-ciones:

��2ij sumada por filas da lugar a las respectivas comunalidades,

a saber, 0.727881; 0.921743; ...0.867323 segun aparecen en la pag 51 yde

��2ij sumanda por columnas resultan los dos valores propios mas

grandes (5.08817 y 1.75343).

Con objeto de interpretar mejor los factores, hemos procedido a rotarlos factores F1 y F2 segun los metodos Varimax y Quartimax con loque se han obtenido las dos nuevas matrices de carga rotadas (pags 51y 52). Con las notaciones, se aprecia un mayor grado de coincidenciade los ejes con las variables iniciales.

Page 48: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

48 Analisis multivariante aplicado a la investigacion

En la rotacion Varimax, los coeficientes de carga del factor F1 conCRI, Basicidad, PFC y CSR son muy elevados: -0.9541; -0.9347; 0.9050y 0.8451 por lo que definiremos a F1 como un factor ligado a la reac-tividad y a la basicidad de las cenizas. El factor F2, por el contra-rio, que tiene cargas altas: 0.9302; 0.8742 y 0.8736 respectivamente, conI10, I20 y M10 sera un factor asociado a la resistencia mecanica “enfrıo”. Observamos que la matriz de carga proporcionada por el metodoQuartimax es muy similar a la obtenida por el metodo Varimax por loque no reiteraremos la definicion de los factores F1 y F2 (pag 51).

En la pag 51 se aprecia que los valores de las comunalidades finalesestimadas permanecen constantes tras la rotacion: 0.727881; 0.921743;0.909592 etc. A partir de estos valores, aplicando Ψj = 1−Comunalidadpodemos obtener una estimacion de la varianza de los factores unicos:0.272; 0,078; 0.0904; etc.

Podemos comprobar que del producto de la matriz de cargas [L] porsu transpuesta [L]� resulta una matriz cuya diagonal esta formada porlas comunalidades.

Los factores F1 y F2 sin rotacion son casi ortogonales (r=-0.018 en lapag 53). Sin embargo, los factores rotados tanto con el metodo Varimax(r=-0.7619) como con el Quartimax (r=-0.7373) no son ortogonales(pag 53).

Page 49: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 49

Page 50: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

50 Analisis multivariante aplicado a la investigacion

���������������������������������

�������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������

����������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Scree Plot

Factor

Eig

en

va

lue

0 2 4 6 8

0

1

2

3

4

5

6

Page 51: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 51

Page 52: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

52 Analisis multivariante aplicado a la investigacion

Plot of Factor Loadings

Factor 1

Fa

cto

r 2 CSR

CRI

PFC

BASICIDAD

M40

M10

I20

I10

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1-1

-0.8-0.6-0.4-0.2

00.20.40.60.8

1

METODO CLASICO - SIN ROTACION -

Plot of Factor Loadings

Factor 1

Fa

cto

r 2

CSRCRI

PFC

BASICIDAD

M40

M10

I20

I10

METODO CLASICO - ROTACION VARIMAX -

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1-1

-0.8-0.6-0.4-0.2

00.20.40.60.8

1

Plot of Factor Loadings

Factor 1

Fa

cto

r 2

CSRCRI PFC

BASICIDAD

M40

M10

I20

I10

METODO CLASICO - ROTACION QUARTIMAX-

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1-1

-0.8-0.6-0.4-0.2

00.20.40.60.8

1

Page 53: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

Capıtulo 2. Analisis factorial 53

Page 54: Cap´ıtulo1 ANALISISDE´ COMPONENTES …alfonsotrigueros.com/.../uploads/2011/01/analisis_1_2.pdfCap´ıtulo1 ANALISISDE´ COMPONENTES PRINCIPALES ElAn´alisisdeComponentesPrincipalestransmitelainforma-ci´oncontenidasobre“n”individuosenunconjuntode“p

54 Analisis multivariante aplicado a la investigacion