Capítulo VI

21
Análisis Multivariante I 1 Ing. Luis Alberto Sánchez Alvarado Universidad Nacional de Ingeniería 2014-II Componentes Principales

description

Componentes principales

Transcript of Capítulo VI

  • Anlisis Multivariante I

    1

    Ing. Luis Alberto Snchez Alvarado Universidad Nacional de Ingeniera

    2014-II

    Componentes Principales

  • Anlisis de Componentes Principales

    2

    6.1 Anlisis de Componentes Principales: Johnson define al anlisis de componentes principales como el estudio de la estructura de la matriz de varianza y covarianza de un conjunto de variables a travs de combinaciones lineales de stas. Si bien es cierto la variabilidad total de los datos se lograr al tomar todas las variables, en muchas ocasiones la mayor parte de esta variabilidad puede representarse con un pequeo conjunto de variables, este pequeo grupo de denomina Componentes Principales. Se puede plantear los siguientes objetivos para este tipo de anlisis:

    a) Interpretacin: Forma variables que no estn correlacionadas lo cual facilita su interpretacin.

    b) Reduccin de data: Al tomar los componentes principales se pasa de un espacio de p variables a un espacio de k nuevas variables, donde k

  • Anlisis Multivariante I

    3

    Luego al posicionarla las observaciones se tendr:

    Como se ve la mermelada Don Serafin se caracteriza por su buen sabor y aroma, la mermelada 3 es la que ms se acerca a ella no obstante est an muy alejada. La mermelada 4 tiene buena textura y color pero tiene un aroma y sabor malo, la mermelada 5 y 1 son similares pero son muy malas en todos los aspectos; todo lo mencionado nos indica que Don Serafin tiene un buen perfil sensorial y no presenta ningn riesgo competitivo.

  • Anlisis de Componentes Principales

    4

    6.2 Definicin operativa: Dado las variables las p variables aleatorias 1, 2, , ; con matriz de varianza y covarianza , se

    tendr que los componentes principales sern combinaciones lineales de estas variables originales que formarn un nuevo sistema de coordenadas cuyos ejes representan la direccin con mxima variabilidad. Estas combinaciones lineales son:

    Donde se cumple:

    Ejercicio 2: Demostrar la expresin:

    6.3 Interpretacin geomtrica: La interpretacin geomtrica puede partir de la idea de las observaciones como una nube de puntos que forman elipsoides, y que pueden seguir su orientacin siguiendo la direccin de los ejes; as los ejes principales de estas figuras corresponden a los componentes principales con centro de gravedad de la nube, recogiendo la mayor inercia o dispersin de las proyecciones de la nube original de los datos. El primer componentes hace mxima la dispersin de la nube de puntos proyectadas sobre l, el segundo hace mxima la inercia proyectada sobre l y no sobre el primero , puesto que son perpendiculares.

  • Anlisis Multivariante I

    5

    6.4 Algunas consideraciones Algebraicas: En el desarrollo del tema se usarn propiedades algebraicas de valores y vectores caractersticos como: a) La ecuacin de valor caracterstico:

    | | = 0 Esto para una matriz A n x n, la cual tiene n valores propios o caractersticos: 1, 2, , .

    Tambin se cumple: ( ) = 0 o lo que es lo mismo = ; donde x es un vector caractersticos, si es normalizado se cumplir: xx=1. b) Toda matriz simtrica tiene valores caractersticos reales y vectores caractersticos ortogonales. c) Si q(x) es la forma cuadrtica definida como xAx donde x= (x1, x2, , xp) y A es una matriz simtrica de constantes. Entonces,

    q

    x= 2x

    Ejercicio 3: Determinar los valores y vectores caractersticos normalizados de A:

    = (1 21 4

    )

    Ejercicio 4: Dada la matriz A, hallar los valores y vectores caractersticos normalizados y verificar si estos ltimos son ortogonales (propiedad b)

    = (5 33 5

    )

    6.5 Proceso iterativo de Maximizacin: De acuerdo a la definicin de componentes principales hecha en los puntos anteriores, se debe lograr que cada componente abarca la mayor cantidad de variabilidad posibles, siendo el primero de stos el que guarda la mayor varianza, para ello se debe maximizar los valores de a (en la grfica es L) ya que esto puede ampliar el valor de la varianza, luego para poner cierta restriccin haremos que a1a1=1 es decir sobre su mdulo; este mismo procedimiento se hace para el segundo componente pero ahora la restriccin se hace sobre a1a1=1 y luego sobre a2a2=1 y as sucesivamente; dado que es un proceso de maximizacin con restricciones los multiplicadores de Lagrange pueden usados en este punto . As el algoritmo a seguir es el siguiente:

  • Anlisis de Componentes Principales

    6

    Ejercicio 5: Determinar a que es igual el primer componente usando el proceso iterativo. 6.6 Propiedades de componentes principales: a) Los componentes son no correlacionados, dado que como se vio en la interpretacin geomtrica forman nuevos ejes los cuales son perpendiculares b) La correlacin entre una variable X un componente principal Y, es proporcional al coeficiente de esa variable en la definicin del componente y el cociente entre la desviacin del componente y la variable:

    , =

    c) Conservan la variabilidad inicial:

    1 + 2 + =() = 1 + 2+ =()

    =1

    =1

    d) La proporcin de varianza explicada por un componente es igual al cociente de su varianza (valor propio asociado a su vector caracterstico), sobre la suma de todos los valores propios. Esta claro que si se toma todos los componentes obtendremos el 100% de la varianza. Ejercicio 6: Demostrar que Cov(Yi,Yk)=0

  • Anlisis Multivariante I

    7

    Ejercicio 7: Demostrar:

    , =

    Ejercicio 8: Demostrar:

    1 + 2 + =() = 1 + 2+ =()

    =1

    =1

    6.7 Seleccin del nmero de componentes Existen varios criterios para la seleccin del nmero de componentes con los que se va a trabajar, lo que se recomienda por lo general comparar los resultados de diferentes criterios y usar uno de ello, esta decisin deber ir acompaado del conocimiento del investigador sobre el tema o problema estudiado. Entre los criterios ms usados se tiene: a) Mtodo de Inercia Total: Se seleccionan las p variables que explican el 100r% de la varianza explicada de la variabilidad total; en la prctica se busca tener por lo menos un 50%, aunque lo ms aconsejables es alrededor de 80%. b) Mtodo de Arcos: O tambin conocido con el nombre de grfico de sedimentacin y sirve para determinar el nmero ptimo de componentes, y consiste simplemente en una representacin grfica del tamao de los autovalores en forma descendente, formando un tipo de planicie, as el nmero ptimo de componentes lo determinar un punto de inflexin marcado, o donde se forma el primer arco. c) Mtodo de Inercia Promedio: Este criterio indica que se deben retener los componentes cuyos autovalores sean mayores que el valor promedio, por lo general suele tomarse los que estn por encima de la unidad; esto porque si las variables fueran estandarizadas la suma de varianzas de todas las variables seran igual a p, tambin se tendra que la suma de valores propios va a ser igual a p; por lo tanto el promedio sera igual a 1. Ejercicio 9: En el artculo Uso del mtodo de anlisis de componentes principales para la caracterizacin de fincas agropecuarias (Demey, Adams, Fretites se puede encontrar la publicacin en http://sian.inia.gob.ve/repositorio/revistas_ci/Agronomia%20Tropical/at4403/Arti/demey_j.htm); se seleccionan las siguientes 24 variables: sector donde est ubicada la finca (X1); superficie total de la finca (ha) (X3); superficie cultivada de arroz (ha) (X4); variedad utilizada en la siembra (X8); rendimiento en kg/ha (X9); preparacin del terreno (X10); fecha de siembra (X11), cmo se realiza la siembra (X12); fuente de nitrgeno (X13); dosis aplicada de nitrgeno (X14); fuente de fsforo (X15); dosis aplicada de fsforo (X16); fuente de potasio (X17); dosis aplicada de potasio (X18); forma de aplicacin de N-P-K (X19); limitaciones por plagas (X22); limitaciones por enfermedades (X24); limitaciones por malezas (X26); tipo de aplicacin de agroqumicos (X27), tipo de riego utilizado (X28); limitaciones: equipos y maquinarias (X29); limitaciones por cosechadora (X30);

    http://sian.inia.gob.ve/repositorio/revistas_ci/Agronomia%20Tropical/at4403/Arti/demey_j.htm
  • Anlisis de Componentes Principales

    8

    asistencia tcnica (X34); tipo de mano de obra utilizada (X39); del total de 41, consideradas como representativas de los diversos aspectos que caracterizan la produccin de arroz. Los resultados componentes que se tienen y sus respectivos autovalores son:

    Con esta informacin establezca cual sera el nmero ptimo de componentes a seleccionar, para ello se debe hacer uso de todos los criterios conocidos. Solucin: a) Criterio de Inercia Total: Este es una aplicacin real, por ello con un 50% est bien y es aceptable esto lo lograremos teniendo a 6 componentes como mnimo, en este punto es importante el costo beneficio de tomar un componte mas, as si deseamos tomar un componentes ms y nos puede ayudar a la interpretacin de los mismo lo podramos hacer; pero por el contrario si desearemos llegar al 80% deberamos pasar de 6 a 13 complicando mucho la interpretacin. Por ella nos quedamos con 6 o 7 componentes.

    Absoluta Acumulada

    1 5.98141 0.249226 0.24923

    2 2.01365 0.083902 0.33313

    3 1.51101 0.062959 0.39609

    4 1.28012 0.053338 0.44942

    5 1.17971 0.049154 0.49858

    6 1.12616 0.046923 0.5455

    7 1.06617 0.044424 0.58993

    8 0.97593 0.040664 0.63059

    9 0.91322 0.038051 0.66864

    10 0.85341 0.035559 0.7042

    11 0.83847 0.034936 0.73914

    12 0.77152 0.032147 0.77128

    13 0.76135 0.031723 0.80301

    14 0.71068 0.029612 0.83262

    15 0.67879 0.028283 0.8609

    16 0.63156 0.026315 0.88721

    17 0.50505 0.021044 0.90826

    18 0.4802 0.020008 0.92827

    19 0.42292 0.017622 0.94589

    20 0.38066 0.015861 0.96175

    21 0.35453 0.014772 0.97652

    22 0.2808 0.0117 0.98822

    23 0.18024 0.00751 0.99573

    24 0.10245 0.004269 1

    Proporcin de la Varianza Total

    Explicada

    Valor PropioComponentes

  • Anlisis Multivariante I

    9

    b) Mtodo de arcos: Para llegar al grfico colocamos los valores propios en orden descendente y los graficamos y luego comenzamos a trazar arcos basndonos en los puntos de inflexin, tal como se observa con este criterio se tendra que seleccionar 7 componentes.

    c) Mtodo de Inercia Promedio: El promedio de todos los valores propios es igual a 1, siguiendo el criterio debemos quedarnos con todos aquellos que estn por encima de este valor, al igual que el resto de criterios tendremos que seleccionar 7 componentes. Con los tres anlisis se concluy que se debe trabajar con 7 componentes, el paso final para validar esto ser que tan bien pueden ser interpretados y si tienen algn sentido para el investigador. 6.8 Uso de la matriz de Correlaciones para el clculo de componentes principales: De acuerdo al proceso de generacin de componentes principales se ha concluido que se tratar de explicar la mayor cantidad de variabilidad, teniendo que el primer componente explica la mayor cantidad de varianza, luego el segundo y as sucesivamente; al trabajar con la matriz de varianza y covarianza esto puede tener ciertos problemas si se trabajan con variables con diferentes escalas, ya que podra llevar a dar un peso grande a una variable slo por esta diferencias de escala. En estos casos se recomienda estandarizar las variables o en todo caso usar la matriz de correlaciones. Si las variables todas tienen las mismas escalas ambas alternativas (matriz de varianzas o la de correlaciones) se pueden usar. Finalmente Pea recomienda no estandarizar las variables si las diferencias de las variables son informativas, como por ejemplo plantea dos ndices con la misma base pero uno flucta mas que el otro es casi constante, en este caso si el investigador deseara conservar esta parte informtica de tal forma que el primer ndice tenga mayor peso deber no estandarizarse.

  • Anlisis de Componentes Principales

    10

    Ejercicio 10: Se tienen 4 variables las varianzas de cada una de ellas son:

    Variable Varianza

    X1 30

    X2 3000

    X3 40

    X4 100

    Con esta informacin, cul de las siguientes expresiones puede representar el primer componente principal: a) y1=0.25x1+0.25x2+0.25x3+0.25x4 b) y1=0.2x1+0.8x2+0.2x3+0.25x4 c) y1=0.9x1+0.1x2+0.9x3+0.2x4 Solucin: Dado que la segunda variable tiene la mayor varianza y est muy por encima del resto, x2 tendr el mayor peso tanto as que puede llegar a influir completamente sobre el primero componente. SI Se deseara evitar este problema se debera estandarizar las variables. 6.9 Supuestos para efectuar el anlisis de componentes principales: Si bien es cierto no existe supuestos para el anlisis de componentes principales, existen criterios que nos ayudan a justificar la eleccin de esta tcnica, estos van por el lado de uno de los objetivos del anlisis de componentes principales es decir formar nuevas variables las cuales deben ser no correlacionadas, por lo tanto si al inicio se ve que todas las variables son independientes entre si el anlisis no tendra razn de ser, ya que al procesar los componentes se tendr que estos sern los mismos que las variables iniciales. a) Determinante de la matriz de correlaciones b) Correlacin Parcial c) Prueba de esfericidad de Bartlett d) Medida de adecuacin muestral KMO Ejercicio 11: Determinante de la matriz de Correlaciones Uno de los primeros criterios a tomar en cuenta es el determinante de la matriz de correlaciones, tras observar los siguientes escenarios A qu valor deber tender el determinante para poder llevar a cabo el anlisis de componentes principales?

  • Anlisis Multivariante I

    11

    Solucin: En el primer caso se tiene un determinante es igual a 1, y tal como se puede apreciar en la matriz las variables son independientes, en este caso el anlisis no tendra sentido, en este caso las columnas son independientes. Luego en resto de casos el determinante va tendiendo a cero conforme las correlaciones entre las variables va aumentando. De todo ello concluimos que el anlisis ser adecuado cuando el determinante de la matriz de correlaciones tienda a cero. Ejercicio 12: Correlacin Parcial Se sabe que la correlacin parcial expresa el grado de relacin entre dos variables pero tras eliminar el efecto del resto de variables que participan en la investigacin. Para el anlisis de componentes principales este valor debe ser pequeo? Solucin: Nuevamente se recuerda el concepto del anlisis de componentes, las variables deben estar lo ms correlacionadas posibles es decir deben tener informacin en comn, por lo tanto podemos tomar el caso extremo el cual consiste que todas las variables comparten la misma cantidad de informacin (lo ideal para el anlisis) con esto quiere decir que si tomamos dos variables y le calculamos la correlacin parcial se tendr que ser igual a cero ya que est totalmente influenciado por el resto de variables. Por lo tanto siguiendo este criterio se tendr que la correlacin parcial debe ser lo ms pequeo posible. Ejercicio 13: Prueba de esfericidad de Bartlett Una prueba de esfericidad se usa para contrastar los supuestos de homogeneidad y no correlacin, si cumple ambos se dice que se cumple la esfericidad. La hiptesis nula para la prueba de esfericidad de Bartlett es la siguiente: = 2, usando el nivel de significancia se rechazara si Sig

  • Anlisis de Componentes Principales

    12

    Ejercicio 14: Medida de adecuacin muestral KMO Es un ndice que compara la magnitud de los coeficientes de correlacin observadas con la magnitud de los coeficientes de correlacin parcial:

    Donde rij es la correlacin simple entre i y j, rij.m son las correlaciones parciales de ij. Qu valor deber tener para que el anlisis sea justificable? Solucin: Del ejercicio anterior se ha dicho que los coeficientes de correlacin parcial deben ser lo ms pequeos posibles por lo tanto en la expresin podemos hacerlo tender a cero para que el anlisis sea factible, en este caso el KMO deber tender a 1. 6.10 Diferencias entre el anlisis de Componentes principales y el anlisis factorial: El anlisis Factorial busca factores que buscan explicar la mayor variabilidad comn, mientras que el anlisis de componentes principales busca explicar la mayor variabilidad total. En el Anlisis Factorial se distingue entre varianza comn y varianza nica. La varianza comn es la parte de la variacin de la variable que es compartida con las otras variables. La varianza nica es la parte de la variacin de la variable que es propia de esa variable. El Anlisis de Componentes Principales no hace esa distincin entre los dos tipos de varianza, se centra en la varianza total. Mientras que el Anlisis de Componentes Principales busca hallar combinaciones lineales de las variables originales que expliquen la mayor parte de la variacin total, el Anlisis Factorial pretende hallar un nuevo conjunto de variables, menor en nmero que las variables originales, que exprese lo que es comn a esas variables.

    6.9 Representacin de variables e individuos: Se puede representar las variables e individuos esto permitir el comportamiento de cada uno de los componentes, ver porque variables tan influenciadas y finalmente ver como las observaciones se relacionan con los componentes.

  • Anlisis Multivariante I

    13

    Ejercicio 15: Usando la base de datos Ejercicio15, llevar a cabo un anlisis completo de componentes principales, incluyendo la representacin de las variables e individuos. La base tiene informacin de 30 personas sobre evaluacin a 6 caractersticas de pastas dentales, los niveles socio econmicos incluidos en el anlisis son del ABCD. Solucin: Todo el anlisis se trabajar con el SPSS, lo primero ser seleccionar todas las variables a introducir en el anlisis, para ello se sigue la ruta: Anlisis>>Reduccin de dimensin>>Factor:

    Luego ir a la parte de descriptivos y seleccionar los criterios aprendidos con el fin de justificar el uso de este anlisis:

    En primer lugar se tiene la matriz de correlaciones, en ella se puede ver correlaciones altas (por encima de 0.5) lo que es el primer indicio para poder hacer un anlisis de componentes principales, tambin se puede ver en la parte inferior del grfico el valor del determinante que tiende a cero:

  • Anlisis de Componentes Principales

    14

    El segundo punto a analizar es el KMO, donde se plantea: La hiptesis nula para la prueba de esfericidad de Bartlett es la siguiente: = 2, si se observa el Sig. Se tiene que es igual a 0.0 lo que indica que la hiptesis nula se rechaza (existe correlaciones entre las variables).

    La matriz de la covarianza anti imagen contiene los negativos de las covarianza parciales y la de correlaciones anti imagen contiene las correlaciones parciales pero con signo cambiado; en la diagonal la matriz de correlaciones anti imagen se encuentran las medidas de adecuacin muestral para cada variable, por ello para que el anlisis sea factible los elementos de la diagonal deben ser cercanos a uno y el resto de elementos deben tender a cero, en este caso cumple.

  • Anlisis Multivariante I

    15

    El paso a seguir es ver el nmero de componentes a seleccionar, para ello se solicita el grfico de arcos:

  • Anlisis de Componentes Principales

    16

    Al observar el grfico se tiene que el primer arco se tiene con los dos primeros componentes.

    Luego por el mtodo de inercia promedio se tiene que tomar los componentes con valores propios mayores a uno, siguiendo este criterio nos debemos quedar con los dos primeros, luego por la inercia total se tiene que con los dos primeros se logra explicar un 82% valor que es muy aceptable. Por lo tanto de los resultados de todos los criterios se puede tomar los dos primeros.

  • Anlisis Multivariante I

    17

    Lo que toca en este punto es comenzar a revisar los resultados, lo primero que se analizar es cuadro de comunalidades, la comunalidad es la proporcin de la varianza de una variable que puede ser explicada por el modelo obtenido; en el caso de componentes principales las comunalidades. Este cuadro nos puede dar una idea para ver que variables pueden ser mejor explicadas y cules no de tal manera de poder ver si se debera retirar algunas variables sin importancia. Por ejemplo en el cuadro se aprecia que la variable que se logra explicar mejor es Importante comprar una pasta de dientes . Con un 0.926.

    El segundo punto es revisar la matriz de componentes, en ella se encontrar las correlacione de las variables con los componentes seleccionados; en este caso se aprecia que el primer componente est muy correlacionado con las variables v1, v3, v5, todas ellas relacionados con la Salud, por lo tanto podramos asignar el nombre de Preocupacin por la salud dental; en cambio para el segundo componentes las variables que ms correlacionan con l son la v2, v4, v6 todas ellas relacionadas con la esttica, as se le puede asignar el nombre de Preocupacin por la esttica dental.

  • Anlisis de Componentes Principales

    18

    Hasta el momento ya se ha logrado colocar nombres a los dos componentes seleccionados, el siguiente paso es poder una grfica de las variables, esto se construye con los valores de la matriz de componentes, en SPSS tiene el nombre de grfico de saturaciones:

  • Anlisis Multivariante I

    19

    SPSS tambin da la opcin de obtener las puntuaciones de los componentes para cada uno de los registros, para ello se debe solicitar los coeficientes:

    Por lo tanto las ecuaciones para el primer componente ser:

    1 = 0.3401 0.112 + 0.3433 0.1254 + 0.3185 0.0656 El SPSS da la opcin de calcular estas puntuaciones para cada individuo pero para ello estandariza cada una de las variables previamente y luego aplica la ecuacin mostrada anteriormente. Luego se puede realizar un grfico de individuos para ver su relacin con cada uno de los componentes, esto en base a las puntuaciones factoriales y usando un grfico de dispersin:

  • Anlisis de Componentes Principales

    20

    A partir del grfico se puede llegar a conclusiones como por ejemplo, las personas del NSE AB prefieren las pastas dentales que cuidan ms la esttica (pastas que por lo general tienen un mayor precio y no est al alcance de las personas con menos recursos), las personas del NSE C se preocupan por la salud, y las del NSE D no les importa ni la salud ni la esttica lo nico que les interesa es tener una pasta dental. 6.11 Uso del anlisis de componentes principales para la ubicacin de outliers: La tcnica de componentes principales puede ser usada para la identificacin de outliers, puede considerarse a esta forma de ubicar outliers como multivariada debido a que cada componente traer informacin de las variables del estudio. El procedimiento es bastante simple, slo se deber hacer el clculo de los componentes y luego hacer grficos de dispersin con el fin de ubicar puntos que se alejen de la nube puntos para luego as ser catalogados como atpicos multivariados. 6.12 Uso del anlisis de componentes principales para analizar la normalidad de los datos

    Para demostrar esto nos vamos a valer de: xNp(,) si y slo si cualquier combinacin lineal aX

    Np(a,aa).Por ello tendremos que demostrar que los componentes se distribuyen o no con una distribucin normal usando cualquiera de los mtodos univariados. 6.13 Componentes principales como predictores de la matriz de datos: Se puede reconstruir la matriz de datos X (nxp) de manera aproximada a partir de los q (q

  • Anlisis Multivariante I

    21

    Verificacin.- Se sabe que:

    u=kXv (i)

    premultiplicando (i) por u , sabiendo adems que, es el valor caracterstico asociado a V se obtiene:

    1k (ii)

    Reemplazando (ii) en (i):

    '' uuXuv (iii)

    Xuv

    ' (iv)

    Como q 1, entonces, (p-q) 0. Por lo tanto,

    q

    uvX

    '