Laboratorio de Análisis de Componentes Principales en R_parte1

11
Análisis Multivariante 2014 - I 1 LABORATORIO DE ANÁLISIS DE COMPONENTES PRINCIPALES EN R – Parte I COMO ABRIR EL PORTABLE DEL SOFTWARE R: Se trabajará con una versión portable R – 3.0.1, para esto sólo se debe copiar el archivo a la pc y listo. Luego ingresar a la carpeta del portable, bin, i386 y finalmente en esta carpeta abrir el archivo “Rgui”. USO DE LIBRERÍA EXTERNAS: En esta parte se usará dos librerías las cuales tienen el nombre de “cluster”,”corpcor”, y “gclus”, para poder ingresar o cargarlas en la portable hacer los siguientes pasos: Packages>>Install package(s) from local zip files. Luego indicar la ruta donde se ha descargado las librerías:

description

Laboratorio de Análisis de Componentes Principales en R_parte1

Transcript of Laboratorio de Análisis de Componentes Principales en R_parte1

  • Anlisis Multivariante 2014 - I

    1

    LABORATORIO DE ANLISIS DE COMPONENTES PRINCIPALES EN R Parte I COMO ABRIR EL PORTABLE DEL SOFTWARE R: Se trabajar con una versin portable R 3.0.1, para esto slo se debe copiar el archivo a la pc y listo. Luego ingresar a la carpeta del portable, bin, i386 y finalmente en esta carpeta abrir el archivo Rgui.

    USO DE LIBRERA EXTERNAS: En esta parte se usar dos libreras las cuales tienen el nombre de cluster,corpcor, y gclus, para poder ingresar o cargarlas en la portable hacer los siguientes pasos: Packages>>Install package(s) from local zip files.

    Luego indicar la ruta donde se ha descargado las libreras:

  • Anlisis Multivariante 2014 - I

    2

    Tras hacer esto aparecer un mensaje el cual nos indica que la batera ya ha sido cargada y almacenada en el portable. DESCRIPCIN DE LA DATA A USAR: Se usar la data USArrest, la cual es una base datos propia del software R, contiene informacin sobre estadsticas sobre arrestos por cada 100 000 por asaltos, asesinatos y violacin en cada uno de los 50 estados en Estados Unidos en el ao 1973. Adems se ha dado el porcentaje de la poblacin que vive en zonas urbanas. As las variables que se tienen son: [,1] Murder: Nmero arrestos por asesinato por cada 100 000 habitantes. [,2] Assault: Nmero arrestos por asalto por cada 100 000 habitantes. [,3] UrbanPop: Porcentaje de poblacin urbana. [,4] Rape: Nmero arrestos por violacin por cada 100 000 habitantes. CARGANDO LA BASE DE DATOS: La base de datos en este caso est dentro del R por lo que la sentencia para cargar la base de datos ser: Esta sentencia lo que hace es asignar la base de datos USArrest al objeto x, si se desea ver el contenido del objeto se usa: As automticamente se mostrar todo el contenido de la base de datos que se tiene almacenada, en este ejemplo tenemos los estados y luego cada una de las 4 variables descritas.

    x

  • Anlisis Multivariante 2014 - I

    3

    Para tener una idea de cada una de las variables, se puede pedir un resumen de los principales descriptivos: Para este caso los resultados son:

    ANLISIS DE LA CORRELACIN DE LAS VARIABLES: Para poder llevar a cabo el anlisis de componentes principales es necesario que las variables estn correlacionadas, por ello debemos primero hacer un anlisis exploratorio la manera ms fcil es observando la matriz de correlaciones, para ello se usa: La sentencia anterior lo que hace es crear la matriz de Correlaciones la cual la hemos denominado R, el mtodo para calcular la correlacin es el de Pearson y los resultados estn siendo redondeados a 2 decimales.

    summary(x)

    R

  • Anlisis Multivariante 2014 - I

    4

    Los resultados que se obtienen son:

    La idea es tener correlaciones altas para justificar el uso de la tcnica, as valores por encima de 0.5 y por debajo de -0.5 podran indicarnos que la tcnica podra aplicarse. En este caso se aprecia que si tenemos pares de variables que cumplen con esta condicin. Una forma de hacer esto en una forma ms digerible es mediante un grfico matricial vistos en las primeras clases del curso, pero en esta ocasin le agregaremos un detalle que nos ayude a determinar si es posible el anlisis de componentes principales, pintaremos cada regin de la matriz de tal manera que nos indique en qu casos tenemos correlaciones elevadas o no.

    library(gclus) data

  • Anlisis Multivariante 2014 - I

    5

    OTROS CRITERIOS PARA JUSTIFICAR EL USO DE LOS COMPONENTES PRINCIPALES: a) Determinante de la matriz de correlaciones: Para que el anlisis de componentes principales sea justificable el determinante debe ser pequeo y cercano a 1, tal como se ha visto en la clase de teora. Para obtener el valor del determinante se usar la siguiente sentencia: En la sentencia anterior se est creando el objeto Determinante, el cual ser el determinante de la matriz de correlaciones R la cual ya se haba creado en pasos previos. b) Correlaciones Parciales: Las correlacione parciales deben ser lo ms pequeas posibles. En las sentencias anteriores se invoca a la librera corpcor y luego creamos un objeto denominado cor_parciales_R que contendr las correlaciones parciales de la matriz de correlaciones R. Los resultados son:

    c) Prueba de Esfericidad de Bartlett: La hiptesis nula para la prueba de esfericidad de Bartlett es la siguiente: = 2, usando el nivel de significancia se rechazara si Sig

  • Anlisis Multivariante 2014 - I

    6

    Para su implementacin en R usaremos funciones, para ello abrir un SCRIPT, (Archivo>>Nuevo script)

    Luego se abrir el script:

    Pegar las sentencias en la parte del script

  • Anlisis Multivariante 2014 - I

    7

    La sintaxis que se ha pegado es la siguiente:

    Luego seleccionar la sintaxis y hacer clic en RUN LINE: Al hacer ello aparecer las sentencias compiladas en color rojo indicando que el proceso fue correcto:

    Luego se pide el resultado del KMO:

    library(corpcor) kmo.test

  • Anlisis Multivariante 2014 - I

    8

    El resultado obtenido es:

    De acuerdo al criterio del KMO, est por encima de 0.5 lo que nos seala que es factible realizar el anlisis de componentes principales. CLCULO DE LOS COMPONENTES PRINCIPALES: Para el clculo de los componentes principales se puede usar tanto la matriz de varianzas y covarianzas como la matriz de correlaciones. Para la base USArrest se calcular los componentes principales usando ambas matrices y ver la diferencia de los resultados, as deberemos calcular los 4 componentes. a) Usando la matriz de varianza y covarianza: - Primero se calcular la matriz de varianza y covarianza: Los resultados para este caso son:

    - Se calculan los valores propios o auto valores: La sentencia indica que se crea el objeto autovalores el cual contiene los valores propios y vectores propios de la matriz de varianza y covarianza S la cual ya ha sido creada anteriormente. Los resultados obtenidos son:

    S

  • Anlisis Multivariante 2014 - I

    9

    El primer vector propio es:

    El segundo:

    Y as sucesivamente, a partir de estos resultados podemos indicar que los componentes principales sern:

    As:

    1 = 0.041 0.995 0.046 0.0751 2 = 0.044 + 0.058 0.977 0.200 3 = 0.079 0.067 0.200 + 0.97 4 = 0.99 0.038 + 0.05 0.072

    Ahora se calcular los componentes principales pero para la matriz de correlacin: - Se calculan los valores propios:

    autovaloresR

  • Anlisis Multivariante 2014 - I

    10

    Los resultados obtenidos son:

    Los componentes principales para este caso seran:

    1 = 0.53 + 0.58 + 0.27 + 0.54 2 = 0.41 + 0.18 0.87 0.16 3 = 0.35 0.24 0.38 + 0.81 4 = 0.63 0.74 + 0.12 + 0.1

    Al comparar ambos resultados se nota que son diferentes, esto se debe a que en la matriz de varianza y covarianza existe mucha diferencia entre la variabilidad que tienen las variables por ello es razonable que la primera componente se vea influenciada por nmero de arrestos por asaltos, Por qu? En cambio con la matriz de correlaciones este efecto es eliminado y se puede ver el efecto de todas las variables en conjunto. VARIABILIDAD EXPLICACA POR LOS COMPONENTES: La varianza de cada uno de los componentes viene dada por la divisin del respectivo valor propio con la de la suma de todos los valores propios: Las sentencias lo que hacen es lo siguiente: se crea un objeto denominado suma la cual tendr la suma de todos los autovalores (recuerden que este objeto tiene dos componentes : values y vectors, por ello se usa el signo de $ para solo tomar los autovalores); luego dividimos a este vector entre la suma de tal forma que resulte el porcentaje de varianza que representa cada componente:

    suma

  • Anlisis Multivariante 2014 - I

    11

    Se aprecia que tomando slo el primer componente se logra explicar el 62% de la variabilidad y tomando ya el segundo se llega a 86% aproximadamente, por lo tanto en base a este criterio sera bueno tomar los dos primeros componentes. GRFICO DE SEDIMENTACIN: Nos ayudar a ver la cantidad de componentes los cuales se debern usar en el anlisis, para ello slo se realizar un grfico de lneas de los valores propios de la matriz de Correlaciones: La sentencia construye un grfico con los valores propios de la martriz de correlacin, le pone como ttulo Grfico de sedimentacin y lo pinta de color azul, as mismo al eje X le pone como ttulo Nmero de autovalores y al eje Y Valor de autovalor. El grfico que resulta es:

    plot(autovaloresR$values,type="o",col="red",main="Grfico de sedimentacion",col.main="blue",xlab="Numero de Autovalores",ylab="Valor del autovalor")