Anlisis de datos y Estad­stica Avanzada - webs.ucm. (Puede demostrarse que una matriz...

download Anlisis de datos y Estad­stica Avanzada - webs.ucm. (Puede demostrarse que una matriz sim©trica

of 20

  • date post

    13-Oct-2018
  • Category

    Documents

  • view

    212
  • download

    0

Embed Size (px)

Transcript of Anlisis de datos y Estad­stica Avanzada - webs.ucm. (Puede demostrarse que una matriz...

  • Anlisis de datos y Estadstica AvanzadaMster Interuniversitario de Astrofsica UCM+UAM

    Tema 9: Anlisis de componentes principales (PCA)

    Javier Gorgas y Nicols CardielDepartamento de Astrofsica y Ciencias de la Atmsfera

    Facultad de Ciencias Fsicas

    Universidad Complutense de Madrid

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 1Curso 2010/2011 1 / 52

    Esquema

    1 IntroduccinPCA dentro del anlisis multivarianteObjetivo del PCA

    2 Clculo de componentes principalesAproximacin geomtricaAproximacin algebraicaUn ejemplo sencilloEl problema del cambio de escala

    3 Aplicacin del PCAReduccin de la dimensionalidadCuntas componentes retener?Significado de las componentes principalesAlgunos ejemplos astrofsicos

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 2Curso 2010/2011 2 / 52

  • Introduccin PCA dentro del anlisis multivariante

    Tcnicas multivariantesConsideremos un conjunto de objetos sobre los que se mide una serie de propiedades dife-rentes. Estudio ptimo? Uso de tcnicas multivariantes, las cuales permiten realizar un anlisissimultneo de todos los objetos y sus propiedades (ver Tema 6).

    propiedad #1 propiedad #2 . . . . . . propiedad #pobjeto #1 y11 y12 . . . . . . y1pobjeto #2 y21 y22 . . . . . . y2p

    .

    .

    ....

    .

    .

    ....

    .

    .

    ....

    objeto #n yn1 yn2 . . . . . . ynp

    Qu hacer?

    8>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>:

    Contrastes de hiptesis sobre la matriz de covarianza: testear correlacin entre propiedades.

    Anlisis de componentes principales: bucar un conjunto reducido de combinaciones linealesde las variables que resuman la variacin de los datos.

    Anlisis de factores: expresar las variables originales como un conjunto de funciones linealesde factores.

    Anlisis de agrupacin: determinar agrupaciones entre datos (nmero de grupos inicialmentedesconocido).

    Anlisis de clasificacin: ubicacin de nuevos objetos en distintos grupos predefinidos.

    Regresin lineal mltiple: determinar un modelo que prediga un conjunto de propiedades(variables dependientes) a partir de otro conjunto de propiedades (variables independientes).

    Anlisis discriminante: buscar la combinacin lineal de las variables que mejor discrimine entrediferentes muestras de objetos.

    . . .

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 3Curso 2010/2011 4 / 52

    Introduccin Objetivo del PCA

    Simplificar para sobrevivir!El objetivo principal del anlisis de componentes principales es reducirla dimensionalidad de un conjunto (muy) grande de datos.

    Tradicionalmente los astrnomos tienden a representar los parmetros medidos uno frente a otro,tratando de inferir conclusiones a partir de las correlaciones observadas. Esta tcnica es inviablecuando el nmero de parmetros representados es superior a 4 5.

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 4Curso 2010/2011 6 / 52

  • Introduccin Objetivo del PCA

    R permite, de forma trivial, representar todas los posibles diagramasde dispersin de un conjunto de datos multivariante con la ejecucinde un nico comando:> plot(airquality) los datos estn en el paquete base, cargado por defecto

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 5Curso 2010/2011 8 / 52

    Clculo de componentes principales Aproximacin geomtrica

    Como ya vimos en su da, en el trabajo dentro del rea del anlisis multivariante resultaextremadamente til utilizar lgebra matricial.

    propiedad #1 propiedad #2 . . . . . . propiedad #pobjeto #1 y11 y12 . . . . . . y1pobjeto #2 y21 y22 . . . . . . y2p

    ......

    ......

    ......

    objeto #i yi1 yi2 . . . . . . yip...

    ......

    ......

    ...objeto #n yn1 yn2 . . . . . . ynpmedias y1 y2 . . . . . . yp

    Podemos definir y como un vector aleatorio con p variables (propiedades) medidas encada objeto. Si tenemos n objetos en la muestra, las observaciones pueden escribirsecomo y1, y2,. . . ,yn, donde

    yi=

    0

    BBB@

    yi1

    yi2...

    yip

    1

    CCCA, Y =

    0

    BBB@

    y1y2...

    yn

    1

    CCCA=

    0

    BBB@

    y11 y12 . . . . . . y1py21 y22 . . . . . . y2p...

    ......

    ......

    yn1 yn2 . . . . . . ynp

    1

    CCCA.

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 6Curso 2010/2011 10 / 52

  • Clculo de componentes principales Aproximacin geomtrica

    Aproximacin geomtrica al problema

    (Francis & Wills 1999)

    Consideremos un conjunto de n observaciones y1, y2, . . . , yi, . . . , yn, que forman una nubede puntos en un espacio p-dimensional (como simplificacin, podemos visualizarlo comoun elipsoide de puntos). Cada vector yi es un vector columna con p elementos.Si las p propiedades Y1,Y2, . . . ,Yp estn correlacionadas, la distribucin de puntos noestar orientada paralelamente a los ejes definidos por Y1,Y2, . . . ,Yp.A travs del PCA vamos a determinar los ejes naturales de la distribucin de puntos (i.e.,los ejes del elipsoide), cuyo origen se encuentra en y, el vector medio de y1, y2, . . . , yn.Esto se realiza restando y y calculando la rotacin que minimice la suma de distancias alos ejes (maximice la proyeccin de los datos sobre los mismos ejes).

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 7Curso 2010/2011 11 / 52

    Clculo de componentes principales Aproximacin geomtrica

    Aproximacin geomtrica al problema

    Podemos rotar los ejes multiplicando cada vector p-dimensional yipor una matriz

    ortogonal Azi = Ayi.

    Como A es ortogonal, AA = I, la distancia al origen no cambia

    zizi = (Ayi)

    (Ayi) = y

    iAAy

    i= y

    iy

    i,

    y por ello zi = Ayi es realmente una rotacin.Buscamos la matriz ortogonal A que nos proporcione unos nuevos parmetros(componentes principales) Z1,Z2, . . . ,Zp que no estn correlacionadas. Para ellonecesitamos que la matriz muestral de covarianzas de z, Sz, sea diagonal

    Sz = ASA =

    0

    BBBB@

    s2z1

    0 . . . 00 s2

    z2. . . 0

    ......

    ...0 0 . . . s2

    zp

    1

    CCCCA,

    donde S es la matriz muestral de covarianzas de y.

    Conclusin: El problema se reduce a encontrar A tal que diagonalice S.(Puede demostrarse que una matriz simtrica S puede ser diagonalizada empleando una ma-triz ortogonal que contenga los autovectores normalizados de S, y la matriz diagonal resultantecontiene los autovalores asociados.)

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 8Curso 2010/2011 12 / 52

  • Clculo de componentes principales Aproximacin geomtrica

    Aproximacin geomtrica al problema

    La matriz ortogonal A que diagonaliza S puede escribirse como

    A =

    0

    BBB@

    a1a2...

    ap

    1

    CCCA,

    donde ai son los autovectores de S que verifican ai aj = ij (estn normalizados y sonortogonales).Las componentes principales son las nuevas variables Zi = ai y, por ejemplo

    Z1 = a11Y1 + a12Y2 + . . . + a1pYp.

    Los autovalores de S sern las varianzas muestrales de las componentes principales0

    BBB@

    1 0 . . . 00 2 . . . 0...

    ......

    0 0 . . . p

    1

    CCCA=

    0

    BBBB@

    s2z1

    0 . . . 00 s2

    z2. . . 0

    ......

    ...0 0 . . . s2

    zp

    1

    CCCCA,

    siendo habitual ordenar las variables de forma que 1 > 2 > . . . > p.

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 9Curso 2010/2011 13 / 52

    Clculo de componentes principales Aproximacin geomtrica

    Reduccin de la dimensionalidad

    Como los autovalores son varianzas de las componentes principales,podemos definir la proporcin de varianza explicada por las primeras kcomponentes mediante

    Proporcin de varianza =1 + 2 + . . . + k1 + 2 + . . . + p

    =1 + 2 + . . . + k

    p

    j=1 sjj

    Si los parmetros estn muy correlacionados, la dimensionalidadefectiva es mucho menor que p. En este caso los primeros autovaloresson grandes y la proporcin de varianza ser prxima a 1 para valoresde k pequeos.

    Si las correlaciones entre los parmetros originales son pequeas, ladimensionalidad efectiva ser prxima a p y los autovalores sernparecidos. En este caso las componentes principales esencialmenteduplicarn los parmetros originales y no se conseguir reducir ladimensionalidad.

    Tema 9: Anlisis de componentes principales (PCA) ()Anlisis de datos y Estadstica Avanzada 10Curso 2010/2011 14 / 52

  • Clculo de componentes principales Aproximacin algebraica

    Aproximacin algebraica al problema

    Otra forma de interpretar el PCA es como un mtodo que permita encontrarcombinaciones lineales de variables con una varianza mxima. Por ejemplo, dado unconjunto de p parmetros Y1,Y2, . . . ,Yp, podemos buscar la direccin definida por elvector p-dimensional a en la que un nuevo parmetro definido como

    Z = a1Y1 + a2Y2 + . . . + apYp = ay,

    presenta una varianza mxima.Si tenemos un conjunto de n objetos, la varianza muestral de Zi = ayi, con i = 1, . . . , n,puede calcularse en funcin de S, la matriz muestral de covarianzas de y1, y2, . . . , yn, como

    s2z

    = aSa.

    No es posible calcular un mximo para la expresin anterior porque su valor crece deforma indefinida para vectores a suficientemente grandes. Una forma