Análisis de datos y Estadística Avanzada -...

20
Análisis de datos y Estadística Avanzada Máster Interuniversitario de Astrofísica UCM+UAM Tema 9: Análisis de componentes principales (PCA) Javier Gorgas y Nicolás Cardiel Departamento de Astrofísica y Ciencias de la Atmósfera Facultad de Ciencias Físicas Universidad Complutense de Madrid Tema 9: Análisis de componentes principales (PCA) Análisis de datos y Estadística Avanzada 1 Curso 2010/2011 1 / 52 Esquema 1 Introducción PCA dentro del análisis multivariante Objetivo del PCA 2 Cálculo de componentes principales Aproximación geométrica Aproximación algebraica Un ejemplo sencillo El problema del cambio de escala 3 Aplicación del PCA Reducción de la dimensionalidad ¿Cuántas componentes retener? Significado de las componentes principales Algunos ejemplos astrofísicos Tema 9: Análisis de componentes principales (PCA) Análisis de datos y Estadística Avanzada 2 Curso 2010/2011 2 / 52

Transcript of Análisis de datos y Estadística Avanzada -...

Análisis de datos y Estadística AvanzadaMáster Interuniversitario de Astrofísica UCM+UAM

Tema 9: Análisis de componentes principales (PCA)

Javier Gorgas y Nicolás CardielDepartamento de Astrofísica y Ciencias de la Atmósfera

Facultad de Ciencias Físicas

Universidad Complutense de Madrid

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 1Curso 2010/2011 1 / 52

Esquema

1 IntroducciónPCA dentro del análisis multivarianteObjetivo del PCA

2 Cálculo de componentes principalesAproximación geométricaAproximación algebraicaUn ejemplo sencilloEl problema del cambio de escala

3 Aplicación del PCAReducción de la dimensionalidad¿Cuántas componentes retener?Significado de las componentes principalesAlgunos ejemplos astrofísicos

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 2Curso 2010/2011 2 / 52

Introducción PCA dentro del análisis multivariante

Técnicas multivariantesConsideremos un conjunto de objetos sobre los que se mide una serie de propiedades dife-rentes. ¿Estudio óptimo? Uso de técnicas multivariantes, las cuales permiten realizar un análisissimultáneo de todos los objetos y sus propiedades (ver Tema 6).

propiedad #1 propiedad #2 . . . . . . propiedad #p

objeto #1 y11 y12 . . . . . . y1p

objeto #2 y21 y22 . . . . . . y2p

.

.

....

.

.

....

.

.

....

objeto #n yn1 yn2 . . . . . . ynp

¿Qué hacer?

8>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>:

Contrastes de hipótesis sobre la matriz de covarianza: testear correlación entre propiedades.

Análisis de componentes principales: bucar un conjunto reducido de combinaciones linealesde las variables que resuman la variación de los datos.

Análisis de factores: expresar las variables originales como un conjunto de funciones linealesde factores.

Análisis de agrupación: determinar agrupaciones entre datos (número de grupos inicialmentedesconocido).

Análisis de clasificación: ubicación de nuevos objetos en distintos grupos predefinidos.

Regresión lineal múltiple: determinar un modelo que prediga un conjunto de propiedades(variables dependientes) a partir de otro conjunto de propiedades (variables independientes).

Análisis discriminante: buscar la combinación lineal de las variables que mejor discrimine entrediferentes muestras de objetos.

. . .

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 3Curso 2010/2011 4 / 52

Introducción Objetivo del PCA

¡Simplificar para sobrevivir!El objetivo principal del análisis de componentes principales es reducirla dimensionalidad de un conjunto (muy) grande de datos.

Tradicionalmente los astrónomos tienden a representar los parámetros medidos uno frente a otro,tratando de inferir conclusiones a partir de las correlaciones observadas. Esta técnica es inviablecuando el número de parámetros representados es superior a 4 ó 5.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 4Curso 2010/2011 6 / 52

Introducción Objetivo del PCA

R permite, de forma trivial, representar todas los posibles diagramasde dispersión de un conjunto de datos multivariante con la ejecuciónde un único comando:> plot(airquality) ←−los datos están en el paquete base, cargado por defecto

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 5Curso 2010/2011 8 / 52

Cálculo de componentes principales Aproximación geométrica

Como ya vimos en su día, en el trabajo dentro del área del análisis multivariante resultaextremadamente útil utilizar álgebra matricial.

propiedad #1 propiedad #2 . . . . . . propiedad #p

objeto #1 y11 y12 . . . . . . y1p

objeto #2 y21 y22 . . . . . . y2p

......

......

......

objeto #i yi1 yi2 . . . . . . yip

......

......

......

objeto #n yn1 yn2 . . . . . . ynp

medias y1 y2 . . . . . . yp

Podemos definir y como un vector aleatorio con p variables (propiedades) medidas encada objeto. Si tenemos n objetos en la muestra, las observaciones pueden escribirsecomo y1, y2,. . . ,y

n, donde

yi=

0

BBB@

yi1

yi2...

yip

1

CCCA, Y =

0

BBB@

y�1y�2...

y�n

1

CCCA=

0

BBB@

y11 y12 . . . . . . y1p

y21 y22 . . . . . . y2p

......

......

...yn1 yn2 . . . . . . ynp

1

CCCA.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 6Curso 2010/2011 10 / 52

Cálculo de componentes principales Aproximación geométrica

Aproximación geométrica al problema

(Francis & Wills 1999)

Consideremos un conjunto de n observaciones y1, y2, . . . , yi, . . . , yn, que forman una nubede puntos en un espacio p-dimensional (como simplificación, podemos visualizarlo comoun elipsoide de puntos). Cada vector yi es un vector columna con p elementos.Si las p propiedades Y1,Y2, . . . ,Yp están correlacionadas, la distribución de puntos noestará orientada paralelamente a los ejes definidos por Y1,Y2, . . . ,Yp.A través del PCA vamos a determinar los “ejes naturales” de la distribución de puntos (i.e.,los ejes del elipsoide), cuyo origen se encuentra en y, el vector medio de y1, y2, . . . , y

n.

Esto se realiza restando y y calculando la rotación que minimice la suma de distancias alos ejes (maximice la proyección de los datos sobre los mismos ejes).

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 7Curso 2010/2011 11 / 52

Cálculo de componentes principales Aproximación geométrica

Aproximación geométrica al problema

Podemos rotar los ejes multiplicando cada vector p-dimensional yipor una matriz

ortogonal Azi = Ay

i.

Como A es ortogonal, A�A = I, la distancia al origen no cambia

z�izi = (Ay

i)�(Ay

i) = y�

iA�Ay

i= y�

iy

i,

y por ello zi = Ayies realmente una rotación.

Buscamos la matriz ortogonal A que nos proporcione unos nuevos parámetros(componentes principales) Z1,Z2, . . . ,Zp que no estén correlacionadas. Para ellonecesitamos que la matriz muestral de covarianzas de z, Sz, sea diagonal

Sz = ASA� =

0

BBBB@

s2z1

0 . . . 00 s

2z2

. . . 0...

......

0 0 . . . s2zp

1

CCCCA,

donde S es la matriz muestral de covarianzas de y.

Conclusión: El problema se reduce a encontrar A tal que diagonalice S.(Puede demostrarse que una matriz simétrica S puede ser diagonalizada empleando una ma-triz ortogonal que contenga los autovectores normalizados de S, y la matriz diagonal resultantecontiene los autovalores asociados.)

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 8Curso 2010/2011 12 / 52

Cálculo de componentes principales Aproximación geométrica

Aproximación geométrica al problema

La matriz ortogonal A que diagonaliza S puede escribirse como

A =

0

BBB@

a�1a�2...

a�p

1

CCCA,

donde ai son los autovectores de S que verifican a�iaj = δij (están normalizados y son

ortogonales).Las componentes principales son las nuevas variables Zi = a�

iy, por ejemplo

Z1 = a11Y1 + a12Y2 + . . . + a1pYp.

Los autovalores de S serán las varianzas muestrales de las componentes principales0

BBB@

λ1 0 . . . 00 λ2 . . . 0...

......

0 0 . . . λp

1

CCCA=

0

BBBB@

s2z1

0 . . . 00 s

2z2

. . . 0...

......

0 0 . . . s2zp

1

CCCCA,

siendo habitual ordenar las variables de forma que λ1 > λ2 > . . . > λp.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 9Curso 2010/2011 13 / 52

Cálculo de componentes principales Aproximación geométrica

Reducción de la dimensionalidad

Como los autovalores son varianzas de las componentes principales,podemos definir la proporción de varianza explicada por las primeras k

componentes mediante

Proporción de varianza =λ1 + λ2 + . . . + λk

λ1 + λ2 + . . . + λp

=λ1 + λ2 + . . . + λk�

p

j=1 sjj

Si los parámetros están muy correlacionados, la dimensionalidadefectiva es mucho menor que p. En este caso los primeros autovaloresson grandes y la proporción de varianza será próxima a 1 para valoresde k pequeños.

Si las correlaciones entre los parámetros originales son pequeñas, ladimensionalidad efectiva será próxima a p y los autovalores seránparecidos. En este caso las componentes principales esencialmenteduplicarán los parámetros originales y no se conseguirá reducir ladimensionalidad.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 10Curso 2010/2011 14 / 52

Cálculo de componentes principales Aproximación algebraica

Aproximación algebraica al problema

Otra forma de interpretar el PCA es como un método que permita encontrarcombinaciones lineales de variables con una varianza máxima. Por ejemplo, dado unconjunto de p parámetros Y1,Y2, . . . ,Yp, podemos buscar la dirección definida por elvector p-dimensional a en la que un nuevo parámetro definido como

Z = a1Y1 + a2Y2 + . . . + apYp = a�y,

presenta una varianza máxima.Si tenemos un conjunto de n objetos, la varianza muestral de Zi = a�y

i, con i = 1, . . . , n,

puede calcularse en función de S, la matriz muestral de covarianzas de y1, y2, . . . , yn, como

s2z

= a�Sa.

No es posible calcular un máximo para la expresión anterior porque su valor crece deforma indefinida para vectores a suficientemente grandes. Una forma de hacerlo esrestringir arbitrariamente (pero de forma razonable) el tamaño (norma) de a. Por ejemplo,suponiendo que es un vector unitario, i.e., a�a = 1.Podemos entonces buscar el máximo de s

2z

con la condición a�a = 1. Esto se hace usandola técnica de los multiplicadores de Lagrange a imponiendo que la derivada dea�Sa− λ(a�a− 1) sea igual a cero, lo que conduce a

(S− λI)a = 0 ⇔ Sa = λa

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 11Curso 2010/2011 16 / 52

Cálculo de componentes principales Aproximación algebraica

Aproximación algebraica al problema

El valor óptimo de a (que llamaremos a1) es la solución de

Sa = λa.

Es decir, a1 es el autovector asociado al autovalor λ1 de mayor tamaño.El segundo eje que maximiza la varianza debe ser perpendicular al primero ya calculado,por lo que tenemos una nueva restricción a�a1 = 0, por lo que la expresión a minimizar esahora a�Sa− λ2(a�a− 1)− µ2(a�a1), donde λ2 y µ2 son dos nuevos multiplicadores deLagrange. Tomando derivadas es fácil mostrar que µ2 = 0, por lo que la ecuación aresolver vuelve a ser

Sa = λa,

siendo λ2 el segundo autovalor más grande y a2 su autovector asociado.De forma similar se razona para el resto de los ejes a3, . . . , ap. Es decir, se obtiene elmismo resultado que ya vimos antes en la aproximación geométrica.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 12Curso 2010/2011 17 / 52

Cálculo de componentes principales Un ejemplo sencillo

Un ejemplo con MATLABConsideremos el siguiente conjunto de datos(n = 25 objetos y p = 2 parámetros)

y1 191 195 181 183 176 208 189 197 188 192 179 183 174y2 155 149 148 153 144 157 150 159 152 150 158 147 150

y1 190 188 163 195 186 181 175 192 174 176 197 190y2 159 151 137 155 153 145 140 154 143 139 167 163

» load datos.dat

» y1=datos(:,1);

» y2=datos(:,2);

» plot(y1,y2,’ro’);

» xlabel(’y1’);

» ylabel(’y2’);

» ymean=mean(datos);

y =

„185.7200151.1200

«

» S=cov(datos);

S =

„95.2933 52.868352.8683 54.3600

«

S es la matriz a diagonalizar.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 13Curso 2010/2011 20 / 52

Cálculo de componentes principales Un ejemplo sencillo

» [A,score,lambda,tsquare]=princomp(datos);

A =

„−0.8249 −0.5652−0.5652 0.8249

«λ =

„131.5183

18.1350

«

y los autovectores son

a1 =

„−0.8249−0.5652

«y a2 =

„−0.5652

0.8249

«

Las elipses tienen semiejes proporcionales ap

λ1 = 11.47 ypλ2 = 4.26 (calculadas como y1 ∝

pλ1 cos t, y2 ∝

pλ2 sin t, con

t ∈ [0, 2π], rotadas por A y con origen en y).

La proporción de varianza explicada por la primera componenteserá

Proporción de varianza =λ1

λ1 + λ2= 0.879 ∼ 88%

¿Significado de la primera componente?

Al ser el PCA una rotación de ejes, la primera componente princi-pal minimiza la suma cuadrática de distancias entre los puntos y ladirección principal (distancia perpendicular). Es, por tanto, equiva-lente a la regresión ortogonal (ver Tema 4). De hecho, la direcciónde la primera componente principal se encuentra ubicada entre laregresión ordinaria de y1 sobre y2 y la regresión ordinaria de y2sobre y1.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 14Curso 2010/2011 21 / 52

Cálculo de componentes principales Un ejemplo sencillo

El mismo ejemplo con RVolvemos a considerar el mismo conjunto de datos(n = 25 objetos y p = 2 parámetros)

y1 191 195 181 183 176 208 189 197 188 192 179 183 174y2 155 149 148 153 144 157 150 159 152 150 158 147 150

y1 190 188 163 195 186 181 175 192 174 176 197 190y2 159 151 137 155 153 145 140 154 143 139 167 163

PC1 PC2

modelo

Principal Components

Variances

020

4060

80100

120

> datos <- read.table(’datos.dat’,header=FALSE)

> modelo <- prcomp(datos)

> barplot(modelo$sdevˆ2,names.arg=c("PC1","PC2"),

+ xlab="Principal Components",

+ ylab="Variances",main="modelo")

> print(modelo)

Standard deviations:

[1] 11.468144 4.258521

Rotation:

PC1 PC2

V1 -0.8249295 -0.5652357

V2 -0.5652357 +0.8249295

> summary(modelo)

Importance of components:

PC1 PC2

Standard deviation 11.4681 4.2585

Proportion of Variance 0.8788 0.1212

Cumulative Proportion 0.8788 1.0000

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 15Curso 2010/2011 23 / 52

Cálculo de componentes principales El problema del cambio de escala

¡El PCA no es invariante de escala!

Dado que el PCA se basa en la diagonalización de la matriz muestral de covarianzas S, essensible a un cambio de escala en alguno de los parámetros Y. Por tanto, lascomponentes principales no son invariantes bajo cambios de escala.Siempre que sea posible, las variables bajo estudio deben expresarse en unidadescomparables.Si las variables tienen escalas muy distintas, pueden estandarizarse antes del cálculo dela componentes principales. Esto es equivalente a calcular las componentes principalesde la matriz muestral de correlación R.

Es importante resaltar que los resultados que se obtienen al calcular las componentesprincipales a partir de la matriz muestral de covarianzas S o a partir de la matriz muestralde correlación R son diferentes:

S =

0

BBB@

s11 s12 . . . s1p

s21 s22 . . . s2p

......

...sp1 sp2 . . . spp

1

CCCAvs. R =

0

BBB@

1 r12 . . . r1p

r21 1 . . . r2p

......

...rp1 rp2 . . . 1

1

CCCA,

donde R = D−1s

SD−1s

, con Ds = diag(√

s11,√

s22, . . . ,√

spp).

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 16Curso 2010/2011 25 / 52

Aplicación del PCA Reducción de la dimensionalidad

Utilidad del PCA

En algunas aplicaciones el PCA constituye un objetivo en sí mismo y es objetode interpretación.

Otras veces es simplemente una herramienta que permite reducir ladimensionalidad de un conjunto de datos que posteriormente puede ser objetode un análisis estadístico posterior.

Ejemplos de reducción de la dimensionalidad

Análisis de regresión: cuando el número de variales es muy grande comparadocon el número de observaciones (los tets pueden ser ineficientes o imposiblesde realizar).

Análisis de regresión: cuando las variables independientes están muycorrelacionadas (las estimaciones de los coeficientes de regresión soninestables).

Chequeo de normalidad multivariada, presencia de “outliers”,. . . (a través dediagramas de dispersión de las primeras dos componentes).

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 17Curso 2010/2011 27 / 52

Aplicación del PCA Reducción de la dimensionalidad

Detección de “outliers” (diagrama de dispersión)

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 18Curso 2010/2011 28 / 52

Aplicación del PCA Reducción de la dimensionalidad

Detección de “outliers” (primeras 2 componentes principales)

¡Los “outliers” no aparecen al examinar las cuatro variables por separado!

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 19Curso 2010/2011 29 / 52

Aplicación del PCA Reducción de la dimensionalidad

Detección de agrupaciones

Detección de 4 grupos en el estudio de 19 propiedades en 40 objetos. En este ejemplola proporción de varianza explicada por las dos primeras componentes es del 85%, porlo que la representación gráfica de z1 y z2 muestra la información existente en los datoscon poca distorsión.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 20Curso 2010/2011 30 / 52

Aplicación del PCA ¿Cuántas componentes retener?

Indicaciones generales

1 Retener suficientes componentes para garantizar un porcentaje predefinido de la varianzatotal, por ejemplo el 80%.

2 Retener aquellas componentes cuyos autovalores superen el promedio de todos losautovalores,

Pp

i=1 λi/p. Para la matriz de correlación este promedio es 1.0.3 Utilizar una representación gráfica de λi frente a i, y determinar el “codo” en el que se

produce la transición entre los autovalores grandes y los pequeños.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 21Curso 2010/2011 32 / 52

Aplicación del PCA ¿Cuántas componentes retener?

Indicaciones generales (continuación)

4 Utilizar tests de significación.

Un test preliminar que resulta útil es testear la completa independencia de las variables,por ejemplo en la matriz poblacional de covarianzas

H0 : Σ = diag(σ11, σ22, . . . , σpp),

o lo que es equivalente, en la matriz poblacional de correlación

H0 : Pρ = I.

En este caso, el estadístico definido por

u� = −[(n− 1)−

16(2p + 5)] ln(u),

dondeu =

|S|s11s22 . . . spp

= |R|,

sigue aproximadamente una distribución χ2f, con f = 1

2 p(p− 1).Se rechaza H0 si u

� > χ2α,f .

Si el test indica que las variables son independientes, no tiene sentido realizar un análisisde componentes principales.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 22Curso 2010/2011 33 / 52

Aplicación del PCA ¿Cuántas componentes retener?

Indicaciones generales (continuación)

4 Utilizar tests de significación.

Para testear la significación de las componentes principales, se realiza la hipótesis nula deque los últimos k autovalores son pequeños e iguales, H0k : γp−k+1 = γp−k+2 = . . . = γp,donde γ1, γ2, . . . , γp son los autovalores poblacionales, es decir, los autovalores de Σ.

Para testear H0k se calcula el promedio de los últimos k autovalores

λ =pX

i=p−k+1

λi

k,

y se calcula el estadístico

u =

„n−

2p + 116

« 0

@k ln(λ)−pX

i=p−k+1

ln(λi)

1

A ,

que sigue aproximadamente una distribución χ2ν , con ν = 1

2 (k − 1)(k + 2).Se rechaza H0 si u ≥ χ2

α,ν .

Normalmente se empieza con H02 : γp−1 = γp. Si se acepta, se sigue conH03 : γp−2 = γp−1 = γp, y se sigue testeando hasta que H0k se rechaza para algún valorde k.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 23Curso 2010/2011 34 / 52

Aplicación del PCA Significado de las componentes principales

¿Significado de las componentes?

Las componentes principales se obtienen por rotación de ejes en el espacio deparámetros, proporcionando unas nuevas variables que no estáncorrelacionadas y que reflejan las direcciones de máxima varianza. Estasdirecciones no tienen por qué tener una interpretación evidente.

Si las componentes resultantes no pueden interpretarse fácilmente, puedenrotarse buscando anular el mayor número de coeficientes de las combinacioneslineales para simplificar la intepretación. Sin embargo, las nuevas componentesrotadas volverán a estar correlacionadas y ya no suministrarán direcciones demáxima varianza (ya no serán componentes principales).

Cuando la interpretación de los datos sea el objetivo fundamental (y no lareducción de su dimensionalidad), el análisis de factores es una técnicaalternativa más útil.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 24Curso 2010/2011 36 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Stellar Spectral Classification. I. Application of ComponentAnalysis, T.J. Deeming (1963).

Utilización de 5 índices de intensidad de línea en 84 es-trellas gigantes de tipos espectrales G y K para la reali-zación de una clasificación espectral:

1 línea K de Ca II

2 banda CNλ42003 Mgb4 Hα

5 el triplete de Ca Iλ6102–6162)Se obtiene que λ1 es claramente mayor que λ2, λ3, λ4 yλ5. Como las estrellas se restringen a un intervalo enmagnitud absoluta, es razonable interpretar la primeracomponente (K1) como un parámetro indicativo del tipoespectral.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 25Curso 2010/2011 38 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Variations in spectral-energy distributions and absorption-linestrengths among elliptical galaxies, S.M. Faber (1973).

λ1, λ2, λ3 y λ4 son significativamente mayores que las varianzas esper-adas por los errores (Qi). Pero λ3 y λ4 son significativos sólo si los coloresde M31, M32 y NGC205 se incluyen. Como estos últimos son inciertos,entonces sólo parecen significativas las 2 primeras componentes.⇒ Sólo hacen falta dos parámetros para especificar completamente loscolores de las galaxias elípticas estudiadas.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 26Curso 2010/2011 39 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

The manifold of globular clusters, Brosche & Lentes (1984).

El número de parámetros significativos es p = 2(el tercer autovalor es sólo marginalmente signi-ficativo).No se detectan agrupaciones en el plano PC1,PC2.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 27Curso 2010/2011 40 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Analysis of synthetic galaxy spectra, Ronen, Aragón-Salamanca,& Lahav (1999).

Estudio de 1850 espectros simulados con PE-GASE, considerando brotes instantáneos queocurren a t = 0 y con edades comprendidas en-tre 0.01 y 18.5 Gaños.

← Ejemplos de espectros simulados para dife-rentes edades.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 28Curso 2010/2011 41 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Analysis of synthetic galaxy spectra, Ronen, Aragón-Salamanca,& Lahav (1999).

PC1: explica el 98.5% de la variación enlos espectros. Correlaciona el continuoazul con las absorciones de Balmer.

PC2: sólo explica el 0.9% de la variación,por lo que las características espectralesreconocibles (como la línea K del Ca) tansólo añaden información de segundoorden con respecto a PC1.

PC3: explica el 0.5% de la variación.Correlaciona las líneas de Balmer con lasabsorciones por debajo de 4000 Å.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 29Curso 2010/2011 42 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Analysis of synthetic galaxy spectra, Ronen, Aragón-Salamanca,& Lahav (1999).

La proyección de PC1 frente a la edad muestra elclaro enrojecimiento de las galaxias al hacerse és-tas más viejas.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 30Curso 2010/2011 43 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Analysis of synthetic galaxy spectra, Ronen, Aragón-Salamanca,& Lahav (1999).

Brote joven: espectros simulados con edadescomprendidas entre 0 y 14 Maños

PC1: explica el 99.5% de la variación enlos espectros. La información quecontiene es básicamente las líneas deemisión.

PC2: sólo explica el 0.7% de la variación,y se reduce de forma casi exclusiva a uncontinuo azul.

PC3: explica el 0.05% de la variación.Muestra la correlación entre líneas deabsorción y la disminución en el continuopor debajo de 4000 Å.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 31Curso 2010/2011 44 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Analysis of synthetic galaxy spectra, Ronen, Aragón-Salamanca,& Lahav (1999).

Brote joven: espectros simulados con edadescomprendidas entre 0 y 14 Maños

La proyección de PC1 y PC2 frente a la edadmuestra que las líneas de emisión dominan sólopara edades muy jóvenes, disminuyendo drástica-mente por encima de t = 6 Maños. PC2 indica quesin embargo el continuo tiene un máximo entre 3y 5 Maños después del brote, para caer brusca-mente en t = 8 Maños.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 32Curso 2010/2011 45 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Analysis of synthetic galaxy spectra, Ronen, Aragón-Salamanca,& Lahav (1999).

El efecto de la metalicidad

Simulación de espectros con distintas metali-cidades, y edades comprendidas entre 100 y1850 Maños.

PC1: explica el 96.41% de la variación enlos espectros. Alguna de las líneasmetálicas aparecen en “emisión” (e.g.NaD, Mgb, líneas de Fe). Son líneas deabosorción pero estánanticorrelacionadas con las absorcionesde Balmer y con los colores azules.

PC2: sólo explica el 2.03% de lavariación, y resulta muy diferente de loque vimos anteriormente parametalicidad solar constante (tenemosmayor varianza debido precisamente alos efectos de la metalicidad). En estecaso tenemos correlación positiva (mismosigno) para las absorciones metálicas(NaD, Mgb, Fe5015, Fe5782) y lasabsorciones de Balmer.

PC3: explica el 0.34% de la variación y esmás difícil de interpretar que en el casode metalicidad solar.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 33Curso 2010/2011 46 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Analysis of synthetic galaxy spectra, Ronen, Aragón-Salamanca,& Lahav (1999).

El efecto de la metalicidad

La proyección de PC1 frente a la edad para difer-entes metalicidades (Z = 0.1, 0.05, 0.02, 0.008y 0.004, de arriba a abajo). Como PC1 contieneun continuo azul, su valor disminuye (galaxias másrojas) a medidad que la edad aumenta. Sin em-bargo, en los modelos más metálicos se hacenmás azules de nuevo a partir de t = 14 Gaños.Esto se explica asumiendo que en este caso lasestrellas esquivan la fase AGB y se mueven rápi-damente a la rama horizonal azul debido a la exis-tencia de unos fuertes vientos estelares.

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 34Curso 2010/2011 47 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 35Curso 2010/2011 48 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 36Curso 2010/2011 49 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 37Curso 2010/2011 50 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 38Curso 2010/2011 51 / 52

Aplicación del PCA Algunos ejemplos astrofísicos

Referencias

Babu G.J., Feigelson E.D., 1996, Astrostatistics, Chapman & Hall, LondonBrosche P., Lentes F.-T., 1984, The manifold of globular clusters, A&A, 139, 474Deeming T.J., 1964, Stellar spectral classification, MNRAS, 127, 493Faber S.M., 1973, Variations in spectral-energy distributions and absorption-line strengthsamong elliptical galaxies, ApJ, 179, 731Francis P.J., Wills B.J., 1999, Introduction to Principal Components Analysis, ASPConference Series, 162, 363Rencher A.C., 2002, Methods of multivariate analysis, 2nd edition, John Wiley & SonsRonen S., Aragón-Salamanca A., Lahav O., 1999, Principal component analysis ofsynthetic galaxy spectra, MNRAS, 303, 284Wall J.V., Jenkins C.R., 2003, Practical statistics for astronomers, Cambridge UniversityPress

Página WEB de VOStat: http://vo.iucaa.ernet.in/~voi/VOStat.html

Tema 9: Análisis de componentes principales (PCA) (♣)Análisis de datos y Estadística Avanzada 39Curso 2010/2011 52 / 52