Tema 1 Análisis exploratorio de datos multivariantes
Transcript of Tema 1 Análisis exploratorio de datos multivariantes
Tema 1Analisis exploratorio de datos multivariantes
Jose R. Berrendero
Departamento de MatematicasUniversidad Autonoma de Madrid
Gorriones
I Tras una fuerte tormenta en febrero de 1898, un grupo degorriones moribundos fueron llevados a la Universidad Brown(Rhode Island).
I Alrededor de la mitad de los gorriones murieron. Se considerola situacion como una oportunidad de estudiar el efecto de laseleccion natural sobre los pajaros.
I Se tomaron diversas medidas morfologicas, de las que seincluyen 5 en el fichero.
Variables
Nombre variable Descripcion
TOT Longitud totalALA Extension de las alasCAB Longitud del pico y la cabezaHUM Longitud del humeroEST Longitud del esternon
Observaciones:
I Todas las variables se miden en mm.
I El fichero contiene datos de 49 gorriones.
I Los 21 primeros gorriones fueron los supervivientes.
Problemas de interes relacionados con estos datos
I ¿Estan las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?
I ¿Hay diferencias significativas entre las observacionescorrespondientes a los supervivientes y a los que nosobrevivieron?
I Si la respuesta es afirmativa, ¿es posible construir una funcionde las variables que separe bien los dos grupos?
I ¿Es posible reducir la dimension de los datos sin perder muchainformacion?
Temario
I Analisis exploratorio de datos multivariantesI Descripcion numericaI Descripcion grafica
I Tecnicas de analisis discriminanteI Discriminacion lineal de Fisher
I Tecnicas de agrupacionI Metodos jerarquicosI Metodos por division
I Tecnicas de reduccion de la dimensionI Analisis de componentes principalesI Analisis factorial
Bibliografıa basica
I Johnson, R.A. y Wichern, D.W. (1992). Applied MultivariateStatistical Analysis. Prentice–Hall.
I Lattin, J.M., Carroll, J.D. y Green, P.E. (2003). Analyzingmultivariate data. Thomson Brooks/Cole.
I Pena, D. (2002). Analisis de datos multivariantes. McGrawHill.
Una bibliografıa mas amplia puede encontrarse en el programa dela pagina web de la asignatura
Lirios
Codigo DescripcionCLASS Especie
SL Longitud del sepaloSW Anchura del sepaloPL Longitud del petaloPW Anchura del petalo
CLASS PL PW SL SWsetosa 5.1 3.5 1.4 0.2
versicolor 7 3.2 4.7 1.4virginica 6.3 3.3 6 2.5
En total hay 50 lirios de cada especie (es decir, la matriz de datoses 150× 4, si no tenemos en cuenta la variable que indica elnombre de la especie)
Problemas de interes relacionados con estos datos
I ¿Estan las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?
I ¿Hay diferencias significativas entre las observacionescorrespondientes a cada una de las especies?
I Si la respuesta es afirmativa, ¿es posible construir una funcionde las variables que separe bien los tres grupos?
I ¿Es posible reducir la dimension de los datos sin perder muchainformacion?
Liga espanola de futbol 2005-2006Text2 1 / 1
May 26, 2006 Crimson Editor
Equipo G P GF GCBarcelona 25 6 80 35
RMadrid 20 8 70 40Valencia 19 7 58 33Osasuna 21 12 49 43Sevilla 20 10 54 39
Celta 20 14 45 33Villarreal 14 9 50 39Deportivo 15 13 47 45
Getafe 15 14 54 49AtMadrid 13 12 45 37Zaragoza 10 12 46 51
AthBilbao 11 15 40 46Mallorca 10 15 37 51
Betis 10 16 34 51Espanyol 10 17 36 56
RSociedad 11 20 48 65Racing 9 16 36 49Alavés 9 17 35 54Cádiz 8 18 36 52
Málaga 5 24 36 68
Variables
Nombre variable Descripcion
Equipo Nombre del equipoG Numero de partidos ganadosP Numero de partidos perdidosGF Goles a favorGC Goles en contra
Observaciones:
I El numero de partidos empatados y el numero de puntos sehan omitido puesto que son variables redundantes.
Problemas de interes relacionados con estos datos
I ¿Estan las variables relacionadas? Al variar una, ¿como varıanlos valores de las otras?
I ¿Existen datos atıpicos?
I ¿Es razonable suponer un modelo normal multivariante?
I ¿Es posible reducir la dimension de los datos sin perder muchainformacion?
I ¿Se pueden establecer grupos homogeneos de equipos?
Descripcion univariante: longitud del sepalo
Frecuencias
Estadísticos
SL
1500
5,8435,800,8281,6857
4,37,9
5,1005,8006,400
VálidosPerdidos
N
MediaMedianaDesv. típ.VarianzaMínimoMáximo
255075
Percentiles
Página 1
Gráfico
8,07,06,05,04,0
sl
25
20
15
10
5
0
Frecuencia
Media =5,843Desviación típica=0,8281N =150
&[PageTitle]
Página 1
Descripcion univariante: anchura del sepalo
Estadísticos
SW
1500
3,0543,000,4336,1880
2,04,4
2,8003,0003,300
VálidosPerdidos
N
MediaMedianaDesv. típ.VarianzaMínimoMáximo
255075
Percentiles
Página 1
4,54,03,53,02,52,0
sw
40
30
20
10
0
Frecuencia
Media =3,054Desviación típica=0,4336N =150
&[PageTitle]
Página 1
Interpretacion de la covarianza
Dimensiones del sepalo: covarianza y correlacion
Covarianzas
Longitud del sepalo Anchura del sepaloLongitud del sepalo 0.68569351 -0.04243400Anchura del sepalo -0.04243400 0.18997942
Correlaciones
Longitud del sepalo Anchura del sepaloLongitud del sepalo 1.0000000 -0.1175698Anchura del sepalo -0.1175698 1.0000000
Dimensiones del sepalo: diagrama de dispersionGráfico
4,54,03,53,02,52,0
sw
8,0
7,0
6,0
5,0
4,0
sl
&[PageTitle]
Página 1
Diagrama de cajas
4. Distancia de Mahalanobis: D2(x, x) = (x − x)′S−1(x − x). Se utiliza como herramientade clasificacion y para detectar observaciones atıpicas. Puede considerarse como una version“modificada” de la distancia euclıdea (x− x)′(x− x) que incorpora la informacion que da S.
5. Muestra y poblacion. La distribucion normal: En muchos casos es razonable suponer quelos datos son el resultado de extraer una muestra de una poblacion infinita o, expresado en otrosterminos, constituyen una muestra de observaciones independientes de una variable aleatoria(v.a.) x. Recordemos algunas propiedades de las v.a. p-dimensionales: Si a ∈ Rp entoncesE(a′x) = a′µ, V (a′x) = a′Σa, donde E(.) y V (.) denotan, respectivamente, la media y varianza“poblacionales” y µ y Σ representan el vector de medias y la matriz de covarianza poblacionalesde x. Analogamente, si A es una matriz m × p, el vector de medias (poblacionales) de Ax esAµ y la matriz de covarianzas poblacional de Ax es AΣA′.
Para motivar mejor algunas tecnicas de analisis de datos, y tambien para deducir muchaspropiedades teoricas interesantes, se supone frecuentemente que la variable x tiene distribucionnormal. Esta distribucion queda totalmente especificada por los valores de µ y Σ.
Diagrama de cajas Diagrama de estrellas
6. Algunos graficos: • Diagrama de cajas: Ver figura. • Diagrama de estrellas: Paracada dato p-variante se dibuja una estrella de p puntas o brazos. La longitud de cada brazode la estrella se determina a partir del valor, previamente “reescalado” de la correspondientevariable. Por ejemplo, se puede reescalar cada variable de manera que su valor maximo sobrelos n individuos sea 1 y el mınimo sea 0.
• Diagrama de dispersion: “Matriz de diagramas” obtenida al representar los datos comopuntos en el plano, considerando solo dos variables (para todos los posibles pares de variables).
2
Dimensiones del sepalo: diagrama de cajas
setosa versicolor virginica
4.5
6.0
7.5
Longitud del sepalo por especies
setosa versicolor virginica
2.0
3.0
4.0
Ancho del sepalo por especies
Dimensiones del sepalo de la especie setosa
2.5 3.0 3.5 4.0
4.5
5.0
5.5
Especie "Setosa"
Ancho del sepalo
Long
itud
del s
epal
o
Lirios: matriz de diagramas de dispersion
Longitud.Sepalo
2.0 3.0 4.0 0.5 1.5 2.5
4.5
5.5
6.5
7.5
2.0
3.0
4.0
Ancho.Sepalo
Longitud.Petalo
12
34
56
7
4.5 5.5 6.5 7.5
0.5
1.5
2.5
1 2 3 4 5 6 7
Ancho.Petalo
Lirios: matriz de diagramas de dispersion
longitud del sepalo
2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5
4.5
5.5
6.5
7.5
2.0
3.0
4.0 anchura del sepalo
longitud del petalo
12
34
56
7
4.5 5.5 6.5 7.5
0.5
1.5
2.5
1 2 3 4 5 6 7
anchura del petalo
Lirios: grafico de estrellas
AS
LS
AP
LP
Lirios: matrices de covarianzas y de correlaciones
Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo
Longitud.Sepalo 0.68569351 -0.04243400 1.2743154 0.5162707
Ancho.Sepalo -0.04243400 0.18997942 -0.3296564 -0.1216394
Longitud.Petalo 1.27431544 -0.32965638 3.1162779 1.2956094
Ancho.Petalo 0.51627069 -0.12163937 1.2956094 0.5810063
Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo
Longitud.Sepalo 1.0000000 -0.1175698 0.8717538 0.8179411
Ancho.Sepalo -0.1175698 1.0000000 -0.4284401 -0.3661259
Longitud.Petalo 0.8717538 -0.4284401 1.0000000 0.9628654
Ancho.Petalo 0.8179411 -0.3661259 0.9628654 1.0000000
Futbol: Matriz de diagramas de dispersion
G
10 15 20
●
●●
●● ●
●●●
●
●●●●●
●
●●●
●
●
●●
●●●
●● ●
●
●●
●●●●
●●●
●
35 45 55 65
510
1520
25●
●●
●●●
●● ●
●
●●
●● ●●
● ●●
●
1015
20
●
●●
●
●
●
●
●●
●●
●●●●
●
●●
●
●
P
●
●●
●
●
●
●
●●
●●
●●●
●
●
●●●
●
●
●●
●
●
●
●
●●
● ●
● ●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●●●●
●
●●●●
●
●
●
●
●
●
●●
●
●●
●●
●●
●
●●● ●
GF
4050
6070
80●
●
●
●
●
●
●●
●
● ●
●●●
●
●
● ●● ●
5 10 15 20 25
3545
5565
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
40 50 60 70 80
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
GC
Futbol: Graficos de estrellas
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16
17 18 19 20
G
P
GF
GC
Futbol: Medidas descriptivas numericas
Estadísticos descriptivos
13,750 5,3986 2013,750 4,4824 2046,800 12,1508 2046,800 9,7581 20
GPGFGC
MediaDesviación
típica N
Correlaciones
1 -,812 ,839 -,793. ,000 ,000 ,000
20 20 20 20-,812 1 -,776 ,878,000 . ,000 ,000
20 20 20 20,839 -,776 1 -,577,000 ,000 . ,008
20 20 20 20-,793 ,878 -,577 1,000 ,000 ,008 .
20 20 20 20
Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)N
G
P
GF
GC
G P GF GC
Página 1
Lirios: distancias de Mahalanobis
Distancias de Mahalanobis
Frec
uenc
ias
0 2 4 6 8 10 12 14
0.00
0.10
0.20
0 2 4 6 8 10 12
Normal univariante: densidad
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
x
y2
¿Cual de las tres corresponde a la normal estandar?
Normal multivariante: densidad
−2
−1
0
1
2
−2
−1
0
1
20
1
2
3
4
5
6
Densidad de la normal multivariante
µ = (0, 0)′ y Σ =
(1 00 1
)
−2
−1
0
1
2
−2
−1
0
1
20
1
2
3
4
5
6
7
µ = (0, 0)′ y Σ =
(1 0.8
0.8 1
)
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−2
−1
0
1
20
0.5
1
1.5
2
2.5
3
3.5
4
µ = (0, 0)′ y Σ =
(1 −0.8−0.8 1
)
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2
−2
−1
0
1
20
0.5
1
1.5
2
2.5
3
3.5
4
Ejemplos de datos normales bidimensionales
−5 0 5
−6
−2
02
4
−4 −2 0 2 4
−4
−2
02
4
−4 −2 0 2 4
−3
−1
01
23
−2 −1 0 1 2
−2
−1
01
Σ =
(1 00 1
)Σ =
(1 0.7
0.7 1
)Σ =
(10 00 1
)Σ =
(5 00 1
)
Distancias de Mahalanobis para datos normales
−2 −1 0 1 2
−2−1
01
0 2 4 6 8
0.00
0.10
0.20
0.30
−2 −1 0 1 2
−3−1
01
23
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
Distancias de Mahalanobis para datos normales
Estadısticos descriptivos para D2i en el segundo ejemplo:
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.007255 0.565100 1.314000 1.980000 2.710000 9.735000
Desviacion tipica: 1.920563
Comparacion con la densidad χ2:
0 2 4 6 8 10
0.0
0.1
0.2
0.3
0.4
Futbol: distancias de Mahalanobis
Hist. MahalanobisFr
eque
ncy
0 2 4 6 8 10 12
02
46
0 2 4 6 8 10
Cajas Mahalanobis
I La forma del histograma coincide con lo que se espera bajonormalidad (distribucion χ2)
I La distancia de Mahalanobis media es 3.8 y la varianza de lasdistancias es 9.03
I La mayor distancia es 10.90 y corresponde al Celta.
I La menor distancia es 0.22 y corresponde al Deportivo