Post on 09-Nov-2015
description
UNIVERSIDAD NACIONAL DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio
Problema 2 Los datos representan una muestra de 41 ciudades del Per en las que se midieron diferentes variables relacionadas con la contaminacin atmosfrica.
SO2 Temperatura Empresas Poblacin Viento Precipitacin Das
Iquitos 10,00 70,30 213,00 582,00 6,00 7,05 36,00
Sicuani 13,00 61,00 91,00 132,00 8,20 48,52 100,00
Hunuco 12,00 56,70 453,00 716,00 8,70 20,66 67,00
Trujillo 17,00 51,90 454,00 515,00 9,00 12,95 86,00
Chiclayo 56,00 49,10 412,00 158,00 9,00 43,37 127,00
Paita 36,00 54,00 80,00 80,00 9,00 40,25 114,00
Pucallpa 29,00 57,30 434,00 757,00 9,30 38,89 111,00
Cusco 14,00 68,40 136,00 529,00 8,80 54,47 116,00
Huancayo 10,00 75,50 207,00 335,00 9,00 59,80 128,00
Chimbote 24,00 61,50 368,00 497,00 9,10 48,34 115,00
Lima 110,00 50,60 3344,00 3369,00 10,40 34,44 122,00
Tacna 28,00 52,30 361,00 746,00 9,70 38,74 121,00
Sullana 17,00 49,00 104,00 201,00 11,20 30,85 103,00
Juliaca 8,00 56,60 125,00 277,00 12,70 30,58 82,00
Ica 30,00 55,60 291,00 593,00 8,30 43,11 123,00
Cajamarca 9,00 68,30 204,00 361,00 8,40 56,77 113,00
Chincha 47,00 55,00 625,00 905,00 9,60 41,31 111,00
Arequipa 35,00 49,90 1064,00 1513,00 10,10 30,96 129,00
Tumbes 29,00 43,50 699,00 744,00 10,60 25,94 137,00
Ayacucho 14,00 54,50 381,00 507,00 10,00 37,00 99,00
Puno 56,00 55,90 775,00 622,00 9,50 35,89 105,00
Tarapoto 14,00 51,50 181,00 347,00 10,90 30,18 98,00
Huaraz 11,00 56,80 46,00 244,00 8,90 7,77 58,00
Talara 46,00 47,60 44,00 116,00 8,80 33,36 135,00
Huaral 11,00 47,10 391,00 463,00 12,40 36,11 166,00
Jan 23,00 54,00 462,00 453,00 7,10 39,04 132,00
Pasco 65,00 49,70 1007,00 751,00 10,90 34,99 155,00
Chulucanas 26,00 51,50 266,00 540,00 8,60 37,01 134,00
Piura 69,00 54,60 1692,00 1950,00 9,60 39,93 115,00
Catacaos 61,00 50,40 347,00 520,00 9,40 36,22 147,00
Moyobamba 94,00 50,00 343,00 179,00 10,60 42,75 125,00
Lambayeque 10,00 61,60 337,00 624,00 9,20 49,10 105,00
Yurimaguas 18,00 59,40 275,00 448,00 7,90 46,00 119,00
Barranca 9,00 66,20 641,00 844,00 10,90 35,94 78,00
Callao 10,00 68,90 721,00 1233,00 10,80 48,19 103,00
Tarma 28,00 51,00 137,00 176,00 8,70 15,17 89,00
Ilo 31,00 59,30 96,00 308,00 10,60 44,68 116,00
Huacho 26,00 57,80 197,00 299,00 7,60 42,59 115,00
Abancay 29,00 51,10 379,00 531,00 9,40 38,79 164,00
UNIVERSIDAD NACIONAL DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio
Sihuas 31,00 55,20 35,00 71,00 6,50 40,75 148,00
Tingo Mara 16,00 45,70 569,00 717,00 11,80 29,07 123,00
Las variables son:
Contenido en SO2 (xido de azufre, llamado dixido de azufre) Temperatura anual en grados F. Nmero de empresas mayores de 20 trabajadores. Poblacin (en miles de habitantes). Velocidad media del viento. Precipitacin anual media. Das lluviosos al ao. Interesa investigar la relacin entre la concentracin en SO2 y el resto de variables, (para
eliminar relaciones entre las variables se emplea un anlisis de componentes principales). a.- Realizar anlisis de componente principales sobre todas las variables salvo SO2. b.- Realizar grficas descriptivas exploratorias. Y observar los datos anmalos (outliers). c.- Realizar la prueba de esfericidad de Barlett.
d.- Realizar grficos de componentes. Solucin:
Se realiza un anlisis de componentes principales sobre todas las variables salvo SO2.
Anlisis de Componentes Principales (con SPSS)
El objetivo del Anlisis de Componentes Principales es identificar a partir de un conjunto de p variables, otro conjunto de k (k Reduccin de Datos (Data Reduction) -> Factor
UNIVERSIDAD NACIONAL DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio
Aparece el cuadro de dialog siguiente: Al cuadro de variables se pasan las seis variables de las que
se est interesado investigar la relacin entre la concentracin en SO2.
A continuacin se ingresa a descriptivos y se marca las siguientes estadsticas.
UNIVERSIDAD NACIONAL DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio
Luego clic en Extraccin:
Finalmente:
UNIVERSIDAD NACIONAL DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio
Obtenindose los siguientes resultados:
1.- La tabla representa las medias y desviaciones estndar de cada variable:
2.- Se calcula la matriz de correlaciones con la significacin de cada componente. Se obtienen los
componentes principales a partir de la matriz de correlaciones para emplear las mismas escalas en todas las variables.
Estadsticos descriptivos
55,763 7,2277 41
463,10 563,474 41
608,61 579,113 41
9,44 1,429 41
36,7690 11,77155 41
113,90 26,506 41
Neg.Temp
Empresas
Poblacin
Viento
Precip
Das
Media
Desv iacin
tpica N del anlisis
UNIVERSIDAD NACIONAL DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio
Para que se pueda realizar el Anlisis de Componentes Principales, es necesario que las variables presenten factores comunes. Es decir, que estn muy correlacionadas entre s. Los coeficientes de la matriz de correlaciones deben ser grandes en valor absoluto.
3.- Test de esfericidad de Barlett: Para comprobar que las correlaciones entre las variables son distintas de cero de modo significativo, se comprueba si el determinante de la matriz es distinto de uno, es decir, si la matriz de correlaciones es distinta de la matriz identidad. Si las variables estn correlacionadas hay muchos valores altos en valor absoluto fuera de la diagonal principal de la matriz de correlaciones, adems, el determinante es menor que 1 (el
mximo valor del determinante es 1 si las variables estn incorrelacionadas). El test de Barlett realiza el contraste: H0: |R| = 1 H1: |R| 1
El determinante de la matriz da una idea de la correlacin generalizada entre todas las variables. Se basa el test en la distribucin chi-cuadrado donde valores altos llevan a rechazar H0, as, la prueba de esfericidad de Bartlett contrasta si la matriz de correlaciones es una matriz identidad, que indicara que el modelo factorial es inadecuado. Por otro lado, la medida de la adecuacin muestral de Kaiser-Meyer-Olkin contrasta si las correlaciones parciales entre las variables son pequeas:
Matriz de correlacionesa
1,000 -,190 -,063 -,350 ,386 -,430
-,190 1,000 ,955 ,238 -,032 ,132
-,063 ,955 1,000 ,213 -,026 ,042
-,350 ,238 ,213 1,000 -,013 ,164
,386 -,032 -,026 -,013 1,000 ,496
-,430 ,132 ,042 ,164 ,496 1,000
,117 ,349 ,012 ,006 ,002
,117 ,000 ,067 ,420 ,206
,349 ,000 ,091 ,436 ,397
,012 ,067 ,091 ,468 ,153
,006 ,420 ,436 ,468 ,000
,002 ,206 ,397 ,153 ,000
Neg.Temp
Empresas
Poblacin
Viento
Precip
Das
Neg.Temp
Empresas
Poblacin
Viento
Precip
Das
Correlacin
Sig. (Unilateral)
Neg.Temp Empresas Poblacin Viento Precip Das
Determinante = ,014a.
UNIVERSIDAD NACIONAL DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio
4.- La comunalidad asociada a la variable j-sima es la proporcin de variabilidad de dicha variable
explicada por los k factores considerados. Equivale a la suma de la fila j-sima de la matriz factorial. Sera igual a 0 si los factores comunes no explicaran nada la variabilidad de una variable, y sera igual a 1 si quedase totalmente explicada.
5.- Varianza Total Explicada. Se utiliza para determinar cuntos factores deben retenerse. Los primeros tres componentes tienen todos varianzas (autovalores) mayores que 1 y entre los tres
recogen el 84.846% de la varianza de las variables originales.
KMO y prueba de Bartlett
,365
159,231
15
,000
Medida de adecuacin muestral de
Kaiser-Meyer-Olkin.
Chi-cuadrado
aproximado
gl
Sig.
Prueba de esf ericidad
de Bartlet t
Comunalidades
1,000 ,892
1,000 ,968
1,000 ,979
1,000 ,424
1,000 ,941
1,000 ,888
Neg.Temp
Empresas
Poblacin
Viento
Precip
Das
Inicial Extraccin
Mtodo de extraccin: Anlisis de Componentes principales.
Varianza total explicada
2,196 36,603 36,603 2,196 36,603 36,603
1,500 24,999 61,602 1,500 24,999 61,602
1,395 23,244 84,846 1,395 23,244 84,846
,760 12,670 97,516
,115 1,910 99,426
,034 ,574 100,000
Componente
1
2
3
4
5
6
Total
% de la
varianza % acumulado Total
% de la
varianza % acumulado
Autov alores iniciales
Sumas de las saturaciones al cuadrado
de la extraccin
Mtodo de extraccin: Anlisis de Componentes principales.
UNIVERSIDAD NACIONAL DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio
Grfico de la varianza asociada a cada factor. Se utiliza para determinar cuntos factores deben retenerse. Tpicamente el grfico muestra la clara ruptura entre la pronunciada pendiente de los factores ms importantes y el descenso gradual de los restantes (los sedimentos). Otra opcin es usar el criterio de Kaiser: consiste en conservar aquellos factores cuyo autovalor asociado sea mayor que 1.
6.- Matriz de Componentes El primer componente se le podra etiquetar como calidad de vida con valores negativos altos en empresas y poblacin indicando un entorno relativamente pobre. El segundo componente se puede etiquetar como tiempo hmedo, y tiene pesos altos en las variables precipitaciones y das. El tercer componente se podra etiquetar como tipo de clima y est relacionado con la temperatura y la
cantidad de lluvia. Aunque no se encontrasen etiquetas claras para los componentes, siempre es interesante calcular componentes principales para descubrir si los datos se encuentran en una dimensin menor; de hecho, los tres primeros componentes producen un mapa de los datos donde las distancias entre los puntos es bastante semejante a la observada en los mismos respecto a las variables originales.
1,00 2,00 3,00 4,00 5,00 6,00
Nmero de componentes
0,00
0,50
1,00
1,50
2,00
Au
tova
lore
s
Grfico de sedimentacin
UNIVERSIDAD NACIONAL DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERA ESTADSTICA - FIECS Prof. Lic. Nel Quezada Lucio
7.- Matriz de correlaciones estimada a partir de la solucin factorial. Tambin se muestran las correlaciones residuales (la diferencia entre la correlacin observada y la reproducida). Correlaciones reproducidas
Neg. Temp
Empresas Poblacin Viento Precio Das
Correlacin reproducida
Neg.Temp ,892(b) -,155 -,048 -,560 ,383 -,395
Empresas -,155 ,968(b) ,965 ,329 -,020 ,106
Poblacin -,048 ,965 ,979(b) ,260 -,013 ,020
Viento -,560 ,329 ,260 ,424(b) -,119 ,362
Precip ,383 -,020 -,013 -,119 ,941(b) ,574
Das -,395 ,106 ,020 ,362 ,574 ,888(b)
Residual(a) Neg.Temp -,035 -,015 ,210 ,003 -,035
Empresas -,035 -,010 -,091 -,013 ,026
Poblacin -,015 -,010 -,047 -,013 ,022
Viento ,210 -,091 -,047 ,106 -,198
Precip ,003 -,013 -,013 ,106 -,078
Das -,035 ,026 ,022 -,198 -,078
Mtodo de extraccin: Anlisis de Componentes principales. a Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 5 (33,0%) residuales no redundantes con valores absolutos mayores que 0,05. b Comunalidades reproducidas
Matriz de componentesa
-,489 -,156 ,793
,906 -,206 ,322
,856 -,272 ,414
,524 ,160 -,351
-,060 ,763 ,596
,353 ,867 -,110
Neg.Temp
Empresas
Poblacin
Viento
Precip
Das
1 2 3
Componente
Mtodo de extraccin: Anlisis de componentes principales.
3 componentes extradosa.