“ANÁLISIS CLUSTER” Estudio de Caso: 14-1.sav
UNIVERSIDAD GALILEO
FACULTAD DE CIENCIA, TECNOLOGÍA E INDUSTRIA
DOCTORADO EN ADMINISTRACIÓN CON ESPECIALIDAD
EN FINANZAS
ARQ. ALVARO COUTIÑO G. Carnet 1300-4393
“ANÁLISIS CLUSTER”
1
Contenido INTRODUCCIÓN .............................................................................................................................. 2
1. INFORMACIÓN CASO DE ESTUDIO ..................................................................................... 3
2. ANÁLISIS ................................................................................................................................... 3
2.1. DECRIPTIVOS ....................................................................................................................... 3
2.1.1. Estadísticos descriptivos ..................................................................................................... 3
2.1.2. Estadísticos descriptivos ..................................................................................................... 4
3. Gráfico de dispersión .................................................................................................................. 4
4. Correlaciones: ............................................................................................................................. 5
A. ANÁLISIS JERARQUICO DE CONGLOMERADOS......................................................... 5
5. Conglomerado ............................................................................................................................. 6
5.1. Resumen del procesamiento de los casos ................................................................................ 6
6. Vinculación promedio (inter-grupos) .......................................................................................... 7
6.1. Historial de conglomeración ................................................................................................... 7
6.2. Conglomerado de pertenencia ................................................................................................. 8
6.3. Dendograma: ........................................................................................................................... 9
B. ANÁLISIS NO JERÁRQUICO DE CONGLOMERADOS: .............................................. 10
7. Análisis de conglomerados y K-medias .................................................................................... 10
7.1. Centros iniciales de los conglomerados ................................................................................ 10
7.2. Historial de relaciones ........................................................................................................... 10
7.3. Pertenencia a los conglomerados .......................................................................................... 10
7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en excel) ........................... 11
7.4. Centros de los conglomerados finales ................................................................................... 11
7.5. Distancias entre los centros de los conglomerados finales .................................................... 12
7.6. ANOVA ................................................................................................................................ 12
7.7. Número de casos en cada conglomerado .............................................................................. 12
8. CONCLUSIONES: ................................................................................................................... 12
9. BIBLIOGRAFÍA ....................................................................................................................... 13
“ANÁLISIS CLUSTER”
2
INTRODUCCIÓN
El análisis clúster es un conjunto de técnicas multivariante utilizadas para clasificar a un
conjunto de individuos en grupos homogéneos. Por lo tanto, se utiliza la información de
una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la
similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos
internamente y diferentes entre sí. La "nueva dimensión" lograda con el clúster se
aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis.
En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto,
el análisis un marcado carácter exploratorio y de agrupación.
En el campo de los bienes raíces y construcción, es de utilidad cuando la empresa desea
clasificar a sus consumidores en tipos según sus distintas percepciones de determinados
atributos del proyecto: Calidad, precio, servicios, especificaciones, entorno, acceso,
distancias a puntos estratégicos de conveniencia, áreas de la ciudad, zonas, niveles de
violencia, entre otras. Para ello, se diseña una muestra con 100 clientes a los que se
cuestiona sobre su percepción, en una escala de intervalos, de las anteriores características
de los productos de la empresa. El resultado final consiste en diseñar diferentes estrategias
de promoción en función de sus diversos perfiles.
En el siguiente análisis, se procede a realizar un estudio de caso mediante el análisis
clúster, el cual está dividido en el proceso de análisis, resultados, conceptos y conclusiones.
“ANÁLISIS CLUSTER”
3
1. INFORMACIÓN CASO DE ESTUDIO
1. Con la técnica de Análisis de conglomerados clasificar a los jóvenes (base de datos
14-1) según:
Número de veces que van anualmente al futbol (futbol)
La paga semanal que reciben (paga2)
El número de horas semanales que ven la televisión.
Preguntas
1. Utilizar análisis clúster jerárquico y no jerárquico (con todos los conglomerados).Para
homogenizar las variables, estandarícelas por medio del procedimiento “descriptivos”
pidiendo que “guarde los valores tipificados como variables”.
2. Utilice estas variables tipificadas (en la base de datos original).
3. Indique que casos quedan en cada conglomerado para cada uno de los procedimientos:
3.1. jerárquico
3.2. no jerárquico.
4. Proponga un nombre para cada conglomerado.
Como primer paso,
Cargue en SPSS el archivo de nombre 14-1.sav, (archivo → abrir → datos) se trata de
clasificar a los jóvenes por el número de veces que van anualmente al futbol, la pagas
semanal que reciben y el número de horas que ven la televisión.
2. ANÁLISIS
2.1. DECRIPTIVOS
2.1.1. Estadísticos descriptivos
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
ASISTENCIA ANUAL AL FUTBOL 14 0 8 3.71 3.429
PAGA SEMANAL EN PTAS 14 1000 2500 1557.14 730.347
HORAS SEMANALES TV 14 5 22 15.86 5.051
N válido (según lista) 14
“ANÁLISIS CLUSTER”
4
Como paso siguiente, se procede a tipificar1 las variables, ya que, al trabajar con
distancias, todas las variables han de venir medidas en las mismas unidades.
Para éste análisis realizamos los siguientes pasos:
1. Analizar
1.1. Estadísticos descriptivos
1.1.1. Descriptivos
1.1.1.1. Guardar valores tipificados como variables
2.1.2. Estadísticos descriptivos
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
Puntuación Z: ASISTENCIA ANUAL AL FUTBOL 14 -1.08319 1.24983 .0000000 1.00000000
Puntuación Z: PAGA SEMANAL EN PTAS 14 -.76285 1.29097 .0000000 1.00000000
Puntuación Z: HORAS SEMANALES TV 14 -2.14934 1.21607 .0000000 1.00000000
N válido (según lista) 14
El siguiente paso, es realizar gráficos de dispersión2 en tres dimensiones para las
tres variables tipificadas con el objeto de observar los posibles grupos.
Para éste análisis realizamos los siguientes pasos:
1. Gráficos
1.1. Dispersión
1.1.1. Seleccionamos 3D (Variables tipificadas: Eje X: futbol, Eje Y: Paga2, Eje Z:
TV)
3. Gráfico de dispersión
1 Tipificar las variables: Procedimiento para estandarizar las variables y que exista así una comparabilidad
entre las variables. (Pérez López, 2004, pág. 447) 2 Gráfico de dispersión: Observa la relación entre dos o más variables. (Pérez López, 2004, pág. 82)
“ANÁLISIS CLUSTER”
5
Interpretación:
Se observa que se podría agrupar a los individuos en tres grupos.
Es siguiente paso es realizar un análisis de correlaciones bivariadas3:
Para éste análisis realizamos los siguientes pasos:
1. analizar
1.1. Correlaciones
1.1.1. Bivariadas
4. Correlaciones:
Correlaciones Puntuación Z:
ASISTENCIA ANUAL AL
FUTBOL
Puntuación Z:
PAGA SEMANAL EN
PTAS
Puntuación Z:
HORAS SEMANALES
TV
Puntuación Z: ASISTENCIA ANUAL AL
FUTBOL
Correlación de Pearson 1 -.291 -.229
Sig. (bilateral)
.313 .431
N 14 14 14
Puntuación Z: PAGA SEMANAL EN PTAS
Correlación de Pearson -.291 1 .025
Sig. (bilateral) .313
.932
N 14 14 14
Puntuación Z: HORAS SEMANALES TV
Correlación de Pearson -.229 .025 1
Sig. (bilateral) .431 .932
N 14 14 14
Se observa que existen tres grupos.
A. ANÁLISIS JERARQUICO4 DE CONGLOMERADOS
El siguiente paso es realizar un análisis de jerárquico
Para éste análisis realizamos los siguientes pasos:
1. Analizar
1.1. Clasificar
1.1.1. Conglomerado jerárquico
1.1.1.1. Variables: Tipificadas
1.1.1.1.1. Estadísticos
3 Correlaciones Bivariadas: Permite comprobar la independencia de las variables continuas. (Pérez López,
2004, pág. 446) 4 Análisis jerárquico: Procedimiento que intenta identificar grupos relativamente homogéneos de casos o de
variables basándose en características seleccionadas, mediante un algoritmo que comienza con cada caso o cada variable en un conglomerado diferente y combina los conglomerados hasta que sólo queda uno. (Pérez López, 2004, pág. 440)
“ANÁLISIS CLUSTER”
6
a. Historial de conglomeración
b. Rangos 2 – 4
1.1.1.1.2. Gráficos
a. Dendograma
b. Horizontal
1.1.1.1.3. Método
1.1.1.1.4. Guardar
1.1.1.1.5. Rango 2 – 4
5. Conglomerado
5.1. Resumen del procesamiento de los casos
Resumen del procesamiento de los casosa,b
Casos
Válidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
14 100.0 0 .0 14 100.0
a. distancia euclídea al cuadrado usada
b. Vinculación promedio (Inter-grupos)
Interpretación:
Se muestran el número de porcentaje de casos válidos analizados, el número y
porcentaje de casos con valores perdidos en alguna de las variables incluidas en los
análisis y el tamaño total de la muestra, que no es otra cosa que la suma de los casos
válidos y los perdidos. (Análiss de conglomerados, 2014, pág. 477)
En la tabla siguiente, se muestra el historial del proceso de conglomeración, etapa por
etapa. Por lo tanto en cada etapa se unen dos elementos, como la muestra analizada tienen
14 casos sólo se realizan 13 etapas de fusión.
“ANÁLISIS CLUSTER”
7
6. Vinculación promedio (inter-grupos)
6.1. Historial de conglomeración5
Historial de conglomeración
Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado aparece
por primera vez
Próxima etapa
Conglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2
1 3 9 .000 0 0 8
2 2 8 .000 0 0 9
3 7 10 .104 0 0 6
4 5 11 .379 0 0 5
5 5 13 .575 4 0 9
6 7 14 .679 3 0 10
7 1 6 1.065 0 0 11
8 3 4 1.065 1 0 10
9 2 5 1.640 2 5 12
10 3 7 5.138 8 6 12
11 1 12 5.157 7 0 13
12 2 3 6.565 9 10 13
13 1 2 8.378 11 12 0
Interpretación
La columna conglomerado que se combina informa sobre los conglomerados o casos
fundidos en cada etapa. En la primera etapa se han fundido los casos 3 y 9 del archivo de
datos. Como el análisis se inicia con todos los casos separados en conglomerados
individuales, la primera etapa siempre se refiere a casos individuales. A partir de ese
momento, estos dos casos constituyen el conglomerado 3 y son indivisibles en las etapas
posteriores.
La Columna “Coeficientes”, ofrece el valor de la distancia la que se encuentran los casos
antes de la fusión. En la primera etapa, la distancia a la que se encuentran los casos 3 y 9
vale 0, lo que significa que se trata de casos con idénticas puntuaciones.
La columna “Etapa en la que el conglomerado aparece por primera vez” recoge la etapa
en la que se han formado los conglomerados que se están fundiendo en cada momento. El
5 Historial de conglomeración: Muestra los casos o conglomerados combinados en cada etapa, las distancias
entre los casos o los conglomerados que se combinan, así como el último nivel del proceso de aglomeración en el que cada caso o variable se unió a su conglomerado correspondiente. (Pérez López, 2004, pág. 441)
RANGO DE SOLUCIONES 3 O 4 CLUSTER
“ANÁLISIS CLUSTER”
8
valor 0 indica que el conglomerado correspondiente es un caso individual. Un valor mayor
que o indica el número de etapa en la que se formó el conglomerado. En nuestro caso, el
valor 0 nos indica que los conglomerados son casos individuales, lo que significa el
surgimiento de 4 conglomerados.
La columna “Próxima etapa”, indica la etapa en la que el conglomerado que se acaba de
formar volverá a fundirse con otros elementos. En nuestro caso es en las etapas 5, 6, 8 y 9
respectivamente.
6.2. Conglomerado de pertenencia6
Conglomerado de pertenencia
Caso 4 conglomerados 3 conglomerados 2 conglomerados
1 1 1 1
2 2 2 2
3 3 3 2
4 3 3 2
5 2 2 2
6 1 1 1
7 3 3 2
8 2 2 2
9 3 3 2
10 3 3 2
11 2 2 2
12 4 1 1
13 2 2 2
14 3 3 2
6 Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia para una solución única
o un rango de soluciones. Las variables pueden emplearse en análisis posteriores para explorar otras diferencias entre los grupos. (Pérez López, 2004, pág. 442)
Interpretación:
Se refiere al conglomerado de pertenencia al que pertenece cada caso.
“ANÁLISIS CLUSTER”
9
6.3. Dendograma7:
Interpretación:
Para interpretar estos resultados se recuerda que el objetivo es agrupar los individuos
considerando sus características. Por lo tanto, tener un solo grupo no aporta información.
En consecuencia, sabiendo que a menor distancia los conglomerados son más homogéneos,
es conveniente detener el proceso de unión cuando las líneas horizontales sean muy largas:
en el caso de estudio, se detiene el proceso en la distancia 16,4 obteniendo 4 clusters.
Se observa en el dendograma la conformación de 4 grupos:
Grupo A: 3, 9, 4, (Tienen poco dinero, les gusta futbol, y lo ven por la TV)
Grupo B: 7, 10, 14 (Tienen poco dinero, no les gusta el futbol, si les gusta la TV)
Grupo C: 2, 8, 5, 11, 13 (Tienen dinero para ir al futbol pero el futbol les es
indiferente, si les gasta la TV)
Grupo D: 1, 6, 12 (Poco dinero, no les interesa el futbol, no le interesa la TV)
El siguiente paso es el realizar un análisis no jerárquico
7 Dendograma: Se usan para evaluar la cohesión de los conglomerados que se han formado y proporcionar
información sobre el número adecuado de conglomerados que deben conservarse. (Pérez López, 2004, pág. 443)
“ANÁLISIS CLUSTER”
10
B. ANÁLISIS NO JERÁRQUICO8 DE CONGLOMERADOS:
Para éste análisis realizamos los siguientes pasos:
2. Analizar
2.1. Clasificar
2.1.1. Conglomerado de K-medias
2.1.1.1. Variables: Tipificadas
2.1.1.2. Numero de conglomerados 4
2.1.2. Opciones
2.1.2.1. Información de conglomerados de cada caso
7. Análisis de conglomerados y K-medias
7.1. Centros iniciales de los conglomerados Centros iniciales de los conglomerados
Conglomerado
1 2 3
Puntuación Z(fútbol) ASISTENCIA ANUAL AL
FUTBOL 1.24983 -.79156 .95821
Puntuación Z(paga2) PAGA SEMANAL EN PTAS -.76285 1.29097 -.76285
Puntuación Z: Puntuación Z: HORAS SEMANALES TV -2.14934 -.56562 1.21607
7.2. Historial de relaciones Historial de iteracionesa
Iteración Cambio en los centros de los conglomerados
1 2 3
1 .516 .753 .754
2 .000 .261 .243
3 .000 .000 .000
a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio
máximo de coordenadas absolutas para cualquier centro es de .000. La iteración actual es 3. La distancia mínima entre los centros iniciales es de 3.233.
7.3. Pertenencia a los conglomerados
Pertenencia a los conglomerados
Número de caso Conglomerado Distancia
1 1 .516
2 2 .984
3 3 1.281
4 3 .990
5 2 .828
6 1 .516
8 Análisis no jerárquico: Procedimiento que intenta identificar grupos de casos relativamente homogéneos
basándose en las características seleccionadas y utilizando un algoritmo que pueden gestionar un gran número de casos. (Pérez López, 2004, pág. 437)
“ANÁLISIS CLUSTER”
11
7 3 .990
8 2 .984
9 3 1.281
10 3 1.258
11 2 .397
12 2 2.070
13 2 .591
14 3 1.216
7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en Excel) Pertenencia a los conglomerados
Número de caso Conglomerado Distancia
1 1 .516
6 1 .516
2 2 .984
5 2 .828
8 2 .984
11 2 .397
12 2 2.070
13 2 .591
3 3 1.281
4 3 .990
7 3 .990
9 3 1.281
10 3 1.258
14 3 1.216
Interpretación:
Se observa en la tabla de pertenencia la conformación de 3 grupos:
Grupo A: 1, 6 (Poco interés, en el futbol, poco interés en TV, poco dinero para esos
fines, prefieren otro tipo de entretenimiento y diversión)
Grupo B: 2, 5, 8, 11, 12, 13 (Tienen dinero, no les interesa el futbol)
Grupo C: 3, 4, 7, 9, 10, 14. (Les interesa la TV, No tienen dinero para asistir a los
partidos en vivo y si les interesa ver el futbol por la TV)
7.4. Centros de los conglomerados finales
Centros de los conglomerados finales
Conglomerado
1 2 3
Puntuación Z(fútbol) ASISTENCIA ANUAL AL FUTBOL 1.10402 -.45133 .08332
Puntuación Z(paga2) PAGA SEMANAL EN PTAS -.76285 .97149 -.71721
Puntuación Z: Puntuación Z: HORAS SEMANALES TV -1.65443 -.20268 .75415
“ANÁLISIS CLUSTER”
12
7.5. Distancias entre los centros de los conglomerados finales
Distancias entre los centros de los conglomerados finales
Conglomerado 1 2 3
1
2.745 2.616
2 2.745
2.013
3 2.616 2.013
7.6. ANOVA
ANOVA
Conglomerado Error F Sig.
Media cuadrática gl Media cuadrática gl
Puntuación Z(fútbol)
ASISTENCIA ANUAL AL
FUTBOL 1.851 2 .845 11 2.189 .158
Puntuación Z(paga2) PAGA SEMANAL EN PTAS 4.956 2 .281 11 17.661 .000
Puntuación Z: Puntuación Z: HORAS SEMANALES TV 4.567 2 .352 11 12.991 .001
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las
diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.
7.7. Número de casos en cada conglomerado
Número de casos en cada conglomerado
Conglomerado
1 2.000
2 6.000
3 6.000
Válidos 14.000
Perdidos .000
Interpretaciones.
8. CONCLUSIONES:
El clúster es una técnica de clasificación que sirve para poder detectar y describir
subgrupos de sujetos o variables homogéneas en función de los valores observados dentro
de un conjunto aparentemente heterogéneo. Se fundamenta en el estudio de las distancias
entre ellos, permitiendo en el análisis, cuantificar el grado de similitud, en el caso de las
proximidades, y el grado de diferencia, en el caso de las distancias. Como resultado
aparecen agrupaciones homogéneas.
A diferencia de otras pruebas de clasificación, el investigador no tiene conocimiento de
la existencia de los subgrupos o conglomerados, ni del número resultante, ni de las
“ANÁLISIS CLUSTER”
13
características que los definen. Por lo tanto, es una técnica exploratoria y descriptiva sin
variables dependientes.
El objetivo fundamental de esta técnica es la configuración de grupos similares y
homogéneos para poder entender y estudiar mejor los fenómenos sociales y educativos. En
el campo de los bienes raíces e inmobiliario, nos ayuda en estudiar a los diferentes grupos
de clientes para los proyectos según sus características, así como también puede ayudar en
el área urbanística donde nos puede orientar en el crecimiento de las poblaciones en las
ciudades.
9. BIBLIOGRAFÍA
(Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.uam.es/personal_pdi/ciencias/ajustel/docencia/ad/AD10_11_Discrimina
nte.pdf
(Mayo de 2014). Recuperado el Mayo de 2014, de
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli
ent/Manuals/IBM_SPSS_Statistics_Base.pdf
(Mayo de 2014). Recuperado el Mayo de 2014, de
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/22conglj.pdf
Google. (Ayo de 2014). Recuperado el Mayo de 2014, de
file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf
Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf
Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
https://www.google.com.gt/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&ved=
0CEkQFjAF&url=http%3A%2F%2Fpersonal.us.es%2Fanalopez%2Fpracticasac1.p
pt&ei=DpaHU-
6YII7JsQT2t4HoDQ&usg=AFQjCNGp3PxExsXuzuUbmcGQ3vEq1zLa_w
“ANÁLISIS CLUSTER”
14
Google. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://rua.ua.es/dspace/bitstream/10045/12079/1/Capitulo9.pdf
You tube. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.youtube.com/watch?v=IYg0npCrSGw
You Tube. (Mayo de 2014). Recuperado el Mayo de 2014, de
http://www.youtube.com/watch?v=07lCKn6EEMQ
De la Fuente Fernandez, S. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de
http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/
CONGLOMERADOS/conglomerados.pdf
IBM SPSS Statistics Base 20. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli
ent/Manuals/IBM_SPSS_Statistics_Base.pdf
Lind, D. A., Marchal, W. G., & Wathen, S. .. (2008). Estadística aplicada a los negocios y
la economía. México D. F.: McGraw-Hill Interamericana.
Martinez Miranda, M. D. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de
http://www.ugr.es/~curspss/archivos/Cluster/cluster.pdf
Pérez López, C. (2004). Técnicas de Análisis Multivariante de Datos. Madrid: PEARSON
EDUCACIÓN, S. A.
villardón, J. L. (Mayo de 2014). Google. Obtenido de
http://benjamindespensa.tripod.com/spss/AC.pdf
Top Related