Download - Análisis cluster

“ANÁLISIS CLUSTER” Estudio de Caso: 14-1.sav

UNIVERSIDAD GALILEO

FACULTAD DE CIENCIA, TECNOLOGÍA E INDUSTRIA

DOCTORADO EN ADMINISTRACIÓN CON ESPECIALIDAD

EN FINANZAS

ARQ. ALVARO COUTIÑO G. Carnet 1300-4393

“ANÁLISIS CLUSTER”

1

Contenido INTRODUCCIÓN .............................................................................................................................. 2

1. INFORMACIÓN CASO DE ESTUDIO ..................................................................................... 3

2. ANÁLISIS ................................................................................................................................... 3

2.1. DECRIPTIVOS ....................................................................................................................... 3

2.1.1. Estadísticos descriptivos ..................................................................................................... 3

2.1.2. Estadísticos descriptivos ..................................................................................................... 4

3. Gráfico de dispersión .................................................................................................................. 4

4. Correlaciones: ............................................................................................................................. 5

A. ANÁLISIS JERARQUICO DE CONGLOMERADOS......................................................... 5

5. Conglomerado ............................................................................................................................. 6

5.1. Resumen del procesamiento de los casos ................................................................................ 6

6. Vinculación promedio (inter-grupos) .......................................................................................... 7

6.1. Historial de conglomeración ................................................................................................... 7

6.2. Conglomerado de pertenencia ................................................................................................. 8

6.3. Dendograma: ........................................................................................................................... 9

B. ANÁLISIS NO JERÁRQUICO DE CONGLOMERADOS: .............................................. 10

7. Análisis de conglomerados y K-medias .................................................................................... 10

7.1. Centros iniciales de los conglomerados ................................................................................ 10

7.2. Historial de relaciones ........................................................................................................... 10

7.3. Pertenencia a los conglomerados .......................................................................................... 10

7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en excel) ........................... 11

7.4. Centros de los conglomerados finales ................................................................................... 11

7.5. Distancias entre los centros de los conglomerados finales .................................................... 12

7.6. ANOVA ................................................................................................................................ 12

7.7. Número de casos en cada conglomerado .............................................................................. 12

8. CONCLUSIONES: ................................................................................................................... 12

9. BIBLIOGRAFÍA ....................................................................................................................... 13


2

INTRODUCCIÓN

El análisis clúster es un conjunto de técnicas multivariante utilizadas para clasificar a un

conjunto de individuos en grupos homogéneos. Por lo tanto, se utiliza la información de

una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la

similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogéneos

internamente y diferentes entre sí. La "nueva dimensión" lograda con el clúster se

aprovecha después para facilitar la aproximación "segmentada" de un determinado análisis.

En consecuencia, el objetivo es obtener clasificaciones (clusterings), teniendo, por lo tanto,

el análisis un marcado carácter exploratorio y de agrupación.

En el campo de los bienes raíces y construcción, es de utilidad cuando la empresa desea

clasificar a sus consumidores en tipos según sus distintas percepciones de determinados

atributos del proyecto: Calidad, precio, servicios, especificaciones, entorno, acceso,

distancias a puntos estratégicos de conveniencia, áreas de la ciudad, zonas, niveles de

violencia, entre otras. Para ello, se diseña una muestra con 100 clientes a los que se

cuestiona sobre su percepción, en una escala de intervalos, de las anteriores características

de los productos de la empresa. El resultado final consiste en diseñar diferentes estrategias

de promoción en función de sus diversos perfiles.

En el siguiente análisis, se procede a realizar un estudio de caso mediante el análisis

clúster, el cual está dividido en el proceso de análisis, resultados, conceptos y conclusiones.


3

1. INFORMACIÓN CASO DE ESTUDIO

1. Con la técnica de Análisis de conglomerados clasificar a los jóvenes (base de datos

14-1) según:

Número de veces que van anualmente al futbol (futbol)

La paga semanal que reciben (paga2)

El número de horas semanales que ven la televisión.

Preguntas

1. Utilizar análisis clúster jerárquico y no jerárquico (con todos los conglomerados).Para

homogenizar las variables, estandarícelas por medio del procedimiento “descriptivos”

pidiendo que “guarde los valores tipificados como variables”.

2. Utilice estas variables tipificadas (en la base de datos original).

3. Indique que casos quedan en cada conglomerado para cada uno de los procedimientos:

3.1. jerárquico

3.2. no jerárquico.

4. Proponga un nombre para cada conglomerado.

Como primer paso,

Cargue en SPSS el archivo de nombre 14-1.sav, (archivo → abrir → datos) se trata de

clasificar a los jóvenes por el número de veces que van anualmente al futbol, la pagas

semanal que reciben y el número de horas que ven la televisión.

2. ANÁLISIS

2.1. DECRIPTIVOS

2.1.1. Estadísticos descriptivos

Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ.

ASISTENCIA ANUAL AL FUTBOL 14 0 8 3.71 3.429

PAGA SEMANAL EN PTAS 14 1000 2500 1557.14 730.347

HORAS SEMANALES TV 14 5 22 15.86 5.051

N válido (según lista) 14


4

Como paso siguiente, se procede a tipificar1 las variables, ya que, al trabajar con

distancias, todas las variables han de venir medidas en las mismas unidades.

Para éste análisis realizamos los siguientes pasos:

1. Analizar

1.1. Estadísticos descriptivos

1.1.1. Descriptivos

1.1.1.1. Guardar valores tipificados como variables

2.1.2. Estadísticos descriptivos

Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ.

Puntuación Z: ASISTENCIA ANUAL AL FUTBOL 14 -1.08319 1.24983 .0000000 1.00000000

Puntuación Z: PAGA SEMANAL EN PTAS 14 -.76285 1.29097 .0000000 1.00000000

Puntuación Z: HORAS SEMANALES TV 14 -2.14934 1.21607 .0000000 1.00000000

N válido (según lista) 14

El siguiente paso, es realizar gráficos de dispersión2 en tres dimensiones para las

tres variables tipificadas con el objeto de observar los posibles grupos.


1. Gráficos

1.1. Dispersión

1.1.1. Seleccionamos 3D (Variables tipificadas: Eje X: futbol, Eje Y: Paga2, Eje Z:

TV)

3. Gráfico de dispersión

1 Tipificar las variables: Procedimiento para estandarizar las variables y que exista así una comparabilidad

entre las variables. (Pérez López, 2004, pág. 447) 2 Gráfico de dispersión: Observa la relación entre dos o más variables. (Pérez López, 2004, pág. 82)


5

Interpretación:

Se observa que se podría agrupar a los individuos en tres grupos.

Es siguiente paso es realizar un análisis de correlaciones bivariadas3:


1. analizar

1.1. Correlaciones

1.1.1. Bivariadas

4. Correlaciones:

Correlaciones Puntuación Z:

ASISTENCIA ANUAL AL

FUTBOL

Puntuación Z:

PAGA SEMANAL EN

PTAS

Puntuación Z:

HORAS SEMANALES

TV

Puntuación Z: ASISTENCIA ANUAL AL

FUTBOL

Correlación de Pearson 1 -.291 -.229

Sig. (bilateral)

.313 .431

N 14 14 14

Puntuación Z: PAGA SEMANAL EN PTAS

Correlación de Pearson -.291 1 .025

Sig. (bilateral) .313

.932

N 14 14 14

Puntuación Z: HORAS SEMANALES TV

Correlación de Pearson -.229 .025 1

Sig. (bilateral) .431 .932

N 14 14 14

Se observa que existen tres grupos.

A. ANÁLISIS JERARQUICO4 DE CONGLOMERADOS

El siguiente paso es realizar un análisis de jerárquico


1. Analizar

1.1. Clasificar

1.1.1. Conglomerado jerárquico

1.1.1.1. Variables: Tipificadas

1.1.1.1.1. Estadísticos

3 Correlaciones Bivariadas: Permite comprobar la independencia de las variables continuas. (Pérez López,

2004, pág. 446) 4 Análisis jerárquico: Procedimiento que intenta identificar grupos relativamente homogéneos de casos o de

variables basándose en características seleccionadas, mediante un algoritmo que comienza con cada caso o cada variable en un conglomerado diferente y combina los conglomerados hasta que sólo queda uno. (Pérez López, 2004, pág. 440)


6

a. Historial de conglomeración

b. Rangos 2 – 4

1.1.1.1.2. Gráficos

a. Dendograma

b. Horizontal

1.1.1.1.3. Método

1.1.1.1.4. Guardar

1.1.1.1.5. Rango 2 – 4

5. Conglomerado

5.1. Resumen del procesamiento de los casos

Resumen del procesamiento de los casosa,b

Casos

Válidos Perdidos Total

N Porcentaje N Porcentaje N Porcentaje

14 100.0 0 .0 14 100.0

a. distancia euclídea al cuadrado usada

b. Vinculación promedio (Inter-grupos)

Interpretación:

Se muestran el número de porcentaje de casos válidos analizados, el número y

porcentaje de casos con valores perdidos en alguna de las variables incluidas en los

análisis y el tamaño total de la muestra, que no es otra cosa que la suma de los casos

válidos y los perdidos. (Análiss de conglomerados, 2014, pág. 477)

En la tabla siguiente, se muestra el historial del proceso de conglomeración, etapa por

etapa. Por lo tanto en cada etapa se unen dos elementos, como la muestra analizada tienen

14 casos sólo se realizan 13 etapas de fusión.


7

6. Vinculación promedio (inter-grupos)

6.1. Historial de conglomeración5

Historial de conglomeración

Etapa Conglomerado que se combina Coeficientes Etapa en la que el conglomerado aparece

por primera vez

Próxima etapa

Conglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2

1 3 9 .000 0 0 8

2 2 8 .000 0 0 9

3 7 10 .104 0 0 6

4 5 11 .379 0 0 5

5 5 13 .575 4 0 9

6 7 14 .679 3 0 10

7 1 6 1.065 0 0 11

8 3 4 1.065 1 0 10

9 2 5 1.640 2 5 12

10 3 7 5.138 8 6 12

11 1 12 5.157 7 0 13

12 2 3 6.565 9 10 13

13 1 2 8.378 11 12 0

Interpretación

La columna conglomerado que se combina informa sobre los conglomerados o casos

fundidos en cada etapa. En la primera etapa se han fundido los casos 3 y 9 del archivo de

datos. Como el análisis se inicia con todos los casos separados en conglomerados

individuales, la primera etapa siempre se refiere a casos individuales. A partir de ese

momento, estos dos casos constituyen el conglomerado 3 y son indivisibles en las etapas

posteriores.

La Columna “Coeficientes”, ofrece el valor de la distancia la que se encuentran los casos

antes de la fusión. En la primera etapa, la distancia a la que se encuentran los casos 3 y 9

vale 0, lo que significa que se trata de casos con idénticas puntuaciones.

La columna “Etapa en la que el conglomerado aparece por primera vez” recoge la etapa

en la que se han formado los conglomerados que se están fundiendo en cada momento. El

5 Historial de conglomeración: Muestra los casos o conglomerados combinados en cada etapa, las distancias

entre los casos o los conglomerados que se combinan, así como el último nivel del proceso de aglomeración en el que cada caso o variable se unió a su conglomerado correspondiente. (Pérez López, 2004, pág. 441)

RANGO DE SOLUCIONES 3 O 4 CLUSTER


8

valor 0 indica que el conglomerado correspondiente es un caso individual. Un valor mayor

que o indica el número de etapa en la que se formó el conglomerado. En nuestro caso, el

valor 0 nos indica que los conglomerados son casos individuales, lo que significa el

surgimiento de 4 conglomerados.

La columna “Próxima etapa”, indica la etapa en la que el conglomerado que se acaba de

formar volverá a fundirse con otros elementos. En nuestro caso es en las etapas 5, 6, 8 y 9

respectivamente.

6.2. Conglomerado de pertenencia6

Conglomerado de pertenencia

Caso 4 conglomerados 3 conglomerados 2 conglomerados

1 1 1 1

2 2 2 2

3 3 3 2

4 3 3 2

5 2 2 2

6 1 1 1

7 3 3 2

8 2 2 2

9 3 3 2

10 3 3 2

11 2 2 2

12 4 1 1

13 2 2 2

14 3 3 2

6 Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia para una solución única

o un rango de soluciones. Las variables pueden emplearse en análisis posteriores para explorar otras diferencias entre los grupos. (Pérez López, 2004, pág. 442)

Interpretación:

Se refiere al conglomerado de pertenencia al que pertenece cada caso.


9

6.3. Dendograma7:

Interpretación:

Para interpretar estos resultados se recuerda que el objetivo es agrupar los individuos

considerando sus características. Por lo tanto, tener un solo grupo no aporta información.

En consecuencia, sabiendo que a menor distancia los conglomerados son más homogéneos,

es conveniente detener el proceso de unión cuando las líneas horizontales sean muy largas:

en el caso de estudio, se detiene el proceso en la distancia 16,4 obteniendo 4 clusters.

Se observa en el dendograma la conformación de 4 grupos:

Grupo A: 3, 9, 4, (Tienen poco dinero, les gusta futbol, y lo ven por la TV)

Grupo B: 7, 10, 14 (Tienen poco dinero, no les gusta el futbol, si les gusta la TV)

Grupo C: 2, 8, 5, 11, 13 (Tienen dinero para ir al futbol pero el futbol les es

indiferente, si les gasta la TV)

Grupo D: 1, 6, 12 (Poco dinero, no les interesa el futbol, no le interesa la TV)

El siguiente paso es el realizar un análisis no jerárquico

7 Dendograma: Se usan para evaluar la cohesión de los conglomerados que se han formado y proporcionar

información sobre el número adecuado de conglomerados que deben conservarse. (Pérez López, 2004, pág. 443)


10

B. ANÁLISIS NO JERÁRQUICO8 DE CONGLOMERADOS:


2. Analizar

2.1. Clasificar

2.1.1. Conglomerado de K-medias

2.1.1.1. Variables: Tipificadas

2.1.1.2. Numero de conglomerados 4

2.1.2. Opciones

2.1.2.1. Información de conglomerados de cada caso

7. Análisis de conglomerados y K-medias

7.1. Centros iniciales de los conglomerados Centros iniciales de los conglomerados

Conglomerado

1 2 3

Puntuación Z(fútbol) ASISTENCIA ANUAL AL

FUTBOL 1.24983 -.79156 .95821

Puntuación Z(paga2) PAGA SEMANAL EN PTAS -.76285 1.29097 -.76285

Puntuación Z: Puntuación Z: HORAS SEMANALES TV -2.14934 -.56562 1.21607

7.2. Historial de relaciones Historial de iteracionesa

Iteración Cambio en los centros de los conglomerados

1 2 3

1 .516 .753 .754

2 .000 .261 .243

3 .000 .000 .000

a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio

máximo de coordenadas absolutas para cualquier centro es de .000. La iteración actual es 3. La distancia mínima entre los centros iniciales es de 3.233.

7.3. Pertenencia a los conglomerados

Pertenencia a los conglomerados

Número de caso Conglomerado Distancia

1 1 .516

2 2 .984

3 3 1.281

4 3 .990

5 2 .828

6 1 .516

8 Análisis no jerárquico: Procedimiento que intenta identificar grupos de casos relativamente homogéneos

basándose en las características seleccionadas y utilizando un algoritmo que pueden gestionar un gran número de casos. (Pérez López, 2004, pág. 437)


11

7 3 .990

8 2 .984

9 3 1.281

10 3 1.258

11 2 .397

12 2 2.070

13 2 .591

14 3 1.216

7.3.1. Pertenencia conglomerados ordenados por grupo (Realizado en Excel) Pertenencia a los conglomerados

Número de caso Conglomerado Distancia

1 1 .516

6 1 .516

2 2 .984

5 2 .828

8 2 .984

11 2 .397

12 2 2.070

13 2 .591

3 3 1.281

4 3 .990

7 3 .990

9 3 1.281

10 3 1.258

14 3 1.216

Interpretación:

Se observa en la tabla de pertenencia la conformación de 3 grupos:

Grupo A: 1, 6 (Poco interés, en el futbol, poco interés en TV, poco dinero para esos

fines, prefieren otro tipo de entretenimiento y diversión)

Grupo B: 2, 5, 8, 11, 12, 13 (Tienen dinero, no les interesa el futbol)

Grupo C: 3, 4, 7, 9, 10, 14. (Les interesa la TV, No tienen dinero para asistir a los

partidos en vivo y si les interesa ver el futbol por la TV)

7.4. Centros de los conglomerados finales

Centros de los conglomerados finales

Conglomerado

1 2 3

Puntuación Z(fútbol) ASISTENCIA ANUAL AL FUTBOL 1.10402 -.45133 .08332

Puntuación Z(paga2) PAGA SEMANAL EN PTAS -.76285 .97149 -.71721

Puntuación Z: Puntuación Z: HORAS SEMANALES TV -1.65443 -.20268 .75415


12

7.5. Distancias entre los centros de los conglomerados finales

Distancias entre los centros de los conglomerados finales

Conglomerado 1 2 3

1

2.745 2.616

2 2.745

2.013

3 2.616 2.013

7.6. ANOVA

ANOVA

Conglomerado Error F Sig.

Media cuadrática gl Media cuadrática gl

Puntuación Z(fútbol)

ASISTENCIA ANUAL AL

FUTBOL 1.851 2 .845 11 2.189 .158

Puntuación Z(paga2) PAGA SEMANAL EN PTAS 4.956 2 .281 11 17.661 .000

Puntuación Z: Puntuación Z: HORAS SEMANALES TV 4.567 2 .352 11 12.991 .001

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las

diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.

7.7. Número de casos en cada conglomerado

Número de casos en cada conglomerado

Conglomerado

1 2.000

2 6.000

3 6.000

Válidos 14.000

Perdidos .000

Interpretaciones.

8. CONCLUSIONES:

El clúster es una técnica de clasificación que sirve para poder detectar y describir

subgrupos de sujetos o variables homogéneas en función de los valores observados dentro

de un conjunto aparentemente heterogéneo. Se fundamenta en el estudio de las distancias

entre ellos, permitiendo en el análisis, cuantificar el grado de similitud, en el caso de las

proximidades, y el grado de diferencia, en el caso de las distancias. Como resultado

aparecen agrupaciones homogéneas.

A diferencia de otras pruebas de clasificación, el investigador no tiene conocimiento de

la existencia de los subgrupos o conglomerados, ni del número resultante, ni de las


13

características que los definen. Por lo tanto, es una técnica exploratoria y descriptiva sin

variables dependientes.

El objetivo fundamental de esta técnica es la configuración de grupos similares y

homogéneos para poder entender y estudiar mejor los fenómenos sociales y educativos. En

el campo de los bienes raíces e inmobiliario, nos ayuda en estudiar a los diferentes grupos

de clientes para los proyectos según sus características, así como también puede ayudar en

el área urbanística donde nos puede orientar en el crecimiento de las poblaciones en las

ciudades.

9. BIBLIOGRAFÍA

(Mayo de 2014). Recuperado el Mayo de 2014, de

http://www.uam.es/personal_pdi/ciencias/ajustel/docencia/ad/AD10_11_Discrimina

nte.pdf


ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli

ent/Manuals/IBM_SPSS_Statistics_Base.pdf


http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/22conglj.pdf

Google. (Ayo de 2014). Recuperado el Mayo de 2014, de

file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf

Google. (Mayo de 2014). Recuperado el Mayo de 2014, de

file:///C:/Users/DELL/Downloads/8099-15991-1-PB.pdf


https://www.google.com.gt/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&ved=

0CEkQFjAF&url=http%3A%2F%2Fpersonal.us.es%2Fanalopez%2Fpracticasac1.p

pt&ei=DpaHU-

6YII7JsQT2t4HoDQ&usg=AFQjCNGp3PxExsXuzuUbmcGQ3vEq1zLa_w


14


http://rua.ua.es/dspace/bitstream/10045/12079/1/Capitulo9.pdf

You tube. (Mayo de 2014). Recuperado el Mayo de 2014, de

http://www.youtube.com/watch?v=IYg0npCrSGw

You Tube. (Mayo de 2014). Recuperado el Mayo de 2014, de

http://www.youtube.com/watch?v=07lCKn6EEMQ

De la Fuente Fernandez, S. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de

http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/

CONGLOMERADOS/conglomerados.pdf

IBM SPSS Statistics Base 20. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/es/cli

ent/Manuals/IBM_SPSS_Statistics_Base.pdf

Lind, D. A., Marchal, W. G., & Wathen, S. .. (2008). Estadística aplicada a los negocios y

la economía. México D. F.: McGraw-Hill Interamericana.

Martinez Miranda, M. D. (Mayo de 2014). Google. Recuperado el Mayo de 2014, de

http://www.ugr.es/~curspss/archivos/Cluster/cluster.pdf

Pérez López, C. (2004). Técnicas de Análisis Multivariante de Datos. Madrid: PEARSON

EDUCACIÓN, S. A.

villardón, J. L. (Mayo de 2014). Google. Obtenido de

http://benjamindespensa.tripod.com/spss/AC.pdf