Analisis Cluster 2008

download Analisis Cluster 2008

of 4

description

aaasssddd

Transcript of Analisis Cluster 2008

ANALISIS CLUSTER

ANALISIS CLUSTER.OBJETIVOS:

El anlisis cluster es una tcnica multivariada no explicativa cuyo objetivo fundamental es identificar grupos de individuos sin que a priori se conozca criterio de agrupamiento alguno.

Ejemplo. Si se aplica una encuesta a los docentes de la UNIVERSIDAD NACIONAL HERMILIO VALDIZAN sobre el TLC y se quiere identificar a las personas que comparten criterios sobre dicho tema, significa que se tiene que comparar unos encuestados con otros y colocaramos en el mismo grupo, CLUSTER o conglomerado, a los docentes cuyas respuestas sean similares.

METODOS DE AGRUPAMIENTO

Hay muchos mtodos de agrupamiento, sin embargo como una forma de poder ingresar a este mundo del anlisis multivariado solamente se usara el mtodo jerrquico de aglomeracin, pues este mtodo es un proceso iterativo que mediante un grafico llamado DENDOGRAMA nos permitir visualizar con rapidez el nmero de cluster a utilizar.

DENDOGRAMA:

Es un rbol lgico que indica visualmente la secuencia en que sem han ido formando los CLUSTERS.Una de las ventajas del DENDOGRAMA es que permite tomar una decisin clara respecto del nmero de CLUSTERS que es posible formar.

Este rbol lgico esta en estrecha relacin con el mtodo WARD.

METOD WARD:

La caracterstica de este mtodo es que trata de hacer mnima la variabilidad intracluster, es decir trata de hacer que cada cluster sea lo mas homogneo posible.

Ejemplo.

El Departamento de recursos humanos de una empresa quiere realizar un estudio sobre la motivacin de sus ejecutivos. Los veinte ejecutivos responden a 12 cuestiones en las que tienen que indicar en una escala de 1 a 10 su grado de acuerdo (1=desacuerdo total, 10= acuerdo total).

Los datos aparecen en la tabla que sigue: Realice el CLUSTER de sujetos mediante la vinculacin del vecino mas prximo.Cuantos CLUSTERS cree que debera tener?

SUJ I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I121 743746457764

2 533464344676

3 444555334674

4 766637776333

5 334737437763

6 477373674447

7 677736677333

8 533565345675

9 355647557654

10 776364773347

11 367637667433

12 344736667553

13 656747556544

14 744474334767

15 765646667633

16 576363773377

17 477544665355

18 367473773467

19 555474554576

20 676586643687

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

2 2 8 8 3 3 14 14 19 19 20 20 6 6 18 18 16 16 10 10 17 17 4 4 7 7 11 11 9 9 12 12 5 5 13 13 15 15 1 1 La sintaxis para LA TABLA y el DENDOGRAMA esta dado por:

ANALIZE

CLASSIFY

HIERARCHICAL CLUSTER

VARIABLE(S)

I1

I2

.

.

LABEL CASES BY

SUJETO.

STATISTIC

PLOTS

AGGLOMERATION SCHEDULE

DENDOGRAMA

NONE

CLUSTER METHOD

WARDS

OK.

Si observamos la tabla vemos que el mayor salto se presenta en el sujeto 17 y 18 por tanto a partir de eso determinamos los valores, transformndolos a escala del dendograma del modo siguiente:Si 538.150..........25

217.889...........X1Luego: X1= 10.122De la misma manera:

Si 538.150.........25

333.556.X2

Con lo que se obtiene:

X2= 15.495

Estos dos valores los ubicamos en el dendograma para determinar visualmente el nmero de CLUSTERS.Si se toma el mnimo valor se tiene 3 clusters y si se toma el valor mximo se tiene 2 clusters sin embargo mientras mayor sea el numero de clusters la aglomeracin es mas homognea, por tanto es recomendable tomar la mayor cantidad de clusters.

En nuestro caso se tiene que el cluster N 1 tiene 6 elementos, el cluster N 2 tiene 5 elementos y el cluster N 3 tiene 9 elementos.

CLUSTER 1

CLUSTER 2

CLUSTER 3

2

6

4

8

18

7

3

16

11

14

10

9

19

17

12

20

5

13

15

01