Post on 20-Jul-2015
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 1/29
ANALISIS DE CLUSTER
CON SPSS:
INMACULADA BARRERA
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 2/29
ANALISIS DE CLUSTER EN SPSS
Opción: Analizar Clasificar
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 3/29
ANALISIS DE CLUSTER EN SPSS
Tres posibles OPCIONES
1.- Cluster en dos etapas
2.- K-means
3.- Jerárquicos
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 4/29
ANALISIS DE CLUSTER EN SPSS
1.- Cluster en dos etapas Cluster en dos etapas .- está pensado para
minería de datos, es decir para estudios con unnúmero de individuos grande que pueden tenerproblemas de clasificación con los otros
procedimientos. Otra peculiaridad es que permite trabajar
conjuntamente con variables de tipo mixto (cuali
y cuantitativas). Puede realizarse cuando elnúmero de cluster es conocido a priori ytambién cuando no se conoce.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 5/29
ANALISIS DE CLUSTER EN SPSS
2.- Cluster no jerárquicos Cluster no jerárquicos .- sólo puede
ser aplicado a variables cuantitativas yrequiere conocer el número de cluster apriori.
Puede realizarse para un número deobjetos relativamente grande pues no
requiere el cálculo de todas las posiblesdistancias.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 6/29
ANALISIS DE CLUSTER EN SPSS
3.- Jerárquicos.Jerárquicos.- -
Para variables cuantitativas o bien para
variables cualitativas Si no se conoce el número de cluster a
priori y cuando el número de objetos no
es muy grande.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 7/29
CLUSTER JERÁRQUICOS.-
El primer paso es la selección de variables:
Como se observa pueden etiquetarse los grupos con una delas variables del fichero.También es posibles realizar conglomerados no para objetos sino paravariables, (agrupar variables por el parecido que presentan en las
respuestas de los individuos)
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 8/29
CLUSTER JERÁRQUICOS.- OPCIÓN METODO: -Podremos estandarizar las variables
utilizadas en el análisis antes deutilizarlas el cálculo de las similaridadessi fuese necesario. Los métodos
disponibles son varios. -Permite seleccionar la medida usada
para ver el parecido entre individuos condistintas distancias dependiendo si lavariable es binaria, frecuencias o deintervalo.
-Es posible también elegir el método paraobtener los conglomerados Todos losvistos .
Los dos primeros vinculación Inter.-grupos y dentro de grupos secorresponde a la opción denominadaUPGMA (método del promedio) y unavariante de este donde se consideranpara el cálculo de la distancia media lacorrespondiente a todos los posiblespares del grupo resultante y no sólo a losformados con un elemento de cada grupocomo en el anterior.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 9/29
ESTANDARIZAR
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 10/29
MEDIDA
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 11/29
METODO
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 12/29
CLUSTER JERÁRQUICOS.-
OPCIÓN ESTADISTICOS OPCIÓN ESTADISTICOS : :
Historial Historial muestra los casos oconglomerados combinadosen cada etapa, las distanciasentre los casos combinados y
el último nivel del proceso deaglomeración en el que cadacaso se unió al conglomeradocorrespondiente
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 13/29
CLUSTER JERÁRQUICOS.-
OPCIÓN ESTADISTICOS OPCIÓN ESTADISTICOS : :
Matriz distancias Matriz distancias
Conglomerado de pertenencia Conglomerado de pertenencia nos da el conglomerado al que seasigna cada caso pudiendo elegirentre una única solución o un
rango de soluciones En el ejemplohemos seleccionado entre 2 y 3cluster.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 14/29
CLUSTER JERÁRQUICOS.-
OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS Permite obtener eldendrograma y los vertical
u horizontal icicle plots, odiagramas de témpanos..
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 15/29
0
1
2
3
4
5
6
7
d i s t a n
c i a
1 2 3 4 5objetoCluster A
Cluster B
Cluster C
0
1
2
3
4
5
6
7
d i s t a n c i a
1 2 3 4 5
objeto
Cluster 1
Cluster 2
0
1
2
3
4
5
6
7
d i s t a n
c i a
1 2 3 4 5
objetoCluster 1
Cluster 2
Cluster 3
CLUSTER JERÁRQUICOS.-
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 16/29
CLUSTER JERÁRQUICOS.-
OPCIÓN GUARDAR OPCIÓN GUARDAR Permite guardar los
conglomerados depertenencia para una
solución única o para unrango de soluciones. Lasvariables guardadaspueden emplearse enanálisis posteriores paraexplorar otras diferenciasentre grupos.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 17/29
PROCEDIMIENTO K-MEANS
Una vez seleccionadas las variables y determinado el número de conglomeradosque deseamos obtener podemos elegir entre iterar y clasificar o sólo clasificar.
Para obtener máxima eficacia, podemos tomar una muestra de casos utilizar elmétodo iterar y clasificar para determinar los centros de los conglomerados.Seleccionamos escribir finales en archivo .Después repetimos el análisis con sólo clasificar leyendo los iniciales del archivo anterior
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 18/29
PROCEDIMIENTO K-MEANS
OPCIÓN ITERAR OPCIÓN ITERAR Para la opción iterar se puede
determinar el número máximo deiteraciones, o bien fijar un criterio de
convergencia mayor de cero y menor deuno.
La opción usar medias actualizadasrecalcula centroides con cada individuo
asignado al grupo, sino deseleccionaesta opción no se recalculan hasta que
todos los individuos están asignados.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 19/29
PROCEDIMIENTO K-MEANS
Opción guardar Opción guardar permite crear una nueva
variable que indica para cada
caso el conglomerado al quepertenece y si se quiere otravariable con la distancia entre
cada caso y su centro declasificación.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 20/29
PROCEDIMIENTO K-MEANS
BOTÓN OPCIONES BOTÓN OPCIONES
Centros iniciales de los conglomerados
Conglomerado
1 2 3
Cereales
40,10 56,70 18,60
Feculas 4,00 1,10 5,20
frutossecos 5,40 3,70 1,50
frutasverduras 4,20 4,20 3,80
29,69814,8643
29,69814,9252
14,86414,9251
321Conglomerado
Distancias entre los centros de los conglomerados finales
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 21/29
PROCEDIMIENTO K-MEANS
BOTÓN OPCIONES BOTÓN OPCIONES
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que losconglomerados han sido elegidos para maximizar las diferencias entre los casos endiferentes conglomerados. Los niveles críticos no son corregidos, por lo que no puedeninterpretarse como pruebas de la hipótesis de que los centros de los conglomerados son
iguales.
Conglomerado Error
Media
cuadrática gl
Media
cuadrática
gl
F
Sig.
,589,542223,38321,832frutasverduras
,0125,429222,880215,636frutossecos
,0244,426222,07729,194Feculas
,000120,7272210,97221324,656Cereales
ANOVA
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 22/29
PROCEDIMIENTO K-MEANS
BOTÓN OPCIONES BOTÓN OPCIONES
Número de casos en cada conglomerado
1 7,000
2 3,000
3 15,000
Válidos 25,000
Perdidos ,000
Conglomerado
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 23/29
PROCEDIMIENTO DE CLUSTER
EN DOS PASOS Está basado en un algoritmo que produce resultados
óptimos si todas las variables son independientes, lascontinuas normalmente distribuidas y las categóricasmultinomiales, pero funciona razonablemente bien enausencia de estos supuestos.
La solución final depende del orden de entrada de los datos.Para minimizar el efecto habríamos de ordenar el fichero de
forma aleatoria. Pasos:
primer paso: formación de primer paso: formación de precluster precluster de los casosoriginales, Estos son clusters de los datos originales que se
utilizarán en lugar de las filas del fichero original pararealizar los ccluster jerárquicos en el segundo paso luster jerárquicos en el segundo paso. Todoslos casos pertenecientes a un mismo precluster se tratancomo un entidad sencilla.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 24/29
PROCEDIMIENTO DE CLUSTER
EN DOS PASOS--Seleccionaremos las variablesSeleccionaremos las variablescategóricas y continuas que
formaran parte del análisis--Elegiremos las distancias Elegiremos las distancias ::-Cuando se tengan datos mixtos ladistancia que debemos de utilizar es
el log-verosimilitud. La distanciaentre dos clusters dependerá deldecremento en el log-verosimilitudcuando ambas se combinan en un
único cluster. Si se trata de datoscontinuos se puede usar la distanciaeuclídea entre los centros de losclusters.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 25/29
PROCEDIMIENTO DE CLUSTER
EN DOS PASOS La opción número de clusters número de clusters
permite especificar el número
deseado de conglomerados odejar que el algoritmoalgoritmoseleccione el númeroseleccione el número declusters basado en dos criteriosBIC (criterio Bayesiano) o AIC
(criterio de información deAkaike). El método requiere
estandarización de todas lasvariables por lo que por defecto
la efectúa y nos informa delnúmero de variables aestandarizar.
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 26/29
PROCEDIMIENTO DE CLUSTER
EN DOS PASOS OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS
-Gráfico de porcentaje intraconglomerado:
Muestra los gráficos que indican variación decada variable dentro de los conglomerados.
En categóricas se genera un gráfico de barrasagrupado, mostrando la frecuencia de lascategorías en cada conglomerado.
En las contínuas un grafico de barras de errorpara la variable en cada conglomerado..
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 27/29
PROCEDIMIENTO DE CLUSTER
EN DOS PASOS OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS
-Gráfico de sectores deconglomerados: :
porcentaje y frecuencia de individuosen cada conglomerado. 3
2
1
Número deconglomerados en dos
fases
Tamaño de conglomerado
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 28/29
PROCEDIMIENTO DE CLUSTER
EN DOS PASOS OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS
Gráfico de importancia devariables : :
:Muestra varios gráficos que indican laimportancia de cada variable en cada
conglomerado.Los resultados se pueden ordenar según el nivel
de importancia de cada variable porconglomerado o por variable. En el primercaso para cada conglomerado se crearangráficos por orden de importancia devariables. En el segundo caso para cadavariable por conglomerados.
PROCEDIMIENTO DE CLUSTER
5/17/2018 Analisis de Cluster Con SPSS - slidepdf.com
http://slidepdf.com/reader/full/analisis-de-cluster-con-spss 29/29
PROCEDIMIENTO DE CLUSTER
EN DOS PASOS OPCIÓN GRÁFICOS OPCIÓN GRÁFICOS
Medida de importancia devariables : :
:La opción permite seleccionar la medida de laimportancia para representar en el gráfico:
chi-cuadrado o t-student (categóricas ycuantitativas respectivamente).
Hay que seleccionar el nivel de significaciónglobal si se quiere que aparezcan las líneascorrespondientes al valor crítico
2
1
3 C o n g l o m e r a d o
40200-20-40
t de Student
Estadístico decontraste
Valor crítico
Ajuste de Bonferroni aplicado
Huevos