Apuntes Cluster

CLUSTER ANALYSIS 1.Introduccin 2.Objetivos del tema -Formular un problema de clasificacin, seleccionar la estrategia y las tcnicas adecuadas para resol-verlo, e interpretar los resultados. -Evaluar el nivel de consecucin de los objetivos perseguidos. -Comprender los textos acadmicos sobre el tema y estar en condiciones de entender las aplicacio-nes de este tipo de tcnicas tanto a nivel de publicaciones acadmicas (revistas) como en aplicacio-nes reales (investigaciones, estudios reales de mercado, etc.) 2.1.Comparacin con otras tcnicas de anlisis multivariante. -Tcnica centrada en los individuos. -No los representa en espacios de reducida dimensin, a partir de las interrelaciones de las variable, sino que simplemente les intenta agrupar o clasificar en funcin de sus semejanzas en trminos de las variables originales. 2.2.Advertencias previas. Caractersticas generales sobre los problemas de cla-sificacin -Utilidad. La clasificacin o creacin de tipologas permite reducir de forma importante la cantidad de informacin a manejar, separando las diferencias superfluas de las substantivamente importantes, de tal manera que se pasa de disponer de informacin detallada sobre numerosos individuos a tener in-formacin concisa sobre unos pocos grupos. -No existen clasificaciones naturales. Cualesquiera que sea el tipo de objetos a clasificar, existen muchas clasificaciones posibles de los mismos atendiendo a los distintos criterios que se pueden de-finir para su agrupacin. Los alumnos de una clase pueden ser agrupados atendiendo al sexo, a la edad, al color del pelo o a su altura. Todas y cada una de ellas pueden ser buenas clasificaciones en funcin de los objetivos yde la utilizacin que se pretenda hacer de ellas. En cualquier caso, ningu-na de ellas es la clasificacin de la clase. -Tcnicasheursticas.Sonaplicacionesestadsticasengeneralsencillas.Laeleccinentreellas depende en gran manera del tipo de datos disponible y de los objetivos y criterios manejados -Incidenciadelatcnicasobrelosresultados.Laaplicacindealgoritmosdistintospuededar lugar a resultados distintos. La aplicacin de estas tcnicas, pues, debe ser muy cuidadosa y nunca debe hacerse con una perspectiva nica; la interaccin, la aplicacin de distintos criterios tcnicos es muy importante para obtener resultados consistentes, tiles y robustos. En definitiva, las tcnicas de clasificacin tienen un componente artesanal muy pronunciado. -Imposicin estructura. Cualesquiera que sean los datos disponibles, existan o no grupos naturales, las tcnicas establecen grupos. El Grfico 1 muestra dos situaciones de partida distintas para clasifi-car n individuos en dos variables, en el caso de la izquierda existen grupos naturales, en el de la de-recha, no. En ambos casos las tcnicas de clasificacin generarn grupos, en el primercaso detec-tando los naturales, en el segundo creando grupos de forma ms forzada o discrecional. Ser ne-cesario, pues, interpretar y validar los resultados para poder identificar claramente las diferencias re-ales de los grupos obtenidos. Producto A240 220 200 180 160 140 120 100 80 60Producto B2402202001801601401201008060Producto D130 120 110 100 90 80Producto E280260240220200180160140120 Grfico 1. Ejemplos de datos con y sin estructura natural de grupos 3.Objetivos de las tcnicas de clasificacin. A partir de la descripcin de n individuos a travs de p variables se pretende clasificar los individuos en grupos segn sus valores en las p variables.Los grupos resultantes deberan mostrar un alto grado de homogeneidad interna y un alto grado de heterogeneidad externa y por tanto, si la clasificacin es acer-tada,losobjetosdecadagrupoestarnprximosentrescuandoserepresentengrficamente,ylos diferentes grupos estarn alejados. 4.Fases de un estudio de clasificacin. Las etapas a seguir en cualquier problema de clasificacin se detallan a continuacin. La primera que se presenta no es una etapa propiamente dicha,ms bien se trata de un instrumento de soporte a algunas de las decisiones que se debern tomar en el transcurso del proceso. 4.1.Representacin de los datos. SupongamoselproblemadeclasificacindetalladoenlaTabla1.Setratadeclasificar4individuosa partir de cinco variables. V1V2V3V4V5 I11020102010 I25060506050 I32010201020 I40400400 Tabla 1 4.1.1.Diagrama bivariantes. La manera tradicional de representar los datos ha sido la de considerar los individuos como n puntos en unespaciodedimensinp.Enconsecuencia,losdiagramasbivariantesdondeseproyectanlosindivi-duossobreelespaciodefinidopordosvariablescualesquierahasidoelinstrumentotradicionalmente utilizado para tener una visin grfica de los datos. El Grfico 2 muestra un ejemplo de este tipo de grfico para los datos del problema. Esta visin es espe-cialmente til cuando se manejan muchos individuos y pocas variables, pero al comparar la semejanza de los individuos atendiendo solo a dos variable fcilmente se pueden obtener conclusiones engaosas acerca del parecido de los individuos. 0102030405060700 10 20 30 40 50 60V1V2 Grfico 2 4.1.2.Perfiles Unmtodoalternativoderepresentacingrficadelosdatos,especialmenteadecuadacuandosedis-ponendemuchasvariablesypocasobservaciones,esladenominadarepresentacinporperfiles.El Grfico 3 muestra este tipo de representacin para los datos del ejemplo anterior. En este tipo de grfico se representan las variables como puntos en el eje horizontal, y los individuos como lneas que unen los valores que toma dicho individuo en cada una de las variables contempladas. De esta manera se tiene una visin completa de los datos de los individuos y, por tanto, se puede observar mejor las semejanzas y diferencias entre individuos. 010203040506070V1 V2 V3 V4 V5I1I2I3I4 Grfico 3 4.2.Decisiones previas sobre variables. 4.2.1.Seleccin de variables. Esta es, probablemente, la decisin ms importante. Las variables escogidas sern las que determinarn las distancias entre los individuos, y por tanto, la tipologa resultante. Las variables seleccionadas deben reflejar de la forma ms precisa posible los criterios bajo los cuales deseamos crear los grupos. Lainclusindevariablesirrelevantesolaomisindevariablesimportantespuedenprovocartipologas que no reflejen adecuadamente la realidad del problema. En el Grfico 4 se muestra lo que puede ocurrir si frente a un problema donde se desean clasificar las zonasdeventaenfuncindelasventasdelproductoA,seincorporaraunasegundavariablequeno tuvieraquevercondichasventas.Elgrficodelaizquierdamuestraqueexistendosgruposclarosde zonas en funcin de las ventas de dicho producto, si se toma en consideracin errneamente una varia-ble irrelevante pueden darse resultados como el del grfico de la derecha donde apareceran cuatro gru-pos. Producto A240 220 200 180 160 140 120 100 80 60Producto A240 220 200 180 160 140 120 100 80 60Irrelevante3002001000 Grfico 4 Un problema similar puede aparecer si se deja de considerar una variable importante. El Grfico 5 mues-tra que si deseara agrupar las citadas zonas en funcin de las ventas de los productos B y C, tendremos una clara tipologa de tres grupos. Si por error se omite una de ellas, las ventas de C, obtendremos un resultado (grfico de la derecha) donde apareceran solamente dos grandes grupos. Producto B240 220 200 180 160 140 120 100 80 60Producto C2402202001801601401201008060Producto B240 220 200 180 160 140 120 100 80 60 Grfico 5 4.2.2.Estandarizacin. Laimportanciaquelasvariablesseleccionadastomanenelprocesodecreacindegruposdepende absolutamente de las varianzas de cada una de ellas.Cunto mayor varianza tenga una variable, cunto ms discrimine entre las distintas observaciones, ms influencia tendr en la formacin de grupos. El Grfico 6 muestra un ejemplo de esta afirmacin, supn-gase que se desea clasificar las zonas de ventas en funcin de las ventas del producto D y E. Estas dos variablestienenvarianzassignificativamentedistintascomosepuedeobservarenelgrficodelaiz-quierda de la mencionada figura. Si se desearan formar, por ejemplo, dos grupos est claro que los gru-posseformaran cortandohorizontalmentelanubedepuntos.Estos dosgruposasformados, sedife-renciaran bsicamenteporelvalortomado enlasventasdeE.Sise estandarizanlasdosvariablesla nube de puntos adopta la forma del grfico de la derecha; en este segundo caso las soluciones no sern tan obvias y por tanto no existe ninguna razn especial para que la variable E sea la dominante. En consecuencia, el investigador debe decidir si estandariza o no. Producto D3203103002902802702602502402302202102001901801701601501401301201101009080Producto E28026024022020018016014012010080Zscore:Producto D2.4 2.0 1.6 1.2 .8 .4 -.0 -.4 -.8 -1.2 -1.6 -2.0 -2.4Zscore: Producto E210-1-2 Grfico 6 4.2.3.Ponderacin La eleccin de variables debe reflejar adecuadamente los criterios substantivos bajo los que deseamos crear las tipologas. El peso o importancia que cada una de ellas tomar en el clculo de distancias entre individuos, y por tanto, en la formacin de grupos vendr determinada por su varianza. Sin embargo, el investigadorpuede y debe evaluar si este sistema automtico de ponderacin de las variables se ajusta a suscriterios y plantearse la posibilidad de incorporar ponderaciones exgenas de las mismas con tal de reflejar adecuadamente sus criterios e intenciones. 4.2.4.Variables correlacionadas. El hecho de que algunas de las variables del anlisis estn correlacionadas puede provocar alteraciones enelsistemadeponderacionesdelas variables.Sialgnaspectodelproblemaestrepresentadopor ms de una variable (correlacin entre ellas), har que las distancias aumenten en la direccin que estas variables representan. Zscore:Producto A1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0Zscore:Producto A1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0Zscore:Producto A1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0Zscore: Accesorios A1.51.0.50.0-.5-1.0-1.5-2.0 Grfico 7 El Grfico 7 muestra un ejemplo de esta situacin. A la izquierda se observa la distancia entre dos indivi-duos atendiendo a las ventas del producto A, si se incorpora otra variable correlacionada con la anterior (ventas de accesorios deA), la distancia entre estos dos mismos individuos aumenta (grfico de la de-recha). Ello conducir a aumentar el peso o importancia de este criterio respecto a los dems. Si se desea eliminar este efecto, la solucin puede pasar por realizar un anlisis multivariante de reduc-cindedimensionalidad(ACP,porejemplo)sobrelasvariablesoriginalesyutilizarloscomponentes obtenidos como criterios de clasificacin. LaTabla 2 muestra las distancias entre dos individuos utilizando como criterios las variables originales estandarizadas, los componentesy los componentes estandarizados. ZonaProd. A est.Acc. A est.Componente Comp. est. 9-1.77872-1.77872-2.38888-1.69514 370.435010.685540.79240.56229 Distancia-2.21373-2.46426-3.18128-2.25743 3.31257873 Tabla 2 4.3.Seleccionar criterio de semejanza entre objetos. Una vez definidas las variables a utilizar (criterios de clasificacin), el usuario debe el procedimiento de cuantificacindelassemejanzasentrelosdistintosobjetos.Estasmedidasdebenserfuncindelos objetivos del anlisis y del tipo de variables seleccionadas. En general se distinguen entre: -Medidas de similitud: Toman mayores valores cuanto ms parecidos son los objetos. -Medidas de disimilitud: Toman mayores valores cuanto ms distintos son los objetos. 4.3.1.Elementos caractersticos de un objeto medido sobre variables continuas. 010203040506070V1 V2 V3 V4 V5I1I2I3I4 Grfico 8 -Nivel: Ordenes de magnitud en los que se mueven las variables. Los individuos 1 y 3 tienen niveles parecidos pero no as el individuo 2 que lo tiene mucho mayor. -Perfil:Patrnseguidoporlosvaloresdelasdistintasvariablesenundeterminadoobjeto.I2eI1 tienen perfiles idnticos pero, en cambio, el I3 lo tiene antagnico. -Variabilidad: Dispersin de los valores de las distintas variables dentro de un mismo individuo. I1 e I4 tienen muy distinta variablidad, no as I3 e I2. 4.3.2.Caso 1: Todas las variables continuas. A la hora de decidir el criterio de clculo de distancias entre objetos es importante definir de antemano el conceptosustantivodediferenciasentreindividuos.Enelejemplo,sepuedenplantearlassiguientes preguntas: el individuo 2 y el individuo 1, son parecidos?. La respuesta a esta pregunta no es nica ya quedependedelconceptosustantivodesemejanzaquetengamosenmente,sislonospreocupael perfil de ventas de las zonas, las dos mencionadas lo tienen idntico, si en cambio, nos interesa remar-car el tamao de las ventas dichas zonas son bien distintas, En el primer supuesto desearamos que I1 e I2 aparecieran en el mismo grupo, sta no sera la solucin deseada en el segundo supuesto. La elec-cin de la medida de distancia nos permitir expresar estos criterios. 4.3.2.1.Distancia eucldea (disimilitud): ( )21= =pqjq iq ijx x dSensible al nivel, perfil y variabilidad de los objetos. 4.3.2.2.Distancia Pearson (disimilitud) Similar a la anterior pero corregida por la variabilidad de las variables. ( )=o=p1 q2q2jq iqijx xd4.3.2.3.Manhattan o City block. (disimilitud) = =p1 qjq iq ijx x d4.3.2.4.Correlacin entre individuos (similitud) Sensible solamente al perfil de los individuos. Se calcula como el coeficiente de correlacin de Pearson trasponiendo la matriz de datos. Losgrficosytablassiguientesmuestranlosresultadosobtenidosutilizandolasdistintasdistanciasen cuatro situaciones tipo. 010203040506070V1 V2 V3 V4 V5I1I20102030405060700 5 10 15 20 25Individuo 1Individuo 2V1V2V3V4V5 Eucldea Manhattan Correlacin89,44271912001 051015202530354045V1 V2 V3 V4 V5I1I20510152025303540450 5 10 15 20 25Individuo 1Individuo 2V1V2V3V4V5 Eucldea Manhattan Correlacin33,1662479701 0510152025V1 V2 V3 V4 V5I1I205101520250 5 10 15 20 25Individuo 1Individuo 2V1V2V3V4V5 Eucldea Manhattan Correlacin22,3606797750-1 0102030405060V1 V2 V3 V4 V5I1I201020304050600 10 20 30 40 50 60Individuo 1Individuo 2V1V2V3V4V5 Eucldea Manhattan Correlacin35,17101079650,548215984 4.3.3.Caso 2: Todas las variables son categricas: Distancia 2_ . 4.3.4.Caso 3: Mezcla de variables categricas y continuas. La estrategia a seguir podra ser: -Categorizar las variables ordinales y continuas. Tomar las variables categricas como tales. -Utilizar anlisis factorial de correspondencias mltiples. -Aplicar medidas de similitud/disimilitud adecuadas para variables continuas sobre los ejes factoriales. 4.4.Mtodos de clasificacin: Una vez obtenida la matriz de distancias entre individuos D (nxn), debe efectuarse la decisin del mtodo de clasificacin a utilizar. 4.4.1.Medias mviles (K-Means, Quick Cluster, Nuages dinamiques). Mtododeclasificaciniterativoyquenorequiereespecialesrecursosdealmacenamientoniclculo informtico. Rpido pero poco eficiente. El usuario debe decidir de antemano el nmero de grupos (K) a formar. ALGORITMO: 1.SeseleccionanKcentrosdegruposiniciales.Lodebeefectuarelinvestigadoroensudefectolos programas informticos utilizan cierto de tipo de soluciones iniciales inteligente (valores extremos, aleatoriamente, etc.). 2.Cadaobjeto esasignado algrupodecuyocentroestmsprximo.(segnelcriteriodedistancia seleccionado, normalmente la eucldea). 3.Loscentrossonactualizados,comocentroopromediodelasvariablesparalosobjetosdecada grupo. 4.Vuelta al paso 2, excepto si los centros actualizados coinciden con los anteriores. El ejemplo siguiente ilustra los pasos de una clasificacin por centros mviles de los individuos detalla-dos en la Tabla 3. Objeto V1 V2A1,82 B2,12,4 C5,33,2 D4,42,8 E6,25 I3,53 H6,77 J5,81,4 K1,83,2 L5,93,2 Tabla 3 Los centros iniciales se muestran en la Tabla 4. c1133 c215,354 c316,454 Tabla 4 Enunaprimerapasadaasignacadaobjetoalgrupocuyocentroseamscercanoalpunto(segnla distancia seleccionada). El Grfico 9 muestra los resultados de dicha asignacin (etapa 1 en Tabla 7). L KJHIEDCBA0123456780 1 2 3 4 5 6 7 8c31 c21c11L KJHIEDCBA0123456780 1 2 3 4 5 6 7 8 Grfico 9A partir de estos grupos inicialmente creados se recalculan los nuevos centros que pasan a ser los que muestra la Tabla 5 y se observan en la parte izquierda del Grfico 10. Como puede verse los tres nuevos centros (marcados ahora por un pequeo crculo) se desplazan hacia los exteriores del grfico. c122,722,68 c225,552,3 c326,275,07 Tabla 5 c32c22c12c31 c21c11L KJHIEDCBA0123456780 1 2 3 4 5 6 7 8c33c23 c13c32c22c12c31 c21c11L KJHIEDCBA0123456780 1 2 3 4 5 6 7 8 Grfico 10 c132,32,65 c235,352,65 c336,456 Tabla 6 El siguiente paso consiste en volver a asignar los puntos a los nuevos centros (etapa 2 en Tabla 7), el resultadodeestaasignacinsepresentanenlapartederechadelGrfico10.LaTabla6yelpropio grfico mencionado muestran los nuevos centros. Al efectuar una nueva asignacin (etapa 3 en Tabla 7) se observa que ningn individuo cambia de grupo con lo que no se modifican los centros. IndividuoEtapa 1 Etapa 2 Etapa 3A111 B111 C222 D122 E333 I111 H333 J222 K111 L322 Tabla 7 4.4.2.Algoritmos jerrquicos. A partir de la matriz de distancias entre individuos, van formando grupos agregando secuencialmente los individuos o grupos ms prximos entre s. Crean, en definitiva una estructura de tipologas partiendo de la primera formada por n grupos donde cada individuo forma un grupo, hasta llegar a la formacin de un gran grupo formado por todos los individuos.Ms que una clasificacin facilitan una jerarqua de clasificaciones, entre las que el usuario podr esco-ger. Existendistintosalgoritmos,quedifierenporelcriterioempleadoparacalcularlasimilitudodisimilitud entre dos grupos. El Grfico 11, llamado dendograma, es una representacin visible de este proceso de agregacin aplica-do al ejemplo anterior. 7 8 13 5 12 10 3 11 6 4 9 2 1-98,26-32,17 33,91100,00SimilarityObservations Grfico 11 Acontinuacinsedescribenalgunosdelosmtodosdeagregacinmsimportantes,ilustrndolosa travs de su aplicacin a dos situaciones de clasificacin simples que se muestran en el Grfico 12. Grfico 12 En ambos casos se trata de clasificar un conjunto de 10 objetos utilizando como criterios dos variables (para facilitar el anlisis visual del problema). En el caso de la izquierda (caso 1) no existen grupos natu-rales evidentes, en cambio, el caso de la derecha (caso 2) muestra una clara estructura de tres grupos. 4.4.2.1.Single linkage, mtodo de la distancia mnima, o del vecino ms cercano. La distancia entre dos grupos formados por( )an 2 aa ..., , a , ay( )bn 2 ab ..., , b , bes: ( )j ij ib , ab , ad Min -Solucin del caso 1: A1 B2 K9 C3 L 10 D4 I6 J8 E5 H7 -Solucin del caso 2: C3 L 10 D4 A1 B2 I6 K9 H7 J8 E5 4.4.2.2.Complete linkage, mtodo de la distancia mxima, o del vecino ms lejano. La distancia entre dos grupos formados por( )an 2 aa ..., , a , ay( )bn 2 ab ..., , b , bes: ( )j ij ib , ab , ad Max -Solucin del caso 1: A1 B2 K9 D4 I6 C3 L 10 J8 E5 H7 -Solucin del caso 2: C3 L 10 D4 A1 B2 I6 K9 H7 J8 E5 4.4.2.3.Average linkage, mtodo de la distancia promedio. La distancia entre dos grupos formados por( )an 2 aa ..., , a , ay( )bn 2 ab ..., , b , bes: b ab , ab , an ndj ij i -Solucin del caso 1: A1 B2 K9 C3 L 10 D4 I6 J8 E5 H7 -Solucin del caso 2: C3 L 10 D4 A1 B2 I6 K9 H7 J8 E5 4.4.2.4.Mtodo de Ward: A cada paso agrega la pareja de grupos que produce un incremento mnimo en una funcin objetivo que tiene que ver con la suma de los cuadrados de las distancias de los objetos al centro del grupo. La fun-cin objetivo sera: ( )2g p igp igpx x donde g: grupo, p: variable, i: individuo. Si se utiliza este algoritmo, la decisin de distancia queda condicionada ya este mtodo conlleva implci-tamente la utilizacin de la distancia eucldea. -Solucin del caso 1: A1 B2 K9 D4 I6 C3 L 10 J8 E5 H7 -Solucin del caso 2: C3 L 10 D4 A1 B2 I6 K9 H7 J8 E5

4.4.2.5.Mtodo del centroide La distancia entre dos grupos formados por( )an 2 aa ..., , a , ay( )bn 2 ab ..., , b , bes: = = = bj bjaj ajp1 j2bj ajb c ; a c con ) c c ( -Solucin del caso 1: A1 B2 K9 C3 L 10 D4 I6 J8 E5 H7 -Solucin del caso 2: C3 L 10 D4 A1 B2 I6 K9 H7 J8 E5 4.4.3.Caractersticas de los mtodos de agregacin 4.4.3.1.Single linkage: -No impone forma -Es adecuado para reas de alta densidad -Produce dendogramas pesimistas. -Permite realizar grupos de distintos tamaos. -Muy adecuado para detectar anomalas. -Causa encadenamiento si existen puntos intermedios. -Permite que convivan objetos muy distintos en un mismo grupo. 4.4.3.2.Complete linkage: -Impone esfericidad y dimetro uniforme. -Produce dendrogramas optimistas. -Evita que convivan objetos muy distintos en un mismo grupo. 4.4.3.3.Average linkage: -Caractersticas intermedias entre complete y single linkage. 4.4.3.4.Ward: -Produceobjetosesfricosdetamaoynmerodeobjetosuniforme.Puedeserdeseablesislo quisiramos data reduction. -Incorpora datos anmalos en el mismo grupo que datos que no lo son. -Produce dendrogramas muy optimistas. 4.4.3.5.Ejemplos de respuesta de los mtodos frente a determinados patrones: 4.4.3.5.1Patrn 1. V17,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0V26543210TSRQPONMLKJIHGFEDCBA - Single linkage: D4 J 10 K 11 L 12 H8 I9 E5 F6 S 19 G7 T 20 B2 R 18 A1 C3 M 13 O 15 Q 17 N 14 P 16 -Complete linkage: D4 J 10 F6 S 19 N 14 P 16 M 13 O 15 Q 17 H8 I9 K 11 L 12 E5 G7 T 20 B2 R 18 A1 C3 -Ward: D4 J 10 K 11 L 12 E5 H8 I9 F6 S 19 N 14 P 16 M 13 O 15 Q 17 G7 T 20 B2 R 18 A1 C3

4.4.3.6.Patrn 2: V46,0 5,5 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 ,5 0,0V35,04,54,03,53,02,52,01,51,0,50,0TSRQPONMKJ IHGFE DCBA -Single linkage: R 18 S 19 P 16 Q 17 C3 D4 B2 T 20 A1 E5 I9 K 11 M 13 J 10 N 14 O 15 F6 G7 H8 -Complete linkage: R 18 S 19 P 16 Q 17 I9 K 11 J 10 N 14 M 13 O 15 C3 D4 B2 A1 T 20 E5 F6 G7 H8 -Ward: R 18 S 19 P 16 Q 17 J 10 N 14 I9 K 11 M 13 O 15 C3 D4 B2 A1 T 20 E5 F6 G7 H8 4.4.3.6.1Patrn 3: V54,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 ,5 0,0V64,03,53,02,52,01,51,0,50,0TSRQPONMLKJIHGFEDCBA -Single linkage: J 10 M 13 O 15 G7 B2 N 14 D4 S 19 I9 C3 K 11 R 18 P 16 A1 T 20 Q 17 H8 E5 F6 L 12 - Complete linkage: J 10 M 13 O 15 B2 N 14 G7 C3 I9 D4 S 19 K 11 R 18 P 16 A1 T 20 Q 17 E5 F6 H8 L 12 - Ward: J 10 M 13 O 15 B2 N 14 G7 A1 T 20 Q 17 D4 S 19 C3 I9 K 11 R 18 P 16 H8 L 12 E5 F6 4.4.4.Comparacin de mtodos: 4.4.4.1.Exigencias de clculo. Los algoritmos jerrquicos requieren una amplia utilizacin de recursos de clculo lo cual hace inviable la utilizacin de este tipo de tcnicas cuando el nmero de objetos a clasificar es elevado (ms de 300 indi-viduos). Los algoritmos de centros mviles no tienen apenas limitaciones en este sentido. 4.4.4.2.Flexibilidad en la utilizacin de criterios de distancia. -Total con single linkage y complete linkage. -Ward y centros mviles exigen la utilizacin de la distancia eucldea. 4.4.4.3.Problemtica especfica: -Centros mviles son muy dependientes del nmero de centros y de sus valores iniciales. -Los resultados de los jerrquicos son dependientes de las agregaciones efectuadas en los primeros pasos del algoritmo. -Conelfindeevitarestosproblemas,unaestrategiarecomendableconsisteenutilizarinicialmente alguna tcnica jerrquica. A la vista de los resultados obtenidos se decide el nmero de grupos y los centrosdelosmismos,esteresultadodelalgoritmojerrquicosesometecomosolucininicialdel algoritmo de centros mviles que a travs de su proceso iterativo de asignacin permite ajustar la so-lucin obtenida eliminando los efectos de los pasos iniciales de agregacin. 4.4.5.Decisiones sobre el nmero de grupos. -A menudo es arbitrario. -Casi siempre se desconoce a priori. -Depende de los objetivos perseguidos. Si se desea simplemente reducir la cantidad de informacin, ylosdatostienenpocaestructura,podemosfijarelnmerodegruposporpuraconvenienciapre-guntndosecuntosgruposqueremos?.Sielobjetivoesdescubrirlaestructuradelosdatos,la pregunta deber ser cuntos grupos hay?. Para el algoritmo de centros mviles es muy importante acertar el nmero adecuado, ya que condiciona todo el desarrollo del algoritmo. Criterios no numricos: Seleccionar el nmero de grupos que -conduzca a una solucin validable segn 4.4.7 -conduzca a una solucin claramente interpretable. -conduzca a una solucin til cara a los objetivos del usuario. -No sea demasiado elevado por cuestiones de manejabilidad. -No permita la existencia de grupos que contengan objetos muy distintos. - Criterios numricos:Criterio del codo. -Para algoritmos no jerrquicos: -Repetir la aplicacin del algoritmo para distintos nmeros de grupos. -Construir un grfico de la funcin objetivo con el nmero de grupos. C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ LAC 9 LAU 10 MIRO 11 AD 14 ARM 6 KLE 16 COR 5 BUR 8 LEVI 12 DOC 17 TIM 4 BEN 2 MNG 7 SPR 13 P&B 15 MD 1 ZARA 3 2 3 45 6 789 4.4.6.Interpretacin de resultados. 4.4.6.1.Descripcin de los grupos en base a las variables empleadas para la clasificacin. La clasificacin se trata como una variable categrica donde cada uno de los grupos es una modalidad, a partir de aqu se puede cruzar dicha variable con las variables categricas que hayan intervenido en la clasificacinyefectuarpruebasChi-cuadradoparaanalizarlasdiferenciasentregrupos.Enelcasode que las variables criterio de la clasificacin sean continuas se pueden calcular las medias de dichas va-riables para cada uno de los grupos, utilizando el anlisis de la varianza como instrumento para el anli-sis de las diferencias de medias. -,74 ,22 ,13 ,19 ,24,16 -,44 ,70 -,42 -,24,08 -,60 -1,00 ,01 -,52,82 ,13 -,21 ,06 -,12,07 -,03 -,02 ,02 -,06MD-BEN-Z-MNG-S-PBTIM-LEV-DOCCOR-BUR-ARM-LAC-L-MIR-AD-KLTipologa 4Group TotalPrestigio/calidad Moda/original Informal De temporada Para chica ANOVA7,312 3 2,437 28,565 ,0001,109 13 8,533E-028,422 161,676 3 ,559 4,218 ,0271,721 13 ,1323,397 163,815 3 1,272 11,672 ,0011,416 13 ,1095,231 16,759 3 ,253 3,307 ,054,994 13 7,649E-021,753 161,054 3 ,351 1,751 ,2062,609 13 ,2013,662 16Between GroupsWithin GroupsTotalBetween GroupsWithin GroupsTotalBetween GroupsWithin GroupsTotalBetween GroupsWithin GroupsTotalBetween GroupsWithin GroupsTotalPrestigio/calidadModa/originalInformalDe temporadaPara chicaSum ofSquares df Mean Square F Sig. 4.4.6.2.Relacin de los grupos con las variables externas (ilustrativas). 4.4.7.Validacin de los resultados 4.4.7.1.Necesidad de validar los resultados. Las tcnicas descriptivas multivariantes no facilitan pruebas de significacin y otras medidas propias de la estadstica inferencial. Resulta complejo la validacin total de los resultados de una clasificacin 4.4.7.2.Robustez al cambio del mtodo. Mtodos para evaluar la robustez de la estructura. -Repeticin del anlisis modificando algunas de sus caractersticas (variables utilizadas, estandariza-ciones, criterios de distancias, algoritmos de clasificacin, ). -Comparar los resultados de las clasificaciones obtenidas: -Semejanza de los perfiles medios de los grupos obtenidos en las variables que intervienen en la clasificacin. (interpretacin de los grupos). -,85 ,12 -,05 ,11 -,14-,52 ,40 ,48 ,34 ,98,59 -,09 -,02 -,12 -,19-,35 -,80 -,98 ,31 -,52,07 -,03 -,02 ,02 -,06-,74 ,22 ,13 ,19 ,24,16 -,44 ,70 -,42 -,24,08 -,60 -1,00 ,01 -,52,82 ,13 -,21 ,06 -,12,07 -,03 -,02 ,02 -,061234SingleLinkageGroup TotalMD-BEN-Z-MNG-S-PBTIM-LEV-DOCCOR-BUR-ARM-LAC-L-MIR-AD-KLTipologa 4Group TotalPrestigio/calidad Moda/original Informal De temporada Para chica -Tablas cruzadas de los resultados de dos clasificaciones. (coincidencia en la composicin de los grupos).Tipologa 4 * Single Linkage CrosstabulationCount4 2 63 31 1 26 64 2 10 1 17MD-BEN-Z-MNG-S-PBTIM-LEV-DOCCOR-BUR-ARM-LAC-L-MIR-AD-KLTipologa 4 - WardTotal1 2 3 4Single LinkageTotal 4.4.7.3.Tcnica del split halves. Extrapolacin de la muestra a la poblacin. Consiste en dividir la muestra a analizar en dos submuestras de manera aleatoria. Se efecta un anlisis por separado de cada una de ellas y se comparan los resultados de ambos anlisis. Este procedimiento solo es viable si disponemos de un tamao de muestra suficientemente grande. 4.4.7.4.Laclasificacinobtenidadebeestar deacuerdo conlasexpectativasyconocimientos previos. 4.4.7.5.Concordancia con clasificaciones previas de otros estudios o autores. 4.4.7.6.Existenciadeunpatrn derelacin plausibleysignificativoentrelos gruposylasva-riables externas o ilustrativas. 4.4.7.7.Criterio definitivo: Utilidad de la clasificacin para los objetivos perseguidos. Rotated Component Matrixa,654 ,222 -,174 -,373 -,293,165 ,638 -,251 -,158 -,023-,819 ,090 ,049 ,118 ,076,077 ,689 ,291 ,010 ,107,416 ,409 -,583 ,049 -,093,414 ,032 -,211 ,436 ,088-,106 -,679 -,058 ,051 ,109-,089 ,426 ,593 ,290 -,100,006 -,376 ,204 ,578 ,219-,106 ,084 ,014 ,058 ,866,787 ,100 -,175 ,189 ,013-,151 ,547 -,197 ,234 ,068-,236 -,059 ,749 ,028 ,025-,208 ,219 ,060 ,676 -,108-,587 -,206 ,111 ,391 ,172-,129 -,615 -,026 -,013 -,116-,207 ,089 ,542 -,011 ,474,812 ,145 -,215 -,055 -,042CalidadDiseo atractivoBarataModernaEleganteDeterminado pblicoPoco originalDivertidaMala calidad/precioPara chicaExclusivaAmplia gamaMuy informalDe temporadaPoca garantaNo est de modaPara jvenesMucho prestigio1 2 3 4 5ComponentExtraction Method: Principal Component Analysis.Rotation Method: Varimax with Kaiser Normalization.Rotation converged in 8 iterations.a. -,50 ,21 -,52 -,05 ,06-,47 ,30 ,60 ,26 ,68-1,33 ,29 -,04 ,37 ,32,12 -,83 ,65 -,04 -,23-,35 -,80 -,98 ,31 -,521,07 ,66 -,68 ,01 -,25-,56 ,51 ,36 ,42 1,28,50 -,41 -1,01 -,30 -,51,62 -,45 -,10 -,36 ,03,88 -,44 -,25 -,08 ,091,04 ,50 -,20 ,38 -,35,16 -,43 ,92 -,58 -,16-,69 -,14 ,21 ,22 -,29,57 ,23 -,38 ,13 -,34-,85 ,13 ,16 -,08 -,64,74 ,27 ,36 ,31 ,09,19 -,06 ,53 -,64 -,32Massimo DuttiBenettonZaraTimberlandCortefielGiorgio ArmaniMangoBurberrysLacosteRalph LaurenAntoni MirLevi'sSpringfieldAdolfo DomnguezPull&BearCalvin KleinDocker'sMarcaPrestigio/calidad Moda/original Informal De temporada Para chica LAC 9 LAU10 MIRO 11 AD 14 ARM 6 KLE16 COR 5 BUR 8 LEVI 12 DOC17 TIM 4 BEN 2 MNG 7 SPR13 P&B15 MD1 ZARA3 Cluster Membership1 1 1 1 12 2 2 1 11 1 1 1 13 3 3 2 24 4 4 3 35 5 5 4 32 2 2 1 14 4 4 3 36 6 5 4 36 6 5 4 35 5 5 4 33 3 3 2 27 1 1 1 15 5 5 4 37 1 1 1 15 5 5 4 33 3 3 2 2Case1:MD2:BEN3:ZARA4:TIM5:COR6:ARM7:MNG8:BUR9:LAC10:LAU11:MIRO12:LEVI13:SPR14:AD15:P&B16:KLE17:DOC7 Clusters 6 Clusters 5 Clusters 4 Clusters 3 Clusters Mean-,92 ,25 -,28 ,16 ,19-,52 ,40 ,48 ,34 ,98,16 -,44 ,70 -,42 -,24,08 -,60 -1,00 ,01 -,52,86 ,42 -,23 ,21 -,21,75 -,44 -,18 -,22 ,06-,77 -,01 ,19 ,07 -,46-,85 ,12 -,05 ,11 -,14-,52 ,40 ,48 ,34 ,98,16 -,44 ,70 -,42 -,24,08 -,60 -1,00 ,01 -,52,86 ,42 -,23 ,21 -,21,75 -,44 -,18 -,22 ,06-,85 ,12 -,05 ,11 -,14-,52 ,40 ,48 ,34 ,98,16 -,44 ,70 -,42 -,24,08 -,60 -1,00 ,01 -,52,82 ,13 -,21 ,06 -,12-,74 ,22 ,13 ,19 ,24,16 -,44 ,70 -,42 -,24,08 -,60 -1,00 ,01 -,52,82 ,13 -,21 ,06 -,12-,74 ,22 ,13 ,19 ,24,16 -,44 ,70 -,42 -,24,63 -,05 -,41 ,05 -,22MD-ZBEN-MNGT-L-DC-BAMDKLLP-STipologa 7MD-Z-SPR-PBB-MNGT-L-DOCCOR-BURA-M-AD-KLAU-LACTipologa 6MD-Z-SPR-PBBEN-MNGTIM-LEV-DOCCOR-BURARM-LAC-LAU-MIR-AD-KLTipologa 5MD-BEN-Z-MNG-S-PBTIM-LEV-DOCCOR-BUR-ARM-LAC-L-MIR-AD-KLTipologa 4MD-BEN-Z-MNG-S-PBTIM-LEV-DOCCOR-ARM-BUR-LAC-LAU-MIR-AD-KTipologa 3Prestigio/calidad Moda/original Informal De temporada Para chica

Apuntes Cluster

Documents

Transcript of Apuntes Cluster