Análisis de clasificación - UAB...

48
Análisis de clasificación Pedro López-Roldán Departamento de Sociología Centro de Estudios Sociológicos sobre la Vida Cotidiana y el Trabajo (QUIT) Instituto de Estudios del Trabajo (IET) Universidad Autónoma de Barcelona [email protected] Sandra Fachelli Departamento de Sociología y Análisis de las Organizaciones Universidad de Barcelona Grupo de Investigación en Educación y Trabajo (GRET) Universidad Autónoma de Barcelona [email protected] Agosto de 2015 Seminario de Doctorado

Transcript of Análisis de clasificación - UAB...

Análisis de clasificación

Pedro López-RoldánDepartamento de Sociología

Centro de Estudios Sociológicos sobre la Vida Cotidiana y el Trabajo (QUIT)Instituto de Estudios del Trabajo (IET)

Universidad Autónoma de [email protected]

Sandra FachelliDepartamento de Sociología y Análisis de las Organizaciones

Universidad de BarcelonaGrupo de Investigación en Educación y Trabajo (GRET)

Universidad Autónoma de [email protected] Agosto de 2015

Seminario de Doctorado

Construcción de tipologías | Análisis de Clasificación 1

Presentación: clasificación y tipología

• El Análisis de Clasificación (ACL) técnica multivariada llamada también:– Cluster Analysis (Análisis de Conglomerados)– Análisis de Clasificación Automática / Analyse Typologique

• Reservamos la expresión Análisis tipológico para aludir a un proceso metodológico más general destinado a la construcción de tipologías, profuso en la tradición sociológica, que eventualmente puede usar técnicas de tipo multivariable.

• Propuesta metodológica de construcción: Tipología estructural y articuladase define como

“… un instrumento de operativización conceptual, construido de forma articuladaentre la teoría y la realidad empírica, y destinado a definir, estructurar y medir la complejidad multidimensional de los fenómenos sociales. Ello se traduce en la constitución de un conjunto de categorías o tipos a través de la agrupación de un universo de unidades mediante la combinación simultánea de las características que constituyen su espacio de atributos”. (López-Roldán, 1996: 15)

Construcción de tipologías | Análisis de Clasificación 2

Propuesta metodológica de construcción (López-Roldán, 1994)

La tipología estructural i articulada

Articulación Estructuración

Tipificación de la realidad social

Medición

OperativizarDefinir

TEORÍA

Articulación

Realidad empírica

▬ Deducción / Concreción▬ Inducción / Abstracción Explicación estructural

Construcción de tipologías | Análisis de Clasificación 3

Modelo de Análisis Análisis deanálisis Factorial Clasificación

X (n×p) R (p×p) F (n×m) D (n×n) T (k×m)Datos originales Matriz de Correlaciones Matriz Factorial Matriz de Distancias Matriz Tipológica

n radios, p variables, m factores y k tipos Georeferenciación

Mapa social

Proceso de construcción de tipologías

Construcción de tipologías | Análisis de Clasificación 4

El análisis de clasificación

• Presentación. Proceso de clasificación

– Se parte de individuoscaracterizados por variables (X)

– Objetivo: crear grupos lo más parecidos internamente y lo más diferentes entre ellos

– De forma automatizada según cada método– A partir de calcular medidas de similitud o de disimilitud (proximidad)

Espacio de atributosEspacio social

Representación de 5 individuos en el espacio de 2 variables

Construcción de tipologías | Análisis de Clasificación 5

Proceso de análisis de un

ACL

El análisis de clasificación

Fin

Construcción de tipologías | Análisis de Clasificación 6

– Etapa más crítica– Métrica: habitualmente continua, pero también pueden ser cualitativas de

tipo binario (dicotómicas, con valores 0/1) o bien pueden ser datos de frecuencias

– Deben ser homogéneas y comparables entre sí– Hay que evaluar si están correlacionadas y si su importancia es

proporcionada (sobredimensionalización)– Deben tener las mismas unidades de medida (estandarizar)

– Idoneidad de un Análisis Factorial:• Los factores acumulan diversas variables en cada uno de ellos• Los factores son variables incorrelacionadas• Los factores son variables continuas• Estandarizadas: expresadas en unidades de desviación típica

(media 0 y desviación 1)• Son variables que más discriminan o diferencian los individuos• SPAD cita tomar el 80% de la varianza o la mitad de factores (!)

1. Elección del conjunto de variables original

Construcción de tipologías | Análisis de Clasificación 7

– Con variables continuas: Distancia euclidiana

2'

1' )()',( ji

p

jijii xxdiid

Fragmento original de la obraElementos de Euclides de Alexandria (365 – 275 aC)

Pitágoras de Samos (582 aC - 496 aC)

2. Elección de la medida de proximidad

2 2 2 2 2 2 2(6 2) (5 2) 4 3 25 25 5h a b h

Construcción de tipologías | Análisis de Clasificación 8

– Matriz de distancias

2. Elección de la medida de proximidad

Construcción de tipologías | Análisis de Clasificación 9

Más de 100 métodos de clasificación existentes

3. Elección del método de clasificación

a) Métodos jerárquicos• Ascendentes o aglomerativos:

- Distancias mínimas- Distancias máximas- Distancia media entre grupos- Distancias entre centroides- Distancia mediana- Ward (mínima pérdida de inercia)

RECIP en SPAD• Descendentes o disociativos:

- los anteriores- Monotéticos:Método de William i LambertDetector automático de interacción (AID)

- Politéticos

b) Métodos no jerárquicos o de partición• De reasignación:

- Centros móviles (K-means, QUICKCLUSTERen SPSS)- Nubes dinámicas con grupos estables- Método de Forgy- Climbing- Isodata distancias mínimas

• De búsqueda de la densidad:- De aproximación tipológica: análisis modal de

Wishart, método de Taxmap de Carmichael iSneath, método Fortin

- De aproximación probabilística: método de lescombinaciones de Wolf

- Vecino más cercano (KNNen SPSS)• Directos: block clustering de Hartigan• De reducción de dimensiones: análisis factorial Q• Otros: algoritmos más recientesc) Métodos mixtos

- SEMIS en SPAD (Clas.if. Híbrida)- TWOSTEP CLUSTER en SPSS (Clasif. en dos fases)

CLU

STE

Ren

SPS

S

Construcción de tipologías | Análisis de Clasificación 10

– Métodos jerárquicos ascendentes

Dendrograma (árbol de agregación)

3. Elección del método de clasificación

Construcción de tipologías | Análisis de Clasificación 11

– Método ward, de mínima pérdida de inercia (intergrupos)

3. Elección del método de clasificación

Construcción de tipologías | Análisis de Clasificación 12

– Método ward, de mínima pérdida de inercia (intergrupos)

3. Elección del método de clasificación

Construcción de tipologías | Análisis de Clasificación 13

– Método de centros móviles: no jerárquico, nubes dinámicas, muchos datos

3. Elección del método de clasificación

Construcción de tipologías | Análisis de Clasificación 14

• Método no jerárquico. Nubes dinámicas• Gran cantidad de datos• Proceso:

1. Se fijan k de grupos con unos centres iniciales aleatorios a donde se asignan los individuos más próximos:

2. Esta partición se hace s veces (2, 3, 4…):

3. Se construye la partición-producto (tabla de contingencia): las casillas no vacías del cruce son los grupos estables

4. A continuación, habiendo reducido el número de unidades, se aplica un procedimiento clasificatorio, p. ej. Ward

– Método de grupos estables

3. Elección del método de clasificación

Construcción de tipologías | Análisis de Clasificación 15

– Método mixto, algoritmo del software SPAD (SEMIS)

• Partiendo de las puntuaciones factoriales del conjunto de individuos se aplica un triple proceso clasificatorio (Lebart, Morineau, Piron, 2004: 177 a 184):

1. Una primera clasificación se obtiene por el cruce de varias particiones de base construidas alrededor de centros móviles

2. Las clases estables que se obtienen de este primer procedimiento se agregan a continuación por un método de clasificación jerárquica ascendente según el criterio de Ward

3. Finalmente, las diferentes particiones de los individuos que se pueden obtener a partir del árbol de agregación del procedimiento Ward optimizan o se consolidan mediante una reasignación a los diferentes grupos creados en cada partición con un nuevo proceso de clasificación por centros móviles que mejora la inercia entre los grupos.

• A partir del árbol de agregación se trata de determinar el corte que corresponde a la mejor o mejores particiones

3. Elección del método de clasificación

Construcción de tipologías | Análisis de Clasificación 16

– El número de grupos, según el método clasificatorio:• Se fija con anterioridad• Se determina a posteriori

– Según criterios e hipótesis previas o de forma más exploratoria

– Criterios para decidir el número de grupos:• Proporción de varianza explicada por cada partición• Distancias entre los grupos.

• Analizar la Tabla de aglomeración: crecimiento del coeficiente• Saltos del dendrograma• En algunos métodos puede ser una decisión automatizada• El contenido substantivo y los criterios teóricos son importantes• Se trata de comparar y contrastar clasificaciones alternativas y

validarlas

4. Clasificación en un número de grupos

Construcción de tipologías | Análisis de Clasificación 17

– Tabla de aglomeración RMB 1986

4. Clasificación en un número de grupos

Construcción de tipologías | Análisis de Clasificación 18

– Tabla de aglomeración

Cálculo de (ver Excel):-Diferencias primeras(“velocidad”)-Diferencias segundas(“aceleración”)

Historial de conglomeración

Conglomerado 1

Conglomerado 2

Conglomerado 1

Conglomerado 2

1 35 1 22 0,00085 0,00 - 0 0 42 34 12 19 0,00210 0,00 0,00 0 0 143 33 6 18 0,00567 0,00 0,00 0 0 144 32 1 2 0,00963 0,00 0,00 1 0 165 31 3 8 0,01416 0,00 0,00 0 0 106 30 13 15 0,01901 0,01 0,00 0 0 167 29 5 28 0,02404 0,01 0,00 0 0 98 28 23 26 0,03387 0,01 0,00 0 0 219 27 5 32 0,04617 0,02 0,00 7 0 20

10 26 3 16 0,06252 0,02 0,00 5 0 1311 25 7 14 0,07918 0,03 0,01 0 0 1812 24 10 20 0,10709 0,03 0,00 0 0 2613 23 3 9 0,13654 0,04 0,01 10 0 1914 22 6 12 0,17199 0,04 0,00 3 2 2315 21 21 25 0,21014 0,07 0,03 0 0 2216 20 1 13 0,27604 0,07 0,00 4 6 1817 19 33 34 0,34323 0,08 0,01 0 0 3218 18 1 7 0,41847 0,08 0,00 16 11 2819 17 3 17 0,49789 0,09 0,01 13 0 2320 16 4 5 0,59009 0,14 0,05 0 9 2721 15 23 24 0,72996 0,15 0,01 8 0 2422 14 21 29 0,88273 0,20 0,05 15 0 2723 13 3 6 1,08209 0,23 0,03 19 14 2824 12 23 27 1,30902 0,24 0,02 21 0 3025 11 30 31 1,55367 0,27 0,03 0 0 3026 10 10 11 1,82629 0,48 0,20 12 0 3127 9 4 21 2,30229 0,70 0,22 20 22 3328 8 1 3 2,99990 0,82 0,12 18 23 3129 7 35 36 3,82083 1,52 0,69 0 0 3230 6 23 30 5,33626 1,79 0,27 24 25 3431 5 1 10 7,12446 3,75 1,96 28 26 3332 4 33 35 10,87472 4,69 0,94 17 29 35

33 3 1 4 15,56061 22,01 17,32 31 27 3434 2 1 23 37,56896 32,43 10,42 33 30 3535 1 1 33 70,00000 34 32 0

Próxima etapa

Etapa Grupos Diferencias primeras

Diferencias segundas

Conglomerado que se combina

Etapa en la que el conglomerado aparece por

primera vezCoeficientes

0

2

4

6

8

10

12

14

16

18

20

34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2

4. Clasificación en un número de grupos

Construcción de tipologías | Análisis de Clasificación 19

Descripción de los tipos– Caracterización cruzando la tipología con las variables factoriales, las

originales (activas y pasivas) y otras de interés– Tablas de contingencia– Tablas de medias– Representaciones gráficas: gráficos de dispersión, de barras, mapas, ...

Validación de los resultados– Validación: estabilidad de los resultados– Cambiar las variables (introducir o quitar)– Cambiar su codificación– Cálculo de medidas de evaluación:

– Internas: índice de Davies–Bouldin, índice Dunn, coeficiente Silhouette, cophenético, de pertenencia– Externas: medida Rand, medida F, índice de Jaccard, índice Fowlkes–Mallows, matriz de confusión,

información mútua

– Simulación de Montecarlo– Interpretación teórica

5. Descripción y validación de los grupos o tipos

Construcción de tipologías | Análisis de Clasificación 20

5. Descripción de los grupos o tipos

Ejemplo de la RMB 1986

Construcción de tipologías | Análisis de Clasificación 21

5. Descripción de los grupos o tipos

Ejemplo de la RMB 1986

Construcción de tipologías | Análisis de Clasificación 22

5. Descripción de los grupos o tipos

Ejemplo de la RMB 1986

Construcción de tipologías | Análisis de Clasificación 23

5. Descripción de los grupos o tipos

Ejemplo de la RMB 1986

Construcción de tipologías | Análisis de Clasificación 24

Ejemplo de la RMB 1986

5. Descripción de los grupos o tipos

Construcción de tipologías | Análisis de Clasificación 25

Construcción de los estratos

Construcción de tipologías | Análisis de Clasificación 26

Construcción de los estratos

Construcción de tipologías | Análisis de Clasificación 27

Construcción de los estratos

Construcción de tipologías | Análisis de Clasificación 28

Construcción de los estratos

Construcción de tipologías | Análisis de Clasificación 29

• Procedimiento general de construcción tipológica: ACM en combinación con el análisis de clasificación (ACL)

• Seleccionamos el procedimiento predefinido por el menú: Template / Predefined chains

Análisis de Clasificación con SPAD

Análisis Factorial combinado con Análisis de Clasificación

COREM: Análisis de Correspondencias Múltiples con eliminación de categorías

CORCO: Análisis de Correspondencias Múltiples Condicional

CORMU: Análisis de Correspondencias Múltiples

Construcción de tipologías | Análisis de Clasificación 30

• Procedimiento general de construcción tipológica: ACM en combinación con el análisis de clasificación (ACL)

Análisis de Clasificación con SPAD

ACMCORMU: Multiple Correspondence AnalysisDEFAC: Description of Factorial Axes

ACLRECIP/SEMIS: Factor Based Cluster AnalysisPARTI-DECLA: Cut the tree & Cluster DescriptionGuardar variablesESCAL: Storing of Factorial Axis & Partitions

Construcción de tipologías | Análisis de Clasificación 31

Análisis de Clasificación con SPAD

• RECIP (método ward y optimización por el método de centros móviles)

Elección RECIP (ward)SEMIS (mixto)

Exportación de resultados a Excel

Factores para el ACLElementos terminales (nodos) del árbol de agregación

Parámetros de la presentación de los resultados

Casos de cada grupo

Construcción de tipologías | Análisis de Clasificación 32

Análisis de Clasificación con SPAD

• PARTI-DECLA (partición y descripción clases)

Búsqueda automática de las mejores particiones: cuántas (3) entre qué mínimo (3) y máximo (10)

Decisión del usuario del nº de particiones

Parámetros de presentación de resultados:-Casos de cada grupo-Coordenadas de las particiones

-”Parangones”: casos representativos de cada partición

-Crea fichero Excel

Parámetros de las particiones: consolidación y casos ilustrativos

Caracterización de las particiones

Construcción de tipologías | Análisis de Clasificación 33

• ESCLA (guardar factores y clases)

Análisis de Clasificación con SPAD

Particiones

Parámetros de resultados y trabajo

Nombre y carpeta del archivo de datos

Factores

Se traspasan las variables (se etiquetan) y se validan

Se traspasan las variables (se etiquetan) y se validan

Construcción de tipologías | Análisis de Clasificación 34

Análisis de Clasificación con SPAD

• Resultados RECIP (clasificación jerárquica)

Construcción de tipologías | Análisis de Clasificación 35

Análisis de Clasificación con SPAD

• Resultados RECIP (clasificación jerárquica)

Descripción de los 50 elementos terminales (nodos).

Coordenadas facoriales

Valores test de significación de cada nodo sobre cada factor retenido(> 2)

Construcción de tipologías | Análisis de Clasificación 36

Análisis de Clasificación con SPAD

• Resultados RECIP (clasificación jerárquica)

Descripción de los 50 elementos terminales (nodos) de la jerarquía

Número de nodo e índice de nivel del nodo

Rango de los dos nodos o grupos que se unen

Efectivos y peso

Rango del primer y último nodo terminal comprendido en el nodo estudiado

Construcción de tipologías | Análisis de Clasificación 37

Análisis de Clasificación con SPAD

• Resultados RECIP Editor jerárquico del dendrograma

Construcción de tipologías | Análisis de Clasificación 38

Análisis de Clasificación con SPAD

• Resultados PARTI

Clasificación en 3 grupos

Nº de casos y rango de los nodos terminales de cada grupo o clase

Mejores particiones

Construcción de tipologías | Análisis de Clasificación 39

Análisis de Clasificación con SPAD

• Resultados PARTISignificación y coordenadas de cada grupo antes de la consolidación

Distancia al centro, al individuo medio

Proceso de consolidación alrededor del centro de cada grupo (método de centros móviles), evolución de la mejora de la inercia intergrupos (explicada)

Descomposición de la inercia antes y después de la consolidación en cada clase o grupo:

Inercia total = Inercia intra + Inercia entre

Significación y coordenadas de cada grupo después de la consolidación

Construcción de tipologías | Análisis de Clasificación 40

Análisis de Clasificación con SPAD

• Resultados PARTI

”Parangones”: casos representativos (ideales) de cada partición. Los más próximos al centro de cada grupo

Construcción de tipologías | Análisis de Clasificación 41

Análisis de Clasificación con SPAD

• Resultados DECLA.

Categorías características por orden de importancia según el valor test

+−

Lo que son

Lo que no son

Construcción de tipologías | Análisis de Clasificación 42

Análisis de Clasificación con SPAD

• Resultados gráficos

Casos activos

Variables activas categóricas

Casos ilustrativos

Variables ilustrativas categóricas

Variables ilustrativas continuas

Particiones

Selección de las variables del gráfico

Editor de gráficos factoriales

Construcción de tipologías | Análisis de Clasificación 43

Análisis de Clasificación con SPAD

Construcción de tipologías | Análisis de Clasificación 44

Análisis de Clasificación con SPAD

Construcción de tipologías | Análisis de Clasificación 45

Análisis de Clasificación con SPSS

Construcción de tipologías | Análisis de Clasificación 46

Análisis de Clasificación con SPSS

Variables que actúan de criterios clasificatorios: originales o variables factoriales

Para clasificar casos o variables

Para clasificar casos o variables

Permite eliminar las tablas o los gráficos de los resultados.

De interés en particular cuando el número de casos

es elevado

Permite eliminar las tablas o los gráficos de los resultados.

De interés en particular cuando el número de casos

es elevado

Construcción de tipologías | Análisis de Clasificación 47

Análisis de Clasificación con SPSS

Pedir sólo si el nº de casos es

reducido

Pedir sólo si el nº de casos es

reducido

Pedir sólo si el nº de casos es

reducido

Pedir sólo si el nº de casos es

reducido

Guarda las variables clasificatorias.

Depende de cada análisis, un nº

concreto, o entre 2 y un nº superior que

puede ser 3, 4, 5, 6, 10, o incluso mayor

si se desea

Guarda las variables clasificatorias.

Depende de cada análisis, un nº

concreto, o entre 2 y un nº superior que

puede ser 3, 4, 5, 6, 10, o incluso mayor

si se desea

Con variables factoriales no es necesario, sí con

variables originales

directamente

Con variables factoriales no es necesario, sí con

variables originales

directamente

Tabla con el historial y los coeficientes

Tabla con el historial y los coeficientes

Tabla con el grupo en el

que se clasifica cada

caso

Tabla con el grupo en el

que se clasifica cada

caso