Pedro Valero [email protected] Metodología de las CC del ... · Paso 1: Estandarizar las...

321
Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València Análisis Cluster Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València Abril 2011

Transcript of Pedro Valero [email protected] Metodología de las CC del ... · Paso 1: Estandarizar las...

Page 1: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València

Análisis ClusterPedro Valero [email protected]

Metodología de las CC del Comp-Universitat de València

Abril 2011

Page 2: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València

Contenidos

Introducción 1

Introducción 2Pasos básicos 4Tres métodos en SPSS 5

Cluster Jerárquico 6

Ejemplo Cervezas 7Paso 1: Estandarizar las variables 8Paso 2: Calcular las distancias 9Paso 3: Decidir el método de agrupación 12Parte 4: Visualizar y decidir el número de clusters 14Paso 5: Describir los clusters 17Actividades 20Paso 6: Interpretar los resultados 26Actividades 30

Opciones del Cluster 34

Opciones 35Estandarizar 36Medidas de distancia 39Variables de Intervalo 40

Variables Binarias 43Variables frecuencia 45Nominal, Ordinal y variables de razón 46Datos con diferentes tipos de variables 48Métodos de agrupamiento 49Actividades 51

Quick Cluster 58

Introducción 59El algoritmo 60Ejemplo Psoriasis 61

Bietápico 67

Introducción 68Ejemplo Psoriasis 69Aplicando el método 70Interpretando el resultado 74Usando variables categóricas 83Ejemplo Encuesta 84Interpretación 85Actividades 89

Page 3: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Contenidos

Introducción

Page 4: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Introducción > Introducción Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 2

Contenidos

Introducción

• Su objetivo es encontrar grupos de casos u observaciones a partir de suscaracterísticas

- En biología se usa para clasificar animales y plantas (taxonomía numérica)- En medicina, para identificar síndromes a partir de los síntomas- En marketing, para encontrar productos similares o clientes con

características similares- Etc.

• Es distinto del análisis discriminante u otras técnicas de clasificación en el quelos grupos son conocidos de antemano

- En análisis cluster, los grupos son desconocidos- Es una técnica exploratoria pero multivariada

Page 5: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Introducción > Introducción Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 3

Contenidos

• Dos referencias que he encontrado útiles

Kaufman and Rooseeuw (2005) Finding groups in data. WileyNorusis, M. (1993) SPSS Base System SPSS Inc

• Una referencia que no he encontrado útil son los manuales del SPSS másrecientes ya que no tienen detalles técnicos y las descripciones son muy breves

No obstante, como un recordatorio del funcionamiento del programa y unasinstrucciones mínimas puede valer

• Algo intermedio es la documentación que hace Norusis (www.norusis.com)pero que actualmente ya no se regala, hay que comprarla aparte (aunque elcapítulo sobre cluster análisis sí que lo regalan)

Page 6: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Introducción > Pasos básicos Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 4

Contenidos

Pasos básicos

• Variables en el análisis

- Las variables que se introduzcan en el análisis determinarán los grupos - Si se introducen muchas de un tipo y pocas de otro, los grupos finales estarán

determinadas más por el primer tipo de variables que el segundo

• Medidas de Distancia/Cercanía: Hay una gran cantidad

- Una muy común es la distancia euclidea o variaciones sobre esta- No obstante, dependiendo del tipo de variables o incluso de los propios

datos hay muchas más posibilidades

• Criterios para combinar los clusters

- Conexión simple- Conexión completa- Etc.

Page 7: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Introducción > Tres métodos en SPSS Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 5

Contenidos

Tres métodos en SPSS

• Jerárquico (Comando Cluster)

- Está limitado a menos casos (el problema suele ser el tamaño de memoria asíque lo mejor es probar con el ordenador de cada uno)

- El número de grupos se puede determinar a partir del resultado

• K-medias (comando Quick cluster)

- Puede manejar archivos de datos muy grandes- El número de grupos tiene que ser “adivinado” por el usuario

• Bi-etápico (nuevo método del SPSS Comando Twostep)

- Promete ser mejor que los otros dos métodos pero la información que heencontrado es escasa

• Lo más común es usar los dos primeros métodos en combinación

Page 8: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Contenidos

Cluster Jerárquico

Page 9: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 7

Contenidos

Ejemplo Cervezas

• El archivo Cervezas es un ejemplo bastante simple

- Cuatro variables: Calorias, Sodio (Sal), Alcohol y Precio- 20 casos (nombre de cada cerveza)

• Los pasos a seguir normalmente son:

1. Estandarizar las variables (ej. puntuaciones típicas)2. Calcular las distancias (ej. Distancias euclidianas al cuadrado)3. Decir el método de agrupación (ej. Vecino más lejano)4. Visualizar y decidir el número de clusters a interpretar (dendograma)5. Describir los grupos encontrados6. Intepretar los resultados

Page 10: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 8

Contenidos

Paso 1: Estandarizar las variables

• Si no se estandarizan las variables, aquellas con valores más abultados tienenmás influencia que las que tienen valores más pequeños

- En nuestro ejemplo las Calorias aportarían más que el Precio por lo que losresultados estarían demasiado influidos por esta variable

• Las puntuaciones típicas se pueden calcular a la vez que calculamos el cluster

Page 11: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 9

Contenidos

Paso 2: Calcular las distancias

• Dependiendo del tipo de variables y nuestro problema elegiremos que medidade distancia usaremos para nuestros datos

• La más conocida es la basada en distancia Euclidiana. Por ejemplo, la distanciaentre dos puntos con dos variables sería:

d x1 x2– 2 y1 y2– 2+=

Page 12: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 10

Contenidos

• Es habitual usar la distancia al cuadrado (sin sacar la raíz). Por ejemplo: ladistancia entre el caso 1 y el caso 2 sería:

• Las distancias se pueden elegir directamente al calcular el Cluster o se puedencalcular por separado en el comando Análisis>Correlaciones>Distancias

- También a veces podemos inventarnos una nueva medida de distancia y usaresa directamente para el análisis

• La distancia correcta depende del tipo de variables y también otrasconsideraciones (lo veremos con más detalle posteriormente)

• El resultado es una matriz de distancias que nos indica la distancia entre cadauno de los objetos.

- Esta matriz es de tamaño ((n*n)/2)-n (es muy grande con muchos casos)

d2

0.38 0.61– 2 0.01 0.62– 2 0.34 0.61– 2 0.46 0.46– – 2+ + + 0.49= =

Page 13: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 11

Contenidos

• La distancia se elige en la parte superior del método

Page 14: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 12

Contenidos

Paso 3: Decidir el método de agrupación

• En lineas generales, un análisis cluster funciona con los pasos siguientes:

1. Se encuentran los dos objetos que están más cerca (distancia menor) y se combinan en un conglomerado

2. Se calculan las distancias entre el nuevo conglomerado y el resto de objetos. - Hay muchos métodos para calcular esas nuevas distancias que veremos

posteriormente. Tres métodos básicos son: En el método promedio, la distancia es el promedio de todas las distanciasentre los objetos de los conglomeradosEn el método completo (vecino más alejado), la distancia con unconglomerado se hace con el punto más alejado dentro de eseconglomeradoEn el método simple (vecino más cercano) la distancia con un conglomeradose hace con el punto más cercano dentro de ese conglomerado

Page 15: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 13

Contenidos

3. Se buscan los dos objetos que estén más cerca y se combinan en un nuevo conglomerado

4. Se repite el proceso anterior hasta que se llega a un único conglomerado final

• Ilustración del proceso para método completo

1. En el paso A se agrupan dos puntos2. En el paso B se agrupan otros dos3. Para ver con qué se agrupa p hay que mirar el punto que está dentro de A o

de B más alejado de p

Page 16: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 14

Contenidos

Parte 4: Visualizar y decidir el número de clusters

• La forma más habitual de ver el resultado es usando un dendograma.

Page 17: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 15

Contenidos

• Este resultado usa como valores: puntuaciones típicas, distancias euclidianas alcuadrado, y distancias de vecino más lejano (aunque el título ponga BetweenGroups no es correcto, siempre pone lo mismo en la version 17 del SPSS)

- Para que se vean los nombres de los casos hay que cambiar el tamaño de laletra.

- En el dendograma se puede ver la distancia relativa a la que dos objetos/clusters se han combinado

- Para decidir con cuantos grupos nos deberíamos quedar tenemos que vercuando hay mucha distancia entre los objetos (significa que se estánagrupando cosas que no son muy parecidas en realidad)

Page 18: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 16

Contenidos

• En este caso si distinguimos cinco grupos tenemos los siguientes:

- 11, 17, 1, 3, 2- 8, 18, 6, 7- 9, 20, 10, 12, 13- 5, 15, 4- 16, 19

Page 19: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 17

Contenidos

Paso 5: Describir los clusters

• Si elegimos en el análisis de cluster que nos guarde la pertenencia a 5 gruposañade una variable a nuestos datos con números del 1 al 5

Page 20: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 18

Contenidos

• Con esa variable, podemos usar el comando Analizar>CompararMedias>Medias y pedir unos estadísticos descriptivos por grupos

Page 21: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 19

Contenidos

• En nuestro ejemplo, obtenemos lo siguiente:

El grupo 1 son cervezas intermedias; el grupo 2 son caras, altas en calorias ybajas en sodio; el grupo 3 son baratas y altas en sodio; el grupo 4 son bajas encalorias y sodio; el grupo 5 son muy bajas en calorías y alcohol (sólo hay doscasos y ese grupo tiene mucha desviación típica así que es poco homogéneo:no debería considerarse un grupo)

Page 22: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 20

Contenidos

Actividades

1. Repetir el análisis de las cervezas utilizando el método de agrupación por “Vecino más próximo” ¿Varía mucho el resultado?

Page 23: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 21

Contenidos

Este es el dendo-grama utilizando vecino más próximo. Este método produce menos grupos pero que parecen más heterogéneos. Si cortamos en cinco grupos tenemos los siguientes: 1(11, 17, 1, 3, 2, 8, 18 13, 16, 9, 20, 12, 10), 2(4,5,14,15) 3(7), 4(16), 5(19).

Page 24: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 22

Contenidos

Si guardamos la pertenencia a cinco grupos y usamos el comando Analizar>Descripti-vos>Tablas de contingencia, poniendo una variable en las filas y la otra en las columnas podemos comparar los resultados más fácilmente. Vemos que el grupo 1 de Vecino más próximo (Single Linkage) corresponde con los grupos 1, 3 y 4 de Vecino más lejano (Comple linkage), el 2 coincide completamente, y el 3, 4 y 5 son diferentes

Page 25: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 23

Contenidos

Las medias para los grupos con Vecino más próximo nos muestra los valores para los dos grupos principales

Page 26: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 24

Contenidos

2. Repetir los pasos anteriores utilizando el método “Vinculación InterGrupos” (Between Groups)

Comparación con el método Complete. Vemos que el grupo 1 de Between Groups coincide con el 1 y el 3 de Complete. Los otros grupos son iguales (aunque cambia el número concreto asignado en cada caso).

Page 27: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 25

Contenidos

Mirando la tabla de las medias podemos ver que este último método distingue entre Grupo 1 (altas en sodio), Grupo 2 (más altas en calorías, bajas en sodio, más alcohol y precio más alto), Grupo 3 (bajas en calorías, sodio, alcohol y precio medio), Grupo 4(cerveza alta en sodio pero cara) y grupo 5 (muy bajas en calorías y alcohol)

Page 28: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 26

Contenidos

Paso 6: Interpretar los resultados

• Hemos visto en los ejercicios que variaciones en el método producenresultados diferentes

- Aunque uno quisiera que hubiera un único método mejor para cada caso yque sólo hiciera falta mirar ese resultado, en realidad es recomendable mirarvarios resultados y comparar las diferencias

- Los grupos más estables aparecerán aunque se utilicen diferentes métodos,los menos estables no. Comparar los resultados con los diferentes métodos esmuy útil para valorar la estabilidad de los grupos

- Ripley (1996) dice que estos métodos “son solo algoritmos” pero a menudono garantizan encontrar soluciones óptimas, aunque sí generalmenteaceptables

Page 29: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 27

Contenidos

• Nada sustituye a un experto que examine el resultado y utilice su conocimientopara decidir si los grupos encontrados son útiles/valiosos/creíbles/etc

- Si los casos tienen etiquetas o nombres, estos pueden resultar muyinteresantes también para hacer la interpretación. Para el método entregrupos el resultado es el siguiente.

AMERICANAS EXTRANJERAS LIGHT OUTLIER EXTRA LIGHT

altas en sodio altas calorías, bajas sodio, más alcohol y precio alto

bajas en calorías, sodio, alcohol y precio medio

cerveza alta en sodio pero cara

muy bajas en calorías y alcohol

"Budweiser", "Schlitz", "Lowenbrau" , "Old Milwaukee" , "Augsberger" , "Strohs Bohemian style", Coors, "Hamms" , "Heilemans Old style"

"kronenbourg", "Heineken", "Kirin"

"Miller lite" , "Budweiser Light" ,"Coors light" , "Michelob light" , "Schlitzm light"

Becks "Pabst Extra light", "Olympia gold light"

Page 30: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 28

Contenidos

• Otra forma de interpretar el resultado es hacer un gráfico

Page 31: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 29

Contenidos

Page 32: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 30

Contenidos

Actividades

1. Analisis de factores de enfermedad (archivo Psoriasis.sav)

En este ejemplo, podemos evitar estandarizar los datos porque todas las variables tie-nen varianzas aproximadamente en la misma escala

Page 33: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 31

Contenidos

Usando los valores por defecto tenemos un dendograma como este.

Para poder verlo bien hay que reducirlo. Se hace doble-click sobre el gráfico y se elige Editar>Propiedades. En una de las pestañas está Tamaño del gráfico. Poniendo 15 de alto y 25 de ancho se puede ver bien en pantalla.

Page 34: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 32

Contenidos

Se pueden distinguir 6 grupos bastante claramente (aunque algunos son bastante pequeños)

Page 35: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Cluster Jerárquico > Ejemplo Cervezas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 33

Contenidos

Este ejemplo es especial porque tenemos el diagnóstico hecho por expertos del diag-nóstico.

Page 36: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Contenidos

Opciones del Cluster

Page 37: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Opciones Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 35

Contenidos

Opciones

• En el ejemplo anterior hay una serie de aspectos que hemos pasadorápidamente pero que pueden tener su importancia para plantear el análisiscluster.

- Estandarizar- Medidas de distancia entre casos/objectos- Método de agrupamiento

Page 38: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Estandarizar Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 36

Contenidos

Estandarizar

• Estandarizar es necesario en la mayoría de los casos o en todos.

- Estandarizar hace que las variables estén en la misma escala y unas noinfluyan más que las otras por razones espúreas (por ejemplo, crímenes por100 habitantes tendría más efecto que crímenes por 100000 habitantes apesar de que es la misma variable)

- En algunos casos, puede defenderse que no tiene sentido estandarizar y quequeremos que las variables con más rango tengan más efecto. Esto hay quehacerlo con mucho cuidado. Para el usuario no experto, lo mejor esestandarizar (Kaufman and Roosew, 2005)

Page 39: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Estandarizar Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 37

Contenidos

• Las siguientes opciones están disponibles para la transformación de valores:

- Puntuaciones Z. Los valores se estandarizan a una puntuación z, con unamedia de 0 y una desviación típica de 1.

- Varía entre -1 y 1. Cada valor del elemento que se estandariza se divide por elrango de los valores.

- Rango 0 1. El procedimiento sustrae el valor mínimo de cada elemento quese estandariza y después lo divide por el rango.

- Magnitud máxima de 1. El procedimiento divide cada valor del elementoque se estandariza por el máximo de los valores.

- Media de 1. El procedimiento divide cada valor del elemento que seestandariza por la media de los valores.

- Desviación típica 1. El procedimiento divide cada valor de la variable o casoque se estandariza por la desviación típica de los valores.

Page 40: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Estandarizar Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 38

Contenidos

• Artículos de revisión sugieren que todos los métodos que dividen por el rango ola desviación típica producen resultados similares. La elección por tanto noparece demasiado importante desde el punto de vista de los resultados.

- Mi recomendación es usar puntuaciones típicas o Rango 0 1 para librarse delos valores negativos si se quiere.

Page 41: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 39

Contenidos

Medidas de distancia

• Aquí trataremos de cómo calcular distancias a partir de una matriz deobservaciones por variables.

- También es posible producir datos que son directamente distancias (p.e.matrices de distancias entre ciudades). Este tipo de datos pueden seranalizados mediante cluster en SPSS utilizando el lenguaje de comandos

• La medida hay que elegirla en función del tipo de variables. SPSS hace fácilutilizar alguna de las que hay en estos tres grupos: Intervalo, frecuencias obinarias

Page 42: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 40

Contenidos

Variables de Intervalo

- Distancia euclídea. La raíz cuadrada de la suma de los cuadrados de lasdiferencias entre los valores de los elementos. Ésta es la medida por defectopara los datos de intervalo.

- Distancia euclídea al cuadrado. La suma de los cuadrados de las diferenciasentre los valores de los elementos.

- Correlación de Pearson. La correlación producto-momento entre dosvectores de valores. Para agrupar observaciones no se recomienda. Paravariables hay que tener en cuenta el problema de los valores negativos

- Chebychev. La diferencia absoluta máxima entre los valores de loselementos.

- Bloque. La suma de las diferencias absolutas entre los valores de loselementos. También se conoce como la distancia de Manhattan.

- Minkowski. La raíz p-ésima de la suma de las diferencias absolutas elevada ala potencia p-ésima entre los valores de los elementos.

Page 43: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 41

Contenidos

- Personalizada. La raíz r-ésima de la suma de las diferencias absolutas elevadaa la potencia p-ésima entre los valores de los elementos.

La distancia euclideacorresponde a la métrica máshabitual. La distancia debloque es la suma de los ladosdel triángulo. Bloque esllamada de Manhattan ycorresponde a las distancias enuna ciudad, rodeando lasmanzanas para ir de un sitio aotro

Page 44: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 42

Contenidos

La correlación de Pearson es una medida de similaridad, no de distancia, pero elprograma lo trata correctamente. Es una correlación entre los casos no entre lasvariables

Minkowski es una fórmula general que engloba la de Euclides y la deManhattan

Page 45: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 43

Contenidos

Variables Binarias

Son variables que están codificadas como 1 y 0 (presencia/ausencia;fumador/no fumador; yes/no, etc.)Hay quien usa distancias euclideas o Bloque pero es mejor usar lasapropiadas.Las medidas de distancia suelen partir de este punto:

Se distingue entre el caso en que las variables binarias son simétricas(cambiar los códigos de 0,1 a los contrarios no varía el resultado) oasimétricas (ese cambio tiene mucho efecto)

- Ejemplo de simétrica: Hombre=0, Mujer=1; cambiar a Mujer=0 y Hombre=1no alterará el resultado

Page 46: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 44

Contenidos

- Ejemplo de asimétrica: Tipo de sangre AB negativo=1, No AB negativo=0(qué tienen en común dos personas con valor 0? no mucho)El problema con las variables asimétricas es que se darán muchos cerossimultáneos y por tanto cuando se calcule la distancia la similaridad entreesos objetos estará hinchadaOtro ejemplo, flor de color rojo=1/flor de color no rojo=0; si dos flores tienen0, entonces el parecido entre esas flores no es en realidad gran cosa. Paraeste segundo caso necesitamos coeficientes que ignoren los valores nulos.

• Para las simétricas se puede puede utilizar la razón de concordancias (suma dea+d/a+b+c+d) (Kaufman and Roosew, 2005)

• Para las asimétricas está Jaccard (a/a+b+c) y otras que ponderan más losempates (un ejemplo que he analizado recientemente es codificar palabras entextos y he usado Jaccard)

Si mirais el SPSS vereis que en realidad hay muchos índices pero en principiono necesitareis utilizar más que los que he mencionado

Page 47: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 45

Contenidos

Variables frecuencia

Si los datos son recuentos se puede utilizar:Medida de chi-cuadrado. Esta medida se basa en la prueba de chi cuadradode igualdad para dos conjuntos de frecuencias. Ésta es la medida por defectopara los datos de recuento.Medida de Phi-cuadrado. Esta medida es igual a la medida de chi-cuadradonormalizada por la raíz cuadrada de la frecuencia combinada.Un ejemplo (Niemeier et al) “Cluster Analysis for Optimal Sampling of TrafficCount Data: Air Quality Example”, las variables son horas diferentes del día ylos objectos son diferentes lugares en los que se cuenta el número de cochesque pasan. Se aplicó análisis cluster y se encontró los lugares que se parecíanmás para así reducir el número de lugares en los que se tomaban medidas yaque el perfil horario era semejante.Este es un caso bastante especial. No se encuentra a menudo.

Page 48: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 46

Contenidos

Nominal, Ordinal y variables de razón

• De las variables nominales también puede calcularse un coeficiente desimilaridad pero es mejor usar un análisis cluster específico. Veremos másadelante Two-Step del SPSS pero hay otros (por ejemplo, LatentGold)

• Con variables ordinales, se puede calcular Spearman o Tau (coeficientes decorrelación ordinal) y luego calcular una transformación (Kaufman & Rosseaw,2005). Lo malo es que las correlaciones dan valores positivos y negativos y nofuncionan como una distancia. La transformación siguiente:

da unos valores cercanos a cero cuando la correlación es alta y positiva yvalores altos cuando la correlación es alta y negativa por lo que funcionacomo una distancia. El módulo de Cluster del SPSS puede aceptar una matrizcalculada de esa manera como input si hace falta pero esta opción no

d f g 1 R f g – 2=

Page 49: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 47

Contenidos

aparece en los cuadros de diálogo (hay que programar)

• Variables de Razon: Kaufman & Roosew mencionan que este tipo de variablesson las que están limitadas por cero y a menudo siguen una curva exponencial(los valores altos son progresivamente más altos). Este tipo de variablesasimétricas positivas pueden ser transformadas a logaritmos antes de hacer losanálisis

Page 50: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Medidas de distancia Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 48

Contenidos

Datos con diferentes tipos de variables

Nos podemos encontrar con el caso de tener variables nominales, ordinales,de intervalo, etc. para este caso se puede utilizar la distancia de Gower que esuna fórmula general que para cada combinación de variables producealguna de las mencionadas previamente. Para más detalles Kaufman &Rossew p. 32 (el SPSS no la proporciona)

Page 51: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Métodos de agrupamiento Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 49

Contenidos

Métodos de agrupamiento

• El análisis cluster al principio va juntandoobservaciones pero a partir de ciertomomento tiene que unir clusters entre sí. Poreso necesitamos una definición de distanciaentre clusters.

- La distancia promedio entre todos losobjetos en los dos grupos es el método pordefecto en SPSS (a)

- La distancia entre los dos objetos máscercanos de cada cluster es el método delvecino más próximo (b)

- La distancia entre los dos objetos más lejando de cada cluster es el métododel vecino más lejano (c)

Page 52: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Métodos de agrupamiento Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 50

Contenidos

• Cada uno de estos métodosparece apropiado paradetectar clusters condiferentes formas

- El método a es buenopara clusters circularesen forma de bola bienseparados (aunquetambién pueden valerpara forma de patata)El b es bueno para formasalargadasEl c es bueno para formascompactas pero no bien separadas

Hay muchos otros métodos pero Kaufman and Roosew no los consideran

Page 53: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Métodos de agrupamiento Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 51

Contenidos

Actividades

1. El archivo Olives tiene medidas de distintos ácidos en aceitunas de diferentes regiones de Italia. Calcula un análisis cluster jerarquico apropiado y compara los resultados con las regiones tal y como están clasificados. Intenta conseguir que el análisis cluster ofrezca la misma clasificación que está en el archivo. Identifica en qué regiones parece haber más problemas para lograr ese acuerdo con el análisis cluster

¿Da la sensación de que hay fraude en alguna de las regiones?

Page 54: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Métodos de agrupamiento Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 52

Contenidos

2. Archivo Crime. Se trata del número de crímenes por 100.000 habitantes en estados de Estados Unidos en los años 80

Una solución en cuatro clusters utilizando método vecino más lejano da estos resulta-dos. Los grupos que hay se corresponderían con un grupo más violento (cluster 3), un grupo menos violento (cluster 4), un grupo mediano excepto en la variable asesinato (cluster 1) y un grupo con valores medianos.

Page 55: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Métodos de agrupamiento Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 53

Contenidos

3. En el archivo Iris hay un ejemplo de flores clásico que fue utilizado por Fisher para demostrar el análisis discriminante. Intentar reproducir las tres especies mediante análisis cluster

La forma de los clusters sugiere que el método del vecino más lejano podría funcionar bien pero la clasificación no acaba de ser correcta. Si se pide guardar sólo tres clusters entonces se crea un grupo para valores extremos. Es mejor pedir cuatro clusters pero el resultado no acaba de encajar con la clasificación proporcionada.

Page 56: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Métodos de agrupamiento Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 54

Contenidos

4. Archivo calaveras. Intentar reproducir los clusters que están en el archivo

Los clusters no acaban de corresponder con la clasificación previa

Page 57: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Métodos de agrupamiento Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 55

Contenidos

5. Archivo de compañias.

En este ejemplo tenemos variables que son de razón y asimétricas. Resulta conve-niente utilizar los logaritmos de las distancias en lugar de las distancias porque si no los resultados son muy raros. Si hacemos el análisis sobre los logaritmos podemos ver que algunos sectores se agrupan en un cluster o dos mientras que otros no se agrupan nunca. El resultado sugiere que dentro de Finances hay dos tipos de empresas bas-tante diferentes por ejemplo.

Page 58: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Métodos de agrupamiento Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 56

Contenidos

6. Archivo cereales. Se trata de variables relacionadas con la alimentación. Shelf es la estanteria en la que se encuentran (1, 2 y 3), se puede utilizar para comparar con los clusters.

Los resultados encuentran grupos como cereales con mucha fibra, muesli, con más azucar, etc.

Page 59: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Opciones del Cluster > Métodos de agrupamiento Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 57

Contenidos

7. Bigmac. Se trata de variables del coste de la vida, impuestos, dias de vacaciones, etc. de ciudades del mundo.

Se puede ver las similaridades entre ciudades europeas, americanas, etc. También es interesante transformar las variables a logaritmos.

Page 60: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Contenidos

Quick Cluster

Page 61: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Quick Cluster > Introducción Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 59

Contenidos

Introducción

• El cluster jerarquico tiene el inconveniente de que requiere mucho esfuerzo decálculo así que problemas muy grandes que no se podrían calcular

- Estamos hablando de varios miles de datos

• El método “Quick” está diseñado para funcionar con mucha rápidez y no tienetantos problemas de cálculo

- A cambio tiene el inconveniente de que es necesario indicarle un número declusters concreto a calcular

• Tradicionalmente se ha utilizado el cluster jerarquico sobre una muestra dedatos cuando el archivo era muy grande para hacer una estimación del númerode clusters y luego se aplicaba el método rápido

Page 62: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Quick Cluster > El algoritmo Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 60

Contenidos

El algoritmo

• En pocas palabras, el algoritmo funciona del siguiente modo:

- Se seleccionan unos centros al azar (o se especifican unos)- Se asigna cada caso al centro más cercano- Se recalculan los centros para los casos en cada grupo- Cuando ya no hay más cambios, el algoritmo se para

Page 63: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Quick Cluster > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 61

Contenidos

Ejemplo Psoriasis

• En K-means podemos especificar el centro de los datos para el análisis cluster ono.

- Es más sencillo no especificar los centros asi que empezaremos así- En nuestro caso, el número de clusters sería 6 como hemos visto antes

Page 64: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Quick Cluster > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 62

Contenidos

• En Analisis de conglomerados de K-medias hacemos:

Page 65: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Quick Cluster > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 63

Contenidos

• En Opciones elegimos

• El resto de las opciones se pueden dejar como están. El output es el siguiente:

- Initial clusters centers: Es el punto de partida del análisis.- Change in clusters centers: El valor por defecto son 9 iteraciones o vueltas. Si

no converge en 10 hay que añadir más iteraciones.

Page 66: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Quick Cluster > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 64

Contenidos

- Final Cluster Centers: Son los valores medios en las variables. Vemos que elprimer grupo tiene valores positivos en todos las factores de enfermedad,mientras que el segundo tiene valores negativos en los cuatro primeros ypositivo en el quinto (eso significa que los del primer grupo y el segundo nocomparten los mismos síntomas salvo en el factor 5)

Page 67: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Quick Cluster > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 65

Contenidos

- El ANOVA para valorar las diferencias entre los grupos. En nuestro caso, todaslas variables son significativas pero en otros casos podemos encontrar quehay variables que no sirven para diferenciar grupos

- El número de casos por grupo

Page 68: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Quick Cluster > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 66

Contenidos

• También podemos salvar la pertenencia al cluster y compararlo con la variablede diagnóstico que teníamos.

- El resultado es bastante bueno salvo el cluster 2 ya que 15 casos no coinciden

Page 69: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Contenidos

Bietápico

Page 70: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Introducción Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 68

Contenidos

Introducción

• Es un método bastante reciente

- Es rápido- No es necesario indicar el número de clusters por anticipado- Permite mezclar variables categóricas y numéricas

• Si es tan bueno, ¿para qué están los otros métodos?

- Está basado en una medida de distancia que da los mejores resultadoscuando las variables contínuas tienen una distribución normal y lascategóricas multinomial pero todavía funciona si los supuestos no secumplen

- El análisis cluster con variables categóricas es algo delicado. Existen otrosmétodos alternativos (p.e. LatentGold)

- No existe mucha información independiente, sobre todo la que produceSPSS y poco más. No he encontrado un buen texto explicando el método

Page 71: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 69

Contenidos

Ejemplo Psoriasis

• Estos datos están en Psoriasis.sav

• Son el resultado de un análisis de componentes principales sobre un conjuntobastante amplio de variables (síntomas de la Psoriasis)

Page 72: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 70

Contenidos

Aplicando el método

• Aplicando las siguientes opciones (las que hay por defecto)

Page 73: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 71

Contenidos

• SPSS identifica los siguientes clusters

Page 74: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 72

Contenidos

• Esto está basado en la siguiente tabla (esta tabla es opcional y se puede obviar)

- SPSS dos pasos para decidir el número de clusters. En el primero usa elnumero de clusters más pequeño cuya ratio de BIC changes sea menor de0.04 (6 en este caso) y en segundo el Ratio de Distance measures más grande(que lleva a 5)

Page 75: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 73

Contenidos

- Esta tabla se obtiene eligiendo Criterio de información (AIC o BIC)

Page 76: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 74

Contenidos

Interpretando el resultado

• Ya hemos visto antes esta tabla.

- Nos da una información inicial sobre los clusters

Page 77: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 75

Contenidos

• Los perfiles de los clusters nos indican los centros de los clusters

- Tener en cuenta que en la tabla del SPSS puede que no se vean valoresdebido a los decimales

- Para solucionarlo, hacer click con el botón derecho y seleccionar Editarcontenido>en visor. Seleccionando las celdas, en el menúFormato>propiedades de celda se puede cambiar el número de decimales aun número mejor

Page 78: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 76

Contenidos

• Seleccionando gráficos en el cuadro de diálogo de gráficos nos permite valorarla importancia de cada variable para el cluster (hay que seleccionarlo todo)

Page 79: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 77

Contenidos

El resultado para la primera variable es el siguiente

Si los extremos del intervalo de confianza no se solapan con la línea central, esoindica que para ese cluster esta variable es importante.

Page 80: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 78

Contenidos

• Se puede mirar todos los gráficos para decidir de qué se compone cada cluster.Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5

+PC2, +PC3, -PC4, -PC5

+PC1, -PC2 +PC1, +PC2, +PC3, +PC4, +PC5

+PC1, -PC2, -PC3 -PC1, +PC2, -PC3

Page 81: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 79

Contenidos

• El gráfico de la importancia de los clusters da la misma información que elgráfico anterior en el caso de variables contínuas. Este gráfico es más útil paravariables categóricas. Nota: hay que poner un nivel de confianza para queaparezcan los valores críticos en el gráfico

Page 82: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 80

Contenidos

• Si se eligen los gráficos de una manera diferente entonces el gráfico anterior esmás interesante

Page 83: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 81

Contenidos

- Este gráfico es parecido al anterior pero ahora está por cluster y no porvariable (que es mejor para interpretar los clusters)

Page 84: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Psoriasis Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 82

Contenidos

• En el apartado de resultados también se puede elegir que se guarde la variablecon la pertenencia a un cluster que luego sirver para hacer análisis posteriores

Page 85: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Usando variables categóricas Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 83

Contenidos

Usando variables categóricas

• El módulo de Two-Step es especialmente interesante porque permite hacercluster con variables categóricas y combinarlo con variables numéricas

- Estos son métodos relativamente recientes- En una revisión entre varios de estos métodos, LatentGold produjo mejores

resultados (aunque esta evaluación puede que estuviera algo sesgada laverdad)

- Uno de los defectos es que Two-Step no reconoció las situaciones en las quehabía cero clusters (LatentGold sí)

Page 86: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 84

Contenidos

Ejemplo Encuesta

• El siguiente ejemplo usa cuatro variables de una encuesta. Edad (variablenumérica), género, título académico y frecuencia de lectura del periódico

- Cuando hay variables categóricas sólo se puede usar log-ver como distancia

Page 87: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 85

Contenidos

Interpretación

• Para este caso hay varios estadísticos descriptivos especiales para variablescategóricas y numéricas (no los muestro todos)

- Ejemplo: cluster 5 es edad mayor, más mujeres y leen el periódico diariam.

Page 88: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 86

Contenidos

• Se puede ver para cada cluster el porcentaje de cada categoría

- Los hombres dominan el 1 y el 4, y las mujeres el 2 y el 3. El cinco es unamezcla

Page 89: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 87

Contenidos

• Podemos utilizar el gráfico de antes para evaluar los clusters

Page 90: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 88

Contenidos

- Como SPSS nos los da por separado hay que buscar un poco arriba y abajo.

Page 91: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 89

Contenidos

Actividades

1. Para el archivo de datos GSSS93subset.sav analizar las variables pecancap, leyarmas, legdroga, relig. Una vez determinados los clusters ponerlos en relación con la variable partido y raza.

En la siguiente tabla se puede observar que hay dos clusters (el 4 y el 5) que están más relacionados con la política

Page 92: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 90

Contenidos

2. Usando las variables de preferencias musicales, detecta los grupos que se pueden hacer. Ponlos en relación con la frecuencia de relaciones sexuales y si su vida es exci-tante y/o aburrida. Tener en cuenta el sentido de las preguntas a la hora de interpre-tar.

El grupo 1 es el grupo que no le gusta la música en general y el grupo 2 corresponde con gente que le gusta en general la música (aunque no toda). Esa gente dice que la vida es más emocionante pero el sexo no parece la explicación.

Page 93: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 91

Contenidos

3. Analizas las horas de TV con lo emocionante que es la vida, el nivel económico, el tít-ulo escolar y el signo del zodíaco

Esta pregunta no tiene respuesta

Page 94: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 92

Contenidos

4. Analiza la religión, si piensa que el hombre evolucionó de los animales, el título esco-lar y el número de hijos

Esta pregunta no tiene respuesta

Page 95: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 93

Contenidos

5. Analiza las preguntas referidas a cuestiones públicas: ambipub, saludpub, ciudapub, crimpub, drogpub, educpub y ponlas en relación con la tendencia política (tendpol)

Esta pregunta no tiene respuesta

Page 96: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 94

Contenidos

6. Analiza la edad en el primer matrimonio, el número de hijos, los años de escolariza-ción, y los ingresos del encuestado 1991

Esta pregunta no tiene respuesta

Page 97: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 95

Contenidos

7. Analiza el sexo, el signo del zodiaco y el estado civil

Este es un ejemplo complejo y que nos tiene que advertir de las limitaciones del anál-isis cluster. Aunque se produzca un resultado hay que valorar la interpretación que se puede hacer y si tiene sentido. Una forma de valorar es mirar la ratio de distance mea-sures, en este caso hay tres valores muy cercanos (7 clusters, 3 clusters y 2 clusters). El SPSS elige la solución que tiene más clusters cuando lo hace automáticamente pero quizás tiene más sentido elegir uno con dos o tres clusters en este caso.

Page 98: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 96

Contenidos

8. Repite el análisis de datos anterior pidiendo sólo 2 o 3 grupos. ¿Crees que el resultado es más satisfactorio ahora? ¿Por qué?

Este ejemplo no tiene respuesta

Page 99: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 97

Contenidos

9. Examina las variables control de natalidad, número ideal de hijos, frecuencia sexual, y educación sexual en el colegio

Este ejemplo no tiene respuesta

Page 100: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

IntroducciónIntroducciónPasos básicosTres métodos en SPSS

Cluster JerárquicoEjemplo Cervezas

Paso 1: Estandarizar las variablesPaso 2: Calcular las distanciasPaso 3: Decidir el método de agrupaciónParte 4: Visualizar y decidir el número de clustersPaso 5: Describir los clustersActividadesPaso 6: Interpretar los resultadosActividades

Opciones del ClusterOpcionesEstandarizarMedidas de distancia

Variables de IntervaloVariables BinariasVariables frecuenciaNominal, Ordinal y variables de razónDatos con diferentes tipos de variables

Métodos de agrupamientoActividades

Quick ClusterIntroducciónEl algoritmoEjemplo Psoriasis

BietápicoIntroducciónEjemplo Psoriasis

Aplicando el métodoInterpretando el resultado

Usando variables categóricasEjemplo Encuesta

InterpretaciónActividades

Bietápico > Ejemplo Encuesta Cluster

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 98

Contenidos

10. Descripción de la gente que ve la televisión. Variables telenov (visualización comedias o dramas), telenotic (noticias televisadas), espectv (teleshows), edad, género y raza

Este ejemplo da una solución con 5 clusters. Sin embargo, en mi opinión, un resultado con sólo 2 clusters tiene más sentido. Este resultado está marcado por gente más mayor que ve diariamente las noticias.

Page 101: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València

Análisis de Regresión Múltiple

Pedro Valero [email protected]

Metodología de las CC del Comp-Universitat de València

Abril 2011

Page 102: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València

Contenidos

Introducción 1

Introducción 2El proceso de ajuste de modelos 4Ejemplo Salario Actual 5Planteamiento del modelo 6Evaluación del Ajuste 7Diagnóstico del modelo 10Gráficos de residuales 14Busqueda de nuevos modelos 18Interpretación 20

Explorando el salario actual 22

Introducción 23Planteamiento del modelo 24Variables en el ejemplo de Empleados 25Variables derivadas 29Interacciones 30Polinomios 33El modelo inicial 34Evaluación del ajuste 35Diagnóstico del modelo 37Transformaciones 42

Resultados utilizando variables transformadas 45Aplicaciones de las transformaciones 49Interpretación del modelo 55La importancia de los coeficientes 57Coeficientes estandarizados 58Coeficientes de correlación semiparcial y parcial 60

Explorando el salario inicial 73

Planteamiento del modelo 74Introduciendo variables una por una 75Cambio en R cuadrado 78Examinando varias variables 80Medidas de colinealidad 83Métodos automáticos 88Stepwise 90Advertencias sobre stepwise 93El modelo final 94Diagnóstico del modelo 95Residuales frente a predicha 96Gráficos de regresión parcial 97Análisis de los valores individuales 101Residuales 103Distancias (Palanca) 113

Page 103: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València

Influencia 118Interpretación 124

Variables ficticias 125Polinomios 128

Page 104: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción

Page 105: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Introducción Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 2

Introducción

• La regresión múltiple es un conjunto de técnicas estadísticas que permitendiagnosticar la relación entre una variable dependiente y varias variablesindependientes

• Es una técnica muy importante en muchas disciplinas y es una de las que másavances ha tenido en los últimos años a pesar de ser relativamente bienconocida previamente.

- Eso significa que se puede profundizar hasta niveles muy grandes.

• Algunas referencias son:

- Tabachnick and Fidell (2007). Using Multivariate Statistics. Pearson (tienemuchas otras técnicas y es una buena introducción a todas ellas)

- Cook and Weisberg (2005). Applied Linear Regression. Wiley- Norusis, M. (1993) SPSS Base System. SPSS inc.

Page 106: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Introducción Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 3

• Las técnicas de regresión admiten que las variables independientes esténcorrelacionadas entre sí hasta cierto punto, lo cual se ajusta mejor a datosobservacionales o de encuesta (aunque también pueden utilizarse ensituaciones de experimentos ya que en el fondo las técnicas de ANOVA sonsemejantes a la regresión).

- Regresión es más útil para analizar problemas complejos que no es fácilreducir a diseños ortogonales tal y como se plantean en un experimento

• Las variables independientes en análisis de regresión pueden ser contínuas odicotómicas.

- Si tenemos variables categóricas con más de dos categorías deben serrecodificadas (muchos programas hacen esto automáticamente)

- Un ANOVA puede ser calculado mediante un programa de regresiónutilizando esta codificación

• De hecho, una gran cantidad de técnicas estadísticas pueden ser entendidascomo casos específicos de la Regresión Múltiple (Modelo Líneal Generalizado)

Page 107: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > El proceso de ajuste de modelos Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 4

El proceso de ajuste de modelos

• Planteamiento del modelo

• Evaluación del ajuste

• Diagnóstico

• Búsqueda de nuevos modelos

• Interpretación

Page 108: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Ejemplo Salario Actual Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 5

Ejemplo Salario Actual

• Prediciendo/explicando el salario de unos empleados a partir del salario inicial

El salario inicial es una variable que obviamente correlaciona con el salarioactual

No obstante, hay una serie de factores que pueden hacer que cada sujetoavance más o menos en su carrera

Estudiar este análisis nos ayudará a entender la relación general entre salarioinicial y actual pero también nos permitirá detectar casos excepcionales quepueden ser dignos de interés

Page 109: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 6

Planteamiento del modelo

• Salario Actual=Const+Salinicial+Error

Page 110: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Evaluación del Ajuste Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 7

Evaluación del Ajuste

• Resumen del modelo

• ANOVA

• Coeficientes y significación

Model Summary

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

1 ,880a ,775 ,774 $8,115.356

a. Predictors: (Constant), Salario inicial

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 1,068E11 1 1,068E11 1622,118 ,000a

Residual 3,109E10 472 6,586E7

Total 1,379E11 473

a. Predictors: (Constant), Salario inicial

b. Dependent Variable: Salario actual

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) 1928,206 888,680 2,170 ,031

Salario inicial 1,909 ,047 ,880 40,276 ,000

a. Dependent Variable: Salario actual

Page 111: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Evaluación del Ajuste Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 8

• Este output es muy redundante en este caso ya que en el caso de un sólopredictor tanto R, como el ANOVA como el nivel de significación delcoeficiente de la variable predictora son redundantes:

• El nivel de significación del ANOVA y del coeficiente para la variable predictorason iguales

- Más adelante veremos que para varios predictores esto no es así, y cadacoeficiente tiene un nivel de significación individual

R 0.88 SCRSCT----------- 1068

1110

13791110

-------------------------- Beta= = = =

Page 112: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Evaluación del Ajuste Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 9

• Los coeficientes no estandarizados B nos dan una idea del incremento en lavariable dependiente por unidad en la variable independiente

- Cada dolar inicial se ha convertido en 1.909 dolares de salario actual- Obviamente este modelo es incompleto, el tiempo trabajando es

importante, ¿no? Lo veremos más adelante.

Page 113: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 10

Diagnóstico del modelo

• Hay muchos aspectos a evaluar en un modelo pero generalmente el análisis delos residuales es uno de los aspectos más interesantes

• Un residual es lo que no ha sido explicado por el modelo. Es la diferencia entreel valor observado y el predicho.

- Residuales muy grandes en valor absoluto significan que hay valores que noestán bien explicados por el modelo y necesitan ser examinadosindividualmente

E Y Y–=

Page 114: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 11

- A menudo se utiliza una versión de residuales denominada Studentizados, loscuales tienen una estimación de su desviación típica que varía de punto apunto

• Los residuales pueden utilizarse para evaluar:

- Valores extremos con residuales altos- Linealidad- Igualdad de varianza- Normalidad del error- También, si los datos provienen de series temporales se pueden utilizar para

evaluar la independencia del error pero este caso no lo veremos aquí.

Page 115: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 12

• La mejor manera de hacer esta evaluación es generalmente mediante ungráfico de las puntuaciones predichas frente a los residuales. En nuestro casovemos que no se cumple el supuesto de homogeneidad de varianza

Page 116: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 13

• En cambio, el histograma de los residuales no está demasiado mal (aunque seven valores extremos)

Page 117: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 14

Gráficos de residuales

• Gráfico correcto (aunque se ven un par de residuales altos)

Education

Residuals

0.00 20.00 40.00 60.00 80.00 100.00

-40.00

-20.00

0.00

20.00

40.00

60.00

Page 118: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 15

• Curvilinealidad

10,00 20,00 30,00 40,00 50,00 60,00

Latitude

-10,00000

0,00000

10,00000

20,00000

Un

stan

dar

diz

ed R

esid

ual

0 2 4 6 8 10 12 14

Años

-2000,00000

-1000,00000

0,00000

1000,00000

2000,00000

Un

stan

dar

diz

ed R

esid

ual

Page 119: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 16

• Normalidad del error

-20,00000 0,00000 20,00000 40,00000 60,00000

Unstandardized Residual

0

10

20

30

40

50

Fre

cue

ncia

Mean = -2,0539126E-15Std. Dev. = 9,8026985N = 95

Page 120: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 17

• Soluciones al incumplimiento de supuestos

- Existen soluciones para corregir estos incumplimientos de supuestos y quehay que aplicar en cada caso. Los veremos más adelante.

Page 121: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Busqueda de nuevos modelos Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 18

Busqueda de nuevos modelos

• Generalmente, el proceso de ajuste de modelos incluye cierta cantidad debúsqueda de alternativas con comparaciones. Estos métodos pueden serautomatizados (stepwise) aunque son recomendados por los expertos

En nuestro caso, podemos incluir el tiempo que se lleva en el trabajo paraprobar con un modelo más complejo y podemos pedir la comparación con elmodelo anterior (Pasos sucesivos)

Page 122: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Busqueda de nuevos modelos Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 19

• El output ahora añade una sección que compara el modelo inicial con unavariable con el modelo con dos variables. La columna final nos indica que añadiresta variable produce un cambio de F significativo (aunque pequeño). Noobstante, si miramos el gráfico de residuales veremos que nuestro problema decumplimiento de supuestos se mantiene y habría que encontrarle una solución

Model Summaryc

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

Change Statistics

R Square

Change F Change df1 df2 Sig. F Change

1 ,880a ,775 ,774 $8,115.356 ,775 1622,118 1 472 ,000

2 ,886b ,785 ,784 $7,936.139 ,010 22,558 1 471 ,000

a. Predictors: (Constant), Salario inicial

b. Predictors: (Constant), Salario inicial, Meses desde el contrato

c. Dependent Variable: Salario actual

Page 123: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 20

Interpretación

• La interpretación del modelo se refiere a valorar los coeficientes de laregresión.

• En nuestro caso, con sólo una variable independiente la interpretación essencilla. Más adelante veremos ejemplos más complicados

• El salario actual es 1.91 veces el salario inicial como promedio

• El salario medio inicial es 1928$

• A partir de esos valores podemos predecir el salario actual de un trabajador apartir de su salario inicial. SalActual=1928.206+1909*SalInicial

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) 1928,206 888,680 2,170 ,031

Salario inicial 1,909 ,047 ,880 40,276 ,000

a. Dependent Variable: Salario actual

Page 124: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 21

Actividades

1. Repetir el ejemplo utilizando los meses desde el contrato como variable indepen-diente

Examina los gráficos para ver si de esta manera se han corregido los problemas de homoscedasticidad

Page 125: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual

Page 126: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Introducción Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 23

Introducción

• El ejemplo anterior utilizaba sólo un predictor

• No obstante, la regresión es más interesante con varios predictores, aunquetambién más complicada

Veremos a continuación un ejemplo con regresión múltiple

Page 127: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 24

Planteamiento del modelo

• Un modelo de regresión múltiple puede tener como variables independientes:

- Una o varias variables independientes- Variables categóricas (codificadas como ficticias)- Interacción entre las variables independientes (es decir multiplicación)- Términos polinomiales

Page 128: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Variables en el ejemplo de Empleados Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 25

Variables en el ejemplo de Empleados

• Estas son las variables disponibles

• Sexo puede utilizarse como variable dicotómica, también minoría. Noobstante, Sexo está como cadena así que hay que recodificarla (el comandorecodificación automática lo hace automáticamente

Page 129: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Variables en el ejemplo de Empleados Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 26

• La fecha de nacimiento es una variable numérica porque cada día estácodificado internamente como un número más (se puede comprobar pasandola variable de tipo fecha a tipo numérico). Eso la hace apta para ser utilizadacomo una variable numérica en los análisis.

• Categoría laboral está etiquetada como ordinal pero sólo tiene tres categorías.Vale la pena recodificarla en unos y ceros.

Page 130: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Variables en el ejemplo de Empleados Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 27

•Nivel educativo tiene muchos niveles.Convertirlas en categorías podría serdemasiado complicado así que sepuede hacer el siguiente gráfico:

-Se trata de un diagrama de dispersiónsimple con una línea loess añadida (seobtiene haciendo doble click en elgráfico que se obtiene haciendoGráficos>Cuadros de diálogoantiguos>Diagrama de dispersión/puntos

- En este gráfico vemos que la relación entre las variables es curvilinea peromonotónica por lo que tendremos que hacer algo

Page 131: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Variables en el ejemplo de Empleados Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 28

• Salario inicial, Tiempo empleado y Experiencia Previa son variables numéricas

• Minoría es una variable dicotómica con dos categorías.

Page 132: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Variables en el ejemplo de Empleados Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 29

Variables derivadas

• Además de las variables originales es posible utilizar como variablesindependientes otras variables derivadas de las originales. Veremos dos tipos

- Interacciones- Polinomios

Page 133: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Variables en el ejemplo de Empleados Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 30

Interacciones

• La interacción de Sexo*Salario Inicial, o de Minoría*Salario Inicial son dosejemplos interesantes de interacciones:

- Es posible que haya una discriminación inicial hacia las mujeres y que sussalarios iniciales sean más bajos que los de los hombres (controlando por elresto de los factores)

- También es posible que haya una discriminación inicial hacia las minorías ysus salarios iniciales sean más bajos

Page 134: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Variables en el ejemplo de Empleados Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 31

• Esas interacciones se pueden introducir en el modelo multiplicando lasvariables que queremos considerar de ese modo (menú Transformar>Calcularvariable). Esto nos produce una variable que podemos introducir en el análisis acontinuación

Page 135: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Variables en el ejemplo de Empleados Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 32

• Las interacciones pueden ser también entre variables numéricas (por ejemplo,produce un efecto multiplicativo la experiencia previa por los mesescontratado?)

Page 136: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Variables en el ejemplo de Empleados Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 33

Polinomios

• Luego veremos una aplicación para ajustar modelos que parecen curvilíneos.Se trata de calcular términos que corresponden a una variable multiplicada porsí misma. Pueden ser al cuadrado o al cubo. En nuestro caso, veremos másadelante que el nivel educativo puede ser interesante elevarlo al cuadrado.

Page 137: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > El modelo inicial Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 34

El modelo inicial

• En este modelo incluiremos todas las variables y veremos su efecto sobre elsalario actual (en el análisis luego podemos quitar las no significativas)

Page 138: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Evaluación del ajuste Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 35

Evaluación del ajuste

• El siguiente paso de este análisis será evaluar el ajuste (en este modelo no heincluido interacciones ni polinomios)

Model Summary

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

1 ,919a ,844 ,841 $6,808.552

a. Predictors: (Constant), Experiencia previa (meses), Meses desde el

contrato, Salario inicial, Sexo, Nivel educativo, Categoría laboral,

Fecha de nacimiento

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 1,164E11 7 1,662E10 358,590 ,000a

Residual 2,156E10 465 4,636E7

Total 1,379E11 472

a. Predictors: (Constant), Experiencia previa (meses), Meses desde el contrato, Salario inicial,

Sexo, Nivel educativo, Categoría laboral, Fecha de nacimiento

b. Dependent Variable: Salario actual

Page 139: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Evaluación del ajuste Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 36

• He puesto en negrita los valores que examinaríamos en un primer momento:

- R square (valores cercano a 1)- Nivel de significación de ANOVA (<0.001)- Niveles de significación de las variables (todos menos de 0.05 excepto la

fecha de nacimiento)

• En general, todo esto sugiere un buen modelo pero antes de pasar a lainterpretación necesitamos realizar el diagnóstico

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) -36199,156 19146,093 -1,891 ,059

Sexo -1681,168 766,574 -,049 -2,193 ,029

Fecha de nacimiento 2,118E-6 ,000 ,046 1,406 ,160

Nivel educativo 456,888 154,198 ,077 2,963 ,003

Categoría laboral 5795,987 622,090 ,262 9,317 ,000

Salario inicial 1,337 ,070 ,616 19,084 ,000

Meses desde el contrato 153,337 31,653 ,090 4,844 ,000

Experiencia previa (meses) -15,306 5,479 -,094 -2,793 ,005

a. Dependent Variable: Salario actual

Page 140: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 37

Diagnóstico del modelo

• Un primer diagnóstico es examinar las puntuaciones predichas frente a losresiduales studentizados, así como un histograma de los residuales

Page 141: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 38

• El gráfico muestra un aspecto poco adecuado, con poca homogeneidad devarianza

Page 142: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 39

• El histograma de los residuales muestra (también lo podemos ver en el deantes) que hay varios residuales muy grandes (estos valores se puedeninterpretar como puntuaciones típicas)

Page 143: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 40

• En realidad, un histograma de la variable dependiente ya nos habría dado laspistas de que esto iba a ocurrir

En él vemos que la variable Salario actual es muy asimétrica, con una mayoríacobrando salarios bajos y sólo unos pocos cobrando salarios más altos.

Page 144: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 41

Estos gráficos sugieren que el análisis de regresión está incumpliendo elsupuesto de residuales aproximadamente normales y de homogeneidad devarianza. Esto puede verse como una consecuencia de que la variabledependiente no es normal (aunque es posible en ocasiones que la variabledependiente no sea normal y se cumpla el supuesto de normalidad de losresiduales).

Page 145: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 42

Transformaciones

• Transformaciones de BoxCox

- Son una familia de transformaciones que permiten mejorar la linealidad y lanormalidad de las variables

- Algunos casos especiales de esta transformación son los siguientes

( 1) / for 0( )

log( ) for 0

py p pf y

y p

Special Members of the Box–Cox Transformation Family

Parameter Value

Transformation Name Equation

-1.0 Reciprocal

0.0 Natural Log

0.5 Square Root

1.0 Identity (no transformation)

2.0 Square

1– yy log

yy

y2

Page 146: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 43

• La más útil de todas es la transformación logarítmica. Veamos lo que ocurreaplicada a nuestro caso.

Page 147: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 44

- El logaritmo del salario actual tiene un histograma mucho más normalaunque todavía se puede observar una ligera asimetría. Quizás otratransformación sería todavía más efectiva pero nos conformaremos.

- En rigor, las variables independientes no es necesario que sean normalespero todo resulta más simple si lo hacemos en algunos casos. En este casotambién calcularemos el logaritmo del salario inicial y lo utilizaremos en losanálisis

Page 148: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 45

Resultados utilizando variables transformadasModel Summaryb

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

1 ,927a ,859 ,857 ,15029

a. Predictors: (Constant), logSalInicial, Meses desde el contrato,

Experiencia previa (meses), Sexo, Nivel educativo, Categoría laboral,

Fecha de nacimiento

b. Dependent Variable: logSalActual

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 64,161 7 9,166 405,798 ,000a

Residual 10,503 465 ,023

Total 74,664 472

a. Predictors: (Constant), logSalInicial, Meses desde el contrato, Experiencia previa (meses),

Sexo, Nivel educativo, Categoría laboral, Fecha de nacimiento

b. Dependent Variable: logSalActual

Page 149: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 46

• El ajuste es un poco mejor (aunque los resultados no son comparablesdirectamente, se trata de variables diferentes).

• Las variables que entran en el modelo han cambiado. La fecha de nacimiento essignificativa y la experiencia previa no (además, el coeficiente es negativo loque sugeriría que más experiencia lleva a menos sueldo). De todos modos,haremos la interpretación de los coeficientes más adelante.

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) 1,312 ,577 2,276 ,023

Sexo -,042 ,018 -,053 -2,369 ,018

Fecha de nacimiento 1,426E-10 ,000 ,133 4,298 ,000

Nivel educativo ,010 ,004 ,075 2,883 ,004

Categoría laboral ,123 ,014 ,238 8,586 ,000

Meses desde el contrato ,004 ,001 ,113 6,379 ,000

Experiencia previa (meses) ,000 ,000 -,045 -1,414 ,158

logSalInicial ,699 ,041 ,621 17,252 ,000

a. Dependent Variable: logSalActual

Page 150: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 47

• El gráfico de residuales frente a la variable dependiente aparece mejor (aunquetodavía destaca la concentración en salarios bajos y un residual muy alto

Page 151: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 48

• El histograma de los residuales parece bastante normal (aunque el residual estáahí)

Page 152: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 49

Aplicaciones de las transformaciones

• Las transformaciones permiten

- Hacer más simétricas las variables individualmente- Corregir la falta de homogeneidad- Hacer las relaciones más lineales

• Aunque en rigor son las variables dependientes las que necesitan latransformación para cumplir los supuestos, transformar las variablesindependientes es también una buena idea

Page 153: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 50

Actividades

1. Calcular la fórmula para predecir el porcentaje de grasa corporal a partir de tres medidas simples (altura, cintura y pecho). Archivo Ch29 Body Fat. Examinar los gráfic-os para ver si el modelo ajusta bien y no hay valores especiales.

Este es un ejemplo sencillo. Ojalá todos fueran iguales.

Page 154: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 51

2. Unos estudiantes hacen una serie de examenes intermedios, un proyecto y luego hacen un examen final, ¿se puede predecir el resultado del examen final a partir de las otras actividades? ¿qué actividades parecen no tener importancia? Este ejemplo está en Ch29 Grades.

Se puede aplicar stepwise para elegir el modelo

Page 155: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 52

3. Infant mortality en función del número de niños recien nacidos por 1000 vivos. Es un indicador de calidad de la atención médica. Los datos están para estados de USA. Las variables disponibles son Infantmortality99, Child Deaths (muertes por 100000 para niños de 1 a 14), HSDrop porcentaje de adolescentes (16-19) que abandonan el insti-tuto, LowBW porcentaje de bebes con peso bajo al nacer, TeenBirths (nacimientos por 100000 mujeres adolescentes entre 15-17) y TeenDeaths por accidentes, homicidio y suicido por 100000.

De nuevo, un ejemplo bastante sencillo.

Page 156: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 53

4. Tenemos la tasa de asesinatos por 100000 habitantes (Murder), la tasa de graduación en el instituto en porcentaje (HSGrad), ingreso per capita en dolares (Income) la tasa de analfabetismo por 1000 (illiteracy), y la expectativa de vida (lifeexpec). Encuentra un modelo de regresión para la expectativa de vida con tres variables predictoras intentando los cuatro posibles modelos. Haz las comparaciones de modelos apropia-das para demostrar que ese es el modelo correcto. Los datos están en Ch29.Fifty_states.

Asegurarse también que se cumplen los supuestos

Page 157: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 54

5. Carreras campo a través . Tenemos los valores de los records para los hombres y muje-res en una serie de carreras campo a través y los datos acerca de la distancia recorrida (Distance) y lo que se escala en ellas (Climb). Calcula las ecuaciones de regresión para hombres y mujeres y compara. Examina los supuestos de la regresión.

En este caso resulta interesante una transformación. Examinar los residuales. ¿Sería interesante usar la interacción entre las variables independientes como predictor?

Page 158: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 55

Interpretación del modelo

• La fuente principal es la tabla de coeficientes

• Esta tabla se puede plantear como una fórmula que va sumando

- 1,312 es el logaritmo del salario actual medio de alguien que tuviera cero entodas las demás variables

- Ser Hombre es 1 y ser Mujer es 2 (equivale a 0 y 1), luego ser mujer baja -0.42del salario

- Fecha de nacimiento: cada día trabajado sube un poquito

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) 1,312 ,577 2,276 ,023

Sexo -,042 ,018 -,053 -2,369 ,018

Fecha de nacimiento 1,426E-10 ,000 ,133 4,298 ,000

Nivel educativo ,010 ,004 ,075 2,883 ,004

Categoría laboral ,123 ,014 ,238 8,586 ,000

Meses desde el contrato ,004 ,001 ,113 6,379 ,000

Experiencia previa (meses) ,000 ,000 -,045 -1,414 ,158

logSalInicial ,699 ,041 ,621 17,252 ,000

a. Dependent Variable: logSalActual

Page 159: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 56

- Nivel educativo: Cada nivel sube 0.1- Categoría laboral: Cada nivel sube 0.123- Meses desde el contrato 0.004- Experiencia previa: No sube nada- logSalInicial: sube 0.699

Page 160: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 57

La importancia de los coeficientes

• Lo anterior, no obstante, no aclara la importancia de cada una de las variablesindependientes ya que estos coeficientes están afectados por la unidad demedida. Por ejemplo, la fecha de nacimiento tiene un coeficiente muypequeño pero si tenemos en cuenta que se refiere a cada día, vemos que notiene mucho sentido. Si hicieramos el cálculo por año trabajado el coeficientecambiaría bastante.

• Para determinar si una variable es importante podemos tener en cuenta dosaspectos:

- Cómo de importante es la relación de cada variable por sí sola con la variabledependiente? Esto puede calcularse con coeficientes de correlación simples

- Cómo de importante es la relación de cada variable con la variabledependiente cuando es usada junto con las otras variables independientes?Esto corresponde con la situación actual. Para este caso usaremoscoeficientes estandarizados o coeficientes de correlación parcial

Page 161: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 58

Coeficientes estandarizados

• Una forma de hacer los coeficientes más comparables es realizar algún tipo deestandarización. Esto es lo que se hace en la tercera columna de la tabla decoeficientes:

- Estos se calculan teniendo en cuenta las desviaciones típicas y se puedeninterpretar como puntuaciones típicas. Así valores grandes en términosabsolutos tendrían más efecto que los valores pequeños. Valores por encimade 2 o de 3 serían extraordinarios

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) 1,312 ,577 2,276 ,023

Sexo -,042 ,018 -,053 -2,369 ,018

Fecha de nacimiento 1,426E-10 ,000 ,133 4,298 ,000

Nivel educativo ,010 ,004 ,075 2,883 ,004

Categoría laboral ,123 ,014 ,238 8,586 ,000

Meses desde el contrato ,004 ,001 ,113 6,379 ,000

Experiencia previa (meses) ,000 ,000 -,045 -1,414 ,158

logSalInicial ,699 ,041 ,621 17,252 ,000

a. Dependent Variable: logSalActual

Page 162: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 59

- No obstante, los coeficientes estandarizados no tienen en cuenta lascorrelaciones entre las variables independientes y no reflejan de una maneraabsoluta la contribución de las variables independientesSi dos variables independientes están correlacionadas entre sí, lacontribución propia de cada una de ellas disminuye puesto que lacontribución propia es “robada” por la otra

Page 163: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 60

Coeficientes de correlación semiparcial y parcial

Page 164: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 61

• La tabla que obtenemos es la siguiente. Lo nuevo son las tres columnas del final

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

Correlations

B Std. Error Beta Zero-order Partial Part

1 (Constant) 1,312 ,577 2,276 ,023

Sexo -,042 ,018 -,053 -2,369 ,018 -,517 -,109 -,041

Fecha de nacimiento 1,426E-10 ,000 ,133 4,298 ,000 ,213 ,195 ,075

Nivel educativo ,010 ,004 ,075 2,883 ,004 ,697 ,132 ,050

Categoría laboral ,123 ,014 ,238 8,586 ,000 ,775 ,370 ,149

Meses desde el contrato ,004 ,001 ,113 6,379 ,000 ,093 ,284 ,111

Experiencia previa (meses) ,000 ,000 -,045 -1,414 ,158 -,122 -,065 -,025

logInicial ,699 ,041 ,621 17,252 ,000 ,887 ,625 ,300

a. Dependent Variable: logSalActual

Page 165: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 62

• Zero order: La correlación normal

• Part: El cuadrado de este valor indica el cambio en que acarrea añadir estavariable a un modelo igual al ajustado pero sin esa misma variable. Estavariación puede considerarse la contribución única de esa variable y tieneimportancia cuando las variables independientes están correlacionadas entre sí

- El problema de este coeficiente es que no indica qué proporción de lavarianza no explicada significa la variación anterior. Si el resto de las variablesexplican gran parte de la varianza, la varianza que queda no es mucha para lavariable considerada. En resumen, comparar coeficientes de correlaciónsemiparcial puede ser complicado.

• Partial: Los coeficientes de correlación parcial se pueden entender como lacorrelación entre una variable independiente X y la variable dependiente Ycuando la correlación del resto de las variables ha sido quitada tanto de X comode Y. De este modo, este coeficiente produce una medida de la relación “pura”entre X e Y.

R2

Page 166: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 63

Actividades

1. Mental Health.SAV tiene datos sobre cuatro variables para un grupo de mujeres. La variable dependiente es el número de visitas a profesionales de la salud en función de síntomas de salud física, mental o acontecimientos vitales stressantes. Realiza trans-formaciones de las variables que sea necesario. En este caso, la raíz cuadrada puede ser una buena transformación para los datos.

El objetivo es encontrar qué variables son buenas predictoras del número de visitas

Page 167: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 64

2. En EstadosExpVida.sav están variables de un archivo de datos que hemos visto antes. En este caso tenemos unas variables ficticias para dos estados. Si utilizamos estas variables como predictores tenemos una medida del efecto único de estas observa-ciones. Calcula el modelo e interpreta los resultados.

Esta es una de las formas en las que puede tratarse la situación en la que hay casos destacados.

Page 168: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 65

3. En el archivo Tele.sav tenemos como variables predictoras el número de personas por televisión y el número de personals por médico, y como predichas la expectativa de vida. ¿Qué predice mejor la expectativa de vida, los médicos o las televisiones por país?

En este caso es necesario hacer transformaciones.

Page 169: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 66

4. El sueldo de una profesión puede predecirse a partir de la educación necesaria y el prestigio. En este caso, se trata del tanto por ciento personas que cobran por encima de un determinado nivel de sueldo y que tienen esa profesión, el tanto por ciento de personas que consideran que esa profesión es de prestigio, y el tanto por ciento de personas que tuvo que superar un cierto nivel educativo y que trabajan en esa profe-sión. El archivo se llama profesiones.sav

Este ejemplo tiene valores especiales muy interesantes y que es conveniente identifi-car.

Page 170: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 67

5. Abdominales. Predecir el número de abdominales a partir del peso y el tamaño de la cintura. El archivo se llama abdominales.sav

Un ejemplo sencillo y que es interesante comprobar la interacción

Page 171: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 68

6. Bigmac. Selecciona el mejor modelo para predecir el precio de una hamburgesa Big-mac en capitales del mundo (tomado como un indicador de coste de la vida) a partir de una serie de indicadores.

Este archivo es interesante no solo para regresión sino también para examinar algunas de las otras variables

Page 172: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 69

7. LipidData. Un grupo de sujetos se les midió en una serie de variables de salud. Tam-bién hay medidas de salud tomadas hace tres años. Intenta encontrar un modelo para predecir el colesterol.

Hay variables que en principio no están relacionadas biológicamente con el coleste-rol. ¿Es posible que sirvan aún así para predecirlo? El LDL y el HDL predicen muy bien, el colesterol ¿a qué se debe?.

Page 173: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 70

8. Repite el ejercicio anterior intentando predecir la tensión sistólica.

Lo mismo que el anterior con una variable dependiente diferente

Page 174: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 71

9. Repite lo mismo con la tensión diastólica

Controla el valor destacado ¿A qué se puede deber?

Page 175: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario actual > Interpretación del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 72

10. Repite el ejercicio anterior intentando predecir los trigliceridos.

Examinar los residuales.

Page 176: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial

Page 177: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 74

Planteamiento del modelo

• En general, buscamos modelos que tengan pocas variables ya que son mássimples

- Hemos visto que el salario actual puede ponerse en relación con el salarioinicial.

- Es interesante a su vez ver si se puede poner en relación el salario inicial conlos mismos factores

- En este caso, además intentaremos construir un modelo que incluya unnúmero de variables no demasiado grande. Sólo aquellas que aporten valor.

Page 178: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 75

Introduciendo variables una por una

• Introducir las variables una por una según su importancia es una forma de irconstruyendo el modelo. Para ello podemos usar el SPSS con la opción decomparar modelos

Page 179: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 76

• Hay que introducir varios bloques

Page 180: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 77

• En estadísticos hay que seleccionar cambio en R cuadrado

Page 181: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 78

Cambio en R cuadrado

• La parte del output que es interesante en este caso es el cambio en . Ese valornos indica qué aporta el añadir una variable al modelo anterior y por tanto nosinforma del efecto que tiene esa variable específica. Si el cambio es 0 entoncesesa variable no aporta nada al modelo.

- Vemos que hay dos modelos, el primero con una R cuadrado de .470 y elsegundo de .576.

- La significación del cambio nos indica que el segundo modelo es diferentedel primero (Sig. F Change .000)

Model Summary

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

Change Statistics

R Square

Change F Change df1 df2 Sig. F Change

1 ,686a ,470 ,469 ,25709 ,470 418,920 1 472 ,000

2 ,759b ,576 ,574 ,23025 ,106 117,486 1 471 ,000

a. Predictors: (Constant), Nivel educativo

b. Predictors: (Constant), Nivel educativo, Sexo

R2

Page 182: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 79

• Hay que tener en cuenta que cuando se introducen variables independientesmuy intercorrelacionadas en un modelo, los resultados pueden parecer muyanómalos. La regresión en total puede aparecer significativa mientras queninguno de los coeficientes lo es. En ese caso, lo más razonable es quitaralgunas de las variables con altas intercorrelaciones.

• Otro elemento que hay que prestar atención es la R cuadrado ajustada. Estafórmula penaliza introducir variables que no aportan nada. Por eso, añadir unavariable puede aumentar la R cuadrado pero hacer disminuir la R cuadradoajustada. En este caso vemos que la diferencia es mínima.

Page 183: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 80

Examinando varias variables

• Quitar y poner variables en el modelo puede ser bastante largo pero esnecesario para encontrar modelos que tiene un conjunto de variables concoeficientes signficativos.

- He puesto las siguientes variables Nivel educativo, sexo, experiencia previa,clasificación de minorías, fecha de nacimiento.

Model Summary

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

Change Statistics

R Square

Change F Change df1 df2 Sig. F Change

1 ,547a ,300 ,298 ,29575 ,300 201,555 1 471 ,000

2 ,588b ,346 ,343 ,28614 ,046 33,169 1 470 ,000

3 ,769c ,592 ,589 ,22631 ,246 282,368 1 469 ,000

4 ,783d ,613 ,609 ,22065 ,021 25,350 1 468 ,000

5 ,784e ,615 ,611 ,22022 ,002 2,836 1 467 ,093

a. Predictors: (Constant), Sexo

b. Predictors: (Constant), Sexo, Clasificación de minorías

c. Predictors: (Constant), Sexo, Clasificación de minorías, Nivel educativo

d. Predictors: (Constant), Sexo, Clasificación de minorías, Nivel educativo, Experiencia previa (meses)

e. Predictors: (Constant), Sexo, Clasificación de minorías, Nivel educativo, Experiencia previa (meses), Fecha de nacimiento

Page 184: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 81

• Vemos que la última variable no entraría en el modelo por muy poco y que elaumento de la R cuadrado es mínimo. Si examinamos los modelos:

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.B Std. Error Beta

1 (Constant) 10,233 ,042 243,496 ,000

Sexo -,388 ,027 -,547 -14,197 ,000

2 (Constant) 10,291 ,042 245,807 ,000

Sexo -,399 ,026 -,564 -15,073 ,000

Clasificación de minorías -,183 ,032 -,215 -5,759 ,000

3 (Constant) 9,183 ,074 124,447 ,000

Sexo -,259 ,023 -,366 -11,503 ,000

Clasificación de minorías -,110 ,026 -,129 -4,303 ,000

Nivel educativo ,066 ,004 ,538 16,804 ,000

4 (Constant) 9,001 ,081 111,805 ,000

Sexo -,228 ,023 -,322 -9,994 ,000

Clasificación de minorías -,120 ,025 -,141 -4,812 ,000

Nivel educativo ,072 ,004 ,592 17,938 ,000

Experiencia previa (meses) ,001 ,000 ,157 5,035 ,000

5 (Constant) 9,996 ,596 16,765 ,000

Sexo -,240 ,024 -,338 -10,080 ,000

Clasificación de minorías -,121 ,025 -,142 -4,835 ,000

Nivel educativo ,072 ,004 ,592 17,984 ,000

Experiencia previa (meses) ,000 ,000 ,086 1,636 ,102

Fecha de nacimiento -8,100E-11 ,000 -,085 -1,684 ,093

a. Dependent Variable: logInicial

Page 185: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 82

- Vemos que la experiencia previa y la fecha de nacimiento no entrarían en elúltimo modelo. Sin embargo, un modelo sólo con experiencia previa y sinfecha de nacimiento tiene un coeficiente significativo

- Esto posiblemente se debe a que la experiencia previa está relacionada conla edad (gente con más edad tiene más posibilidadades de tener másexperiencia previa)

- Una forma de ver la relación entre las variables independientes es calcular lacorrelación (en este caso es -0.80, cuantas más experiencia mas baja es lafecha de nacimiento, es decir menos edad).

- No obstante, la correlación bivariada entre variables puede no ser suficientepara diagnosticar porqué una variable entra o no en un modelo ya que puedehaber casos en que la correlación múltiple es alta pero la bivariada no estanto. Una forma de medir esto es mediante las medidas de colinealidad(otra nombre para correlación)

Page 186: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 83

Medidas de colinealidad

Page 187: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 84

• Los diagnosticos de colinealidad aparecen de dos maneras

- Junto a los coeficientes de la regresión- Como una tabla de diagnósticos de la colinealidad relacionada con

eigenvalores

Page 188: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 85

• Diagnósticos junto a los coeficientes (variables excluidas)

- Tolerancia: Es 1-R cuadrado múltiple de esa variable con todas las demás.Cuanto más alto (cerca de uno) más independiente es esa variable (menoscolineal).

- VIF: Es el recíproco de la tolerancia. Cuanto más grande más colinealidad.- Vemos que la tolerancia de la experiencia previa y la fecha de nacimiento son

las más bajas

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

Collinearity Statistics

B Std. Error Beta Tolerance VIF

1 (Constant) 9,996 ,596 16,765 ,000

Sexo -,240 ,024 -,338 -10,080 ,000 ,732 1,367

Clasificación de minorías -,121 ,025 -,142 -4,835 ,000 ,958 1,043

Experiencia previa (meses) ,000 ,000 ,086 1,636 ,102 ,301 3,320

Nivel educativo ,072 ,004 ,592 17,984 ,000 ,761 1,315

Fecha de nacimiento -8,100E-11 ,000 -,085 -1,684 ,093 ,321 3,112

a. Dependent Variable: logInicial

Page 189: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 86

• La parte de diagnosticos propiamente de la colinealidad (sólo modelo 4)

- Un resultado deseable aquí es que los eigenvalores sean aproximadamenteiguales. Si algunos eigenvalores son más grandes que otros, entoncessignifica que la matriz de variables independientes tiene muchasredundancias (alta colinealidad)

- Una forma de medir esto es el índice de condicionalidad que se obtienemediante la fórmula. Valores grandes son indicadores de variablesredundantes

Collinearity Diagnosticsa

Model Dimension Eigenvalue Condition Index

Variance Proportions

(Constant) Sexo

Clasificación de

minorías

Experiencia

previa (meses) Nivel educativo

Fecha de

nacimiento

1 1 4,628 1,000 ,00 ,00 ,01 ,00 ,00 ,00

2 ,752 2,481 ,00 ,00 ,86 ,01 ,00 ,00

3 ,499 3,046 ,00 ,01 ,10 ,28 ,00 ,00

4 ,104 6,657 ,00 ,48 ,00 ,00 ,10 ,00

5 ,016 16,923 ,00 ,40 ,03 ,03 ,89 ,01

6 ,000 174,635 1,00 ,11 ,00 ,68 ,00 ,99

a. Dependent Variable: logInicial

condindex EIGENVALORmax EIGENVALOR =

Page 190: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 87

- Proporciones de varianza: Esta parte de la tabla te ayuda a encontrar lasvariables que están muy relacionadas entre sí. En nuestro caso, la fecha denacimiento y la experiencia previa están muy relacionadas y así aparecen enel output.

Page 191: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 88

Métodos automáticos

• Todo lo anterior puede parecer muy complicado pero existen métodosautomáticos que se encargan de hacer la selección automáticamente entre lasvariables. El método más común es stepwise (pasos sucesivos)

Page 192: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 89

• El método de pasos sucesivos es un método automático de selección devariables que combina la introducción y la eliminación de variables en elmodelo según unos criterios de selección. Otros métodos son adelante (se vaseleccionando la variable mejor en cada paso según varios criterios), hacia atrás(se van eliminando variables hacia atrás) y eliminar (se utilizan bloques y se vaneliminando los bloques sucesivamente)

• Los métodos automáticos no suelen ser recomendados en la literatura peroentre ellos stepwise es el más avanzado. A continuación mostraremos unejemplo de stepwise.

Page 193: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 90

Stepwise

• En este modelo ponemos las siguientes variables como predictoras: Género,minoría, experiencia previa, meses desde el contrato, fecha nacimiento.

- El criterio para el método es el de que una variable entra si la diferencia en laprobabilidad de F es menor que 0.05 y de salida si incorporarla supone unaprobabilidad mayor que 0.10.

Page 194: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 91

• Esas pruebas se repiten a cada paso así que una variable puede no entrar en unpaso pero hacerlo en el siguiente. En nuestro caso, el modelo final es:

Model Summarye

Model R R Square

Adjusted R

Square

Std. Error of the

Estimate

Change Statistics

R Square

Change F Change df1 df2 Sig. F Change

1 ,685a ,470 ,469 ,25736 ,470 417,151 1 471 ,000

2 ,759b ,576 ,574 ,23048 ,106 117,246 1 470 ,000

3 ,771c ,594 ,591 ,22565 ,018 21,341 1 469 ,000

4 ,783d ,613 ,609 ,22061 ,019 22,673 1 468 ,000

a. Predictors: (Constant), Nivel educativo

b. Predictors: (Constant), Nivel educativo, Sexo

c. Predictors: (Constant), Nivel educativo, Sexo, Fecha de nacimiento

d. Predictors: (Constant), Nivel educativo, Sexo, Fecha de nacimiento, Clasificación de minorías

e. Dependent Variable: logInicial

Page 195: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 92

• En este modelo no ha entrado la variable Experiencia previa. Una forma de verel proceso es mediante esta tabla que muestra las variables no introducidas:

Excluded Variablese

Model Beta In t Sig.

Partial

Correlation

Collinearity Statistics

Tolerance VIF

Minimum

Tolerance

1 Sexo -,348a -10,828 ,000 -,447 ,874 1,144 ,874

Clasificación de minorías -,083a -2,469 ,014 -,113 ,983 1,018 ,983

Experiencia previa (meses) ,228a 6,879 ,000 ,302 ,937 1,068 ,937

Fecha de nacimiento -,160a -4,669 ,000 -,211 ,921 1,086 ,921

2 Clasificación de minorías -,129b -4,303 ,000 -,195 ,965 1,036 ,849

Experiencia previa (meses) ,144b 4,549 ,000 ,206 ,862 1,160 ,775

Fecha de nacimiento -,142b -4,620 ,000 -,209 ,918 1,089 ,805

3 Clasificación de minorías -,140c -4,762 ,000 -,215 ,960 1,041 ,788

Experiencia previa (meses) ,075c 1,400 ,162 ,065 ,302 3,314 ,302

4 Experiencia previa (meses) ,086d 1,636 ,102 ,075 ,301 3,320 ,301

a. Predictors in the Model: (Constant), Nivel educativo

b. Predictors in the Model: (Constant), Nivel educativo, Sexo

c. Predictors in the Model: (Constant), Nivel educativo, Sexo, Fecha de nacimiento

d. Predictors in the Model: (Constant), Nivel educativo, Sexo, Fecha de nacimiento, Clasificación de minorías

e. Dependent Variable: logInicial

Page 196: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 93

Advertencias sobre stepwise

• Hay veces que excluir una variable que tiene un coeficiente no significativo noes buena idea porque si no lo introducimos otra variable no es significativa (notengo un ejemplo de esto pero a veces pasa)

• Hay variables que necesitamos que entren en el modelo porque son las quetienen más importancia teórica.

• Hay variables que están intercorrelacionadas y que podemos decidir en base anuestra opinión cuál hay que quitar (en lugar de dejar al ordenador que lo haga)

• Mirar los distintos índices nos puede ayudar a entender mejor nuestros análisis.

• Un listado de problemas puede encontrarse en este link

Page 197: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Planteamiento del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 94

El modelo final

• Vamos a quedarnos con el siguiente modelo en el que todas las variables tienencoeficientes significativos

- LogSalini= Const + Sexo + Experiencia previa + Clasificación de minorías- La variable Fecha de Nacimiento no ha sido incluida porque está muy

relacionada con la Experiencia previa y ambas no podían estarsimultáneamente en el modelo. He elegido Experiencia previa porque meparece una variable con más sentido que la Fecha de Nacimiento aunqueestán muy correlacionadas

Page 198: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 95

Diagnóstico del modelo

• El modelo anterior necesita ser diagnosticado antes de darlo por bueno. Haymuchos gráficos que pueden ser útiles:

- El gráfico de residuales frente a la variable predicha da una visión general delos posibles problemas

- El gráfico de regresión parcial da la información acerca de la relaciónespecífica entre una variable indepediente y la variable dependientedespués de haber eliminado la influencia de las otras variables

- Histogramas o otros gráficos de residuales, puntos influyentes y distancias deCook

Page 199: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 96

Residuales frente a predicha

• El gráfico en nuestro caso muestra curvlinealidad

• Para explorar esta curvilinealidad se pueden utilizar los gráficos de regresiónparcial.

Page 200: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 97

Gráficos de regresión parcial

• Esos gráficos son los residuales de una regresión que no incluye a la variableindependiente considerada frente a los residuales de una regresión múltipledel resto de las variables independientes sobre la variable considerada.

• Estos gráficos es el equivalente a la correlación parcial y da una idea de larelación pura entre las variables

Page 201: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 98

• De todos ellos, el más interesante es el de nivel educativo

- En este gráfico se puede ver una relación de curvilinealidad que seríaconveniente ajustar.

- Una forma de tratar con esta curvilinealidad es añadir un término polinomial(nivel educativo al cuadrado)usando calcular variable

Page 202: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 99

• El nuevo modelo da como resultado una R cuadrado de .711 (el anterior era.611). La tabla de coeficientes es la siguiente

- Tanto nivel educativo como educativo aparecen como significativos.- No obstante, la tolerancia de las dos variables es muy baja. Esto se debe a que

están muy correlacionadas.- En este caso, esto no nos debe preocupar ya que trataremos ambas variables

como si se tratara de un conjunto (lo veremos más adelante eninterpretación)

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

Collinearity Statistics

B Std. Error Beta Tolerance VIF

1 (Constant) 10,717 ,153 69,914 ,000

Sexo -,190 ,020 -,268 -9,515 ,000 ,777 1,287

Clasificación de minorías -,088 ,022 -,103 -4,041 ,000 ,945 1,058

Experiencia previa (meses) ,000 ,000 ,102 3,748 ,000 ,834 1,198

Nivel educativo -,206 ,022 -1,687 -9,191 ,000 ,018 54,510

educuad ,011 ,001 2,312 12,568 ,000 ,018 54,756

a. Dependent Variable: logInicial

Page 203: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 100

- El gráfico de las predichas frente a los residuales no muestra curvilinealidad(aunque sí que aparecen otras cosas interesantes que estudiaremos ahora)

Page 204: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 101

Análisis de los valores individuales

• En este gráfico se pueden observar una serie de observaciones que destacandel resto. Esas observaciones pueden ser interesantes por sí mismas perotambién para hacer diagnósticos.

Page 205: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 102

• Hay tres tipos de diagnósticos de las puntuaciones individuales que soninteresantes:

- Residuales- Influencia- Palanca o efecto

Page 206: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 103

Residuales

• Un residual es la diferencia entre la puntuación predicha y la observadarealmente

• Valores positivos significa estar por encima de lo que condicionalmentecorresponde, y negativos estar por debajo.

- Alguien con un residual positivo en salario inicial significa que le pagaron másde lo que le correspondería por su sexo, minoría, experiencia previa, etc.

- Alguien con un residual negativo sería lo opuesto, le pagaron menos de loque le correspondería teniendo en cuenta lo anterior.

Page 207: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 104

• Hay varias versiones de residuales

- Residuales directos: Tienen el inconveniente de que no es fácil decidircuándo un residual es grande o pequeño

- Residuales estandarizados: Pueden ser interpretados como puntuacionestípicas

- Residuales studentizados: Es una estandarización que tiene en cuenta que losresiduales en los extremos son más variables. Este es el más recomendado.

- Residuales borrados: Es el residual de una ecuación calculada excluyendo esaobservación (de este modo el residual es independiente)

- Residual studentizado borrado: Es el residual studentizado pero calculadoexcluyendo la propia observación. Esto es todavía mejor que el residualstudentizado aunque la diferencia es mínima normalmente.

Page 208: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 105

• La tabla de residuales de SPSS es la siguiente

- Es interesante ver que hay dos residuales studentizados con valores porencima de 5 (se interpretan como puntuaciones típicas). No obstante, estatabla es un poco limitada en que sólo informa de uno o dos valores (lasmedias y las desv. típicas no son muy interesantes)

Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N

Predicted Value 9,2705 10,9170 9,6694 ,29745 474

Std. Predicted Value -1,341 4,194 ,000 1,000 474

Standard Error of Predicted

Value

,014 ,051 ,021 ,006 474

Adjusted Predicted Value 9,2719 10,9461 9,6696 ,29776 474

Residual -,54066 1,03593 ,00000 ,18979 474

Std. Residual -2,834 5,429 ,000 ,995 474

Stud. Residual -2,892 5,447 -,001 1,002 474

Deleted Residual -,56324 1,04256 -,00022 ,19245 474

Stud. Deleted Residual -2,915 5,622 ,001 1,009 474

Mahal. Distance 1,534 32,248 4,989 3,872 474

Cook's Distance ,000 ,075 ,002 ,007 474

Centered Leverage Value ,003 ,068 ,011 ,008 474

a. Dependent Variable: logInicial

Page 209: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 106

• Volviendo al gráfico podemos ver que hay varios residuales con valoresbastante altos y también que los valores residuales altos están sobre todo porarriba, no por abajo.,

Page 210: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 107

• ¿Qué se puede hacer con los residuales?

- Se pueden explorar para ver si tienen alguna característica especial- Se puede ver si están asociados con alguna variable no considerada- Se pueden eliminar para ver su efecto sobre el ajuste del modelo (a veces el

cambio puede ser interesante.

Page 211: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 108

• Los residuales y otros indicadores se pueden guardar para explorar

Page 212: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 109

• También, si tenemos etiquetas, se pueden añadir a la regresión y aparecen enlos gráficos

- Podemos ver por ejemplo que el caso 343 es el que tiene el residualstudentizado más alto (por que le pagarían tanto?), pero también el 341 o el29 son interesantes.

Page 213: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 110

• Para analizar el impacto de quitar unos residuales podemos quitarlos

Page 214: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 111

• El resultado muestra los resultados para el modelo sólo con los casosseleccionados

- El resultado muestra una R cuadrado ajustada de .735 (con todos los casos erade .708)

Model Summaryb,c

Model

R

R Square

Adjusted R

Square

Std. Error of the

Estimate

Change Statistics

Studentized

Deleted Residual

< 4,50000

(Selected)

Studentized

Deleted Residual

>= 4,50000

(Unselected)

R Square

Change F Change df1 df2 Sig. F Change

1 ,859a ,960 ,738 ,735 ,17610 ,738 262,192 5 465 ,000

a. Predictors: (Constant), educuad, Clasificación de minorías, Experiencia previa (meses), Sexo, Nivel educativo

b. Unless noted otherwise, statistics are based only on cases for which Studentized Deleted Residual < 4,50000.

c. Dependent Variable: logInicial

Page 215: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 112

• Otra forma de ver el efecto es en el gráfico de los residuales. Vemos que sólo sehan eliminado tres observaciones y que hay otras cerca que podría considerarseeliminar también

Page 216: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 113

Distancias (Palanca)

• Un valor tiene mucha palanca si existen pocos casos con característicassimilares a él

- En principio, un supuesto de la regresión es que todos los puntos deberíantener una palanca semejante

- Si un caso es inusual, su palanca crece con respecto a otros que son máscomunes

- La palanca tal y como se considera para regresión múltiple sólo se refiere alos predictores y no tiene en cuenta la variable predicha

Page 217: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 114

• Hay dos medidas que indican palanca de cada caso:

- Mahalanobis: Es una medida de la distancia de una observación particularrespecto del centroide de los datos

- Influencia: Da unos resultados entre 0 (no influye en el ajuste) y (N-1)/N (esdecir cerca de 1 es el máximo)Las distancias de Cook están mal puestas, deberían estar a la derecha

Page 218: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 115

• En realidad la influencia y Mahalanobis son una transformación lineal ysignifican lo mismo.

- Yo prefiero influencia

Page 219: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 116

• Un gráfico interesante es el residuales studentizados frente a valores deinfluencia. En él vemos valores con influencia y residuales. Los peores son losque destacan en ambas cosas (no es el caso)

Page 220: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 117

• El valor con más influencia es uno que pasa de 0.06. Revisando los datos vemosque ese caso es el único con un nivel educativo de 21 y que con un nivel 20 sólohay un par.

- Además, el nivel educativo está a menudo un poco asociado a menosexperiencia previa pero no parece el caso.

- La influencia es importante pero la siguiente medida nos da una informaciónadicional que es todavía más informativa.

Page 221: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 118

Influencia

• He llamado a esta medida Influencia porque hay un problema de traducción(en inglés se usa leverage e influence).

• Hay varias medidas para esto pero la que se suele comentar es la distancia deCook

Page 222: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 119

• Todas ellas tienen una idea similar, ¿qué cambio se produciría en los resultadosde la regresión si eliminamos una puntuación?

- Valores altos indican que eliminar esa puntuación cambiaría mucho losresultados

- Son una combinación de las consecuencias de tener un residual alto y unvalor de influencia alto

- De nuevo, valores altos destacados indican valores peculiares. Estos valorestienen influencia y además el residual cambiaría mucho si ese valor fueraeliminado.

- Aquí sólo veremos las distancias de Cook por simplificar.

Page 223: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 120

• Aquí podemos ver como se relacionan las distancias de Cook con el Leverage ylos residuales.

- En nuestro caso, el valor de distancia de Cook más alto es cerca de 0.07. Lasdistancias de Cook tienen un mínimo de 0 y se considera alto un valor de 4/n(en este caso 4/474=0.008). Hay por tanto varios valores que podríamosconsiderar que tienen una distancia de Cook excesiva (hay 25 que pasan deeste límite).

Page 224: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 121

• Podemos repetir el análisis de regresión excluyendo esos caso con valores dedistancia de Cook muy altos

Page 225: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 122

• El resultado no incluiría muchos de los residuales más exagerados (sobre todolos positivos) y tampoco algunos valores con más palanca (137 y 130). La Rcuadrado sube a .795 (antes era .708)

Model Summaryb,c

Model

R

R Square

Adjusted R

Square

Std. Error of the

Estimate

Change Statistics

Cook's Distance

< ,00800

(Selected)

Cook's Distance

>= ,00800

(Unselected)

R Square

Change F Change df1 df2 Sig. F Change

1 ,892a ,596 ,795 ,792 ,14392 ,795 342,354 5 442 ,000

a. Predictors: (Constant), educuad, Clasificación de minorías, Experiencia previa (meses), Sexo, Nivel educativo

b. Unless noted otherwise, statistics are based only on cases for which Cook's Distance < ,00800.

c. Dependent Variable: logInicial

Page 226: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Diagnóstico del modelo Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 123

• Obviamente, eliminar 20 casos es una decisión importante y tiene que servalorada con cuidado. Antes de eliminar un caso de los resultados habría que:

- Valorar si hay algo especial en ese caso- Si hay un error en los datos

• Una buena razón para eliminar un caso con mucha influencia es que un buenanálisis de regresión es aquel en que los casos tienen una influencia similar.

- Si todo el análisis de regresión está condicionado por ese caso, eso no esbueno

- Si un caso realmente destaca de los demás, es buena idea apartarlo y ofrecerlos resultados sin ese valor (comentando que se ha eliminado un caso por lasrazones ofrecidas)

Page 227: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 124

Interpretación

• Ya hemos hablado antes de la interpretación de los coeficientes pero algunosde los que hemos usado tienen una interpretación especial.

- Variables ficticias (sexo, minoria)- Polinomios

Page 228: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 125

Variables ficticias

• Las variables ficticas es la manera de utilizar variables categóricas en un análisisde regresión

- Se necesitan k-1 columnas para representar las categorías de una variablecategoríca

- Generalmente se utiliza 0 y 1 para las categorías porque es más fácil deinterpretar (aunque en este caso he usado 1 y 2 porque el SPSS me ha puestoeso automáticamente y no lo he cambiado)

- En el módulo que estamos usando esta codificación se hace manualmente- Para variables con dos categorías no es mucho problema, pero si hay

variables con más categorías resulta interesante utilizar un módulo que lohaga automáticamente (p.e. GLM)

Page 229: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 126

• El coeficiente de la regresión para una variable categórica se interpreta delsiguiente modo:

- El valor del coeficiente es la diferencia entre las medias en la variabledependiente de las dos categorías (9.458-9.846=-0.388) cuando sólo hay unavariable independiente

- El valor de la constante puede utilizarse para calcular la media en la variabledependiente de las categorías (pero es más fácil calcular la tabla de abajo)

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

Collinearity Statistics

B Std. Error Beta Tolerance VIF

1 (Constant) 10,234 ,042 244,118 ,000

Sexo -,388 ,027 -,548 -14,234 ,000 1,000 1,000

a. Dependent Variable: logInicial

Report

logInicial

Sexo Mean N Std. Deviation

Hombre 9,8461 258 ,35566

Mujer 9,4583 216 ,20108

Total 9,6694 474 ,35284

Page 230: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 127

• Cuando el modelo es más completo, los coeficientes obviamente varían perosigue teniendo la misma interpretación (diferencia entre las categorías)

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

Collinearity Statistics

B Std. Error Beta Tolerance VIF

1 (Constant) 10,717 ,153 69,914 ,000

Sexo -,190 ,020 -,268 -9,515 ,000 ,777 1,287

Clasificación de minorías -,088 ,022 -,103 -4,041 ,000 ,945 1,058

Experiencia previa (meses) ,000 ,000 ,102 3,748 ,000 ,834 1,198

Nivel educativo -,206 ,022 -1,687 -9,191 ,000 ,018 54,510

educuad ,011 ,001 2,312 12,568 ,000 ,018 54,756

a. Dependent Variable: logInicial

Page 231: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 128

Polinomios

• Cuando se introducen términos polinómicos en un análisis de regresión, lainterpretación de cada variable por separado no tiene mucho sentido.

- Hay que valorarlos conjuntamente

• En nuestro ejemplo, el nivel educativo tiene un valor negativo mientras que elcuadrado del nivel educativo tiene un valor positivo (aunque no hay que olvidarque la variable está en logaritmos)

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

Collinearity Statistics

B Std. Error Beta Tolerance VIF

1 (Constant) 10,717 ,153 69,914 ,000

Sexo -,190 ,020 -,268 -9,515 ,000 ,777 1,287

Clasificación de minorías -,088 ,022 -,103 -4,041 ,000 ,945 1,058

Experiencia previa (meses) ,000 ,000 ,102 3,748 ,000 ,834 1,198

Nivel educativo -,206 ,022 -1,687 -9,191 ,000 ,018 54,510

educuad ,011 ,001 2,312 12,568 ,000 ,018 54,756

a. Dependent Variable: logInicial

Page 232: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 129

• Para ver el efecto de estos coeficientes se puede hacer un gráfico de este tipo(yo lo he hecho con Excel)

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

0 5 10 15 20 25

Series1

Page 233: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 130

Actividades

1. En este ejemplo se trata de predecir la cantidad de nitrógeno en unos rios a partir de indices de uso agricola, bosque, residencial, y un índice de uso comercial industrial. Se encuentra en el archivo. Se encuentra en el archivo NewYorkRivers.

No olvidar examinar los residuales

Page 234: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 131

2. El archivo Coches tiene datos sobre el consumo, el motor, la potencia, la aceleración, el año del modelo de una serie de coches, el país de origen y la cilindrada. Prueba a hacer un modelo de regresión que prediga el consumo a partir de las otras variables.

Ten en cuenta que la variable País tiene tres categorías y por tanto vas a necesitar dos variables ficticias para representar todas las categorías.

Page 235: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 132

3. En el ejemplo de calaveras egipcias, tenemos las variables Year (año aproximado de formación de la calavera, negativo Antes de Cristo, positivo después), MB anchara máxima de la calavera, BL Longitud basialveolar de la calavera, y NH altura nasal de la calavera. La idea es predecir la edad de la calavera a partir de las otras variables.

No olvides comprobar si se cumplen los supuestos

Page 236: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 133

4. Inmigración de un estado en estados unidos a otro. Los datos son de 48 de ellos (excluyendo Alaska y Hawaii). La variable dependiente es la inmigración doméstica neta lo cual representa el movimiento neto de la población dentro o fuera del estado sobre el periódo 1990-1994 dividido por la población del estado. Once predictores de ese movimiento que se piensa influyen en la inmigración son desempleo (tasa de des-empleo en 1994), Salario (promedio de salario por hora de trabajadores de fábricas en 1994), Crime (tasa de crímenes violentos por 100000 en 1993), Income (ingresos por hogar medio en 1994), Metrop (porcentaje de población del estado viviendo en áreas metropolitanas, Poor (porcentaje de población viviendo por debajo del umbral de la pobreza), Taxes (impuestos totales y locales por cabeza en 1993), Educ (porcentaje de población de 25 años o más mayor que tienen un título de instituto o mayor en 1990), BusFail (número de negocios fallidos por la población del estado en 1993), Temp (pro-medio de 12 temperaturas promedio mensuales en Farenheit en 1993), Region (región en la que el estado se encuentra). El archivo se llama Inmigracion.sav.

Este es un modelo con muchas variables pero muy correlacionadas. El modelo final puede incluir muy pocas variables. No obstante, hay que examinar los gráficos para ver que hay algunos problemas con los datos.

Page 237: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 134

5. Se intenta valorar el precio de las casas a partir de una serie de variables. Las variables consideradas son Y: precio de venta de la casa en miles de dólares, X1:Impuestos en

miles de dolares, X2:número de baños, X3:Tamaño incluyendo jardín, X4:Tamaño habi-

table, X5:Plazas de garaje, X6:Número de habitaciones, X7:Número de dormitorios,

X8: Antiguedad de la casa (años), X9: Número de chimeneas. Intenta ajustar un

modelo completo pero comparalo con la opinión de un experto que dice que sólo con los impuesttos, el número de habitaciones y la antiguedad de la casa se puede esta-blecer bien el precio. ¿Cómo sería de bueno un modelo que sólo incluyera los impues-tos como predictor? Los datos están en el archivo PrecioCasas.sav.

Este es un ejemplo muy sencillo en el fondo.

Page 238: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Explorando el salario inicial > Interpretación Regresión

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 135

6. Homicidios. Se investigó el papel de las armas de fuego para explicar el aumento en la tasa de homicidios en Detroit. Datos de 1961-1973. La variable respuesta es la tasa de homicidios (H) por 100000 y las variables son predictores que se creía que influían en ese aumento. FTP: Número de policias a tiempo completo por 100000 habitantes, UEMP, porcentaje de población desempleada, M: Número de trabajadores en la manufactura, LIC: número de licencias de pistolas por 100000, GR: número de pistolas registradas por 100000, CLEAR porcentaje de homicidios aclarados con arrestos, W: número de varones blancos en la población, NMAN: Número de trabajadores pero no en la manufactura (en miles), G: Número de trabajadores en el gobierno (en miles), HE: salario hora promedio, WE: salario semanal promedio. Los datos están en el archivo Homicidios.sav.

En este ejemplo no es difícil encontrar modelos que ajusten. No obstante, hay que valorar si introducir demasiadas variables es apropiado o no.

Page 239: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València

Análisis LoglinealPedro Valero [email protected]

Metodología de las CC del Comp-Universitat de València

Abril 2011

Page 240: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

LogLineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València

Contenidos

Introducción 1

Tablas de contingencia 2Chi cuadrado 4Residuales estandarizados 5Resumen 8

Modelos loglineales 11

Modelos para dos y tres variables 12Modelos para dos variables 13Modelos para tres variables 17Notación 19Modelos para Titanic 21Modelos para cuatro variables 23Modelos jerarquicos o anidados 24

Admisión en Berkeley 25

Pasos para un análisis loglineal 26Ejemplo Berkeley 27Planteamiento del modelo 30Output 34

Interpretación de los resultados 40Examinando los residuales 41Interpretando los coeficientes 45Conclusiones para Berkeley 54

Ajuste de modelos 57

Introducción 58Ejemplo: Fumar y dolor de cabeza 59Métodos 60Procedimiento automático 61Procedimiento manual 65Resumen sobre ajuste de modelos 68

Casos especiales 76

Modelos logit 77Casillas vacias 78Covariantes a nivel de celda 79Modelos ordinales 80Modelos especiales 81

Page 241: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción

Page 242: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Tablas de contingencia Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 2

Tablas de contingencia

• Cuando tienes variables categóricas o variables ordinales con pocos valores, losanálisis suelen pasar por hacer recuentos de frecuencias.

- Para dos variables esto suele terminar en una tabla de contingencia. Porejemplo, en los datos de supervivencia del Titanic nos podríamos plantear silos hombres sobrevivieron más que las mujeres (las mujeres y los niñosprimero).

Gender_ * Survive_ Crosstabulation

Count

Survive_

TotalDied Lived

Gender_ Fema 126 344 470

Male 1364 367 1731

Total 1490 711 2201

Page 243: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Tablas de contingencia Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 3

• La interpretación de una tabla de este tipo no es muy simple ya que hay quetener en cuenta los totales. Lo más sencillo es calcular porcentajes por filas.

- Aquí la comparación interesante es con la fila inferior de Total que podemosinterpretar como un promedio. En el Titanic vemos que un 67,7% murió perosi lo dividimos por género, la mortalidad entre las mujeres fue de un 26.8% ypara los hombres fue de un 78.8%.

Gender_ * Survive_ Crosstabulation

% within Gender_

Survive_

TotalDied Lived

Gender_ Fema 26,8% 73,2% 100,0%

Male 78,8% 21,2% 100,0%

Total 67,7% 32,3% 100,0%

Page 244: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Chi cuadrado Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 4

Chi cuadrado

• En este momento puede ser interesante realizar una prueba de hipótesis paraprobar si efectivamente las diferencias que observamos son estadísticamentesignificativas. Esto suele hacerse mediante la prueba de Chi cuadrado (SPSS nosregala un montón de cosas de paso)

- Chi cuadrado es una medida de desajuste- El nivel de significación prueba la hipótesis de que el desajuste es cero- Rechazar la hipótesis nula significa (en este caso) hombres y mujeres tuvieron

unos niveles diferentes de supervivencia

Chi-Square Tests

Value df

Asymp. Sig.

(2-sided)

Exact Sig.

(2-sided)

Exact Sig.

(1-sided)

Pearson Chi-Square 456,874a 1 ,000

Continuity Correctionb 454,500 1 ,000

Likelihood Ratio 434,469 1 ,000

Fisher's Exact Test ,000 ,000

Linear-by-Linear Association 456,667 1 ,000

N of Valid Cases 2201

a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 151,83.

b. Computed only for a 2x2 table

Page 245: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Residuales estandarizados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 5

Residuales estandarizados

• Chi cuadrado está basado en la diferencia entre las puntuaciones esperadas ylas observadas para cada una de las celdas de la tabla. La suma de las diferenciasproduce un valor alto de Chi-cuadrado. Si ese valor es alto rechazamos lahipótesis nula y por tanto pensamos que hay interacción entre las variables

Gender_ * Survive_ Crosstabulation

Survive_

TotalDied Lived

Gender_ Fema Count 126 344 470

Expected Count 318,2 151,8 470,0

Residual -192,2 192,2

Male Count 1364 367 1731

Expected Count 1171,8 559,2 1731,0

Residual 192,2 -192,2

Total Count 1490 711 2201

Expected Count 1490,0 711,0 2201,0

Page 246: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Residuales estandarizados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 6

• Este caso es sencillo de interpretar pero a veces es necesario examinar losresiduales para ver de donde provienen las diferencias y en qué medida. Porejemplo, si analizamos la clase en la que viajaban (¿viajar en primera te da másposibilidades de sobrevivir en caso de accidente?) tenemos la siguiente tabla

- Parece que en primera y en segunda se sobrevivió más que en tercera peroestos residuales no tienen en cuenta los distintos tamaños. Para valorar mejorlos residuales necesitaríamos estandarizarlos

Class_ * Survive_ Crosstabulation

Survive_

TotalDied Lived

Class_ 1st Count 122 203 325

Expected Count 220,0 105,0 325,0

Residual -98,0 98,0

2nd Count 167 118 285

Expected Count 192,9 92,1 285,0

Residual -25,9 25,9

3rd Count 528 178 706

Expected Count 477,9 228,1 706,0

Residual 50,1 -50,1

Cre Count 673 212 885

Expected Count 599,1 285,9 885,0

Residual 73,9 -73,9

Total Count 1490 711 2201

Expected Count 1490,0 711,0 2201,0

Page 247: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Residuales estandarizados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 7

• Los residuales corregidos ofrecen esto, estos valores pueden interpretarsecomo puntuaciones z con los márgenes habituales

- En este caso todos los valores son muy marcados, destacando enormementeel valor de supervivencia en la primera clase frente a sobre todo la tripulaciónque sufrió los peores efectos (el capitán es el último en abandonar el barcopero también los marineros al parecer)

Class_ * Survive_ Crosstabulation

Adjusted Residual

Survive_

Died Lived

Class_ 1st -12,6 12,6

2nd -3,5 3,5

3rd 4,9 -4,9

Cre 6,9 -6,9

Page 248: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Resumen Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 8

Resumen

• Lo descrito anteriormente es apropiado para situaciones con dos variables

• Cuando tenemos más de dos variables, la situación se hace bastante máscompleja rápidamente

Page 249: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Resumen Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 9

Actividades

1. Calcular las tablas de residuales ajustados para Género y Supervivencia en el archivo Titanic3.sav

Page 250: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Introducción > Resumen Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 10

2. Usando el comando Titanic3.sav y el comando Tablas personalizadas en el menu Tablas calcula una tabla para la Supervivencia en el Titanic en función de la Clase y el Género.

Una regla que suelo recomendar es poner las variables independientes en las filas y las dependientes en columnas y calcular porcentajes por filas. Esa presentación suele ser más fácil de entender (al menos para mí). La tabla que teneis que conseguir es la de abajo

Survive_

Died Lived

Row N % Row N %

Class_ 1st Gender_ Fema 2,8% 97,2%

Male 65,6% 34,4%

2nd Gender_ Fema 12,3% 87,7%

Male 86,0% 14,0%

3rd Gender_ Fema 54,1% 45,9%

Male 82,7% 17,3%

Cre Gender_ Fema 13,0% 87,0%

Male 77,7% 22,3%

Page 251: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales

Page 252: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 12

Modelos para dos y tres variables

• La prueba Chi cuadrado puede entenderse como un modelo loglineal para dosvariables.

- No obstante, cuando hay más de dos variables, esta prueba ya no es muy útil

• Los modelos loglineales se hacen mucho más complejos según el número devariables

- Dos variables es un modelo casi trivial (es material de primer curso)- Tres o más la complejidad aumenta bastante

Page 253: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 13

Modelos para dos variables

• Empezaremos con la situación anterior para introducir el problema.

- Para calcular las puntuaciones esperadas hicimos:

- Por ejemplo, para calcular el número esperado de mujeres que sobrevivieronGender_ * Survive_ Crosstabulation

Count

Survive_

TotalDied Lived

Gender_ Fema 126 344 470

Male 1364 367 1731

Total 1490 711 2201

mijmfilamcolumna

mt---------------------------------------=

mij470 7112201

------------------------ 151.8= =

Page 254: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 14

• El cálculo anterior no es más que la aplicación de una regla de probabilidadbásica (la probabilidad de un suceso compuesto es igual a la probabilidad de lossucesos individuales cuando hay independencia)

- Para valorar si hay independencia entonces tenemos que comparar elresultado esperado con el observado, si son iguales, entonces los sucesosindividuales son independientes, sino son dependientes.

- En nuestro caso sobrevivieron 344 mujeres así que el valor esperado se quedacorto

pij4702201------------ 711

2201------------ 0.0689 0.0689 2201; 151.8= = =

Page 255: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 15

• Lo anterior puede expresarse como logaritmos lo cual presenta muchasventajas de cálculo

- En nuestro caso,

- Que es lo mismo que hemos obtenido antes al calcular el antilogaritmo

mij log mfila mcolumna mTotal log–log+log=

5.02 6.15 6.56 7.69–+=

5.02 exp 151.8=

Page 256: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 16

• Hacer los cálculos en logaritmos simplifica mucho el analizar modelos máscomplejos, así una forma de ver el análisis loglineal es como un ANOVA con ellogaritmo de las frecuencias como variable dependiente:

- Lo anterior se suele expresar así

- Un modelo de no-independencia de las variables tendría que tener encuenta la interacción entre las variables

- Este último modelo se denomina saturado o completo porque laspuntuaciones esperadas coinciden exactamente con las observadas

- Este planteamiento ayuda a entender la idea de la prueba Chi cuadrado. Estaprueba compara el modelo completo con el modelo de independencia. Si nohay diferencia, entonces las variables son independientes.

mij log iA j

B+ +=

mij log iA j

B iA j

B+ + +=

Page 257: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 17

Modelos para tres variables

• Para dos variables (A y B), veíamos que sólo hay dos posibles modelos.

- En el que hay interacción entre las dos variables (completo o saturado)- En el que no hay interacción entre las dos variables (de independencia o

efectos principales)

• No obstante, con tres variables (A, B y C) hay más posibilidades:

- Ninguna interacción- Interacción entre A y B- Interacción entre A y C- Interacción entre B y C- Interacción entre A y B, B y C- Interacción entre A y B, A y C- etc.

Page 258: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 18

• En el ejemplo del Titanic algunos posibles modelos son:

- El Género influyó en la Supervivencia y la Clase Social también- El Género influyo en la Supervivencia pero la clase Social no- El Género y la Clase Social influyeron en la Supervivencia pero además hubo

interacción, así que ciertos géneros tuvieron ventaja si viajaban en ciertasclases pero no en todas

- No hubo relación entre Género, Supervivencia y Clase social- etc.

Page 259: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 19

Notación

• Para simplificar, se puede utilizar la siguiente notación

- [ABC] significa todas las interacciones posibles entre las tres variables. Setrata del modelo completo.

- [AB] Significa todas las interacciones posibles entre A y B- [AB][BC] Significa todas las interacciones posibles entre A y B, y entre B y C,

pero no las de A y C- [AB][BC][AC] Significa todas las interacciones posibles entre dos variables

pero excluyendo las que incluyen tres variables- [A][B][C] No hay interacciones, se trata del modelo de efectos principales- También es posible plantear modelos sin alguno de los efectos principales

[A][B] por ejemplo, pero no son habituales

Page 260: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 20

• Con tres variables, si comparamos el modelo completo [ABC] con el modelo deindependencia [A][B][C] y el resultado es de rechazo, hay tantas fuentes devariación que dejamos fuera que practicamente no significa nada. De hecho elmodelo [A][B][C] es casi imposible que ajuste y la mayoría de las veces hay queconsiderar interacciones

Page 261: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 21

Modelos para Titanic

• En el ejemplo del Titanic (G=Género, C=Clase, S=Supervivencia) [G][C][S] noajusta por lo que hay que considerar las interacciones. Por ejemplo,

- [GS][CS] significaría que tanto la clase como el género influyen en lasupervivencia, pero no hay interacción entre clase y género (no ajusta, enrealidad, en primera clase viajaban muchas mujeres)

- [GS][CS][GC] en este caso tenemos lo anterior y además la interacción entreclase y género.Significa que según la clase en la que se viajaba hombres y mujeres tuvierondiferentes niveles de supervivencia (no ajusta, las mujeres tuvieron ventaja enprimera y en segunda clase pero no en tercera)

- [GCS] incluye la interacción de tercer orden. Como veremos será el único modelo que ajusta en nuestro caso

Page 262: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para dos y tres variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 22

• En el caso del Titanic, el único modelo que ajusta es el saturado o completo.

- No obstante, en otros casos puede ajustar un modelo más simple, con menoselementos

- El objetivo de nuestro análisis es conseguir un modelo que sea lo más simpleposible pero que ajuste. Una vez obtenido es posible realizar diagnósticos yrealizar interpretaciones del resultado

Page 263: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos para cuatro variables Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 23

Modelos para cuatro variables

• El número de interacciones crece mucho

• Veremos algún ejemplo pero dado el tiempo disponible no los trabajaremos endetalle

Page 264: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Modelos loglineales > Modelos jerarquicos o anidados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 24

Modelos jerarquicos o anidados

• En un análisis loglineal, lo habitual es que los modelos sean jerarquicos oanidados.

- Eso significa que si se incluye en el modelo el término de interacción de unnivel superior, automáticamente se incluyen todos aquellos de nivel inferioren los que estén incluidas las variables

- Por ejemplo, si incluímos la interacción entre Género, Departamento yAdmisión, no podemos excluir la interacción entre Género y Admisión

• Esa limitación puede evitarse utilizando modelos no jerarquicos pero estosmodelos son mucho más complicados de interpretar y se suelen evitar (almenos en cursos introductorios)

- Al final del material hay unas notas sobre estos otros modelos

Page 265: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley

Page 266: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Pasos para un análisis loglineal Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 26

Pasos para un análisis loglineal

• Los pasos son muy parecidos a los que vimos para regresión

- Ajuste del modelo- Diagnóstico- Interpretación

• No obstante, esto habitualmente no es un proceso lineal sino que a menudoimplica una cierta cantidad de prueba y ensayo

Page 267: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 27

Ejemplo Berkeley

• En los años 70, en la universidad de Berkeley se preocuparon mucho alencontrarse con estos datos

- Género- Admisión (número de estudiantes admitidos o rechazados)- Departamento (que equivale a Facultad en España)

Berkeley Admissions Dataset

GenderMale Female

AdmissionYes No Yes No

Dep

artm

ent

A 512 313 89 19

B 353 207 17 8

C 120 205 202 391

D 138 279 131 244

E 53 138 94 299

F 22 351 24 317

Page 268: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 28

• Lo más preocupante es cuando se hace el análisis de Género y Admisión

- Casi un 70% de las mujeres son rechazadas, frente a un 55.5% los hombres- Esto parece evidencia de discriminación sexual lo cual supongo que causó

mucho revuelo

Gender * Admission Crosstabulation

% within Gender

Admission

TotalN Y

Gender F 69,6% 30,4% 100,0%

M 55,5% 44,5% 100,0%

Total 61,2% 38,8% 100,0%

Page 269: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 29

• No obstante, si tenemos en cuenta la Facultad (Department) varía bastante:

- Aquí podemos ver que los porcentajes de admisión para las mujeres sonsimilares o incluso mejores que los de los hombres en algunosdepartamentos.

- Claramente, hay algo que se nos escapa y que podemos explorar con análisisloglineal

Admission

N Y

Row N % Row N %

Gender F Department A 17,6% 82,4%

B 32,0% 68,0%

C 65,9% 34,1%

D 65,1% 34,9%

E 76,1% 23,9%

F 93,0% 7,0%

M Department A 37,9% 62,1%

B 37,0% 63,0%

C 63,1% 36,9%

D 66,9% 33,1%

E 72,3% 27,7%

F 94,1% 5,9%

Page 270: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 30

Planteamiento del modelo

• Como hemos visto antes, un primero paso es encontrar un modelo que ajuste

- Este modelo debería ser el más simple posible, que no incluyera términos quesean innecesarios

- Generalmente, se empieza con un modelo saturado y se van quitandoelementos hasta que el modelo deja de ajustar

• Dos medidas de ajuste son la Chi cuadrado y la Desvianza

- Ambas son muy parecidas, pero la Desvianza tiene algunas propiedades quela hacen más deseable así que es la que mencionaré más habitualmente.

- Recordar, valores bajos de desvianza indican ajuste y niveles de significaciónaltos también indican ajuste (la hipótesis nula es que el modelo ajusta por loque no queremos rechazarla)

Page 271: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 31

• De los módulos disponibles, el más apropiado es el de Selección de Modelo

- En este caso utilizaremos introducir en un solo paso- Este módulo tiene el inconveniente de que hay que introducir los valores de

categorías para las variables

Page 272: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 32

• El cuadro de diálogo de Modelo lo dejamos así

- Ajustaremos el modelo saturado (el cual simpre ajusta perfectamente)

Page 273: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 33

• El cuadro de diálogo de opciones lo dejamos así:

- Atención al círculo marcado en rojo. Hay un bug en SPSS y si dejamos “valorpor defecto” no funciona

Page 274: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 34

Output

- Información general (para revisar por si hay algo mal)

Data Information

N

Cases Valid 4526

Out of Rangea 0

Missing 0

Weighted Valid 4526

Categories Admission 2

Gender 2

Department 6

a. Cases rejected because of out of range

factor values.

Page 275: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 35

• Residuales y demás (en el caso del modelo saturado no tienen mucho interés)

- No obstante, en modelos no saturados incorporan información importante

Page 276: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 36

• Lo mismo con los resultados de bondad de ajuste

Goodness-of-Fit Tests

Chi-Square df Sig.

Likelihood Ratio ,000 0 .

Pearson ,000 0 .

Page 277: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 37

• El test para los distintos submodelos sí que es interesante

- En un análisis loglineal estamos interesados en simplificar el modelo lo másposible (pero que siga ajustando)

- Esta tabla nos da una primera aproximación a esta simplificaciónK hace referencia a términos con interacciones de K variables (por ejemplo,K=3 en este caso significa [GDA], mientras que K=2 significa [GD][GA][AD])La idea es mirar en esta tabla valores no significativos empezando desdearriba hacia abajo. Así, si ocurriera que para K=3 la significación es mayor que0.05 o el valor que fijemos, nuestro modelo podría excluir esa parte delmodeloEn nuestro caso, no podemos excluir ningún término

K-Way and Higher-Order Effects

K df

Likelihood Ratio Pearson Number of

IterationsChi-Square Sig. Chi-Square Sig.

K-way and Higher Order

Effectsa

1 23 2650,095 ,000 2392,628 ,000 0

2 16 2097,671 ,000 2000,328 ,000 2

3 5 20,205 ,001 18,815 ,002 6

K-way Effectsb 1 7 552,424 ,000 392,300 ,000 0

2 11 2077,466 ,000 1981,513 ,000 0

3 5 20,205 ,001 18,815 ,002 0

a. Tests that k-way and higher order effects are zero.

b. Tests that k-way effects are zero.

Page 278: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 38

• Pruebas de asociación parcial

- En esta tabla hay tests para cada interacción concretaLa forma de calcularla es ajustar dos modelos, uno con el término y otro sin ély ver si hay diferencia en Chi cuadrado. Cuanto más pequeña la diferenciamenos importante es el término y se podría eliminar

- Esto es necesario porque que aunque un grupo de interacciones seanecesario para que el modelo ajuste (en este caso por ejemplo K=2), puedeque algunas interacciones de ese nivel puedan eliminarse

Partial Associations

Effect df

Partial

Chi-Square Sig.

Number of

Iterations

Admission*Gender 1 1,530 ,216 2

Admission*Department 5 763,402 ,000 2

Gender*Department 5 1128,696 ,000 2

Admission 1 230,028 ,000 2

Gender 1 162,874 ,000 2

Department 5 159,522 ,000 2

Page 279: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Ejemplo Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 39

• Conclusiones sobre el ajuste para los datos de Berkeley

- Necesitamos un modelo con las interacciones de 3 orden [GDA]- La interacción entre Género y Admisión no está clara, pero como los modelos

son jerarquicos no hay manera de quitarla fácilmente

Page 280: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 40

Interpretación de los resultados

• Después de encontrar un modelo llega el momento de interpretar. Hay dosmaneras para hacer esto:

- Interpretar los residuales de un modelo que excluye un término en el queestamos interesados

- Interpretar los coeficientes del modelo que ajusta

Page 281: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 41

Examinando los residuales

• La estrategia de mirar los residuales pasa por eliminar un término del modeloque ajusta y ver lo que pasa. De esa manera, los residuales reflejan el efecto deese término

- Fijaros que en el modelo basta con incluir las interacciones de dos[AD][AG][GD], el programa automáticamente incluye las de nivel inferior

Page 282: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 42

• El modelo no ajusta pero eso es lo que pretendemos

Goodness-of-Fit Tests

Chi-Square df Sig.

Likelihood Ratio 20,205 5 ,001

Pearson 18,813 5 ,002

Page 283: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 43

• El desajuste viene de los residuales

- Los residuales indican que el departamento A aceptó 17 mujeres más que loesperado. El residual estandarizado para los rechazados mujeres en el grupoA es -2.874 (las mujeres fueron rechazadas menos de lo esperado)

Cell Counts and Residuals

Admission Gender Department Residuals Std. Residuals

N F A -17,324 -2,874

B -,654 -,222

C 10,784 ,553

D ,744 ,048

E 7,346 ,430

F -,968 -,054

M A 17,170 ,998

B ,529 ,037

C -10,615 -,723

D -,687 -,041

E -7,247 -,601

F ,983 ,053

Y F A 17,324 2,046

B ,654 ,162

C -10,784 -,739

D -,744 -,065

E -7,346 -,730

F ,968 ,202

M A -17,170 -,746

B -,529 -,028

C 10,615 1,015

D ,687 ,059

E 7,247 1,071

F -,983 -,205

Page 284: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 44

• El resto de los residuales parecen bastante cercanos a las puntuacionesesperadas (hay que fijarse en los valores estandarizados)

- Esto sugiere que la interacción entre las tres variables es sólo producto de undepartamento en el que la discriminación se produjo a favor de las mujeres,no en contra

Page 285: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 45

Interpretando los coeficientes

• En análisis loglineal, como en regresión, la interpretación se puede realizarexaminando los coeficientes del modelo. No obstante, en este caso hay unaserie de complejidades añadidas.

- El módulo de selección de modelos sólo calcula los coeficientes para elmodelo saturado (en nuestro caso eso no sería problema)

- La codificación que hace dificulta la interpretación (en loglineal resulta muyinteresante utilizar codificación en variables ficticias tal y como hicimos enregresión)

- Los coeficientes están en logaritmos

• Los antilogaritmos de los coeficientes son cocientes que pueden interpretarsecomo frecuencia de que algo ocurra respecto a que ocurra otra cosa

Page 286: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 46

• Para el módulo de selección de modelos SPSS sólo puede calcular loscoeficientes para el modelo saturado (estos coeficientes pueden calcularse conotros módulos)

- No obstante, la codificación que utiliza hace algo difícil interpretar bien losresultados así que es preferible utilizar el módulo de Loglineal General

Page 287: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 47

• La tabla de coeficientes es muy grande y tiene muchos huecos

- Esto se debe a que para hacer el cálculo es necesario codificar las variablescomo 1 y 0s pero para cada variable hay que eliminar una de las columnas

- Así, la variable Género, con dos categorías, se convierte en dos columnas. Laprimera columna tiene 1 para los hombres y 0 para las mujeres, y la segundatiene 0 para los hombres y 1 para las mujeres

- La variable Departamento se convierte en 6 columnas, la primera tiene 1para el departamento A y 0 para los demás; la segunda tiene 1 para eldepartamento B y 0 para los demás, etc.

- Una vez creadas esas columnas, se elimina la última de las columnas paraevitar redundancia (colinealidad). Eso se denomina la matriz de diseño y es loque permite hacer el cálculo del modelo

- Puesto que hay columnas eliminadas, hay coeficientes que no se calculan(aunque eso no significa que no podamos decir nada de ellos)

Page 288: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 48

• Centrándonos en los coeficientes de la interacción para K=3 tenemos losiguiente:

- Gender=1, Admisión=1, Departamento=1 significa Mujeres, Rechazadas enel departamento A (para ver esto hay que ir a la tabla de datos) tiene el únicocoeficiente significativo con un valor de -0.845

- Este coeficiente sugiere que las mujeres en el departamento A fueronrechazadas escasamente, pero nos quedamos sin saber en qué medida

Parameter Estimatesb,c

Parameter Estimate Std. Error Z Sig.

95% Confidence Interval

Lower Bound Upper Bound

Constant 3,114 ,211 14,769 ,000 2,700 3,527

[Admission = 1] * [Gender = 1] * [Department = 1] -,845 ,399 -2,121 ,034 -1,627 -,064

[Admission = 1] * [Gender = 1] * [Department = 2] -,002 ,523 -,005 ,996 -1,028 1,023

[Admission = 1] * [Gender = 1] * [Department = 3] ,312 ,335 ,934 ,350 -,343 ,968

[Admission = 1] * [Gender = 1] * [Department = 4] ,105 ,337 ,311 ,756 -,556 ,766

[Admission = 1] * [Gender = 1] * [Department = 5] ,389 ,362 1,075 ,282 -,320 1,099

Page 289: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 49

• Un primer paso para interpretar ese valor es calcular el antilogaritmo delcoeficiente

- El valor de 0.43 es lo que se denomina un odds ratio (razón de posibilidadesse puede traducir)

Page 290: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 50

• Unos ejemplos de odds ratio

- El odds ratio de ser rechazado es de 2771/1755=1.56 (hay 1.56 veces másrechazados que aceptados)

- El odds ratio ser rechazado para las mujeres versus los hombres es:Para las mujeres 1278/557=2.29Para los hombres 1493/1198=1.24

- Mujeres versus hombres 2.29/1.24=1.83 (aparentemente hay discriminación)Gender * Admission Crosstabulation

Count

Admission

TotalN Y

Gender F 1278 557 1835

M 1493 1198 2691

Total 2771 1755 4526

Page 291: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 51

• Odds ratio para mujeres rechazadas versus hombres rechazados para eldepartamento A versus el departamento F

Admission

N Y

Count Count

Department A Gender F 19 89

M 313 512

B Gender F 8 17

M 207 353

C Gender F 391 202

M 205 120

D Gender F 244 131

M 279 138

E Gender F 299 94

M 138 53

F Gender F 317 24

M 351 22

Page 292: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 52

• Para hacer este cálculo manualmente podemos hacer

1. Discriminación en el departamento A: Mujeres 19/89=0.21; Hombres 313/512=0.61. Total 0.35 (la posibilidad de ser rechazada en el departamento A es de 0.35 respecto a los hombres: la discriminación es positiva hacia las mujeres)

2. Para el departamento F: Mujeres 317/24=13.2; Hombres 351/22=16. Total 13.2/16=0.82 (la discriminación es también positiva hacia las mujeres pero no tan exagerada)

3. Finalmente, 0. 35/0.82=0.43 (el valor del coeficiente calculado para el análisis loglineal)

4. Este valor puede interpretarse como la discriminación hacia las mujeres en el departamento A frente al departamento FUn valor de 1 hubiera significado igual discriminación. Mayor que 1, mejorescondiciones en F que en A para las mujeres.El valor de 0.43 significa que en el departamento A la discriminación hacia lasmujeres es la mitad que en el F. Es decir, en el A se prefiere a las mujeres másdel doble que en el F.

Page 293: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Interpretación de los resultados Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 53

• Resumen coeficientes y odds ratio

- Los coeficientes son los odds ratios de las puntuaciones esperadas para lascategorías comparadas con las categorías de referencia

- En SPSS, la categoría de referencia es la última de cada variable- En nuestro caso, para K=3, sólo una de los coeficientes es significativo, el del

departamento AEso significa que el únido coeficiente que es diferente del de F es el de A. Losdemás tienen coeficientes similaresEl valor en la escala logarítmica es negativo (-0.86) lo que significaría de unamanera aproximada que se rechaza a las mujeres menos en el A que en el F

Page 294: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Conclusiones para Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 54

Conclusiones para Berkeley

• Se constata que hay un efecto del género y el departamento sobre la admisiónpero para un departamento concreto

- En ese departamento, la admisión favorece a las mujeres

• En los otros departamentos no se aprecia discriminación

Page 295: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Conclusiones para Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 55

Actividades

1. En el ejemplo de 1991 US General Survey Sexo Feliz tenemos dos variables. Este es un ejemplo sencillo, en el que se puede probar el efecto en esa muestra del género sobre la felicidad.

Una estrategia sencilla es valorar los residuales para ver en qué casillas se producen las diferencias si las hay. Un elemento interesante es calcular los odds ratios para el modelo saturado y ver en qué consiste la diferencia. Para ello se puede ajustar el modelo saturado en Loglineal General. Los dos parámetros más interesantes son sexo=1, feliz=1 y feliz=2. El primero es .507 que su antilogaritmo es 1.66 (los hombres dicen que son más felices que no felices 1.66 veces más que las mujeres). Ese mismo valor puede calcularse directamente utilizando las frecuencias observadas (206.5, 53.5, 261.5, 112.5)

Page 296: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Admisión en Berkeley > Conclusiones para Berkeley Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 56

2. Felicidad en función del Género y la raza. Examina el efecto del género y la raza sobre la felicidad indicando qué modelo ajusta y qué términos son más importantes.

En este caso la interacción entre sexo y raza no conviene quitarla ya que por definición esperamos que sea cero y si no lo es es por un error en el muestreo así que conviene incluirla para fijar sus residuales a cero.

Page 297: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos

Page 298: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Introducción Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 58

Introducción

• El proceso de ajustar modelos en análisis loglineal es de mucha importancia

- Hemos visto, que cuando los modelos tienen muchos términos, suinterpretación va haciéndose cada vez más compleja

- Conseguir modelos que no sean complejos nos va a permitir hacerinterpretaciones más simples

- También, mediante este procedimiento podemos probar hipótesisespecíficas sobre términos

- Existen procedimientos automáticos, pero es interesante realizar parte deese trabajo manualmente

- Hay interacciones que no es conveniente quitar puesto que nos sirven paracontrolar variables confundentes

Page 299: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Ejemplo: Fumar y dolor de cabeza Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 59

Ejemplo: Fumar y dolor de cabeza

• Tenemos una muestra de sujetos con información sobre fumar, dolor de cabezay el género

- Mirando la tabla vemos que parece que fumar parece tener efecto sobre eldolor de cabeza, y también las mujeres parecen tener más dolores de cabezaque los hombres

Headache

LESSTHWEEK MORETHWEEK

Row N % Row N %

Smoke NOT Gender MEN 93,9% 6,1%

WOMEN 82,0% 18,0%

YES Gender MEN 92,9% 7,1%

WOMEN 72,6% 27,4%

Page 300: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Métodos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 60

Métodos

• Probaremos dos métodos

- El automático con selección hacia atrás- El manual para comprobar hipótesis específicas

Page 301: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Métodos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 61

Procedimiento automático

• En el modelo de selección de modelos hay un procedimiento de eliminaciónhacia atrás. En opciones elegir estimaciones y tabla de asociación.

Page 302: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Métodos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 62

• El output interesante empieza en esta tabla

- En esta tabla vemos que la aportación de las interacciones de 3 variables noson suficientes y las podemos desestimar. Nuestro modelo ajusta sólo coninteracciones entre dos variables.

- No obstante, hay varias posibles modelos con interacciones entre dosvariables. Para evaluar el adecuado se puede utilizar el output acontinuación.

K-Way and Higher-Order Effects

K df

Likelihood Ratio Pearson Number of

IterationsChi-Square Sig. Chi-Square Sig.

K-way and Higher Order

Effectsa

1 7 659,371 ,000 612,739 ,000 0

2 4 60,808 ,000 61,448 ,000 2

3 1 ,825 ,364 ,837 ,360 7

K-way Effectsb 1 3 598,563 ,000 551,291 ,000 0

2 3 59,982 ,000 60,611 ,000 0

3 1 ,825 ,364 ,837 ,360 0

a. Tests that k-way and higher order effects are zero.

b. Tests that k-way effects are zero.

Page 303: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Métodos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 63

• Tabla de eliminación hacia atrás

- Esta tabla es el resumen de una serie de modelos en los que los distintostérminos van eliminandose uno por uno por pasos.

- En el primer paso se elimina el término Smoke*Gender*Headache, en elsegundo Smoke*Headache y luego Smoke*Gender

- El modelo final es [GH][S]

Step Summary

Stepa Effects

Chi-Square

df Sig. Number of Iterations

0 Generating Classb Smoke*Gender*Headache ,000 0 .

Deleted Effect 1 Smoke*Gender*Headache ,825 1 ,364 7

1 Generating Classb Smoke*Gender, Smoke*Headache, Gender*Headache ,825 1 ,364

Deleted Effect 1 Smoke*Gender 3,226 1 ,072 2

2 Smoke*Headache 4,807 1 ,028 2

3 Gender*Headache 54,910 1 ,000 2

2 Generating Classb Smoke*Headache, Gender*Headache 4,051 2 ,132

Deleted Effect 1 Smoke*Headache 3,327 1 ,068 2

2 Gender*Headache 53,430 1 ,000 2

3 Generating Classb Gender*Headache, Smoke 7,378 3 ,061

Deleted Effect 1 Gender*Headache 53,430 1 ,000 2

2 Smoke 6,062 1 ,014 2

4 Generating Classb Gender*Headache, Smoke 7,378 3 ,061

a. At each step, the effect with the largest significance level for the Likelihood Ratio Change is deleted, provided the significance level is larger than

,050.

b. Statistics are displayed for the best model at each step after step 0.

c. For 'Deleted Effect', this is the change in the Chi-Square after the effect is deleted from the model.

Page 304: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Métodos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 64

• Si nos quedamos con ese modelo, no hay relación entre Fumar y Dolor decabeza, ni tampoco entre Fumar y Género.

• Sí que habría relación entre Género y Dolor de Cabeza.

Page 305: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Métodos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 65

Procedimiento manual

• El procedimiento anterior nos ha dado como resultado un modelo que excluyedos interacciones de segundo orden

- No obstante, la interacción de interés central es la de Fumar con Dolor decabeza.

- Una vez hemos encontrado un modelo que ajusta podríamos quedarnos conél y no hacer la prueba del término que nos falta, pero eso no sería buenaidea

- Por otro lado, aunque podemos quitar la interacción entre Fumar y Género,puesto que no es de interés directo probar si es distinta o no de cero, es mejorincluirla para de ese modo eliminar la duda de si tiene algún efecto

Page 306: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Métodos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 66

• Este modelo lo podemos encontrar en la tabla que vimos anteriormente

• El término en negrita es un test de la diferencia del modelo [SG][SH][GH]frente a [SG][GH] lo cual nos da [SH], es decir el término que nos interesa

- Esa diferencia es significatica (Sig .028) lo cual puede interpretarse como queefectivamente existe un efecto de Fumar sobre el dolor de cabeza

- Ese término pasa a ser no significativo al quitar posteriormente [GH]

Step Summary

Stepa Effects Chi-Squarec df Sig. Number of Iterations

0 Generating Classb Smoke*Gender*Headache ,000 0 .

Deleted Effect 1 Smoke*Gender*Headache ,825 1 ,364 7

1 Generating Classb Smoke*Gender, Smoke*Headache, Gender*Headache ,825 1 ,364

Deleted Effect 1 Smoke*Gender 3,226 1 ,072 2

2 Smoke*Headache 4,807 1 ,028 2

3 Gender*Headache 54,910 1 ,000 2

2 Generating Classb Smoke*Headache, Gender*Headache 4,051 2 ,132

Deleted Effect 1 Smoke*Headache 3,327 1 ,068 2

2 Gender*Headache 53,430 1 ,000 2

3 Generating Classb Gender*Headache, Smoke 7,378 3 ,061

Deleted Effect 1 Gender*Headache 53,430 1 ,000 2

2 Smoke 6,062 1 ,014 2

4 Generating Classb Gender*Headache, Smoke 7,378 3 ,061

a. At each step, the effect with the largest significance level for the Likelihood Ratio Change is deleted, provided the significance

level is larger than ,050.

b. Statistics are displayed for the best model at each step after step 0.

c. For 'Deleted Effect', this is the change in the Chi-Square after the effect is deleted from the model.

Page 307: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Métodos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 67

• Esta técnica, comparar un modelo más completo con uno que difieresolamente en los términos concretos que queremos probar es muy útil

- Hemos visto que esas comparaciones están hechas automáticamente en latabla de Step Summary en muchas ocasiones (aunque no siempre)

• Si queremos hacer una comparación más compleja entre dos modelos y esta noestá automáticamente en la tabla de Step summary podemos calcularlomanualmente

- Calculando el Likelihood Ratio para los dos models si un modelo estáanidado dentro del otro (todos los términos del modelo inferior estántambien en el modelo superior)

- Restando la diferencia en el Likelihood Ratio y la diferencia en grados delibertad. Puede examinarse la significación con una calculadora de Chicuadrado (hay muchas en internet http://stattrek.com/Tables/ChiSquare.aspx) o usar mi programa

Page 308: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Resumen sobre ajuste de modelos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 68

Resumen sobre ajuste de modelos

• Una parte muy importante de un análisis loglineal es realizar comparacionesentre modelos para ver el efecto de términos específicos

- Hemos visto que de esa manera hemos podido identificar el efecto(pequeño) de fumar sobre el dolor de cabeza

• Es importante recordar que en el análisis loglineal buscar un modelo que ajusteno es siempre necesario ya que nuestro interés puede estar en un elementoconcreto

Page 309: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Resumen sobre ajuste de modelos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 69

Actividades

1. Fumar, Dolor de cabeza, Género y Edad. Se encuentra en Smoke4var.sav. En este caso, añadimos una variable al problema

La interacción más interesante es la de fumar con dolores de cabeza, sin embargo, si hay interacciones a nivel superior quizás tengamos que considerarlas. En este caso el modelo a comprobar sería [AGH][SAG][SH] con el modelo sin [SH]. Es posible tam-bién obtener un modelo muy simplificado que ajusta con interacciones a nivel 2.

Page 310: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Resumen sobre ajuste de modelos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 70

2. Arthritis3way.sav tiene el efecto de un experimento para mejorar la Artritis. Los resul-tados están en función del Género. Es interesante también ver si el género también tiene efecto sobre la respuesta (independientemente del tratamiento)

Calcula también los coeficientes para ver si los tratamientos producen el efecto deseado.

Page 311: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Resumen sobre ajuste de modelos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 71

3. En el archivo Pain.sav hay tres variables sobre un tratamiento para el dolor. La variable a explicar es Adverso (si o no) y es interesante ver el diagnostico que ha recibido y el tratamiento (4 categorías)

Page 312: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Resumen sobre ajuste de modelos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 72

4. En el archivo dossintomas.sav hay información sobre el grupo de edad de unos mine-ros y dos síntomas de enfermedades respiratorias (ahogos y pitidos en los pulmones). Ten en cuenta que los datos están agrupados así que hay que ponderar por la variable Freq (comando Datos>Ponderar Casos)

Este es un ejemplo con dos variables dependientes. Aquí es interesante ver si según el grupo de edad los síntomas van a peor. También, si hay interacción entre los síntomas (cuanto más de un síntoma más de otro). No obstante, debido hay dos grupos de edad que tienen una interacción de tercer orden que complica todo ya que no es muy lóg-ica (en mi opinión)

Page 313: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Resumen sobre ajuste de modelos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 73

5. JointIndependence.sav es un ejemplo de libro. Muy fácil de conseguir un modelo que ajuste

Sólo hay una interacción de segundo orden. Joint Independence es el nombre para uno de los modelos de interacción.

Page 314: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Resumen sobre ajuste de modelos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 74

6. Melanoma.sav es un archivo sobre tipos de melanoma y lugares en los que ocurre más habitualmente. Lo interesante es detectar en qué sitios se da más cierto tipo.

Un ejercicio con dos variables. No necesitaríamos loglineal para esto pero también se puede resolver de esa manera

Page 315: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Ajuste de modelos > Resumen sobre ajuste de modelos Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 75

7. Norespuesta.sav se trata de un ejemplo en el que se analiza si la gente no quiso con-testar a unas preguntas de encuesta en la calle. Hay tres regiones (copenhage, ciuda-des pequñas y en el campo). Es interesante ver qué produjo más no respuesta.

Generalmente, se piensa que en las ciudades grandes la gente responde menos. ¿Se cumple esto? En este ejemplo es uno de los pocos casos en que se puede eliminar uno de los efectos principales (género), ya que al ser datos de encuesta en realidad hay el mismo número de hombres que de mujeres. Al hacerlo se gana en grados de libertad lo que hace que el modelo [Region Respuesta] ajuste. En este caso, el método auto-mático no es capaz de encontrar este modelo

Page 316: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Casos especiales

Page 317: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Casos especiales > Modelos logit Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 77

Modelos logit

• Los modelos logit pueden interpretarse como un caso especial de los modelosloglineales cuando establecemos una variable dependiente

• Esto simplifica mucho la interpretación y análisis de los resultados y cuando setiene más de 3 variables sobre todo resulta muy recomendable

• En un análisis logit, todas las interacciones que incluyen sólo variablesindependientes se introducen automáticamente en el modelo. Las únicasinteracciones disponibles para ser evaluadas son las que incluyen a la variabledependiente (para así ver si explican la variable dependiente)

Page 318: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Casos especiales > Casillas vacias Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 78

Casillas vacias

• Cuando hay celdas con valores iguales a cero se producen problemas decálculo que puede hacer que:

- El número de grados de libertad de las pruebas de bondad de ajuste seanincorrectos

- Algunos parámetros no se pueden calcular, o dan resultados sin sentido (estosobre todo pasa en el módulo General del análisis loglineal)

- En SPSS se puede especificar que alguna de las casillas es cero (p.e. niños enla tripulación) pero eso no corrige el problema de los grados de libertad

• Aunque hay algunas propuestas sobre corrección de los grados de libertad (p.e.Clogg and Elliason, 1987) no hay una respuesta muy clara y además lospaquetes estadísticos no las suelen contemplar.

• Lo mejor es simplemente colapsar categorías o eliminar categorías de nuestrosanálisis (si podemos)

Page 319: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Casos especiales > Covariantes a nivel de celda Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 79

Covariantes a nivel de celda

• SPSS admite variables numéricas que actuan como variables covariantes a nivelde casilla/celda

• Esto permite ajustar modelos que prueban hipótesis que introducen variablesnuméricas o consideran las variables categóricas como si fueran numéricas

- Por ejemplo, uno puede utilizar una variable categórizada como niveles desalario como numérica utilizandos los valores medios de las categorías

• Aunque este tipo de análisis es posible en SPSS, normalmente los libros sobreanálisis loglineal no tratan esta posibilidad

- Este tipo de problemas pueden tratarse con otro tipo de técnicas

Page 320: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Casos especiales > Modelos ordinales Loglineal

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València 80

Modelos ordinales

• Eligiendo los valores para la variable que hace de covariante adecuadamente sepueden introducir restricciones que llevan a modelos ordinales

- Por ejemplo, en Titanic podríamos ver si la clase social tiene un efecto de estetipo

• Este tipo de modelos sí que se suelen ver en conexión con análisis loglineal y noestán aquí por que me parecía excesivo para el tiempo dedicado

Page 321: Pedro Valero Mora-valerop@uv.es Metodología de las CC del ... · Paso 1: Estandarizar las variables 8 Paso 2: Calcular las distancias 9 Paso 3: Decidir el método de agrupación

Pedro Valero [email protected] Metodología de las CC del Comp-Universitat de València

Modelos especiales

• Hay una serie de modelos especiales que eliminan por ejemplo la diagonal de unatabla de tabulaciones cruzadas, o que comparan la parte de arriba con la parte deabajo de una matriz de frecuencias

- Estos modelos no los he incluido en este tema pero el SPSS los calcula tambiénutilizando pesos para las celdas

- Por razones de tiempo y espacio no he incluido los modelos