1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios....

21
1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada. Filas: n modalidades de la variable A. Columnas: p modalidades de la variable B. Intersección k ij: frecuencia conjunta entre las modalidades i y j. Método: Simétrico con relación a líneas y columnas. Deberá permitir comparar las distribuciones de frecuencias. 3. Análisis de Correspondencias Simples

Transcript of 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios....

Page 1: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

1

Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios.

Matriz de datos de orden (n*p):Tabla de doble entrada.

Filas: n modalidades de la variable A. Columnas: p modalidades de la variable B. Intersección kij: frecuencia conjunta entre las modalidades i y j.

Método:

Simétrico con relación a líneas y columnas. Deberá permitir comparar las distribuciones de frecuencias.

3. Análisis de Correspondencias Simples

Page 2: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

2

Estudio sobre la posible asociación entre la zona o lugar de residencia de los turistas en Tenerife y su edad agrupada en intervalos

Datos: base turistas curso.sav. Información sobre 796 turistas a los que se ha realizado la encuesta. Se han elegido la edad en intervalos y lugar de residencia de los turistas en Tenerife.

Se elaboró una tabla de contingencia. Como algunos pares de modalidades se repetían un número muy pequeño de veces, se agruparon:

Los ocho intervalos de edad de la base de datos se redujeron a seis:* < de 24 anos * 24 a 30 años* 31 a 40 años * 41 a 50 años* 51 a 60 años * > 60 años

El lugar de residencia se reduce a tres modalidades:* Puerto de la Cruz* Las Américas-Los Cristianos * Resto

Caso:Lugar de residencia de turistas y su edad

Page 3: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

3

Objetivo:

Conocer el lugar de residencia de los turistas que se asocia con un intervalo de edad en mayor proporción que los demás.Detectar las características que más destacan en cada intervalo de edad y en cada lugar de residencia de los turistas.Reducir nº de caracteres relacionados a dimensiones independientes.

Método:Obtener ejes factoriales que reducen la información original mediante nuevas variables estudiando la asociación entre modalidades fila y columna. Se parte de frecuencias relativas para comparar.

En el espacio de las columnas: nube de n puntos i con coordenadas kij/ki. para j = 1, 2, .....pEn el espacio de las filas: nube de p puntos j con coordenadas kij/k.j para i = 1, 2, ......n

Metodología:Análisis de correspondencias simple

Page 4: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

4

Transformaciones en la matriz de datos

F Perfil de líneas en Rp Perfil de líneas en Rn

1.............j..............p 1 . i Kij . n

fij

fij/fi

fij/fj

Iguales en ambos subespacios, llevando a transformaciones analíticas diferentes.

p y n puntos de las nubes, situados en subespacios de p-1 y n-1 dimensiones.

Centro de gravedad: media de perfiles de frecuencias afectados por sus masas

.j

n

1i i.

iji. f

f

ff

Page 5: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

5

Tabla de contingencia

Intervalo de edad: Los turistas de < 24 años se alojaron mayoritariamente en Las Américas-Los Cristianos. El menor número de turistas tienen una edad > 60 años y que se alojaron en el Resto de Lugares. La edad más frecuente es [30-40).

Lugar de Residencia: Las Américas-los Cristianos alojan los 95 turistas de menos de 24 años, que representan la mayor frecuencia conjunta de la muestra. Los 11 turistas alojados en el Resto de Lugares tienen una edad >60 años los que representan el grupo de menor frecuencia conjunta. En cuanto a la frecuencia marginal, Las Américas-Los Cristianos es la zona más frecuente de residencia.

Tabla de correspondencias

33 95 16 144

41 85 26 152

50 82 51 183

35 71 45 151

25 46 27 98

26 32 11 69

210 411 176 797

Intervalos de Edad< de 24 años

[24 - 30)

[30 - 40)

[40 - 50)

[50 - 60)

> de 60 años

Margen activo

Pto. de laCruz

Américas-Cristianos

RestoLugares Margen activo

Lugar de Residencia

Page 6: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

6

SPSS: Introducir los datos

Poner en las dos primeras columnas los pares de rangos posibles para las columnas (Lugar de residencia: 1 a 3) y las filas (Intervalos de edad: 1 a 6) y, en la tercera, la frecuencia de cada par de rangos. Se puede poner etiquetas al valor de cada rango.

Utilizar como variable de ponderación las frecuencias mediante los comandos del menú: Datos, Ponderar casos

Page 7: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

7

Distancia Chi-cuadrado

Propiedades:

Equivalencia distribucional

Permite agregar dos modalidades de idénticas frecuencias de una variable, en una nueva modalidad afectada por la suma de sus masas, sin cambiar nada, ni en las distancias entre modalidades de esta variable o de la otra.

Relaciones de transición

Ligan gráficamente las dos variables representadas en líneas y columnas.

2

j

ij

i

i j

i

2 2

i

ij

j

ij

j

2d (i,i ) = (1f

)(f

f -

f

f) d (j, j ) = (

1f

)(f

f -

f

f)

Page 8: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

8

Obtención de los ejes factoriales

i

O)(i,2di.fMaxu

Dos transformaciones: en el perfil de líneas y de las columnas.Se toma como columnas la dimensión más pequeña.Maximizar la suma ponderada de los cuadrados de las proyecciones sobre el eje:

Matriz a diagonalizar

Descartado el valor propio trivial igual a 1 y su vector propio asociado, retenemos los p-1 valores propios no nulos y sus vectores propios asociados. Obtendremos como máximo p-1 ejes factoriales.

n

1i .j´i

ij´ijjj ff

ffs

Analizar Reducción de datos Análisis de correspondencias

Page 9: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

9

Normalización

Canónica: Para examinar conjuntamente las diferencias o similitudes entre dos variables.

Principal: Examinar las diferencias o similitudes entre categorías de variables, pero por separado.

Principal por filas: Averiguar cómo difieren entre sí las distintas categorías de la variable fila.

Principal por columnas: Averiguar cómo difieren entre sí las distintas categorías de la variable columna.

Las soluciones son equivalentes en términos de ajuste (valores singulares), inercia y contribuciones, pero las puntuaciones por filas y columnas son diferentes.

Page 10: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

10

Estadísticos

Dependiendo de la opción elegida en la normalización se podrá demandar el gráfico conjunto o no.

Si se ha elegido la normalización canónica: Gráfico conjunto.

Si se ha elegido la principal: Gráficos por separado de filas y columnas.

Page 11: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

11

Análisis

Valores propios. Inercia total

Coordenadas: Proyecciones de los puntos filas en los ejes factoriales

Contribuciones a la inercia de puntos a varianza explicada en cada eje

Correlaciones: Contribución de dimensiones a la inercia de cada punto

1p

1ααλI

Iciaindependen de ContrasteIkχ2

2

α

2αii.

α λ

ψf(i)Cr

G)(i,d

ψ

G)(i,d

G)(i,d(i)Cos 2

2αi

2

2α2

α

Page 12: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

12

Interpretación de representación simultánea

Filas (columnas) con estructura similar, situación próxima en el plano.

Cercanía punto fila i y columna j: interpretar si están alejados del origen.

Línea con perfil próximo al medio, se encontrará próxima al origen.

Buscar los puntos de mayor Contribución absoluta de las inercias. Se separa los que se proyectan del lado positivo de los del lado negativo.

Estudiar la calidad de representación (correlación) de los puntos. Correlación pequeña: tiene un papel importante sobre otro eje.

Se buscan aquellos puntos i(j) que si bien no contribuyen a la formación del factor, sí se encuentran bien representados (correlación alta).

Page 13: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

13

Resultados AC 1Perfil fila

Proporción de modalidades de la variable fila en cada modalidad de la variable columna. Proporción de edades en cada zona. El 66% de los turistas de < 24 años se alojaron en Las Américas-Los Cristianos, mayoritaria en cada estrato de edad, con un 51,6% de turistas de la muestra alojados en ella.

Perfiles de fila

,229 ,660 ,111 1,000

,270 ,559 ,171 1,000

,273 ,448 ,279 1,000

,232 ,470 ,298 1,000

,255 ,469 ,276 1,000

,377 ,464 ,159 1,000

,263 ,516 ,221

Intervalos de Edad< de 24 años

[24 - 30)

[30 - 40)

[40 - 50)

[50 - 60)

> de 60 años

Masa

Pto. de laCruz

Américas-Cristianos

RestoLugares Margen activo

Lugar de Residencia

Page 14: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

14

Resultados AC 2 Perfil columnaDe 30 a 40 años es la edad más frecuente (23%), repitiéndose esta

situación entre los turistas alojados en el Puerto de la Cruz (23.8%) y los alojados en el Resto de Lugares (29%). Sin embargo, entre los turistas alojados en Las Américas-Los Cristianos, el intervalo de edad modal es los jóvenes de menos de 24 años (23.1%).

Perfiles de columna

,157 ,231 ,091 ,181

,195 ,207 ,148 ,191

,238 ,200 ,290 ,230

,167 ,173 ,256 ,189

,119 ,112 ,153 ,123

,124 ,078 ,063 ,087

1,000 1,000 1,000

Intervalos de Edad< de 24 años

[24 - 30)

[30 - 40)

[40 - 50)

[50 - 60)

> de 60 años

Margen activo

Pto. de laCruz

Américas-Cristianos

RestoLugares Masa

Lugar de Residencia

Page 15: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

15

Resultados AC 3

Valor propio o singular: medida de asociación para cada una de las dimensiones entre las variables fila y columna, donde valores altos indican la existencia de una fuerte relación

Inercia: Cuadrado del valor propio. Varianza explicada Inercia global

Chi cuadrado: Prueba de independencia.

2 = 796*0,041 = 32,953. Se rechaza la hipótesis de independencia entre las modalidades.

1p

1ααλI

k

χIIkχ

22

Resumen

,183 ,033 ,807 ,807 ,032 ,050

,089 ,008 ,193 1,000 ,038

,041 32,953 ,000a 1,000 1,000

Dimensión1

2

Total

Valor propio Inercia Chi-cuadrado Sig. Explicada Acumulada

Proporción de inercia

Desviacióntípica 2

Correlación

Confianza para el Valorpropio

10 grados de libertada.

Page 16: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

16

ANÁLISISAnalisis en Rp: Examen de los puntos fila

COORDENADAS :Puntos filaProyecciones de los puntos filas en los ejes factoriales. Mientras más alejados del origen sean los valores, mejor representadas estarán las filas en cada uno de los ejes.

CONTRIBUCIÓN A LA INERCIA O ABSOLUTAS:Las de cada uno de los puntos filas a la inercia explicada en cada eje. Se busca conocer los elementos responsables de la construcción de cada eje.

CORRELACIÓN O CONTRIBUCIÓN RELATIVA:La contribución de las dimensiones a la inercia de cada punto fila es la correlación existente entre cada uno de los caracteres y los nuevos ejes. Coseno del ángulo entre el eje y el vector uniendo el centro de gravedad de la nube al punto i.

Analisis en Rp: Examen de los puntos columna. Igual

α

2αii.

α λ

ψf(i)Cr

G)(i,d

ψ

G)(i,d

G)(i,d(i)Cos

2

2αi

2

2α2

α

Page 17: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

17

Resultados AC 3

Analisis en Rp: Examen de los puntos fila

Examen de los puntos de filaa

,181 ,718 -,239 ,018 ,510 ,115 ,949 ,051 1,000

,191 ,284 ,056 ,003 ,084 ,007 ,981 ,019 1,000

,230 -,363 ,063 ,006 ,165 ,010 ,985 ,015 1,000

,189 -,399 -,253 ,007 ,165 ,136 ,836 ,164 1,000

,123 -,309 -,073 ,002 ,064 ,007 ,973 ,027 1,000

,087 ,150 ,865 ,006 ,011 ,725 ,058 ,942 1,000

1,000 ,041 1,000 1,000

Intervalos de Edad< de 24 años

[24 - 30)

[30 - 40)

[40 - 50)

[50 - 60)

> de 60 años

Total activo

Masa 1 2

Puntuación en ladimensión

Inercia 1 2

De los puntos a lainercia de ladimensión

1 2 Total

De la dimensión a la inercia delpunto

Contribución

Normalización Simétricaa.

Page 18: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

18

Resultados AC 4

Analisis en Rn: Examen de los puntos columna

Examen de los puntos columnaa

,263 -,015 ,500 ,006 ,000 ,736 ,002 ,998 1,000

,516 ,331 -,174 ,012 ,310 ,175 ,881 ,119 1,000

,221 -,755 -,190 ,024 ,690 ,089 ,970 ,030 1,000

1,000 ,041 1,000 1,000

Lugar de ResidenciaPto. de la Cruz

Américas-Cristianos

Resto Lugares

Total activo

Masa 1 2

Puntuación en ladimensión

Inercia 1 2

De los puntos a lainercia de ladimensión

1 2 Total

De la dimensión a la inercia delpunto

Contribución

Normalización Simétricaa.

Page 19: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

19

GRÁFICO

Page 20: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

20

Interpretación de resultados

INTERPRETACIÓN:

• Eje 1 

Puntuación: Lado positivo: < 24 años, 24-30 años, > 60 años. Américas-Cristianos. Lado negativo: 31 a 40 años, 41 a 50 y 51 a 60. Resto de Lugares y Puerto de la Cruz muy ligeramente.Contribución a la inercia: < 24 años, 31-40 y 41-50 años. Américas-Cristianos y Resto de Lugares.Correlaciones: Todas las edades. Américas-Cristianos y Resto de Lugares.

• Eje 2

Puntuación: Lado positivo: > de 60 años, 25 a 30 y 31 a 40 años. Puerto de la Cruz. Lado negativo: < 24 años, 41-50 y 51-60 años. Américas-Cristianos y Resto de Lugares.Contribución de puntos a la inercia de la dimensión: 41-50 años y < 24 años. Puerto de la Cruz.Contribución de la dimensión a la inercia del punto: 41-50 años. Puerto de la Cruz.

Page 21: 1 Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada.

21

CONCLUSIONES

Existe asociación entre las dos variables, por lo que será posible el hacer corresponder las modalidades de una con las de la otra.

Los turistas con una edad mayor de los 60 años se alojan preferentemente en la zona del Puerto de la Cruz, mientras que los menores de 30 años lo hacen en Las Américas-Los Cristianos.

Los turistas con una edad entre los 30 y 50 años tienen una tendencia a alojarse en el grupo de zonas etiquetadas con el nombre de Resto de Lugares.