ANÁLISIS BIVARIANTE (Parte II) - Ruben Jose...

31
Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada 1/33 CAPÍTULO 7 1 ANÁLISIS BIVARIANTE (Parte II) Por Vidal Díaz de Rada 2 Terminábamos el capítulo anterior aceptando la hipótesis planteada al afirman que de las personas que dicen comprar cuando necesitan el producto menos de la mitad utilizan realmente todo lo comprado. En el capítulo 5 se analizó el número de personas que experimentan placer en el acto de compra, consideran- do el propio acto de compra como generador de satisfacción. En este capítulo seguimos profundizando en los rasgos del nuevo consumidor centrándonos específicamente en sus rasgos sociodemográficos. La refe- rencia a los "innovadores", adoptando la terminología de Rogers y Shoemaker (1971), nos lleva a proponer la hipótesis III: "la elevada presencia de estos comportamientos (ver hipótesis 1 y 2) en los hogares con alta posición social, mayor nivel de equipamiento, así como en los colectivos de mayor nivel educativo y de me- nor edad, nos lleva a sugerir la emergencia de un nuevo tipo de consumidor que disfruta con el acto de compra”. Dividiremos esta hipótesis en dos partes a fin de poder analizarla de modo más preciso. En un pri- mer momento se analizarán los rasgos sociodemográficos de los consumidores que disfrutan y no disfru- tan en el acto de compra, mientras que la segunda parte del capítulo estará dedicada al gusto de probarse modelos cuando se va a comprar ropa y calzado, aspecto que podría considerarse como un indicador del placer experimentado por un determinado tipo de compras. El capítulo finaliza con un anexo en el que se expone la comprobación de los índices elaborados en el capítulo cinco: Posición Social y Nivel de Equipa- mientos. La técnica de análisis de datos utilizada será, al igual que en el capítulo anterior, las Tablas de Contingencia (Crosstab), aunque esta vez nos centraremos fundamentalmente en la significación de toda la tabla utilizando los test pertinentes, para profundizar después en el análisis de las diferentes categorías. Como se recuerda es el proceso inverso al seguido en el capítulo anterior donde nuestra atención se centraba en la interpretación de las celdillas. 1. RASGOS DE LOS CONSUMIDORES QUE "DISFRUTAN" CON EL ACTO DE COMPRA La pregunta 2 del cuestionario (v002) plantea directamente al entrevistado si "disfruta" en el acto de compra, o si por el contrario es algo que no le gusta pero que hace cuando no le queda otro remedio. Como ya vimos en la tabla 5.2 del capítulo 5, un 36.2% de los entrevistados dice disfrutar comprando, y reconoce así que le gusta ir de compras, mientras un 37.2% asegura que no le gusta nada ir de compras, e incluso le aburre tremendamente, y que sólo las realizan cuando no les queda otro remedio. De este modo, si excep- tuamos al 26.5% de los entrevistados a los que les resulta indiferente, puesto que no les produce placer ni desagrado, podemos decir que la mitad de la población disfruta comprando, mientras que la otra mitad expe- rimenta la sensación contraria. A fin de analizar la presencia de cada una de estas sensaciones en los diferentes colectivos será nece- sario realizar sucesivas Tablas de Contingencia para conocer la relación entre el disfrute en la compra y la Posición Social (POS_SOC), el nivel de equipamientos (EQUIP), el nivel de estudios del entrevistado 1 Texto scaneado del original al que se le aplico el programa de Reconocimiento Óptico de Caracteres: OmniPage 5.0. La fórmulas fueron reeditadas con el editor de ecuaciones Math Type 4.0 El subrayado , la negrita, la negrita cursiva, los párrafos resaltados con azul, las notas a pie de página, del Apéndice y los comentarios agregados con la sigla RJR entre corchetes [RJR] pertenecen al editor del texto. La itálica regular pertenece al autor. [Prof. Rubén José Rodrí- guez][12-10-04] 2 Díaz de Rada, Vidal (1999): Técnicas de Análisis de datos para investigadores sociales. Aplicaciones prácticas con SPSS para Windows (Versión SPSS 8.0 Español), Madrid, Ra-Ma, 1999, capítulo 7, pp. 169-174. [RJR]

Transcript of ANÁLISIS BIVARIANTE (Parte II) - Ruben Jose...

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

1/33

CAPÍTULO 7 1

ANÁLISIS BIVARIANTE (Parte II)

Por Vidal Díaz de Rada 2

Terminábamos el capítulo anterior aceptando la hipótesis planteada al afirman que de las personas que dicen comprar cuando necesitan el producto menos de la mitad utilizan realmente todo lo comprado. En el capítulo 5 se analizó el número de personas que experimentan placer en el acto de compra, consideran-do el propio acto de compra como generador de satisfacción. En este capítulo seguimos profundizando en los rasgos del nuevo consumidor centrándonos específicamente en sus rasgos sociodemográficos. La refe-rencia a los "innovadores", adoptando la terminología de Rogers y Shoemaker (1971), nos lleva a proponer la hipótesis III: "la elevada presencia de estos comportamientos (ver hipótesis 1 y 2) en los hogares con alta posición social, mayor nivel de equipamiento, así como en los colectivos de mayor nivel educativo y de me-nor edad, nos lleva a sugerir la emergencia de un nuevo tipo de consumidor que disfruta con el acto de compra”.

Dividiremos esta hipótesis en dos partes a fin de poder analizarla de modo más preciso. En un pri-mer momento se analizarán los rasgos sociodemográficos de los consumidores que disfrutan y no disfru-tan en el acto de compra, mientras que la segunda parte del capítulo estará dedicada al gusto de probarse modelos cuando se va a comprar ropa y calzado, aspecto que podría considerarse como un indicador del placer experimentado por un determinado tipo de compras. El capítulo finaliza con un anexo en el que se expone la comprobación de los índices elaborados en el capítulo cinco: Posición Social y Nivel de Equipa-mientos. La técnica de análisis de datos utilizada será, al igual que en el capítulo anterior, las Tablas de Contingencia (Crosstab), aunque esta vez nos centraremos fundamentalmente en la significación de toda la tabla utilizando los test pertinentes, para profundizar después en el análisis de las diferentes categorías. Como se recuerda es el proceso inverso al seguido en el capítulo anterior donde nuestra atención se centraba en la interpretación de las celdillas. 1. RASGOS DE LOS CONSUMIDORES QUE "DISFRUTAN" CON EL ACTO DE COMPRA

La pregunta 2 del cuestionario (v002) plantea directamente al entrevistado si "disfruta" en el acto de

compra, o si por el contrario es algo que no le gusta pero que hace cuando no le queda otro remedio. Como ya vimos en la tabla 5.2 del capítulo 5, un 36.2% de los entrevistados dice disfrutar comprando, y reconoce así que le gusta ir de compras, mientras un 37.2% asegura que no le gusta nada ir de compras, e incluso le aburre tremendamente, y que sólo las realizan cuando no les queda otro remedio. De este modo, si excep-tuamos al 26.5% de los entrevistados a los que les resulta indiferente, puesto que no les produce placer ni desagrado, podemos decir que la mitad de la población disfruta comprando, mientras que la otra mitad expe-rimenta la sensación contraria.

A fin de analizar la presencia de cada una de estas sensaciones en los diferentes colectivos será nece-

sario realizar sucesivas Tablas de Contingencia para conocer la relación entre el disfrute en la compra y la Posición Social (POS_SOC), el nivel de equipamientos (EQUIP), el nivel de estudios del entrevistado

1 Texto scaneado del original al que se le aplico el programa de Reconocimiento Óptico de Caracteres: OmniPage 5.0. La fórmulas fueron reeditadas con el editor de ecuaciones Math Type 4.0 El subrayado, la negrita, la negrita cursiva, los párrafos resaltados con azul, las notas a pie de página, del Apéndice y los comentarios agregados con la sigla RJR entre corchetes [RJR] pertenecen al editor del texto. La itálica regular pertenece al autor. [Prof. Rubén José Rodrí-guez][12-10-04] 2 Díaz de Rada, Vidal (1999): Técnicas de Análisis de datos para investigadores sociales. Aplicaciones prácticas con SPSS para Windows (Versión SPSS 8.0 Español), Madrid, Ra-Ma, 1999, capítulo 7, pp. 169-174. [RJR]

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

2/33

(v032) y la edad (v036)3. Se trata de recoger información sobre dos variables y construir una tabla de contingencia con el fin de analizar cómo influye una variable en la otra, tratando de descubrir si real-mente existe relación entre ambas, cuantificando esa relación siempre que sea posible.

Con este fin se han elaborado una serie de medidas que indican el grado de asociación entre dos variables, asociación que oscila entre un valor mínimo indicativo de la ausencia de asociación (el cero) y un valor máximo que indica asociación perfecta (el uno o el menos uno). Un valor superior a cero (positivo) indicará relación directa, mientras que un valor inferior a cero (negativo) muestra relación inver-sa4. Siguiendo a García Ferrando (1985: 217-222) una buena medida de asociación entre variables debe indi-car, en primer lugar, si existe o no una asociación significativa entre variables y cuantificar la fuerza de esa asociación. Un tercer requisito que debe cumplir una buena medida de asociación es mostrar la dirección de la asociación (positiva o negativa), aunque esto únicamente es posible cuando las variables se han medido a nivel ordinal o de intervalo. La cuarta característica es describir la naturaleza de la asociación, referida a la distribución de las magnitudes de las variables en cada una de las "celdillas" de la tabla: la comparación de los porcentajes puede mostrar una escasa diferencia en las categorías bajas de las variables, diferencia que se acentúa en las categorías medias y aún más en las altas (relación lineal), o bien puede tener una tendencia totalmente irregular (García Ferrando 1985: 217-222). Ilustremos esta definición analizando hasta qué pun-to una de las medidas de asociación más conocidas, el coeficiente de Correlación Lineal r de Pearson (la "r" de Pearson), cumple cada una de estas propiedades. Supondremos para ello un coeficiente de correlación entre la edad y el nivel de ingresos de 0.8. En primer lugar una medida de asociación debe indicar si existe relación entre variables. Si tenemos en cuenta que el coeficiente de Correlación Lineal puede oscilar entre -1 y +l, indicando el valor central (0) la no existencia de relación; un valor de 0.8 implicará sin duda una rela-ción significativa entre ambas variables5. Asimismo, si la máxima relación posible entre variables es 1, un valor de 0.8 indica una relación importante. Por último es posible conocer la dirección de la asociación, ya que valores cercanos a -1 indicarán relación inversa entre variables, mientras que valores cercanos a 1 indi-can relación directa, como es nuestro caso.

Esta obra está dedicada al análisis de variables nominales y ordinales, de modo que olvidaremos las propiedades del coeficiente de Correlación Lineal de Pearson (variables de intervalo) para analizar si los es-tadísticos que miden la relación entre variables nominales y ordinales cumplen cada uno de estos criterios. A fin de llevar a cabo una exposición práctica realizaremos un primer Cruce de Tablas entre "disfrutar comprando" (v002) y la "edad" de los entrevistados (V036) colocando la primera variable en filas y la segunda en columnas en el cuadro de diálogo "Tablas de contingencia" expuesto en la figura 6.1. En el re-cuadro "Casillas..." serán solicitadas las frecuencias observadas, esperadas y los residuos tipificados ajusta-dos (ver figura 6.2), y tras pulsar el recuadro "Estadísticos.." solicitaremos el Chi-Cuadrado, Coeficiente de Contingencia, Phi, V de Cramer y Lambda. En la tabla 7.1 se muestran los resultados obtenidos, de modo que nuestra labor a partir de ahora consistirá en evaluar hasta qué punto cada uno de los estadísticos solicita-dos cumplen los criterios expuestos en el párrafo anterior. 1.1. Relación entre variables nominales utilizando el Ji-Cuadrado

El primero de los estadísticos solicitados es el Ji-Cuadrado6, que aparece en la tabla 7.1 con el nombre de Chi-Cuadrado de Pearson. Este estadístico es un contraste que tiene en cuenta la totalidad de la tabla y es utilizado para saber si la relación entre estas dos variables, disfrute en la compra y edad, es significativa. Como se muestra en el cuadro 7. 1, el Ji-Cuadrado se calcula restando en cada celdilla a las frecuencias teóricas las frecuencias observadas, multiplicando esta diferencia al cuadrado y dividiéndola en-tre las frecuencias teóricas. La sumatoria de estos resultados será, en este caso, de 33.65761. En el capítulo 3 No entraremos en la descripción de cada una de estas variables puesto que ya se ha realizado en el capítulo 5. 4 La relación será directa o inversa si las categorías de ambas variables están medidas en el mismo orden (ambas de modo ascendente o descendente) 5 Para ello deberemos clacular el nivel de significación de este valor, aspecton que no expondremos aquí puesto que queda fuera de nuestros objetivos. Los lectores interesados pueden consultarlo en cualquier libro de estadística. Ver, por ejemplo el libro de Calvo, 1990: 323-324. 6 También denominado Chi Cuadrado, y corresponde a la letra griega X mayúscula, por eso se simboliza a este test estadístico con el símbolo X2. [RJR]

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

3/33

anterior decíamos que las frecuencias teóricas son las que hubiera tenido la tabla de no existir relación entre variables.[O lo que es lo mismo cuántos casos –frecuencias observadas- hubiesen caído en cada celda si la relación entre las dos variables fuera independiente, es decir, la frecuencias teórica, son frecuencias espera-das por el azar. Por lo que las frecuencias teóricas son frecuencias esperadas bajo la Hipótesis Nula, H0. En este caso, bajo la hipótesis de independencia]. [RJR]. Si a las frecuencias obtenidas se les resta las teóricas, una gran diferencia estará indicando que existe relación entre variables. [Esta diferencias entre fo-fe, se la denomina residuos. Si la magnitud absoluta de esta diferencia es pequeña o cercana a cero, nos estará indi-cando que las fo se acerca o coinciden con la fe; en cambio si el residuo es grande o muy grande, nos estará señalando que las fo se alejan o distancian de lo meramente esperado por azar. Claro que a partir del tamaño de dicha diferencia no puede concluirse que dicha diferencia sea estadísticamente significativo. Esto sólo se puede probar con el test X2 para tomar una decisión sobre la H0]. [RJR] Como el estadístico Ji-Cuadrado se calcula sumando los valores de estas diferencias (al cuadrado divididas entre la frecuencia teórica), un gran valor del Ji~ Cuadrado indicará importantes diferencias entre las frecuencias observadas y las teóricas, o di-cho de otro modo, existencia de relación entre variables.

Un valor alto del Ji-Cuadrado indicará relación entre variables, pero ¿a partir de qué límite de-finimos el "gran valor" del Ji-Cuadrado? [¿Cuál es el límite crítico entre un valor bajo y un valor alto de Chi Cuadrado?¿Cuál es el límite crítico, por encima del cuál estaría indicando que las diferencias entre las frecuencias observadas y las esperadas son significativas y que tal magnitud de diferencia es poco probable que se deba al azar, y estaría indicando que la relación entre ambas variables No son independientes?. RJR]. Recordemos algunos conceptos expuestos en la primera parte del capítulo 6 dedicado a la inferencia y signi-ficación estadística. Cuando realizábamos comparaciones entre proporciones utilizábamos una Hipótesis Nula (H0) que argumentaba que no existían diferencias entre la muestra y la población. Cuando la dife-rencia entre los porcentajes alcanzaba un valor superior al 1.96 (zona crítica de la curva normal) se concluía afirmando que existía diferencia de proporciones con una significación, con una probabilidad de equivocar-nos del 5%. Este mismo proceso lo aplicaremos al Ji-Cuadrado, aunque en vez de utilizar la distribución normal se utilizará una distribución Ji-Cuadrado, cuyos valores dependen de los grados de libertad (GL, [gl o df –degree fredom-]. [RJR] que se calculan multiplicando el número de filas menos 1 por el número de columnas menos 1 (cuadro 7. l). Se trata, en definitiva, de utilizar una distribución de probabilidad conti-nua (Ji-cuadrado) como una aproximación a la distribución discreta de las frecuencias observadas (Ruiz Ma-ya 1990: 119).

CUADRO 7.1:

JI-CUADRADO Y RAZÓN DE VEROSIMILITUD 1

JI-CUADRADO

22

1

( )n

i

fo fex

fe

Cálculo con los datos de la tabla 7.1: 2 =(80 - 76.2)2 / 76.2+ (70 - 74.4)2 / 74.4+ (66 - 62.7) 2 / 62.7+ (57 - 56.3)2 / 56.3+ (53 - 56. 0) 2

(74 - 55.7) 2 / 56.0+ (58 - 54.4) 2 / 54.4+ (51 - 45.9) 2 / 45.9+ (22 - 41.2)2 /41.2+ (33 – 40.9) 2 /40.9+ (56- 78.4) 2/ 78.4 + (78 76.6) 2/ 76.6+ (56 - 64.6) 2/ 64.6 + (77 - 58.0) 2/ 58.0+(68 - 57.6) 2 /57.6 =

2 = 33. 65761

Grados de Libertad (GL ó df) = (f – 1)* (c- 1) = (3 - 1) * (5 - 1) = 8 (Continúa)

Formulación:

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

4/33

TEST DE VEROSIMILITUD7 (Likelihood Ratio) (G 2 o L 2 )

2L 2* ( * ( )Fo

Fo InFt

2L 35.04

(Agresti, 1996: 30) L2 = 35,04 En la relación de variables la Hipótesis Nula (H0)

8argumenta que no existe relación entre las variables, que los valores de una no cambian con los valores de la otra variable [Es decir, que son inde-pendientes entre sí, la variación de una variable no influye sobre la variación de la otra. RJR]. En la tabla de la Ji-Cuadrado expuesta en el anexo 29, con 8 grados de libertad, el valor crítico (límite crítico, es el valor del Chi cuadrado teórico o de tabla) con un nivel de significación del 0.001 (Pα) es de 26. l [Va-lor crítico = Chi cuadrado teórico o de tabla][La comparación del Chi cuadrado empírico o calculado con el Chi cuadrado teórico o de tabla, se la conoce como Regla de Decisión de Pearson. RJR]. Al relacionar las variables "disfrute en la compra" con "edad" hemos obtenido un Ji-Cuadrado de 33.65, (Chi cua-drado empírico u observado), por lo tanto rechazamos la hipótesis nula con una significación infe-rior al 0.001, con una probabilidad de equivocarnos del 0.001%, afirmando así que el disfrute con la compra varía según la edad 10. En realidad no hubiera sido necesario utilizar la tabla de la distribución Ji-Cuadrado puesto que el programa SPSS proporciona, bajo el rótulo "Significación aproximada" [Menú: Ana-lizar> Estadísticos Descriptivos > Tablas de Contingencia > Botón Estadísticos >Casilla de verificación: Chi Cuadrado > Continuar > Aceptar o Pegar > Editor de resultados: Tabla Prueba de Chi Cuadrado-Columna Sig. asintótica (bilateral) (RJR)], el nivel exacto de significación del valor Ji-Cuadrado. En este caso in-dica una significación de 0.00005 [P-value o probabilidad asociada al Valor Chi cuadrado de Pearson= 33.65.][RJR] 11

Señalar, por último que cuando se le pide el test de Ji-Cuadrado al programa, SPSS proporciona además la Razón de Verosimilitud (Likelihood Ratio) y el "Mantel-Haenszel Test" (Asociación lineal por lineal). El primero de éstos está basado en la teoría de máxima verosimilitud, y su valor es dos veces la suma de las frecuencias observadas de cada celda multiplicadas por el logaritmo neperiano de la frecuencia observada dividida entre la frecuencia teórica (ver cuadro 7. l). Con grandes tamaños de muestra adopta valores si-milares al test Ji-Cuadrado (Norusis, 1990: 13 l). El "Mantel-Haenszel Test" es una medida de asociación que analiza la relación existente entre las filas y columnas de una tabla; y se calcula multiplicando el coefi-ciente de correlación de Pearson por el número de casos menos uno. Como ha señalado Norusis, hay que

7 [Ver Nota I: Razón de Versomilitud, en el Apéndice al final del capítulo] [RJR] 8 [Chi Cuadrado pone a prueba la Hipótesis Nula de independencia estadística que se formula así: H0= Independencia de las variables y H1= Variables relacionadas].[RJR] 9 [Ver Tabla: Right tail areas for the Chi-square Distribution, en el Apéndice al final del capítulo][RJR] 10 Hipótesis nula: no hay relación entre variables. Al rechazar la hipótesis nula concluimos que existe relación entre variables. [Chi Cuadra-do pone a prueba la Hipótesis Nula de independencia estadística que se formula así: H0= Independencia de las variables y H1= Variables relacionadas].[RJR] 11 [La Regla de Decisión de Fisher establece que si el P-value es menor que el Nivel de significación (Pα) se rechaza la Hipótesis nula. Efectivamente, P-value < Pα, porque: 0.00005 < 0.001, por lo tanto, se rechaza H0 y se concluye que es poco probable que la diferencias observadas (fo-fe) se deban al azar (la probabilidad de que ocurran por azar es de 5 en 10.000, en cuyo caso la H0 sería verdadera) y se puede sostener que las diferencias son estadística-mente significativas, asumiendo cometer un error de rechazar la H0 como falsa cuando en realidad podía haber sido verdadera, con una probabilidad de 1 en 1000 (Pα = 0,001), siendo esta la definición del Error de Tipo I. .Cf. Mue-ses, H. G., 2003:3] [RJR].

Formulación:

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

5/33

tener en cuenta que únicamente debe ser utilizado con variables ordinales y de intervalo (Norusis, 1990: 13 l).

TABLA 7.1: (Continuación)

ESTADÍSTICOS PARA ANALIZAR LA RELACIÓN

EN UNA TABLA DE CONTINGENCIA

V002 DISFRUTE EN EL ACTO DE COMPRA by V036 EDAD

V036 (*)Frecuencia

Observada (Fo)

(**) % columna 15- 25 26-35 36-45 46-55 56-64 Fila

(***)Residuos

Tipificados 12 'Total

V002 1.00 (*) 80 70 66 57 53 326

Disfruto compran (**) 38.1 34;.0 38.2 36.5 34.4 36.2%

(***) . 6 - . 7 . 6 . 1 - . 5

2.00 74 58 51 22 33 238

Me resulta indiferente 35.2 28.2 29.5 14.1 21.4 26.5%

3.3 .6 1.0 3.8 1.6

3.00 56 78 56 77 68 335

No me gusta 26.'7 37.9 32,4 49.4 44.2 37.3%

-3.6 .2 -1.5 3.4 2.0

Columna 210 205 173 156 155 899

Total 23.4 22.8 19.3 17.3 17.2 100.0

(Continúa)

12 [“Residuos (RESID). Los residuos brutos no tipificados presentan la diferencia entre los valores observados y los esperados. También se encuentran disponibles los residuos tipificados (SRESID) y tipificados corregidos o ajustados (ASRESID)”, Ayuda SPSS 11.51 (?), Temas> Search>Tablas de contingencia. Mostrar en las casillas: Residuos tipifi-cados. Ver Nota II: Análisis de Residuos, en el Apéndice al final de capítulo] [RJR]

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

6/33

TABLA 7.1 (continuación):

ESTADÍSTICOS PARA ANALIZAR LA RELACIÓN

EN UNA TABLA DE CONTINGENCIA

Estadístico Valor GL Significación aproximada

---------------------------------- ------------ ------ --------------------------------

Chi Cuadrado de Pearson 33.65761 8 .00005

Razón de Verosimilitud 34.99950 8 .00003

Asociación lineal por lineal 6.20704 1 .01272

Mínima Frecuencia Esperada 40.945

Error tipT Significación. aproximada

Estadístico Valor asint aprox

--------------------------------- --------- --------- ------ ---------------------------------

Phi .19350 .00005

V de Cramer .13682 .00005

Coeficiente de contingencia .18997 .00005

Lambda:

Simétrica .04469 .01762 2,50312 .01231

V002 como dependiente .06028 .02761 2,12204 .03383

V036 como dependiente .03193 .01653 1,90434 .05687

Tau de Godman & Kruskal:

V002 como dependiente .01798 .00588 .00008

V036 como dependiente .00929 .00305 .00005

Numero de valores perdidos: 1

1.2. Consideraciones a tener en cuenta en la utilización del Ji-Cuadrado

Para utilizar correctamente el Ji-Cuadrado los datos deben cumplir una serie de requisitos. Como señala Reynolds (1984: 19-21) un requisito fundamental es que la muestra sea aleatoria simple, aspecto que rara vez se cumple debido a que la selección de los entrevistados casi nunca se realiza de forma total-mente aleatoria, puesto que los sistemas de rutas y cuotas utilizados para localizar a los individuos elimina la aleatoriedad muestral (Rodríguez Osuna, 1991: 40-45). Respecto a la otra característica, muy pocas ve-ces se utilizan muestras "simples" en la investigación social al recurrir normalmente a muestreos estratifica-dos. Como el cumplimiento de ambos supuestos se realiza en contadas ocasiones, el valor del Ji-Cuadrado es el que tendrían nuestros datos si hubiéramos cumplido los citados requisitos, de modo que cuando no se cumplan consideraremos este valor a modo indicativo. Otro requisito citado por Reynolds es que las cate-gorías de las variables deben ser exhaustivas y mutuamente excluyentes.

El siguiente requisito citado por Reynolds aconseja no considerar el valor del Ji Cuadrado cuando existan en la tabla muchas celdillas (un 20%) con frecuencias esperadas menores que 5, puesto que en esta situación no se cumple uno de los supuestos fundamentales de la distribución Ji-Cuadrado. Una de las for-mas para evitar esta situación es no utilizar el Ji-Cuadrado con tamaños muéstrales pequeños. Otra de las estrategias para solucionar este problema es recodificar las variables con muchas categorías, uniendo las cel-dillas con pocos sujetos con otras categorías similares. Como hemos señalado en páginas anteriores el cri-

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

7/33

terio utilizado para recodificar es que las categorías unificadas tengan una significación temática, eliminando así los errores muéstrales altos (coeficiente de variación) que tienen las categorías con pocos sujetos. No obstante, en tablas de 2 x 2 donde no es posible realizar recodificaciones cuando alguna de las celdillas tiene una frecuencia esperada menor que 5, la solución es utilizar el Test Exacto de Fisher 13 en vez del Ji-Cuadrado, que el programa muestra automáticamente en el momento que se dan estas condiciones.

La siguiente consideración está relacionada con la afirmación realizada anteriormente cuando se ex-plicaba que para el cálculo de la significación del Ji-Cuadrado se utiliza una distribución de probabilidad continua (Ji-cuadrado) como una aproximación a una distribución discreta. Esta aproximación indica que existe una relativa incorrección en el cálculo del Ji-Cuadrado, incorrección que es mayor a medida que disminuye el número de categorías. Esta incorrección es prácticamente nula en variables discretas con múltiples categorías, pero alcanza valores importantes en variables dicotómicas. Por ello para tablas de 2 x 2 Yates propuso la Corrección de Continuidad que lleva su nombre, calculada restando 0.5 al resul-tado FO - FT del numerador en la fórmula del Ji cuadrado. Como el objetivo es restar 0.5, si el resul-tado FO - FT es negativo será necesario sumar 0.5. El programa SPSS calcula automáticamente la corrección de Yates en tablas de contingencia con un grado de libertad (2 x 2), de modo que será necesario desviar la atención del valor Ji-Cuadrado a la Corrección de Continuidad de Yates14 siempre que ésta aparezca (Ver tabla 7.2).

CUADRO 7.2:

CORRECCIÓN DE CONTINUIDAD DE YATES

2

2fo-ft 0,5

Xft

Llega el momento de exponer la última de estas consideraciones al Ji-Cuadrado referida a los requisi-tos que debe cumplir una buena medida de asociación. En páginas anteriores se ha utilizado el coeficiente de correlación de Pearson como ejemplo para ilustrar algunas explicaciones debido a su amplia difusión y conocimiento. Desearíamos utilizar de nuevo su popularidad para analizar las diferencias entre éste y el Ji-Cuadrado, tal y como se expone en el cuadro 7.3 (Calvo 1990: 145). Cuando se analizaban los requisitos que debe cumplir una buena medida de asociación utilizábamos el coeficiente de Correlación Lineal de Pear-son como ejemplo para explicar el significado de cada requisito. Las dos primeras características del cua-dro 7.3 se refieren específicamente a los requisitos apuntados, comenzando con la segunda característica del cuadro 7.3 donde el Ji-Cuadrado no indica el sentido de la asociación entre variables porque las variables nominales no llevan implícitas ninguna relación de orden entre sus categorías. En el capítulo 2 se afirmó que aunque es posible utilizar estadísticos para variables nominales situación es no utilizar el Ji-Cuadrado con tamaños muéstrales pequeños. Otra de las estrategias para solucionar este problema es recodificar las variables con muchas categorías, uniendo las celdillas con pocos sujetos con otras categorías similares. Como hemos señalado en páginas anteriores el criterio utilizado para recodificar es que las categorías unifi-cadas tengan una significación temática, eliminando así los errores muéstrales altos (coeficiente de varia-ción) que tienen las categorías con pocos sujetos. No obstante, en tablas de 2 x 2 donde no es posible reali-zar recodificaciones cuando alguna de las celdillas tiene una frecuencia esperada menor que 5, la solución es

13 Ver Nota III: Prueba Estadística de Fisher, al final del capítulo. [RJR]. 14 “Corrección de Yates: Corrección propuesta por Yates para el cálculo de la prueba estadística X2, en el caso de tablas de 2 X 2. Consiste en aumentar en 0.5 las frecuencias empíricas que son menores que sus frecuencias teóricas y en disminuir en 0.5 las frecuencias empíricas que son mayores que sus frecuencias teóricos correspondientes”, Sierra Bravo, Restituto (1991): Diccionario Práctico de Estadístico, Madrid, Editorial Paraninfo, 1991, p. 158. [RJR].

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

8/33

utilizar el Test Exacto de Fisher en vez del Ji-Cuadrado, que el programa muestra automáticamente en el momento que se dan estas condiciones.

CUADRO 7.3:

DIFERENCIAS ENTRE EL JI-CUADRADO Y EL COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON

JI CUADRADO

Afirma si existe o no asociación.

No indica el sentido de la asociación.

Sirve para variables nominales, ordinales y de intervalo.

No exige "distribución especial" de las variables.

No exige función especial entre ambas variables.

COEFICIENTE CORRRELACIÓN LINEAL. "r" DE PEARSON

Afirma si existe o no relación y el grado de la relación.

Indica el sentido de la asociación.

Sólo sirve para variables de intervalo.

Exige que ambas variables sigan la curva normal.

Exige función rectilínea lineal entre las variables.

Fuente: Calvo 1990: 145.

Respecto a la primera característica del cuadro 7.3, el Ji-Cuadrado permite afirmar si existe o no

asociación (significativa) entre variables, pero no indica el grado de esta asociación. Su propia formulación, una resta al cuadrado entre frecuencias observadas y teóricas, genera que no tenga un límite superior fijo como la "r" de Pearson pudiendo llegar a un valor máximo de N(K-1), donde K es el nú-mero más pequeño de filas o columnas, que en el caso de la tabla 7.1 esto implica 899*(3-1). Si el Ji-Cuadrado de la tabla 7.1 puede alcanzar un valor máximo de 1798, ¿cuánta relación entre variables indicará el valor de 33.65 obtenido en la tabla 7. 1? Otro de los problemas de esta medida de asociación es que su valor varía en función del tamaño de la muestra.15 Para evitar estos problemas se han elaborado distintos estadísticos que se exponen en el siguiente apartado.

1.3. Estadísticos basados en el Ji-Cuadrado 15 Al realizar este mismo cruce de tablas con una submuestra aleatoria de 450 personas el valor del Ji-Cuadrado se reduce al 13.03.

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

9/33

La sensibilidad del Ji-Cuadrado al tamaño de la muestra, así como la dificultad para cuantificar la re-lación entre variables una vez que ya se sabe que ésta es significativa, ha generado la necesidad de utilizar medidas de asociación que permitan solucionar estos problemas. Podemos definir "medida de asocia-ción" como un índice numérico que resume el grado de asociación entre dos variables. Las más utilizadas, con su formulación correspondiente, se exponen en el cuadro 7.4. Algunas de ellas únicamente son aplica-bles en tablas cuadradas, por lo que se ha elaborado la tabla 7.2 que analiza la relación entre el sexo del en-trevistado y el disfrute en la compra tras eliminar la categoría 2 (Me resulta indiferente, no me produce pla-cer ni desagrado).

CUADRO 7.4: MEDIDAS BASADAS EN JI-CUADRADO

A) Coeficiente Phi: (tablas de 2 x 2)

Datos tabla 7.2:

2 114.919820.4170

661

x

N

B) Coeficiente de Contingencia o Coeficiente C de Pearson:

Datos tabla 7.2:

2

2

11.919820.38491

114.91982 661

xC

x N

C Máximo:

1 2 10.7071

2

IC

I

C Ajustado:

0.384910.5444

20.7071AjustadoMáximo

CC

C

(Continúa)

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

10/33

CUADRO 7.4 (continuación): MEDIDAS BASADAS EN JI-CUADRADO

C) Coeficiente V de Cramer:

Datos tabla 7.1:

2 33.657610.18

* ( 1) ( 1) 899*2

xV

N Mínimo f ó c

Datos tabla 7.2:

2 114.919820.41704

* ( 1) ( 1) 661*1

xV

N Mínimo f ó c

La primera de estas medidas, conocida como Coeficiente Phi y calculada como se expone en el cua-dro 7.4, oscila entre 0 y 1, de tal forma que 0 indica ausencia de relación y 1 máxima relación entre varia-bles. Únicamente puede ser utilizado en tablas de 2 x 2 porque en tablas con más de dos categorías por va-riable su valor máximo puede superar la unidad, ya que el Ji-Cuadrado puede alcanzar valores superiores al tamaño muestral, tal y como se ha demostrado anteriormente. En la tabla 7.2 Phi alcanza un valor de 0.41704 (significativo al 0.0000) mostrando una relación considerable entre la edad del entrevistado y el dis-frute en las compras.

En tablas que no sean de 2 x 2 el Coeficiente de Contingencia de Pearson permite solucionar estos problemas, pero no llega a 1 aunque las variables estén perfectamente relacionadas puesto que su valor supe-rior depende del número de categorías de la tabla. En tablas cuadradas el valor máximo del coeficiente de

Contingencia puede llegar a /( 1)k k , de modo que es posible calcular un valor de contingencia ajustado

dividiendo el coeficiente de Contingencia entre el C máximo (Reynolds 1984: 47). En el cuadro 7.4 se ha obtenido un coeficiente de Contingencia de 0.38, que a priori es considerado relativamente bajo al estar mu-cho más cerca de 0 que de 1. Si se tiene en cuenta que el C máximo es 0.7071, la división del coeficiente de contingencia entre el C máximo ofrece un valor de 0.544, notablemente más cercano a 1, y por lo tanto indi-cando una mayor relación.

Para solucionar el problema de las tablas rectangulares Cramer desarrolló el estadístico "V" que os-cila entre 0 y 1, con independencia del tamaño de la tabla. Como puede apreciarse, el valor del Coefi-ciente V de Cramer en tablas cuadradas de 2 x 2 es el mismo que el obtenido por la Phi, como sucede en la tabla 7.2 (Cuadro 7.5).

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

11/33

TABLA 7.2:

DISFRUTE EN EL ACTO DE COMPRA SEGUN SEXO

V002 DISFRUTE EN EL ACTO DE COMPRA by V038 SEXO

V038

Recuento

:Hombre Mujer Fila 1.00 2.00 Total

V002 --- ------ --- -- -- -------------------------

1.00 89 237 326

Disfruto compran : 49.3%

----------- --- ------ --- -------------------

3.00 231 104 335

No me gusta 50.7%

-----------------------------------------------

Columna 320 341 661

Total 48.4% 51.6% 100.0%

Estadístico Valor GL Signif.aprox.

‘’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’’

Chi-cuadrado de Pearson 114.91682 1 .00000

Corrección de Continuidad 113.25370 1 .00000

Razc5n de verosimilitud 118.56106 1 .00000

Asociacic5n lineal por lineal 114.74290 1 .00000

Mínima Frecuencia Esperada - 157.640.945

Error tip T Signif.

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

12/33

Estadístico Valor asint aprox aproximada ------------- -- --- --- --- -- -------------- -------------- Phi .41704 .00000 V de Cramer .42,704 .00000 Coeficiente de contingencia .38491 .00000 Lambda : Simétrica .40256 .03921 9,29351 .00000 V002 como dependiente .40771 .04364 7,48888 .00000 V038 como dependiente .39732 .04442 7,21147 .00000 Tau de Goodman & Kruskal: V002 como dependiente .17392 .02946 .00000 V038 como dependiente .17392 .02946 .00000 Número de valores perdidos: 239

Pese a las mejoras que suponen la utilización de estos coeficientes frente al uso del Ji-Cuadrado, Rey-nolds (1984: 34-49) señala los problemas que surgen a la hora de interpretar estos coeficientes: estas magni-tudes se interpretan según su proximidad a 1 o 0, de modo que si están cercanas a uno la relación será impor-tante, mientras que ésta será despreciable si están cercanas a 0. Ésta es toda la información que suministran estos coeficientes, no siendo posible interpretarlos como "la variación porcentual de una variable que es explicada por otra", ni "reducción del error al predecir una variable mediante el conocimiento de la otra16, En palabras de este autor, carecen de una interpretación intuitiva: ¿Cómo interpretamos un valor de 0.29? Parece una relación débil, pero no hay una medida que ayude a decidir sobre la debilidad de esta relación (Reynolds 1984: 49). Por otro lado, y como indicamos al principio de este apartado, estas medidas se han desarrollado para solucionar algunas de las limitaciones del Ji Cuadrado, y como éste todas son simétricas, no distin-guiendo entre variables dependientes e independientes. Si la hipótesis de la investigación distingue entre variables dependientes e independientes deberemos utilizar los estadísticos que se exponen en el siguiente apartado, que además tienen una mejor interpretación al estar basados en la reducción del error de predic-ción.

CUADRO 7.5: RESUMEN DE LOS ESTADÍSTICOS DE LAS TABLAS 7.1 Y 7.2

Estadístico Tabla 7.1 Tabla 7.2 ---------------------- ------------- ----------- Ji-Cuadrado 33.65761 114.91682 Phi .19350 .41704 Coeficiente de contingencia .18997 .38491 V de Cramer .13682 .41704 Lambda simétrica .04469 .40256 Lambda (vOO2 dependiente) .06028 .40771 Tau (vOO2 dependiente) .01798 .17392 1.4. Medidas basadas en la reducción del error de predicción 16 Volviendo al ejemplo anterior del coeficiente de correlación de Pearson, el coeficiente de 0.8 antes apuntado está indicando que una variable explica un 64% de la varianza de la otra. Esta interpretación no es posible con los coefi-cientes basados en el Ji-Cuadrado.

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

13/33

Dedicaremos este apartado a la exposición de dos estadísticos que no se fundamentan en el Ji-

Cuadrado, sino en cómo es posible predecir los valores de una variable dependiente (Y) al conocer la distri-bución de una variable independiente (X). Se trata, en definitiva, de mejorar la predicción de una variable basada en los valores de otra. Comenzaremos con el análisis de la Lambda de Goodman y Kruskal aplicada a los datos de la tabla 7.2, por ser su cálculo más sencillo que el de la tabla 7. 1. El objetivo al utilizar este estadístico es intentar predecir el disfrute en la compra (variable Y) si conocemos su distribución por sexos (variable X); tratando de responder a la siguiente pregunta: ¿cuánto mejora nuestra capacidad de predecir el disfrute en la compra al conocer su distribución por sexos? Si TODAS las mujeres disfrutan en el acto de compra el valor de esta medida sería 1 (relación perfecta). Por otro lado la no existencia de relación entre las variables (valor 0) implicará que saber el sexo del entrevistado no sirve de nada para conocer la satisfac-ción en la compra.

En la variable "placer en la compra" de la tabla 7.2 la categoría más elegida (moda) ha sido "no me gusta comprar" (335), de modo que al predecir el placer en la compra con la información que tenemos has-ta el momento podríamos equivocamos en 326 ocasiones (661 - 335 = 326). Es importante elegir la cate-goría con el valor modal, puesto que de esta forma la probabilidad de equivocamos disminuye. Como se puede apreciar los errores cometidos al considerar la opción "no me gusta comprar" (326) son menores que los cometidos al tener en cuenta "me gusta comprar" (661 - 326 = 335).

Decíamos que el objetivo de Lambda es mostrar cuánto mejora la capacidad de predecir el disfrute

en la compra si conocemos la distribución de esta variable en otra, en ese caso el sexo del entrevistado. Considerando únicamente los que disfrutan en la compra sabemos que de los 326 entrevistados que eligen esta categoría, 237 son mujeres. En la predicción de esta categoría podríamos equivocarnos 89 veces (326 - 237 = 89) al considerar las 237 mujeres. Seleccionando los que se aburren comprando, y teniendo en cuenta los 231 hombres, podríamos equivocarnos 104 veces: 335 - 231 = 104. En el párrafo anterior, cuando únicamente se consideraba una variable, decíamos que podríamos equivocarnos en 326 ocasiones. ¿Cuanto mejora la predicción al considerar el sexo del entrevistado? Al unir las equivocaciones cometi-das al considerar el sexo (89 + 104 = 193) se aprecia una notable reducción frente a las cometidas en el pá-rrafo anterior cuando considerábamos una sola variable (326 - 193 = 133), reducción que alcanza el 41 % del error (1 33/326 = 0.408). En otras palabras, conocer la distribución de la segunda variable reduce la probabilidad de error en un 40.8%: al predecir el disfrute en la compra conociendo el sexo del entrevistado se obtiene un valor de Lambda de 0.408 (Ver cuadro 7.6).

Resumiendo, este proceso ha consistido en una evaluación de los errores cometidos al predecir el

disfrute en la compra considerando únicamente la distribución de la variable dependiente (326 errores). Posteriormente se han cuantificado los errores cometidos al conocer la distribución de las categorías del sexo (variable independiente) y la distribución en cada una de ellas de las categorías del disfrute en la compra (104 errores). El valor de Lambda será la reducción de error que supone la segunda opción res-pecto a la primera, dividido entre el total de error que puede someterse; como se muestra en el cuadro 7.6. Por supuesto que también podríamos predecir el sexo del entrevistado (Y) conociendo el "disfrute en la compra", aunque en este caso la reducción del error es algo menor, como puede apreciarse en la segunda parte del cuadro 7.6.

Como se ha apuntado, es posible utilizar Lambda simétrica o asimétrica. Con la primera medida

asumimos una relación de predicción entre las variables, utilizando la independiente para predecir la de-pendiente. Si nuestras hipótesis no tienen en cuenta una relación de dependencia sino de interrelación uti-lizaremos Lambda simétrica.

- Conociendo el placer en la compra reducimos en un 0.397 la probabilidad de equivocarnos al adivinar

el sexo.

- Conociendo el sexo del entrevistado reducimos en un 0.408 la probabilidad de equivocamos al adivi-nar el placer en la compra.

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

14/33

En la variable "placer en la compra" de la tabla 7.2 la categoría más elegida (moda) ha sido "no me

gusta comprar" (335), de modo que al predecir el placer en la compra con la información que tenemos has-ta el momento podríamos equivocamos en 326 ocasiones (661 - 335 = 326). Es importante elegir la cate-goría con el valor modal, puesto que de esta forma la probabilidad de equivocamos disminuye. Como se puede apreciar los errores cometidos al considerar la opción "no me gusta comprar" (326) son menores que los cometidos al tener en cuenta "me gusta comprar" (661 - 326 = 335).

Decíamos que el objetivo de Lambda es mostrar cuánto mejora la capacidad de predecir el disfrute

en la compra si conocemos la distribución de esta variable en otra, en ese caso el sexo del entrevistado. Considerando únicamente los que disfrutan en la compra sabemos que de los 326 entrevistados que eligen esta categoría, 237 son mujeres. En la predicción de esta categoría podríamos equivocamos 89 veces (326 - 237 = 89) al considerar las 237 mujeres. Seleccionando los que se aburren comprando, y teniendo en cuenta los 231 hombres, podríamos equivocarnos 104 veces: 335 - 231 = 104. En el párrafo anterior, cuando únicamente se consideraba una variable, decíamos que podríamos equivocamos en 326 ocasiones. ¿Cuanto mejora la predicción al considerar el sexo del entrevistado? Al unir las equivocaciones cometi-das al considerar el sexo (89 + 104 = 193) se aprecia una notable reducción frente a las cometidas en el pá-rrafo anterior cuando considerábamos una sola variable (326 - 193 = 133), reducción que alcanza el 41% del error (133/326 = 0.408). En otras palabras, conocer la distribución de la segunda variable reduce la probabilidad de error en un 40.8%: al predecir el disfrute en la compra conociendo el sexo del entrevistado se obtiene un valor de Lambda de 0.408 (Ver cuadro 7.6).

Resumiendo, este proceso ha consistido en una evaluación de los errores cometidos al predecir el

disfrute en la compra considerando únicamente la distribución de la variable dependiente (326 errores). Posteriormente se han cuantificado los errores cometidos al conocer la distribución de las categorías del sexo (variable independiente) y la distribución en cada una de ellas de las categorías del disfrute en la compra (104 errores). El valor de Lambda será la reducción de error que supone la segunda opción res-pecto a la primera, dividido entre el total de error que puede someterse; como se muestra en el cuadro 7.6. Por supuesto que también podríamos predecir el sexo del entrevistado (Y) conociendo el "disfrute en la compra", aunque en este caso la reducción del error es algo menor, como puede apreciarse en la segunda parte del cuadro 7.6.

Como se ha apuntado, es posible utilizar Lambda simétrica o asimétrica. Con la primera medida

asumimos una relación de predicción entre las variables, utilizando la independiente para predecir la de-pendiente. Si nuestras hipótesis no tienen en cuenta una relación de dependencia sino de interrelación uti-lizaremos Lambda simétrica.

- Conociendo el placer en la compra reducimos en un 0.397 la probabilidad de equivocarnos al adivinar

el sexo.

- Conociendo el sexo del entrevistado reducimos en un 0.408 la probabilidad de equivocarnos al adivi-nar el placer en la compra.

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

15/33

CUADRO 7.6:

LAMBDA DE GOODMAN Y KRUSKAL

Formulación: (Reynolds 1984: 50)

Reducción del error con más información RPE = _________________________________

Cantidad original de error

∑ modas - Moda de la frecuencia global V.D. Lambda = ____________________________________________

N - Frecuencia global variable dependiente

Cálculo con los datos de la tabla-7.2:

Con "disfrute en la compra" como dependiente:

(237 + 231) - 335

Lambda = _________________ = 0.408

6 6 1 - 3 3 5

Con "sexo" como dependiente:

(237 + 231) - 341

Lambda = ________________ = 0.397

6 6 1 - 3 4 1

Simétrica: (237 + 231) + (237 + 231) - 335 - 341

Lambda = ------ ----------------------------- - ----------- = 0.4025 (2 * 661) - 335 - 341

Estos resultados se interpretan teniendo en cuenta que el valor de Lambda varía entre 1 y 0, indican-do el primero asociación perfecta; todos los casos de la variable dependiente se concentran en una única ca-tegoría de la variable independiente. Como señala Reynolds (1984: 50) el cero no indica la ausencia total de relación, ya que en tablas con marginales muy desequilibrados podemos obtener un valor Lambda de 0 y sin embargo encontrar importante diferencias porcentuales. Dometrius (1992: 303) expone que en ocasio-nes el análisis de la tabla puede mostrar la existencia de una relación entre variables, y que el valor de Lambda sea 0 debido a que esta medida no es capaz de detectar tal relación. Esta situación le lleva a acon-sejar la utilización conjunta de Lambda con otras medidas como la V de Cramer, Phi o la Tau que expon-dremos a continuación. Una solución para evitar la influencia de los marginales desequilibrados es "estan-darizar la tabla calculando los porcentajes y tratándolos como si fueran frecuencias" (Reynolds, 1984: 35 y 67).

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

16/33

Otra de las medidas para analizar la reducción en el error de predicción de las variables nominales es la Tau de Goodman y Kruskal, fundamentada en una asignación de valores dentro de las categorías; conside-rando que la primera predicción es una asignación aleatoria de casos a las categorías de la variable depen-diente (Reynolds 1984: 57). A diferencia de Lambda que trataba de predecir la moda de la variable depen-diente, el objetivo de Tau es predecir la distribución de esta variable. En el resto de aspectos ambas son simi-lares.

Utilizando de nuevo los datos de la tabla 7.2 deseamos clasificar correctamente el placer en la compra ignorando, en un primer momento, el sexo del entrevistado. Como en el cálculo de Lambda, esto originará un error, que será comparado con el error cometido al considerar ambas variables. Si este último error es menor que el primero estará indicando que el sexo tiene una gran importancia a la hora de determinar el dis-frute con la compra: en primer lugar se clasificarán el número de personas que disfrutan en el acto de com-pra, conociendo que este hecho está presente en un 0.493 (326/661) de los entrevistados; mientras que un 0.507 (335/661) de los entrevistados no disfrutan con la compra. Teniendo en cuenta estos porcentajes po-dríamos realizar otro estudio con 100 entrevistas, obteniendo que 49 personas disfrutan con la compra y 51 no. En vez de seleccionar lo que podría pasar con otra muestra, la Tau considera cada una de las frecuencias marginales como submuestras, calculando en cada una el número de personas que disfrutan con la compra.

Las 326 personas que forman la primera fila se consideran como una muestra completa, y son multi-plicadas por el porcentaje de personas que disfrutan en la compra, permitiendo conocer que el número de clasificaciones correctas asciende a 161 (326 * 0.493 = 161). Seleccionados los que no disfrutan en el acto de compra, el número de clasificaciones correctas aumenta a 170 (335 * 0.507). La unión de ambas nos in-forma de que podríamos clasificar correctamente 331 entrevistados (161 + 170), de modo que la probabili-dad de clasificación errónea será del 0.4992 (330/66 l).

Como se ha visto en el párrafo anterior la evaluación de los errores cometidos al clasificar el disfrute en la compra considerando únicamente la distribución de la variable dependiente asciende a 330. Será nece-sario conocer el número de errores cometido cuando se consideran ambas variables a fin de distinguir el efecto del sexo. Veamos la cantidad de error al tener en cuenta ambas variables: considerando en un primer momento la primera fila (disfrutan comprando) un 0.2730 (89/326) de los hombres disfrutan comprando, hecho que supone 24 (0.2730 * 89) clasificaciones correctas. Dentro de las mujeres el ratio de disfrute en la compra es notablemente superior (237/326 0.7270), consiguiendo así un número mayor de clasificaciones correctas (0.7270 * 237 172).

Entre los que manifiestan aburrirse en el acto de compra hay un 0.6895 (2311335) de hombres, que supone 159 (0.6895 * 231) correctas clasificaciones. En el caso de las mujeres, el 0.3104 (104/335) se abu-rren en la compra, llegando a reducirse el número de clasificaciones correctas a 32 (0.3104 * 104). El nú-mero de predicciones correctas considerando ambas variables asciende a 387 (24 + 172 + 159 + 32), que su-pone 274 (661 - 387) clasificaciones erróneas. Así el porcentaje de predicciones erróneas tras utilizar la información de ambas variables es del 0.4145 (274/66 l).

Ahora bien, en términos relativos ¿cuánta mejora se produce en la clasificación al considerar ambas variables? Para ello será necesario restar al 0.499 obtenido anteriormente al clasificar con una sola varia-ble, el valor obtenido al considerar ambas (0.4145) y dividirlo entre la cantidad total del error: (0.4992 - 0.4145) / 0.4992 = 0.17. Este valor indica que se han reducido en un 17% los errores cometidos al predecir la colocación de los casos en las categorías de la variable dependiente (placer en la compra), mediante la in-formación que nos aporta la distribución de los casos de la variable independiente (Sexo). Esta medida varía entre 0 y 1, interpretando la magnitud conseguida de forma similar a la Lambda.

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

17/33

APÉNDICE [RJR] Notas I [RJR]: a) “Razón de Verosimilitud Ji-cuadrado: La razón de verosimilitud Ji-cuadrado es una al-ternativa al estadístico Ji-cuadrado (X2 = Chi cuadrado) de Pearson para contrastar la hipóte-sis de independencia entre las variables. Mientras el estadístico Ji-cuadrado de Pearson se ba-sa en las diferencias entre las frecuencias observadas y las frecuencias esperadas, la razón de verosimilitud Ji-cuadrado se basa en el cociente entre ellas…(si) el p-valor asociado a la razón de verosimilitud Ji-cuadrado (“Significance=0,00000”) también es menor que Pα = 0,05. En consecuencia, al nivel de significación 0,005, también se rechazará la hipótesis nula de independencia entre las variables…podría suceder que, para un mismo nivel de significa-ción, el p-valor asociado a uno de estas test, fuera menor que el nivel de significación, mien-tras que el p-valor asociado a la otra prueba fuera mayor, en dicho caso, debería optarse por el más conservador (por el que presente menor p-valor)”. Ferrán Aranaz, Magdalena (1996). SPSS para Windows. Programación y análisis estadís-tico. Madrid, Editorial McGraw-Hill. 1996. ISBN 84-481-0589-3, págs. 144-145. b) El Test de la Razón de Verosimilitudes: Como alternativa al contraste Chi-cuadrado, S. Wiks (1935), (“The Likelihood test of independence in contingency tables”, Annals of Mat-hematical Statistics, Nº 6, pág. 190), ha propuesto el siguiente estadístico:

2 ii

i

i

i

o

:: , es decir, la cantidad de casos

o de valores que se han registrado para cada valor de la variable,si es una tabla de contingencia.

(f )Frecuencias observa

FG 2 F * ln

E

F

E

das

Frecuenc:

siendo

e suponiendo que la hipótesisnula que se ensaya es verdadera.

ias espera (f )d , as

(en general), se obtienen resultados muy similares en todos los casos y, por lo tanto, el uso de uno u otro procedimiento sería, en principio, indiferente. Ello no obstante, el test de la razón de verosimilitud presenta una ventaja con respecto al Chi-cuadrado: No requiere que to-das frecuencias esperadas sean mayores 5.” García, Roberto M. (1995). Contraste Chi-cuadrado. Buenos Aires, Cuadernos de UADE nº 123, Departamento de Matemática y Métodos Cuantitativos, UADE, 1995, ISBN 987-519-1-012-8, pág. 27. c) Chi cuadrado de la razón de verosimilitud Likelihood ratio chi square Estadístico de bondad de ajuste similar al Chi cuadrado de Pearson. Para tamaños de muestra grandes, los dos estadísticos son equivalentes. La ventaja del chi cuadrado de la razón de ve-rosimilitud es que puede subdividirse en una serie de partes interpretables por separado que, sumadas, equivalen al total. Diccionario Estadístico, http://www.estadistico.com/dic.html?p=122 d) “…cuando se pide el test de Ji-Cuadrado al programa, SPSS proporciona además la Razón de Verosimilitud (Likelihood Ratio), y el “Mantel-Haenzel Test” (Asociación lineal por li-neal). El primero de estos está basado en la teoría de máxima verosimilitud, y su valor es dos veces la suma de las frecuencias observadas de cada celda multiplicadas por el logaritmo ne-periano de la frecuencia observada dividida entre la frecuencia teórica. Con grandes tamaños de muestra adopta valores similares al test Ji-Cuadrado. El “Mantel-Haenzel Test” es una me-dida de avocación que analiza la relación existente entre las filas y columnas de una tabla; y se calcula multiplicando el coeficiente de correlación de Pearson por el número de casos menos

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

18/33

uno. Como ha señalado Norusis, hay que tener en cuenta que únicamente debe ser utilizado con variables ordinales y de intervalo (Norusis, 1990:131). Díaz de Rada, Vidal (1999): Técnicas de análisis de datos para investigadores sociales. Aplicaciones prácticas con SPSS para Windows: Madrid, Ra-Ma, 1999, p. 171. [RJR] Nota II [RJR]:

“Análisis de los Residuos: La prueba de la Ji-cuadrada que hemos explicado en 6.3.1. sirve para ver si la relación entre un par de variables es estadísticamente significati-va. El análisis de los residuos va a utilizar las ideas de la ji-cuadrada para estudiar de una ma-nera pormenorizada la tabla: en lugar de ver si las dos variables están relacionadas estudia-mos la relación entre cada pareja de categorías. Básicamente, el análisis de los residuos (diferencia entre valor observado (fo), Oij) y el valor esperado (fe), Eij) es una aplicación de la Ji-cuadrada al estudio de las parejas de cate-gorías: observamos las frecuencias obtenidas y las comparamos con las esperadas…si la pare-ja de categorías no estuviera relacionada –el cálculo se realiza según el procedimiento explica-do en 6.3.1. De la magnitud del residuo concluiremos sobre la relación entre las cate-gorías…Cada casilla de la tabla incluye el número de casos, o valores observados (COUNT), los valores esperados (EXPECTED), la diferencia entre observados y esperados (RESID), los residuos estandarizados (SRESID) y estos mismos residuos ajustados según procedimiento de Haberman (ASRESID). Veamos el cálculo de cada uno de estos valores: Los residuos (RESID):

ij(RESID) R ( )ij ijO E

donde Oij y Eij son los valores observados y esperados, respectivamente, en casilla definida por la fila i y la columna j”. Sánchez Carrión, Juan Javier (1995): Manual de análisis estadístico de los datos, 2ª ed. Revisada, Madrid, Alianza Editorial, 1999, capítulo 6: Las tablas de contingencia: relación en-tre variables nominales (ordinales), pp. 341-344. [RJR]. “La diferencia entre un valor observado y el valor pronosticado por el modelo. El valor pronos-ticado es el número de casos que se esperarían en la casilla si no hubiera relación entre las dos variables. Un residuo positivo indica que hay más casos en la casilla de los que habría en ella si las variables de fila y columna fueran independientes”. SPSS 11.51, Ayuda contextual, Tablas de Contingencia, Chi Cuadrado, Mostrar en las cel-das, Residuos. [RJR] Los residuos estandarizados (SRESID):

ij(SRESID) SR ( ) /ij ij ijO E E

Estos residuos eliminan el efecto que sobre el valor del residuo puedan tener los margi-nales de ambas variables” Sánchez Carrión (1995: 341-344). [RJR] “El residuo dividido por una estimación de su error típico. Los residuos tipificados, que son co-nocidos también como los residuos de Pearson o residuos estandarizados, tienen una media de 0 y una desviación típica de 1”. SPSS 11.51, Ayuda contextual, Tablas de Contingencia, Chi Cuadrado, Mostrar en las cel-das, Residuos tipificados. [RJR]

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

19/33

Los residuos ajustados (ASRESID):

ij(SRESID) AR /ij ijSR V

donde Vij es la varianza estimada de SRij ,de valor igual a:

. .1 ( / ) 1 ( / )ij i jV O n O n

siendo Oi. y O.j son las frecuencias observadas, respectivamente, en la fila i y la columna j, y n el tamaño de la muestra…Cuanto mayor sea el valor absoluto del residuo ajustado, ma-yor será la relación entre la pareja de categorías”. Sánchez Carrión (1995: 341-344). [RJR] “El residuo de una casilla (valor observado menos valor pronosticado) dividido por una estima-ción de su error típico. El residuo tipificado resultante viene expresado en unidades de desvia-ción típica, por encima o por debajo de la media”. SPSS 11.51, Ayuda contextual, Tablas de Contingencia, Chi Cuadrado, Mostrar en las cel-das, Residuos tipificados corregidos.[RJR] “Los Residuos tipificados corregidos de Haberman (1973). Estos residuos se distribuyen normalmente con media 0 y desviación típica 1. Se calculan dividiendo el residuo de cada casi-lla por su Error Típico (ES o SE), que en tablas bidimensionales se obtienen como la raíz cua-drada de: mij (1-ni) (1-nj)/n2 . La gran utilidad de los Residuos tipificados corregidos radica en que, puesto que se distri-buye normalmente con media cero y desviación típica uno, N (0,1), son fácilmente interpreta-bles: utilizando un nivel de confianza de 0,95, podemos afirmar que los residuos mayores de 1,96 delatan casillas con más casos de los que debería haber en esa casilla si las variables es-tudiadas fueran independientes; mientras que los residuos menores de -1,96 delatan casillas con menos casos de los que cabría esperar bajo la condición de independencia. En tablas de contingencia con variables nominales, una vez que hemos establecido que entre dos variables existe asociación significativa (mediante el estadístico Chi-cuadrado) y que hemos cuantificado esa asociación con algún índice de asociación (Coeficiente de Contingen-cia, CC), los residuos tipificados corregidos constituyen la mejor herramienta disponible para poder interpretar con precisión el significado de la asociación detectada…Los distintos porcen-tajes pueden ayudarnos a intuir posibles pautas de asociación, pero son los Residuos tipifi-cados corregidos los que nos permite interpretar de forma precisa la relación existente entre las variables…Basta con fijarnos en aquellos (puntajes z) que son mayores que +1,96 o meno-res que -1,96.”. [Ver ejemplo Tabla 5 y 6 en Nota IV d)] Guía 10.0 SPSS para el Análisis de Datos, capítulo 12: Análisis de variables categóricas, p. 39 y 41. (En línea): http://www.uca.es/serv/sai/manuales/spss/Pantalla/12contin.pdf [Consulta: 10 de octubre de 2004] Nota III: [RJR] “Prueba Estadística de Fisher: Prueba estadística ideada para el caso de tablas dicotómicas en las que no se pueda aplicar el test X2 por ser la frecuencia o frecuencias de alguna de sus casillas más bajas que lo permitido por dicho test, es decir, inferiores a cinco. Fórmula:

(a+b)!(c+d)!(a+c)!(b+d)!

P=N! a! b! c! d!

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

20/33

Tiene el inconveniente de la dificultad de su cálculo por el número de factoriales (!) que com-prende la fórmula (El paquete estadístico SPSS calcula automáticamente esta prueba)”. Sierra Bravo, Restituto (1991): Diccionario Práctico de Estadística, Madrid, Editorial Para-ninfo, 1991, p. 379. [RJR] “En caso de tablas de 2 X 2 (las dos variables dicotómicas o dicotomizadas mediante un pun-to de corte), p-value asociado al estadístico Ji-cuadrado de Pearson puede ser poco preciso. En el caso de que el número total de observaciones en la muestra sea grande, una alterna-tiva al estadístico Ji-cuadrado de Pearson, que incorpora una corrección por continuidad y, por lo tanto, un p-value más preciso, es Ji-cuadrado por Corrección de Continuidad de Yates puede ser poco preciso. En el caso de que el número total de observaciones en la muestra sea grande, una alternativa al estadístico. Si el tamaño muestral es pequeño, me-diante la prueba de la probabilidad exacta de Fisher, se puede calcular la probabilidad exacta de observar un conjunto particular de frecuencias en una tabla 2 X 2. El propio pro-grama SPSS optará por una u otra de las pruebas en función del tamaño muestral y de las frecuencias esperadas en las celdas” Ferrán Aranaz, Magdalena (1996): SPSS para Windows. Programación y Análisis Esta-dístico, Madrid, McGraw-Hill, 1996, capítulo 7: Tablas de contingencia y medidas de asocia-ción, p. 145. [RJR] Nota IV: [RJR] Pruebas de independencia: [La Independencia estadística entre dos variables se puede comprobar, también, de cinco (5) modos alter-nativos: a) Una manera es calculando la proporción entre la frecuencia condicional de una celda y la frecuencia

marginal de columna, comparándola con la proporción entre la correspondiente frecuencia margi-nal, de esa fila, y la frecuencia total. Si se da una igualdad entre ambas proporciones, se comprueba que ambas variables son independientes. Es decir, que la distribución condición es igual a la distribución marginal, o lo que es lo mismo, la distribución bivariada se comporta del mismo modo que la distribu-ción univariada. Por lo que la conclusión es que la introducción de la segunda variable en las columnas no afecta, no modifica las distribuciones condicionales. En caso contrario, que se de una desigualdad en-tre las proporciones, se sostiene la No independencia entre las categorías, y generalizando, entre las va-riables comparadas. Obsérvese que no se afirma la dependencia entre las variables, sino la No indepen-dencia entre las mismas.

b) Otro modo de comprobar lo mismo es recurrir a la Prueba de independencia, en el marco de la Teoría de Clásica de la Probabilidad formulada por Jean Batiste Laplace, donde se compara la probabilidad sim-ple de un evento con su probabilidad condicional.

En las siguientes tablas se dan simbólicamente, y se expresan analíticamente ambos casos.

TABLA I

Variable X Variable Y 0 1 Total

1 a b a+b 0 c d c+d

Total a+c b+d n

[Elaboración propia][RJR]

a) Igualdad de proporciones entre distribuciones condicionales y marginales:

Independenciad c d

b d n

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

21/33

a) Prueba de independencia 2ª Ley de la Multiplicación de Laplace para Suceso simultáneos depen-dientes:

P(A)=P A/B Independencia

(Se lee: Si la P(A) es igual a su Probabilidad Condicional, es decir, la P(A sabiendo que se ha dado B), se concluye que ambas categorías son independientes)

Aplicando ambos criterios a una tabla empírica, para averiguar si el Sexo es independiente o no respecto del Estado Civil, tenemos:

TABLA 2

Sierra Bravo (1991: 365) PA/B P(A)

b) La proporción entre la distribución condicional comparada con la distribución marginal, del ejemplo,

da: f (viudo)/f (total) ≠ f (viudo y mujer)/f (mujer) 5.000/40.000 ≠ 4.000/21.000 0,125 ≠ 0,191 No independencia

La desigualdad nos confirma que el hecho de ser mujer No es independiente del Estado Civil que se posee. Se pueden comparar las proporciones de cada una de las celdas y se obtendrá la misma conclusión para cada par de categorías. Por lo que podemos generalizar las conclusiones para el conjunto del cuadro bivariado: el Sexo No es independiente del Estado Civil. b) Si P(A) es la Probabilidad Simple de que una persona sea “Viudo”, es decir, la Probabilidad de ser Viu-do, es igual a la cantidad de Viudos divido el Total de personas, es decir: P (Viudo) = 5.000/40.000= 0,125 Y P (B) la Probabilidad Simple de que una persona sea “Mujer”, es igual: P (Mujer)= 21.000/40.000= 0,525 Pero, P(A/B) es la Probabilidad Condicional de “Ser Viudo sabiendo que es Mujer”, es decir, la Probabili-dad de ser Viudo condicionado a que sea Mujer, es igual a: P (Viudo/Mujer)= 4.000/21.000= 0,191 Comparando los resultados, comprobamos que ambas probabilidades son distintas: P (Viudo) ≠ P (Viudo/Mujer) 0,125 ≠ 0,191 No independencia

Sexo Estado Civil Hombre Mujer Total

Solteros 8.000 5.000 13.000 Casados 10.000 12.000 22.000 Viudos 1.000 4.000 5.000 Total 19.000 21.000 40.000

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

22/33

Obsérvese que analíticamente, la expresión P (Viudo/Mujer)= f (viudo y mujer)/f (mujer),

con lo cual se demuestra que ambos criterios (a) y (b) de Prueba de Independencia son equivalente. c) Un tercer modo alternativo de análisis empírico de un cuadro bivariado es convertir las frecuencias abso-lutas en frecuencias relativas, es decir en porcentajes, y calcular la Diferencia Porcentual (d%). Para ello debemos tener en cuenta la Regla de Hans Zeisel 17: Porcentuar en el sentido de la variable independiente, -tomando como base el marginal de esta última- y comparar los porcentajes en sentido opuesto. También debemos observar la forma de la distribución condicional relativa (distribución diagonal o rinconal), e identificar las celdas verificadoras (circuladas en rojo en el ejemplo) y las celdas falsificadoras de la hipóte-sis que subyace al cuadro. En nuestro ejemplo:

TABLA 3

Obsérvese que los porcentajes resaltados en azul, coinciden con las proporciones y probabilidades obtenidas mediante los criterios alternativos (a) y (b). La Diferencia porcentual, nos indica la fuerza o intensidad re-lativa de la asociación entre las variables, y no solamente es una Prueba de Independencia. Si la d% = 0 indica independencia estadística, o asociación nula, y si la d% = 100, estaría señalando máxima asociación. En nuestro ejemplo, (d% = -13,8) indica leve asociación. Hubiese existido asociación nula –según los subín-dices de la TABLA 1- si los porcentajes hubiesen sido iguales:

00 01p p

viudo y hombre viudo y mujerp = p

Y hubiese existido algún grado de asociación si los porcentajes hubiesen sido:

00 01p p

viudo y hombre viudo y mujerp p

No obstante que, la diferencia porcentual como medida de asociación, actúa como medida de influencia de una variable X sobre otra Y, debe ser interpretada mediante la prueba t de diferencia de medias de pro-porciones para muestras independientes (Galtung, 1969, II: 241) para medir la significación estadística

17 Galtung, Johan (1966): Teoría y métodos de la investigación social, 2ª ed., Buenos Aires, Eudeba, Tomo II, 1969, p. 234: “La regla es muy simple: sacar porcentajes tomando siempre como base los valores de lo que se considera variable independiente en el modelo subyacente”.

Sexo (%) Estado Civil Hombre Mujer % d%

Solteros 42,1 23,8 32,5 18,3 Casados 55,6 57,1 55,0 -1,5 Viudos 5,3 19,1 12,5 -13,8 Total 100,0 100,0 100,0 ∑: 0

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

23/33

del tamaño de la diferencia, pues una d% = 10%, puede ser tanto la diferencia entre 95-85% como entre 25-15%. Si bien en ambos casos la d% es igual al 10%. En el primer caso la diferencia del 10% en proporción al porcentaje menor representa un incremento porcentual (∆%) del 11,76%:

95 85% 100 11,76%

85

Mientras que en el segundo caso la diferencia del 10% en proporción al 15% representa un incremento (∆%) del 66,67%. En este sentido, se puede opinar que es más significativo este segundo caso que el primero.

25 15% 100 66,67%

15

d) Un cuarto modo es, justamente, la prueba t de diferencias de proporciones de dos muestras independientes, que permite verificar diferencias entre proporciones o porcenta-jes (d%) de dos muestra (grandes) independientes. Los componentes del modelo son:

Modelo estadístico: Distribución de diferencias de proporciones muestrales, con media igual a la Media de la distribución diferencias de proporciones muestrales y con desvío standard igual al Error Estándar de las diferencias de proporciones muestra-les. En símbolos:

0D

1 1 2 2

1 2D

p q p q

n n

= ESD

Hipótesis estadísticas: La hipótesis nula plantea la igualdad de las proporciones en las dos muestras, o lo que es lo mismo, que su diferencia es igual a 0. Mientras que la hipóte-sis alternativa, la hipótesis del investigador, plantea que las proporciones muestrales son distintas, es decir, que sus diferencias son distintas de 0, divergiendo del mero azar. Sim-bólicamente:

0 1 2H 0p p D

1 1 2H 0; o 0p p D Estadístico de prueba: Caso I: t de Student para diferencias de proporciones muestrales independientes (muestras grandes).

1 2

1 2

1 1 2 2

1 2

%p p

D

p p dt

p q p qn n

Estadístico de prueba: Caso II: t de Student diferencias de medias de muestras independientes (mues-tras grandes).

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

24/33

1 2

1 2

1 2

2 21 2

1 2

X XD

X XD

DX Xt

s sn n

Cálculo del estadístico de prueba: Si aplicamos la prueba t para el caso II, al Fiche-ro Ventas-Beneficios-1994-95 X 83 empresas18 para poner a prueba la hipótesis nula de la no existencia de diferencia entre las medias de Beneficios antes de impuestos en l995 (bai95) entre empresas del sector servicios e industriales. Para ello, debemos dar los siguientes pasos: i. Recodificar la variable Sector (sector) asignando los viejos códigos del sector de activi-dad de la variable sector a la nueva variable dicotomizada sectorb, categorizada en Sector Servicios (1) y Sector Industrial (2). Dato que la prueba t compara dos medias en base a una variable de agrupación dicotómica. ii. Luego se abre la cuadro de diálogo: Comparar medias>Prueba T para muestras in-dependientes…, del menú Analizar. iii. En dicho cuadro seleccionamos la variables bai95 y la pasamos a la ventana Contras-tar variables (Test Variable), en Variables de agrupación, seleccionamos la nueva va-riable que recodifica los sectores: sectorb.

/h ardco-py/98_1.html iv. Luego se definen los grupos: Usar valores especificados O Punto de corte. Oprimir Continuar para volver a la ventana original o primaria. Y luego Aceptar.

SPSS ejecuta el comando T-Test y arroja dos tablas con los resultados que se observan en el Visor de SPSS:

TABLA 4

18 Visauta Vinacua, Bienvenido (1997): Análisis estadístico con SPSS para Windows (6.1), Madrid, McGraw-Hill, 1997, capítulo 4: Test de hipótesis: Comparación de medias, pp. 111-114.

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

25/33

Estadísticos de grupo

Sector-Servicio-Industria N Media Desviación típ. Error típ. de la media

Beneficios antes de impuestos (1995)

Sector Servicios 39 23.068,74 50.154,834 8.031,201

Sector Industrial 36 10.774,83 32.247,476 5.374,579

TABLA 5

Prueba de muestras independientes

vi. Luego para visualizar los resultados reemplazamos en la fórmula del estadístico t los datos obtenidos en el output y confirmamos el t-value:

1 2

12.293,911, 251

9.827,639X Xt

vii. Por último, tomamos la decisión estadística con relación a la hipótesis nula. Dado que aplicando la Regla de Decisión de Fisher, tenemos que:

Si P-Value < P H0 y H1 Pero: Si 0,215 > 0,05 H0 y H1 y concluimos que no hay diferencias en los Beneficios antes de impuestos en 1995, en las 83 empresas entre los Sectores Servicios e Industria. d) Por ultimo, una quinta forma de probar la hipótesis de independencia es mediante el es-tadístico Chi Cuadrado. En la tabla 6: Destino de sobrevivientes al hundimiento del TITANIC by Sexo, po-nemos a prueba la hipótesis nula de que no hay diferencias entre los hombres y mujeres que perecieron. En cambio el investigador sostendrá que en los datos se puede poner a prueba la hipótesis de que en el siniestro del TITANIC se evidenció una vez más la aplica-ción del principio marinero “Primero las mujeres y los niños y segundo los hombres”. Por lo que esperaríamos hallar en la celda verificadora (circulada en rojo) ‘mujeres/niños’ y ‘sobrevieron’ una proporción (p) mayor que en la celda ‘hombre’ y ‘sobrevivieron’. Obser-vemos qué decisión nos indica tomar Chi Cuadrado respecto de la hipótesis nula.

Prueba de Le-vene para la

igualdad de va-rianzas

Prueba T para la igualdad de medias

F Sig. t gl

Sig.(bila-teral)

Diferencia de medias

Error típ. de la dife-

rencia

95% Intervalo de confianza para la diferencia

Inferior Superior Se han asumido varianzas iguales 2,356 ,129

1,251

73 ,215 12.293,91 9.827,639 -

7.292,54631.880,367

Benefi-cios an-tes de

impues-tos

(1995)

No se han asumi-do varianzas iguales

1,27

265,413 ,208 12.293,91 9.663,658

-7.003,436

31.591,256

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

26/33

0 hombres y sobrevivieron mujeres y sobrevivieron

1 hombres y sobrevivieron mujeres y sobrevivieron

H % 0

H % 0

p p d

p p d

TABLA 6

Tabla de contingencia Destino en el hundimiento del TITANIC * Sexo de pasajero

Sexo del pasajero

Hombres

Mujeres-Niños

Total d%

Recuento 637 163 800

% de Sexo de pasajero

82,2% 32,0% 62,3% +50,2%

Residuo 154,5 -154,5

Residuos tipifica-dos

7,0 -8,7

Perecieron

Residuos corregi-dos

18,2 -18,2

Recuento 138 347 485

% de Sexo de pasajero

17,8% 68,0% 37,7% -50,2%

Residuo -154,5 154,5

Residuos tipifica-dos

-9,0 11,1

Destino en el hundimiento

Se salvaron

Residuos corregi-dos

-18,2 18,2

Total Recuento 775 510 1285

% de Sexo de pasajero

100,0% 100,0% 100,0%

Sanchez Carrión (1999: 331-333) (S.S. Titanic, White Star Line, 14 de abril de 1912)[RJR]

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

27/33

TABLA 7

Pruebas de chi-cuadrado

Valor gl Sig. asintótica

(bilateral) Sig. exacta (bilateral)

Sig. exacta (unilateral)

Chi-cuadrado de Pearson 330,307(b) 1 ,000 Corrección por continuidad de Yates (a) 328,172 1 ,000

Razón de verosimilitud 338,182 1 ,000 Estadístico exacto de Fisher ,000 ,000

Asociación lineal por lineal 330,050 1 ,000

N de casos válidos 1285

a Calculado sólo para una tabla de 2x2. b 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 192,49.

TABLA 8

Medidas simétricas

Valor Sig. aproxi-

mada

Nominal por nominal Phi ,507 ,000

V de Cramer ,507 ,000

Coeficiente de Contingencia ,452 ,000

N de casos válidos 1285

a Asumiendo la hipótesis alternativa. b Empleando el error típico asintótico basado en la hipótesis nula. Las conclusiones que se pueden obtener a partir de los resultados de las distintas medias, pruebas y coeficientes, son:

(La diferencia porcentual (d% = 82,2-32,0=50,2%) actúa como medida de la influencia que tuvo el sexo en la suerte corrida por los pasajeros.

(Se confirma una distribución diagonal de las frecuencias condicionales relativas, efectivamen-te, la celda verificadora esperada según el principio marinero, confirma que el porcentaje de mujeres/niños que sobrevivieron es 3,8 veces más (68,0/17,8) que los hombres que se salva-ron. Siendo importante esta magnitud de la diferencia porcentual.

( Los Residuos tipificados corregidos (± 18,2) se ubican a 9,2 Desvíos Standard respecto del valor crítico ±1,96 esperado por azar, con un intervalo de confianza de .95. Un tal desvío no puede ser atribuido al azar sino que cabe esperar que para producirse una tal diferencia es probable (95 veces de cada 100) que haya operado una decisión y una voluntad en el alto mando del S.S. TITANIC, de hacer cumplir el principio marinero de salvar a las mujeres y ni-ños primero.

( El valor del Chi cuadrado calculado o empírico (Chi-square value) es de una magnitud muy grande (330,307) y acusa una Significación asintótica bilateral de .000. Esta cifra es una probabilidad y significa = P-Value. Cuando esta probabilidad es inferior a 0,05, (P : Nivel de

Significación = 5%) se suele rechazar la hipótesis de independencia Ho de no relación entre las variables –según la Regla de decisión de Fisher-, para aceptar la hipótesis alternativa H1, que indica que la relación entre las variables existe y es estadísticamente significativa y no se debe al azar. En símbolos:

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

28/33

αP 0,05

Resumen del modelo

Chi square value: 330, 337 Chi Cuadrado-Corrección por continuidad de Yates: 328,172 P : 0,05 (Nivel de significación)

P-value: 0,000 (Significación asintótica bilateral) Grados de Libertad: 1 [(df: (c-1)*(f-1)] Chi Cuadrado de Tabla: 7,87944 (Ver Tabla de Chi Cuadrado para 1 gl y P :

0,05) Regla de decisión de Fisher:

Si P-Value < P H0 y H1

Si 0,000 < 0,05 H0 y H1

Regla de decisión de Pearson:

2 2calculado tabla 0 1Si X > X H H

0 1Si 330,337 > 7,87944 H H

Distribución de la Curva de Chi-Cuadrado:

0Rechazo H

0Aceptacion H P-value= 0,000

Zona de Riesgo

2 2

teorico 1;0,05X X 7,87944 2calculadoX 330,337Chi square value

[Elaboración Propia: Rubén José Rodríguez]

Finalmente, la magnitud de los coeficientes de asociación indican, efectivamen-te, una relación entre ambas variables del orden de 0,452 y 0,507. Expresando una mediana fuerza de asociación teniendo en cuenta que estos coeficientes varían entre 0 y 1.

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

29/33

CALCULADORA CHI-CUADRADO19

CORRECCION DE CONTINUIDAD DE YATES

A B SUM

I 637

163

800

II 138

347

485

SUM

775

510

1285

Chi-square value (X): 328.172423

Difference (p<0.05)? yes

Difference (p<0.01)? yes

Clear

19 Calculadora Chi Cuadrado-Corrección por continuidad de Yates. (En línea): Fuente: http://members.tripod.com/~gineco/CHISQUAR.HTM [Consulta: 11 de octubre de 2004]

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

30/33

Right tail areas for the Chi-square Distribution

Área o Probabilidad del Nivel de Significación (P Alfa) a la derecha del Valor Crítico de Chi Cuadrado

df .995 .990 .975 .950 .900 .750 .500 .250 .100 .050 .025 .010 .005

1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944

2 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663

3 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.34840 11.34487 12.83816

4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.27670 14.86026

5 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.35146 6.62568 9.23636 11.07050 12.83250 15.08627 16.74960

6 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.34812 7.84080 10.64464 12.59159 14.44938 16.81189 18.54758

7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774

8 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495

9 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935

10 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818

11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.34100 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685

12 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.34032 14.84540 18.54935 21.02607 23.33666 26.21697 28.29952

13 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.33976 15.98391 19.81193 22.36203 24.73560 27.68825 29.81947

14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935

15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132

16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.33850 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719

17 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847

18 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.33790 21.60489 25.98942 28.86930 31.52638 34.80531 37.15645

19 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226

20 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685

21 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106

22 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565

23 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.33688 27.14134 32.00690 35.17246 38.07563 41.63840 44.18128

24 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851

25 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.31410 46.92789

26 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988

27 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492

28 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338

29 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562

30 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196

Técnicas de análisis de datos para investigadores sociales. Aplicaciones con SPSS -Vidal Díaz de Rada

Relación entre variables nominales/Chi Cuadrado/Capítulo 7: Análisis Bivariante, Vidal Díaz de Rada

31/33