Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. ·...

24
Relaciones entre variables Vicente Manzano Arrondo – 2013 Una de las características que define a las personas es nuestra inquietud por entender el mundo que nos rodea. Nos suele resultar interesante y positivo comprender qué ocurre y qué lo justifica. Este interés no tiene por qué tener una forma científica ni un procedimiento sistemático de investigación que lo resuelva. A pesar de ello, nos acompaña en la cotidianidad. Aunque hasta la fecha no he prestado atención a la moda en la forma de vestir (no es una postura ideológica, sino un desinterés espontáneo), diversas conversaciones me han generado curiosidad y llevo una temporada procurando enterarme de qué pasa con ello. Observo, por ejemplo, que las chicas están llevando con mucha frecuencia pantalones llamados “de pitillo”, muy ajustados, incluso mallas que suelen ser de colores muy llamativos (rayas de contraste, imitación a piel de leopardo, etc.). Con mucha frecuencia veo también a otras que llevan unos pantalones muy cortos, lo suficiente como para mostrar la parte inferior de los glúteos. Justo antes de estas semanas pre- veraniegas, cuando todavía “hacía fresquito”, observé que los pantalones estrechos terminaban en el interior de botas altas en no menos de la mitad de las transeúntes, sin demasiadas diferencias por edad. En los chicos, profusión de pantalones vaqueros anchos, que finalizan casi invariablemente en calzado deportivo que con mucha frecuencia son de color blanco o azul... Las mujeres mayores visten de una forma que depende mucho de la zona de la ciudad por donde transite, a grandes rasgos si es más humilde o menos, o si se encuentra en la cercanía de centros de moda. En todos los casos comienzo a observar que aumenta la frecuencia de prendas de colores muy vivos, casi brillantes, que abarcan desde camisetas a zapatos. La verdad es que resulta entretenido. Se trata de observación, y no sistematizada, sino la que llevan a cabo muchas personas, puesto que conversar esto con gente me permite comprobar que mis descubrimientos son ridículos comparados con la riqueza de matices de quienes han elaborado una sofisticada y casi exhaustiva capacidad para captar la moda inmediatamente. Todavía soy un aficionado. Relacionando El párrafo anterior pretende mostrar que las personas tenemos interés por atender a nuestro entorno y sacar conclusiones. No podemos evitarlo. Forma parte de nuestra naturaleza. Quienes no se fijan en cómo se viste mayoritariamente, atienden a otras cosas, a la organización de las calles, al estilo de los edificios, a la comunicación de las parejas, a la forma de conducir, a la estética de las bicicletas, al ritmo de los autobuses, a... No solo atendemos, también sacamos conclusiones. En mi caso, por lo general, soy capaz de contarte cómo creo que se sentía cada una de las cuatro personas que estaban conversando ante mí, pero sin haber retenido ninguna característica de lo que llevaban puesto. El ejemplo de la moda nos sirve también para ello, puesto que la observación permite identificar regularidades, estableciendo conclusiones como “ahora se está llevando esto o aquello”. Una de las inquietudes más interesantes se refiere al establecimiento de relaciones entre variables. Está claro que no utilizamos este vocabulario en la vida cotidiana. No acudimos a expresiones como “He observado una relación de variables. Atiende”. Alguien afirma, por ejemplo, “Hoy es lunes. Cuidado con el humor de Pedro”. Parece ser que esta 1

Transcript of Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. ·...

Page 1: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

Relaciones entre variablesVicente Manzano Arrondo – 2013

Una de las características que define a las personas es nuestra inquietud por entender el mundo que nos rodea. Nos suele resultar interesante y positivo comprender qué ocurre y qué lo justifica. Este interés no tiene por qué tener una forma científica ni un procedimiento sistemático de investigación que lo resuelva. A pesar de ello, nos acompaña en la cotidianidad.

Aunque hasta la fecha no he prestado atención a la moda en la forma de vestir (no es una postura ideológica, sino un desinterés espontáneo), diversas conversaciones me han generado curiosidad y llevo una temporada procurando enterarme de qué pasa con ello. Observo, por ejemplo, que las chicas están llevando con mucha frecuencia pantalones llamados “de pitillo”, muy ajustados, incluso mallas que suelen ser de colores muy llamativos (rayas de contraste, imitación a piel de leopardo, etc.). Con mucha frecuencia veo también a otras que llevan unos pantalones muy cortos, lo suficiente como para mostrar la parte inferior de los glúteos. Justo antes de estas semanas pre-veraniegas, cuando todavía “hacía fresquito”, observé que los pantalones estrechos terminaban en el interior de botas altas en no menos de la mitad de las transeúntes, sin demasiadas diferencias por edad. En los chicos, profusión de pantalones vaqueros anchos, que finalizan casi invariablemente en calzado deportivo que con mucha frecuencia son de color blanco o azul... Las mujeres mayores visten de una forma que depende mucho de la zona de la ciudad por donde transite, a grandes rasgos si es más humilde o menos, o si se encuentra en la cercanía de centros de moda. En todos los casos comienzo a observar que aumenta la frecuencia de prendas de colores muy vivos, casi brillantes, que abarcan desde camisetas a zapatos. La verdad es que resulta entretenido. Se trata de observación, y no sistematizada, sino la que llevan a cabo muchas personas, puesto que conversar esto con gente me permite comprobar que mis descubrimientos son ridículos comparados con la riqueza de matices de quienes han elaborado una sofisticada y casi exhaustiva capacidad para captar la moda inmediatamente. Todavía soy un aficionado.

Relacionando

El párrafo anterior pretende mostrar que las personas tenemos interés por atender a nuestro entorno y sacar conclusiones. No podemos evitarlo. Forma parte de nuestra naturaleza. Quienes no se fijan en cómo se viste mayoritariamente, atienden a otras cosas, a la organización de las calles, al estilo de los edificios, a la comunicación de las parejas, a la forma de conducir, a la estética de las bicicletas, al ritmo de los autobuses, a... No solo atendemos, también sacamos conclusiones. En mi caso, por lo general, soy capaz de contarte cómo creo que se sentía cada una de las cuatro personas que estaban conversando ante mí, pero sin haber retenido ninguna característica de lo que llevaban puesto. El ejemplo de la moda nos sirve también para ello, puesto que la observación permite identificar regularidades, estableciendo conclusiones como “ahora se está llevando esto o aquello”.

Una de las inquietudes más interesantes se refiere al establecimiento de relacionesentre variables. Está claro que no utilizamos este vocabulario en la vida cotidiana. No acudimos a expresiones como “He observado una relación de variables. Atiende”. Alguien afirma, por ejemplo, “Hoy es lunes. Cuidado con el humor de Pedro”. Parece ser que esta

1

Page 2: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

persona ha observado que los lunes Pedro viene con un humor difícil de soportar. Se tratade una relación, aunque no se ha enunciado de un modo similar a “Ser o no ser lunes y el estado o concreción del humor de Pedro son dos variables relacionadas entre sí”. No solemos comportarnos de ese modo en la vida cotidiana. Quienes lo hacen (no conozco anadie) podrían recibir la valoración de gente rara o pedante. Sin embargo, en el mundo dela ciencia, es así como hay que expresarse porque de otro modo nuestra comunicación sería difícil y ambigua.

Doy clases a los grupos grandes C y D. A primera hora de la mañana tenemos sesión de “grupo pequeño”, grupos formados por la cuarta parte de un grupo grande. He observado que los grupos pequeños del C suelen venir muy poco o incluso no asisten, mientras que los grupos pequeños del D, sí, aunque tampoco en masa. Hay una posible conclusión común a todos: hay poco éxito de convocatoria. Cuando he hablado de esto con algún estudiante, me dice algo así como “Es que tus clases de grupo pequeño no sonobligatorias, no puntúa la asistencia, y también nos dedicamos a cosas que no se preguntan directamente en el examen”. Fijaos que ya hemos acumulado dos relaciones en lo que va de párrafo. De forma esquemática:

Relación 1:– Variable A: asistir más o menos a las clases de grupo pequeño.– Variable B: pertenecer al grupo grande C o D.

Relación 2:– Variable A: asistir más o menos a las clases de grupo pequeño.– Variable C: puntuar o no la asistencia.– Variable D: abordar o no en grupo pequeño conocimientos que serán directamente

evaluados en el examen final.

Una variable es algo que varía, es decir, que muestra diferentes estados o concreciones, que denominamos valores. Si todos los grupos pequeños aparecieran con la misma frecuencia (asistieran siempre o siempre asistiera la mitad, por ejemplo), ya no tendríamos variable A, sino constante A. Cuando hablamos de relación, nos referimos a relación entre variables. Una variable no se relaciona consigo misma. También podríamos decir que la relación de una variable consigo misma es total, lo que resulta una simpleza inútil. Necesitamos al menos dos variables para hablar de relación. En la relación 1 tenemos dos variables, A y B. En la relación 2, contamos con tres variables, A, C y D.

Si existe relación entre variables significa que existe covariación, es decir, que el modo en que varían es más o menos conjunto. En otras palabras: observamos que cuando se da variación en una variable y en un sentido concreto, también se da variación en la otra u otras variables y también en un sentido concreto. En la relación 1, esamos sospechando que al variar el grupo grande de C a D, parece que aumenta la asistencia a grupo pequeño. En la relación 2, creemos que al pasar de no puntuar a sí puntuar la asistencia y al pasar de no medir directamente a sí medir directamente en el examen los conocimientos adquiridos en grupo pequeño, la asistencia en este aumentará. Podemos observar variación en dos variables, pero no encontrar covariación, es decir, no observar ningún indicio de que varían de forma conjunta (en alguna medida). Por ejemplo, una mosca a mi alrededor vuela con apariencia desordenada. Su posición varía, por lo que tenemos una variable: posición de la mosca en el espacio. Por otro lado, la sangre de mi cuerpo circula a una velocidad que varía según los latidos. Tenemos entonces otra variable. Las dos (posición de la mosca, velocidad de mi sangre) son variables, pero no

2

Page 3: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

observo ninguna relación, es decir, no hay datos, información, indicios o sospechas de que posición de mosca y velocidad de sangre varíen de forma conjunta.

En la práctica estadística, lo usual es cuantificar la relación, es decir, traducir el grado de relación en un número concreto. Para cuantificarla necesitamos un procedimiento. Los procedimientos tienen nombre. Imagina que se nos ocurre un procedimiento de cuantificación de una relación al que llamamos M de Martínez. Aplicamos la M de Martínez a la relación entre la posición de la mosca y los latidos del corazón y obtenemos M = 0,1. Esto, así expresado, es como no decir nada. No podemos interpretarlo porque no sabemos cómo funciona la M de Martínez y, por tanto, qué hacer con un M = 0,1. Así que todos los procedimientos han de ir acompañados de criterios parasaber qué hacer con las cuantías. Por ejemplo, nuestra M puede funcionar así: va de 0 a 10; conforme más cerca esté de 0, menos relación; conforme más cerca esté de 10, más relación. Gracias. Con esto ya tenemos mucho, puesto que M = 0,1 es casi M = 0 y, por tanto, nos está indicando que la relación entre ambas variables es prácticamente nada. Hay que tener en cuenta que una relación de cuantía 0 es en la práctica imposible con máxima precisión. Tal vez sea 0,03 y la hemos redondeado a 0,0. Pero en sentido estricto,el 0 no existe en la naturaleza de las covariaciones. Siempre existe cierto ruido de fondo, cierta covariación sin ningún tipo de identidad. Esto hay que asumirlo. Por eso pedimos a las cuantías de las relaciones un mínimo para empezar a sospechar que está ocurriendo algo.

Fases en el estudio de una relación

Tras saber que las relaciones se cuantifican, existe el impulso inicial (para algunas personas incluso irrefrenable) de reducir el estudio de una relación a cuantificarla. Es un error. Ten en cuenta que el proceso de cuantificación genera un número. Es de sentido común considerar que un número, por muy bien conseguido que sea, no puede representar completamente una situación que por ser real es compleja y diversa. Por otro lado, la cuantificación se refiere únicamente al contexto de los datos con los que se ha trabajado directamente. Usualmente, ese conjunto de datos es una muestra. En tales casos, lo que nos interesa es la población, es decir, concluir sobre si existe o no relación osobre en qué medida podemos suponer que las variables se relacionan en la población. En otras palabras: la cuantificación es una etapa previa que sigue con la inferencia.

El esquema que seguimos en el estudio de cualquier relación será:

1. Estudio de las variables implicadas. En este curso abordamos únicamente las relaciones bivariables, es decir, entre dos variables. En la fase de estudio univariable, lo que nos interesa es conocer a cada una de ellas por separado. Esto es fundamental. Este estudio unitario nos permite: a) Familiarizarnos con las variables, conocerlas. b) Identificar comportamientos anómalos, datos erróneos o casos extraños que

pueden desvirtuar las conclusiones a nivel de relación. c) Escoger mejor (o adaptar) el procedimiento de cuantificación de la relación.

2. Estudio previo de la relación. Consiste en construir una representación gráfica o una tabla bivariada (que, como veremos, se llama tabla de contingencia). Es una descripción de conjunto que permite observar cómo se comporta la relación. Se puede observar, por ejemplo, que conforme una variable aumenta su valor, tambiénaumenta la otra. El estudio gráfico o tabular descubre aspectos importantes, tanto que puede concluirse que la relación es del todo evidente y no requiere

3

Page 4: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

cuantificación, o que es obvio que no existe relación y nos ahorramos del mismo modo el siguiente proceso, o que sería recomendable llevar a cabo algunas adaptaciones previas antes de cuantificar (por ejemplo, modificando la escala de medida de alguna de las variables).

3. Cuantificación. La cuantificación no termina con el número conseguido, sino con la interpretación del número. La interpretación consiste en concluir sobre si existe o no relación en el contexto de los datos. En otras palabras, concluiremos que con esos datos en concreto existe o no relación. El proceso viene a ser: a) Decisión del procedimiento. b) Aplicación del procedimiento (consecución del número) c) Interpretación del número. Sólo si concluimos que en este conjunto de datos

hay relación pasamos al punto d) d) Si estamos trabajando con la población: fin del proceso. Si no es así, es decir, si

estamos trabajando con una muestra, seguir en e) e) Si la muestra no es aleatoria, fin del proceso. Si es aleatoria, seguir en f) f) Llegados a este punto, resulta que hemos trabajado con una muestra aleatoria

y hemos obtenido una cuantía que indica la existencia de relación en la muestra. Solo en este caso pasaríamos a la fase 4, donde nos planteamos si ese efecto de relación en la muestra puede o no mantenerse en la población.

4. Inferencia. En la práctica consiste en la puesta en marcha de una prueba de significación de la hipótesis nula.

Recuerda: estudio de cada variable por separado, estudio de la relación mediante gráfica o tabla, cuantificación e interpretación, y solo en el caso de que estemos trabajando con una muestra aleatoria y la interpretación sea de presencia de relación en la muestra, ponemos en marcha la inferencia mediante una PSHN.

El universo de los procedimientos de cuantificación

Durante mucho tiempo muchas personas se han estado enfrentando al reto de idear procedimientos que cuantifiquen relaciones. El resultado es un océano de posibilidades. Hay procedimientos para muchas situaciones diferentes. No obstante, los más utilizados son muchos menos. Y los que nos interesan aquí, solo unos pocos. Lo importante en todo ello es:

1. Identificar correctamente en que tipo de situación me encuentro.2. Conocer qué procedimiento hay disponible para abordar esa situación.3. Aplicar correctamente el procedimiento para obtener la cuantía de relación.4. Interpretar bien esa cuantía, saber qué hacer con ella.

Los procedimientos de cuantificación de las relaciones se deben a las características de las situaciones, que pueden ser muy variadas, pero que suelen acotarse más o menos fácilmente con un conjunto limitado de aspectos a considerar. Existen muchas posibilidades, pero aquí nos bastarán con algunas de ellas. Lo que nos importa para orientarnos en las posibilidades de este curso es saber cuál es la escala de medida de las dos variables en juego y, en algunos casos, cuántos niveles, valores o categorías tiene la variable nominal, caso de existir. Como puedes suponer, en toda

4

Page 5: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

situación típica hay matizaciones según la diversidad de características que se encuentran en la práctica. Iremos abordando también estas situaciones.

En este mapa de posibilidades vamos a organizar los procedimientos en un esquema que considera cuáles son las escalas de medida de las variables implicadas. Vamos a considerar solo las nominales y las cuantitativas. Como sabes, las variables ordinales requieren un tratamiento que depende de la situación en que nos encontremos. Como principio general, trataremos la ordinal como una cuantitativa, salvo que la estrategia de medida sea claramente burda y cuente con pocos valores. En esta guía u orientación, cada combinación de escalas va a contar con cuatro apartados: cómo abordar el estudio previo de la relación (tabla o gráfica), cómo cuantificar, cómo interpretarla cuantía y como abordar la inferencia, caso de que proceda.

Dos variables nominales

Situación de partida

Queremos saber si los estudiantes de psicología y de económicas difieren en sus gustos literarios. Para comprobarlo, escogemos una muestra aleatoria de 40 estudiantes entre estas dos titulaciones y les presentamos tres títulos, cada uno de ellos representativos de un tipo de literatura. Pongamos A:“El paisaje de Roubeau”, B:“Alguien te está esperando” y C:“Las aventuras de Oliver Kelvin”. El listado de las respuestas figura a la izquierda de este texto.

Cada fila representa a una persona entrevistada. La primera columna es el código numérico de la persona entrevistada. La segunda se refiere a la titulación que se cursa (1: psicología; 2: económicas). Y la tercera columna indica el libro escogido (1:A; 2:B; 3:C).

Estudio de la relación. Tabla de contingencia

Para estudiar la relación, lo primero que podemos llevar a caboes una tabla de frecuencias de cada variable por separado, lo que genera:

Titulación LibroXi fi Xi fi

1 24 1 152 16 2 12

40 3 1340

Esta información es útil para tener una idea de cómo se distribuyen ambas variables, pero no nos dice nada sobre su relación. Como contamos con relativamente pocos valores posibles en el conjunto de ambas variables, podemos llevar a cabo otra organizaciónde la información, para observar en qué medida ambas variables están relacionadas. Que lo estén implicaría que estudiantes de psicología mostrarían una frecuencias de predilección diferentes a las de los estudiantes de economía. Para verlo, necesitamos que las tablas se realicen para cada titulación. Por ejemplo:

5

1 1 12 1 13 1 24 1 15 1 26 1 17 1 18 1 19 1 2

10 1 111 1 112 1 213 1 214 1 115 1 116 1 217 1 118 1 319 1 220 1 221 1 322 1 223 1 124 1 125 2 326 2 127 2 328 2 329 2 130 2 231 2 332 2 233 2 334 2 335 2 336 2 337 2 338 2 339 2 340 2 2

Page 6: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

Ya puestos, he generado tres tablas. Las dos primeras son tablas de frecuencia habituales, una para psicología y otra para economía. La tercera tabla, como puedes observar, es una fusión de las dos anteriores. Como comparten los mismos valores para los libros leídos (códigos 1, 2 y 3), podemos fundir ambas tablas, reproduciendo solo las frecuencias. Ese procedimiento nos permite comparar con más facilidad la predilecciones de los estudiantes de ambas titulaciones. En esta tercera tabla contamos además con el total por titulación, aunque no con el total por libro. Vamos a añadir esta última información y, para aprovechar mejor el espacio, pongamos la tabla más horizontal:

Lo que ves recibe el nombre de “Tabla de contingencia”. A diferencia de una tabla de frecuencias, que maneja una sola dimensión, en la tabla de contingencia manejamos dos. La combinación de filas por columnas genera lo que llamamos celdas o casillas. En ellas podemos ver, por ejemplo, que hay tres estudiantes de economía que han escogido el libro B, o 2 de psicología que prefieren el título C. Las sumas de las frecuencias de las casillas, sea por filas o por columnas, se denominan puntuaciones marginales, lo que indica literalmente que se encuentran en los márgenes de la tabla. Las puntuaciones marginales son como tablas de frecuencia unidimensionales. Como puedes observar, las puntuaciones marginales de las filas son como la tabla de frecuencias de la variable “Titulación”, mientras que las marginales de columnas coinciden con la tabla de frecuencias de la variable “Libro”.

Observar la tabla de contingencia nos permite obtener conclusiones interesantes al objetivo del estudio. Los estudiantes de psicología prefieren A, seguido de B y, por último C. Mientras que en el caso de los estudiantes de economía ocurre lo contrario. La mayoría de psicología prefiere A. La mayoría de economía, C. A la vista de esta tabla, podríamos concluir ya que, al menos respecto a nuestra muestra de 40 estudiantes, hay una clara relación entre la titulación que se cursa y el estilo de literatura que gusta.

Una estrategia para tener claro que existe relación entre dos variables que hemos dispuesto en una tabla de contingencia es responder a preguntas relativas a una de las dos variables. Si la respuesta es “depende del valor de la otra”, entonces hay relación. Porejemplo, “Los estudiantes, ¿qué tipo de literatura prefieren, A, B o C?”. Respuesta: “Depende, aunque en términos generales parece que se prefiere A, después C y, por último B (pero con poca diferencia), ocurre que los de psicología prefieren claramente A, pero en economía se prefiere claramente C”. O bien “Estoy pensando en vender libros con un determinado estilo en alguna titulación, dime ¿hay más estudiantes de economía ode psicología?”. Respuesta “Depende, pues aunque en términos generales hay más estudiantes de psicología que de economía, esto varía mucho dentro de los gustos

6

Psicología Economía fiXi fi Xi fi Xi Psi. Eco.

1 13 1 2 1 13 22 9 2 3 2 9 33 2 3 11 3 2 11

Total 24 Total 16 Total 24 16

LibroA B C Total

Titu

lació

n Psicología 13 9 2 24Economía 2 3 11 16Total 15 12 13 40

Frecuencias observadas

Page 7: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

literarios; así, en el estilo A hay claramente más de psicología, pero en el estilo C la mayoría son de economía”.

Cuantificación. Chi cuadrado de Pearson

La tabla de contingencia arroja mucha luz a nuestro estudio, pero no basta con interpretar la tabla. Buscamos conseguir una expresión numérica que indique el grado en que existe relación. En términos generales, una buena estrategia para cuantificar una relación es idear un índice o estadístico que mida la distancia que existe entre lo que ocurre y lo que cabría ocurrir si no hubiera absolutamente nada de relación, es decir, si ambas variables fueran totalmente independientes. Si no hay ninguna distancia entre ambas situaciones, el índice suministra el valor 0. Conforme más lejos se encuentre de 0, estará indicando mayor grado de relación.

Para poner eso en práctica en el caso de relación de dos variables nominales expresada mediante una tabla de contingencia, necesitamos identificar qué ocurriría en la tabla si no existiera relación. Dado que nos importa la relación entre ambas variables y no cada una de ellas por separado, los marginales de la tabla permanecen del mismo modo. En otras palabras: a la relación le da lo mismo que haya más o menos estudiantes de unau otra titulación o que unos u otros libros se prefieran más. Lo que importa es “dado un total de libros y estudiantes ¿cómo se relacionan entre ellos?”. Así que partimos de la tabla siguiente, con el objetivo de deducir qué debería ocurrir en el interior de las celdas o casillas para concluir que no existe relación alguna:

Si no existiera ninguna relación, ante por ejemplo la pregunta “¿Hay más gente de economía o de psicología?” No responderíamos “Depende de en qué grupo de preferencia de lectura nos encontremos”. Si observas las puntuaciones marginales de la titulación, hay 24 estudiantes de psicología y 16 de economía, es decir, un 60% de psicología y un 40% de economía. Pues bien, si no exisitera relación alguna, deberíamos observar exactamente lo mismo (60% y 40%) en cada uno de los tres grupos de preferencia literaria. En el caso del grupo que ha preferido el libro A, dado que el marginal es 15, hablamos entonces de 15*60/100 = 9 estudiantes de psicología y 15*40/100 = 6 estudiantes de economía. Si hacemos esto mismo con los otros dos libros, construimos una nueva tabla de contingencia que respeta los marginales pero que contiene en las casillas las frecuencias esperadas si no existiera ninguna relación.

Hay que reconocer que no es posible observar algo 7,2 veces. Es un inconvenienteen el cálculo de las frecuencias esperadas. Y es lo que hay.

Fíjate cómo hemos conseguido la frecuencia esperada de preferencias por el libro A de estudiantes de psicología, fe = 9. Primero hemos dividido 24 (el total de la fila de

7

LibroA B C Total

Titu

lació

n Psicología 24Economía 16Total 15 12 13 40

LibroA B C Total

Titu

lació

n Psicología 9 7,2 7,8 24Economía 6 4,8 5,2 16Total 15 12 13 40

Frecuencias esperadas

Page 8: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

psicología) entre 40 (total general), y el resultado (0,6) lo hemos multiplicado por 15 (total de preferencias del libro A) para obtener 24*15/40 = 9. Es una buena regla general: para obtener la frecuencia esperada de la celda de la fila F y la columna C, lo que hacemos es multiplicar los marginales de la fila F y la columna C y dividir el resultado entre el tamaño de la muestra o total de frecuencias. Observa:

Ya sabemos cómo calcular las frecuencias esperadas (fe) a partir de las puntuaciones marginales e ignorando las frecuencias observadas (fo). Ahora nos enfrentamos a otro problema: si tenemos 6 celdas o casillas y por tanto 6 diferencias fo-fe ¿cómo obtener un solo número que represente a las 6 diferencias? En efecto, podríamos sumar todas las celdas, Σ(fo-fe). Pero esto tiene un inconveniente importante. Dado que finalmente todas las frecuencias, sean observadas o esperadas, han de sumar lo mismo, las diferencias por exceso se contrarrestan con las diferencias por defecto y, finalmente, esa suma siempre daría 0 como resultado. Así que idea descartada. Para comprobarlo, observa la siguiente tabla, donde figuran todas las diferencias fo-fe.

Otra posibilidad es operar con el valor absoluto, Σ|fo-fe|. Idea descartada también. Elvalor absoluto no es una operación aritmética, sino una especie de descabezado del signoque dificulta hacer deducciones matemáticas. La solución, como podrías sospechar, es la misma a la que acudimos para calcular la varianza: elevar las diferencias al cuadrado. La suma de las diferencias cuadráticas entre frecuencias, Σ(fo-fe)2, tampoco es una idea perfecta. Así, por ejemplo, si tenemos muchos datos, es más fácil encontrar diferencias más elevadas que si tuviéramos pocos. Y más datos no significa más discrepancia sino solo más datos y punto. Sería recomendable, como hicimos con la varianza, no quedarnos con la suma sino con la media. Pero esto no fue lo que se le ocurrió a Karl Pearson (1857 – 1936). Lo que hizo Pearson fue dividir cada diferencia cuadrática entre lafrecuencia esperada ([fo-fe]2/fe). Esta idea permite expresar la distancia en la escala de cantidades que se está manejando. Si tenemos muchos datos y poco valores, por ejemplo, las frecuencias serán muy elevadas y las distancias menos relevantes. Este recurso está muy bien, aunque como vamos a ver no resuelve todos los problemas. Pearson utilizó la letra griega χ (en otras grafías: χ, χ, χ...), que se lee chi o ji. Como las diferencias son cuadráticas, se la conoce como Chi cuadrado de Pearson y se simboliza con χ2. Por lo tanto, la expresión de cálculo es:

8

fo-fe A B C TotalPsicología 4 1,8 -5,8 0Economía -4 -1,8 5,8 0Total 0 0 0 0

fe A B C TotalPsicología 24*15/40=9 24*12/40=7,2 24*13/40=7,8 24

Economía 16*15/40=6 16*12/40=4,8 16*13/40=5,2 16Total 15 12 13 40

Page 9: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

χ2 =∑( foi − fe i)

2

fe i

La siguiente tabla contiene los componentes del cálculo: cada celda muestra el resultado de operar (fo-fe)2/fe. El total es precisamente el valor de la chi cuadrado (χ2=16,351).

Interpretación. V de Cramer

¿Qué significa χ2=16,351? Desde luego, no es χ2=0, situación en la que concluiríamos sin problemas con ausencia de relación. La chi cuadrado va desde 0 hasta un valor que varía según el número de datos y el número de celdas. Eso de no contar conun máximo fijo dificulta bastante la interpretación. No obstante, un suizo, llamado Harald Cramer (1893 – 1985), muy interesante en asuntos diversos del mundo de la estadística, estuvo razonando matemáticamente hasta llegar a la conclusión de que el valor máximo que puede tener el invento es n(k-1), donde n es el número de datos y k es el número de valores o categorías de la variable que tiene menos valores. En nuestro caso, n = 40 y k = 2, por lo que el valor máximo que podríamos obtener aplicando Chi cuadrado en tales condiciones es 40(2-1)= 40. Cramer propuso un índice, llamado V de Cramer, para tranformar la Chi cuadrado de Pearson, que consiste en dividir la chi entre su máximo, porlo que el resultado va de 0 (no hay nada de relación) a 1 (relación máxima). Dado que χ2 está elevada al cuadrado, la propuesta concreta de Cramer es (de paso, calculamos ya la nuestra):

V = √ χ2

n (k − 1)= √ 16,351

40 (2− 1)= 0,64

El problema ahora es qué hacer con esa V = 0,64, es decir, cómo concluir si existe o no relación. Esto es lo que ha venido llamándose problema del tamaño de efecto. El tamaño de efecto viene a ser sinónimo de grado o medida de relación acotada o estandarizada. Para cada índice o estadístico de relación (como ocurre con la chi cuadrado), nos enfrentamos a la tarea de interpretarlo, por lo que ideamos una estrategia que suministre un valor acotado o estandarizado (como ocurre con la V) y ahí tenemos el tamaño del efecto. Tal y como está, está bien. Pero en muchas ocasiones necesitamos traducir el continuo del efecto en una dicotomía: “al final, dime, ¿hay o no relación?”. Responder a esta pregunta no es un asunto únicamente estadístico, tiene que ver con muchos aspectos, como por ejemplo las consecuencias de equivocarse al concluir que hay relación. Cuanto peores sean las consecuencias, mayor deberá ser la exigencia de cuantía en V para concluir que hay relación. Por otro lado, sabemos que existe un “ruido” constante en la naturaleza, es decir, valores de relación no nulo entre cualesquiera dos variables que se nos ocurran. Podemos tomar, por ejemplo, el tipo de oreja de una

9

LibroA B C Total

Titu

lació

n Psicología 1,778 0,450 4,313Economía 2,667 0,675 6,469Total 16,351

Componentes de la χ2 de Pearson

Page 10: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

persona (en un sistema de tres categorías, por ejemplo). Extraemos al azar 60 zonas del planeta e identificamos cuál es el tipo de oreja mayoritario. Lo anotamos. Y ahora vemos también en cada una de esas 60 zonas cuántas veces ha sobrevolado una especie de pato que abunde en el mundo: ninguna, menos de la media mundial, más de la media mundial. En estos momentos no se me ocurre una tontería más grande. Pues bien, con esos datos podemos construir una tabla de contingencia de tres filas (tipos de oreja) y trescolumnas (sobrevolado del pato). Aunque te parezca que no debería existir ninguna relación entre ambas variables, cuando realices la experiencia obtendrás una chi cuadrado superior a 0 y, por tanto, también una V de Cramer superior a 0. Esto siempre ocurre. A eso le estoy llamando “ruido de la naturaleza”.

Así que si combinamos las consecuencias de error, el ruido de la naturaleza y otroselementos (como el marco teórico que señala el significado especial de algunos valores de relación en algunas situaciones concretas), tenemos que considerar unos valores concretos de la V (o de cualquier tamaño de efecto) para concluir que sí hay relación o no la hay, es una aventura difícil e infructuosa. No obstante, autores como Jacob Cohen (1923 – 1998), han dado muchas vueltas a este asunto y nos han suministrado alguna guía. Recuerda el caso de Sir Ronald Fisher: con un juego basado en tazas de té, llegó a la conclusión que un riesgo de valor 0,05 era razonable. Suministró una buena excusa para que millones de análisis se realicen partiendo automáticamente de un α = 0,05. Puesbien, con el mismo efecto, Cohen propuso tres valores de corte en un continuo de 0 a 1 para valorar los efectos:

– De 0 a 0,10, podemos decir que no hay efecto (el grado de relación es ridículo, despreciable o achacable al ruido).

– Desde 0,10 hasta 0,30, el efecto es pequeño.– Desde 0,30 hasta 0,50, el efecto es mediano o moderado.– Y desde 0,50 hasta 1,00, el efecto es grande.

Pues ahí lo tienes: una solución operativa para tomar una decisión sobre la cuantía de una relación, en las situaciones donde no sepas a qué cosa mejor agarrarte. En nuestro caso y dado que V = 0,64, podemos concluir que al menos en el conjunto de la muestra hay relación y grande además.

En definitiva, pues, para cuantificar una relación entre dos variables nominales, calculamos la chi cuadrado de Pearson y la transformamos según la V de Cramer, que nos permite obtener una cuantía comprendida entre 0 (ausencia absoluta de relación) y 1 (relación máxima). Para concluir si existe relación, pedimos a V una cuantía mínima de 0,10, a partir de la cual interpretamos si se trata de un efecto pequeño (V≥0,1), mediano (V≥0,3) o grande (V≥0,5).

PSHN para χ 2

Si se cumplen las dos condiciones que ya conocemos (hemos trabajado con una muestra aleatoria y hemos obtenido un efecto al menos pequeño), entonces procede poner en marcha una PSHN para concluir si podemos o no considerar que existe relación entre ambas variables en la población.

La prueba sigue la lógica que ya conocemos: enunciado de la hipótesis nula, cálculo del estadístico, decisión y conclusión. Tiene, no obstante, una particularidad que paso a presentar y resolver ahora mismo: los grados de libertad.

Recuerda cómo hemos operado con la Z en una PSHN: calculamos Zobs con los datos de la muestra y la comparamos con Zseg que es la traducción (con una tabla apropiada) de la seguridad o confianza. Zseg es la máxima Zobs que deberíamos obtener

10

Page 11: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

para suponer que el efecto es debido al azar. Si Zobs supera a Zseg, es decir, si tiene un valor excesivo, entonces se rechaza la hipótesis nula. Esto mismo ocurre con la chi cuadrado. Hemos observado el valor χ2

obs=16, 351. Para obtener el valor teórico o umbral de la Chi cuadrado (χ2

seg, el máximo χ2obs que cabría esperar por azar, de tal forma que si

se supera rechazamos la hipótesis nula) en una tabla apropiada, no solo necesitamos el nivel de seguridad (o su complementario, el riesgo o valor α) sino también algo nuevo: los grados de libertad. Así que detengámonos un momento para ver qué cosa es.

Los grados de libertad son los grados de libertad. ¿Curioso, verdad? Cuantos más grados de libertad, más libertad. Pero ¿más libertad para qué o de qué? “Más libertad” se refiere a más posibilidades para realizar cambios en los datos sin que un resultado final sevea modificado. Así, por ejemplo, con los datos 4, 7 y 8 puedo calcular una suma (4+7+8=19) o una multiplicación (4·7·8=224). Podemos jugar a cambiar números sin que se modifique el resultado. Cambio el 4 por un 14, porque me da la gana (a veces hay otras razones). Por la misma razón u otra más convincente, cambio el 7 por un 8. Y se acabó. Si quiero que la suma siga siendo 19, el tercer dato no puede tener el valor que yo quiera, debe ser necesariamente -3, pues:

4 + 7 + 8 = 19 = 14 + 8 - 3

Si quiero que la multiplicación siga dando como resultado el valor 224, no puedo escoger como tercer dato a cualquier cantidad. Debe ser necesariamente 2:

4 · 7 · 8 = 224 = 14 · 8 · 2

En el ejemplo, contamos con 3 datos y 2 grados de libertad, es decir, podemos cambiar a nuestro antojo dos de ellos, mientras que el tercero está condenado a contar con un valor concreto. Los grados de libertad podrían pensarse como una aplicación del principio “el último paga el pato”, famoso en castellano. En términos generales, si una variable cuenta con k valores, entonces disponemos de k-1 grados de libertad.

En una tabla manejamos dos variables, por lo que el foco de atención para los grados de libertad es la tabla. En nuestro ejemplo, si el resultado fijo es el total (suma de valor 40), disponemos de 6 celdas (2 filas x 3 columnas) y, por tanto, 5 grados de libertad. Pero ocurre que en los análisis que estamos realizando, las puntuaciones marginales permanecen fijas. En esta situación no puedo disponer de 5 grados sino de menos. Así, laprimera columna suma 15. Si una de las dos casillas tiene un valor cualquiera, la otra debe tener un valor concreto para que la suma siga siendo 15. Así ocurre con las tres columnas, lo que llevaría a la conclusión de que contamos con 3 grados de libertad. Pero aun es menos, puesto que en la última columna no se puede decidir nada, sus valores son necesariamente unos y no otros para que los marginales de fila permanezcan inalterados, por lo que contamos con 2 grados de libertad realmente. En general, para calcular los grados de libertad tabla basta con multiplicar los grados de libertad de las dosdimensiones. En nuestro ejemplo, la variable titulación tiene dos valores (luego, k-1=1), la variable libro tiene tres (luego, k-1=2) y, en definitiva, los grados de libertad de esta tabla 2x3 son (2-1)x(3-1)=2, como ya hemos razonado.

Tras presentar este nuevo concepto, vamos ya a por el proceso habitual de una prueba de significación de la hipótesis nula.

1. Enunciado de la hipótesis nulaNo hay relación entre ambas variables en la población. χ2 = 0.

11

Page 12: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

2. ResultadosA partir de una tabla 2x3 se obtiene un valor χ2

obs = 16,351

3. DecisiónLa tabla de la distribución de la chi cuadrado de Pearson (consulta el anexo I), para

un riesgo α=0,05 y 2 grados de libertad, suministra el valor χ2seg = 6. Como lo observado

se escapa de lo esperable por mero azar, se rechaza la hipótesis nula.

4. ConclusiónLos gustos literarios de estudiantes de psicología y de economía difieren entre sí.

Dos variables cuantitativas

Situación de partida

Tenemos una muestra aleatoria de expedientes académicos de estudiantes de enseñanzas medias. Tomamos sus resultados en las materias de geografía (variable X) y de historia (variable Y). Nos interesa conocer si existe relación entre ambas. Tal vez no sea el objetivo de tu vida, pero se trata de dos variables claramente cuantitativas, medidasambas en el intervalo habitual de 0 a 10 y, por tanto, muy apropiadas para estudiar cómo se representa gráficamente y cómo se cuantifica una relación entre dos variables cuantitativas.

Estudio de la relación. Diagrama de dispersión

Una representación gráfica idónea es tomar unos ejes cartesianos, ubicar una variable en el eje horizontal y otra en el vertical. Cada estudiante (su par de calificaciones en geografía es historia) será un punto en la gráfica.Ese punto expresa una coordenada, posición o valor en X (puntuación en geografía) y otra en Y (puntuación en historia). Los datos se encuentran a la izquierda de este párrafo.

Observa, por ejemplo, el punto que está rodeado por una elipse roja. Representa a un estudiante que ha obtenido un 5 en geografía y un 3 en historia. Aunque hay 20

12

X Y5 66 56 77 62 38 79 74 38 79 89 78 77 65 53 24 33 45 34 57 8

1 2 3 4 5 6 7 8 90

1

2

3

4

5

6

7

8

9

X: Geografía

Y: H

isto

ria

Page 13: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

estudiantes, podrás contar solo 16 puntos. Esto ocurre porque hay superposiciones: en 4 ocasiones hay coordenadas repetidas. Ocurre, por ejemplo con el par X:9, Y:7.

Esta representación gráfica tiene por nombre diagrama y por apellido de dispersión,puesto que expresa el grado en que los datos están dispersos a lo largo y alto de la superficie del gráfico. Para que resulte útil, es necesario que exista realmente cierta dispersión. Si existiera mucha coincidencia entre pares de datos, el gráfico no mostraría loque ocurre en realidad. Nos faltaría representar una tercera dimensión, algo así como la profundidad, indicando el grado en que un mismo punto es visitado por más o menos pares de datos. Por otro lado, también se necesita cierta dispersión o variabilidad en cadauno de los dos ejes. Si contamos, por ejemplo, con una variable con pocos valores (imagina que 4 o 5), aunque se tratara de una variable cuantitativa, no nos serviría para un diagrama de dispersión porque no habría realmente dispersión en la superficie sino básicamente coincidencias, especialmente si el tamaño de la muestra es grande. Así que no nos enteraríamos bien de lo que esté ocurriendo. En tales casos, es preferible acudir a una tabla de contingencia si ambas variables cuantitativas tienen pocos valores. Si una deellas tiene pocos valores y la otra muchos, podemos acudir a una representación gráfica propia de una relación entre una nominal y una cuantitativa, como veremos en un apartado posterior. El objetivo es que la representación sea útil. Para ello, según vemos, no solo es importante que se adapte al tipo de escala, sino que las variables representadas cuenten con suficientes valores como sea necesario según el tipo de gráfica que estemos utilizando.

El diagrama de dispersión de nuestro ejemplo es muy ilustrativo. Se observa con claridad que conforme las notas en una asignatura tienen un valor mayor, también son mayores las calificaciones en la otra asignatura. Por este motivo, los puntos se distribuyenen torno a una línea recta imaginaria que es ascendente. Este tipo de relación (lineal ascendente) se denomina “relación positiva”. Imagina que ocurriera lo contrario: conforme mayores son las notas en una asignatura, menores son las calificaciones en la otra. En talcaso, los puntos se mostrarían en torno a una línea imaginaria descendente (más alta a laizquierda y más baja a la derecha). En tales casos se habla de “relación negativa”. Así pues, nuestro diagrama de dispersión está hablando y dice “he aquí una relación positiva entre las notas en geografía e historia”.

Cuantificación. Coeficiente de correlación lineal simple de Pearson

Observa este par de conjuntos de datos:

Conjunto A: 3, 12, 9, 1 Conjunto B: 7, 4, 9, 2

Nos planteamos un juego. Consiste en formar parejas de números: uno del A con uno del B. Tendremos al final 4 parejas. Pues bien. Ensaya con ello. Juega generando diferentes parejas. Hay seis combinaciones posibles. Intenta encontrar la combinación que consigue la máxima suma de productos cruzados. Un producto cruzado es la multiplicación de los dos números del par. Si has juntado A:3 con B:9, el producto cruzadoes 27. Cuando hayas generado un conjunto de cuatro pares, calcula los cuatro productos cruzados y suma el resultado. Juega con ello y después sigue leyendo.

No sé si has jugado realmente. Supongamos que sí. Si has encontrado las seis agrupaciones posibles, has calculado los productos cruzados y los has sumado, encontrarás que el valor máximo para esa suma ocurre cuando juntas los valores grandesde ambos conjuntos y, por tanto, también los pequeños entre sí. El valor mínimo ocurre cuando reúnes los grandes con los pequeños. La suma mínima es:

13

Page 14: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

Y la máxima:

Las cuatro combinaciones restantes suministran valores comprendidos entre 90 y 185. Aquí está el corazón del procedimiento que vamos a utilizar para cuantificar la relación entre dos variables cuantitativas. Si observas la suma mínima de productos cruzados, ocurre cuando la relación entre las dos variables es negativa, mientras que la suma máxima tiene lugar en el caso contrario: relación positiva. Parece, pues que un buen índice de relación sería:

ir =∑ ABParece un buen índice, pero no lo es. Tiene un par de inconvenientes importantes.

El primero es que es sensible al número de datos. Si en lugar de 4 pares contáramos con 8, el procedimiento suministraría un valor más grande y eso no estaría señalando una relación mayor, ni una mayor relación positiva, sino registrando únicamente que estamos considerando un conjunto más grande de datos. La solución parece inmediata: en lugar de la suma, la media. No es mala cosa. El nuevo índice sería:

ir2=∑ AB

n

No obstante nos queda el otro inconveniente: la escala de medida. Imagina que estamos registrando distancias en metros. Si se nos ocurre registrarlas en centímetros, todo queda multiplicado por 100. Es más, los productos cruzados generarán el efecto de que el resultado final quede multiplicado por 1002. Esto es una barbaridad. Hay que corregirlo. Y sabemos muy bien cómo hacerlo. Lo sabemos porque conocemos una formade expresar valores o puntuaciones que es independiente de la escala: las puntuaciones típicas, distancias estandarizadas o Zs. Si operamos con ellas en lugar de con las puntuaciones originales, tendremos nuestro índice, que aunque se nos ha ocurrido aquí, ya se le ocurrió también a otra persona hace un siglo, nuestro compañero de viaje Carl Pearson (el mismo que el coeficiente de variación y la chi cuadrado). Se le llama “coeficiente de correlación lineal simple de Pearson” y se simboliza con la letra r.

r =∑ Z AZ Bn

Es un índice, estadístico o coeficiente. Se denomina de correlación porque mide relación entre variables sin que podamos establecer estadísticamente un sentido (una es

14

par 1 par 2 par 3 par 4A 1 3 9 12B 9 7 4 2 Suma:AB 9 21 36 24 90

par 1 par 2 par 3 par 4A 1 3 9 12B 2 4 7 9 Suma:AB 2 12 63 108 185

Page 15: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

causa de la otra), por lo que hablamos de co-relación. Lineal porque se refiere a una relación que puede ser expresada mediante una línea recta. Digamos que en lugar de hablar de línearectal o sencillamente rectal, decimos lineal, algo que es de agradecer en castellano. Cuando la relación entre dos variables no sigue una línea recta sino curva, hablamos de relación curvilínea. Es simple porque la lógica de este procedimiento puede aplicarse no solo al caso de relación entre dos variables, sino también de relación entre más de dos variables, en cuya situación ya no hablamos de coeficiente de correlación simple, sino múltiple. Y, por último, de Pearson, porque fue el inventor de la cosa. Cuidadocon Carl Pearson. En efecto tenía una mente brillante para estos asuntos, pero también es cierto que el hombre se preocupó de divulgar sus hallazgos, hallazgos que en muchas ocasiones eran compartidos con personas que no hicieron lo mismo, por lo que no cuentan con un pedestal a lo pearson.

Interpretación de r

Observa lo que ocurre con las dos combinaciones anteriores (mínima y máxima) cuando calculamos r con ellas.

Mínima:

Máxima:

Los resultados se acercan mucho a -1 para la mínima media de productos cruzados de puntuaciones estandarizadas, y +1 para la máxima. No es una casualidad. Elcoeficiente r se mueve en el intervalo (-1, 1), con este significado:

– Cuando r = -1, la relación entre las dos variables es máxima y negativa. Conforme una aumenta, la otra disminuye y lo hace de tal modo que bastaría con conocer una de las variables para deducir la otra (eso es lo que significa relación máxima).

– Cuando r = 1, la relación es máxima y positiva. Conforme una aumenta, la otra también.

– Cuando r = 0, la relación es nula. Ocurra lo que ocurra con una de las dos variables, no sabemos nada de la otra. Son independientes.

En cualquier otra ocasión, r lo que expresa es grado y sentido de relación. Conforme mayor sea su valor absoluto (más cercano se encuentre a -1 o a 1), mayor es larelación entre ambas variables. El sentido de la relación (positiva o negativa) depende del signo de r. Para ayudarnos a interpretar su cuantía, tomándolo como una medida de tamaño de efecto, nos valen las sugerencias de Cohen, que hemos visto para el caso de la chi cuadrado, utilizando los mismos puntos de corte:

– r < 0,10: efecto nulo.

15

par 1 par 2 par 3 par 4

-1,183 -0,732 0,620 1,296

-1,300 -0,557 0,557 1,300 Suma:

1,538 0,408 0,345 1,685 0,994

ZA

ZB

ZAZ

B

par 1 par 2 par 3 par 4

-1,183 -0,732 0,620 1,296

1,300 0,557 -0,557 -1,300 Suma:

-1,538 -0,408 -0,345 -1,685 -0,994

ZA

ZB

ZAZ

B

Page 16: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

– 0,10 ≤ r < 0,30: efecto pequeño.– 0,30 ≤ r < 0,50: efecto moderado.– r ≥ 0,50: efecto grande.

A partir de r = 0,10, diremos que existe relación, si bien de efecto pequeño, moderado o grande. Visto más despacio, personalmente yo pediría al menos r ≥ 0,30 paraasumir algo de relación, puesto que al contrario de lo que ocurre con la V de Cramer, r es muy sensible. Podrías ver diagramas de dispersión donde no hay forma de apreciar relación, con valores de r claramente superiores a 0,10. He dicho “personalmente yo pediría”. No es lo que suele hacerse en la comunidad académica y, por tanto, no es exigible en esta asignatura. Pero llamo la atención sobre ello: un poco de más exigencia con r no vendría nada mal.

En nuestro ejemplo, con la relación entre calificaciones de geografía y de historia, el valor que obtenemos es r = 0,86, lo que indica claramente un efecto grande.

Una última aclaración: r mide relación lineal, es decir, relación que puede ser representada mediante una línea recta. Si hay relación entre dos variables pero no cumple esa condición, entonces, r puede suministrar el valor 0. Por eso, entre otras razones ya expuestas, es importante que antes de abordar la cuantificación llevemos a cabo una representación gráfica de la relación.

16

Page 17: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

PSHN para r

1. Enunciado de la hipótesis nulaNo hay relación entre ambas variables en la población. r = 0 en la población (suele

utilizarse la letra griega ρ (que suena ro) para referirse al valor de la correlación en la población, por lo que la hipótesis nula suele expresarse con ρ = 0)

2. ResultadosHemos obtenido r = 0,86 desde una muestra de n = 20

3. DecisiónLa tabla de la distribución de probabilidad asociada a la r de Pearson (consulta el

anexo III), para un riesgo α=0,05 y un tamaño de muestra de 20 unidades, suministra el valor rseg = 0,441. Como lo observado se escapa de lo esperable por mero azar, se rechaza la hipótesis nula.

4. ConclusiónLas calificaciones en geografía e historia de estudiantes de enseñanzas medias

están relacionadas positivamente entre sí.

Una variable nominal y una cuantitativa

Entre una variable nominal y una cuantitativa caben muchas posibilidades. Una primera clasificación implica distinguir entre la estrategia transversal y la longitudinal. Paracomprenderlo hemos de pensar que la variable nominal forma grupos de datos. Cada valor de la variable nominal es el título de un grupo de datos cuyos valores son suministrados por la variable cuantitativa. Por ejemplo, si nos interesa conocer la relación que existe entre el consumo de alcohol y los reflejos, acudimos a un procedimiento que mida los reflejos de una persona, como puede ser el número de aciertos en una prueba de agilidad mental. El número de aciertos es una variable cuantitativa. El consumo de alcohol puede medirse, para este ejemplo, con dos valores: sí o no. Un buen enfoque para abordar el análisis es considerar que contamos con dos grupos de datos: el grupo demediciones de aciertos generadas sin consumo de alcohol, y el grupo de mediciones qu han tenido lugar bajo consumo de alcohol. Pues bien, si tenemos a un grupo de personas que no han consumido alcohol y a otro grupo de personas que sí lo han consumido, y ambos grupos se enfrentan a la misma prueba de reflejos, anotando los resultados, entonces resulta que cada grupo de datos se ha generado por un grupo diferente de personas, con lo que hablamos de una estrategia transversal. Si, por el contrario, el mismo grupo de personas ha respondido a la prueba sin haber consumido alcohol y también lo ha hecho bajo los efectos del alcohol, entonces ocurre que los dos grupos de datos (reflejos bajo consumo y bajo no consumo) provienen del mismo grupo de personas, con lo que hablamos de estrategia longitudinal.

Aunque la lógica interpretativa es la misma, los procedimientos de cálculo no son idénticos entre las estrategias transversal y longitudinal. La primera es más habitual con diferencia en las investigaciones que llevamos a cabo en psicología y casi única en las que suelen surgir en este curso, mayoritariamente apoyado en encuestas con muestras diferentes. Así que voy a exponer las situaciones de análisis suponiendo que nos encontramos en una estrategia transversal.

Desde una estrategia transversal, la siguiente bifurcación es si estamos ante una variable nominal que cuenta con dos o con más de dos categorías, es decir, si genera dos

17

Page 18: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

o más de dos grupos de datos. De nuevo, restringimos las posibilidades a la primera situación: en este curso sólo vamos a comparar dos grupos de datos entre sí. Si la variable generadora de grupos tiene más de dos valores, lo que haremos en la práctica esabordar comparaciones entre pares de grupos.

Situación de partida

Ya que hemos comenzado ejemplificando mediante el consumo de alcohol y los reflejos, sigamos con ello. Vamos a imaginar que hemos contado con una muestra aleatoria de 44 personas. Han lanzado una moneda al aire y 24 han obtenido el resultado “cara”, mientras que las 20 restantes han obtenido “cruz”. Decidimos que las 24 del grupo cara van a consumir alcohol, para lo que les suministramos bebidas alcohólicas hasta calcular que cuentan con el mismo grado de alcohol en sangre (aproximadamente 0,8). El grupo cruz toma agua, zumo o refresco, en cantidades similares al grupo anterior. Todas las personas del estudio consumen alcohol en alguna ocasión de su vida reciente, por lo que no han de llevar a cabo un esfuerzo para participar en el estudio.

Una hora después del consumo (cuando se supone que los efectos cuentan con unmáximo), se enfrentan a un programa de ordenador donde aparecen estímulos en pantalla con cierta rapidez y deben responder pulsando determinadas teclas. Se anotan los errores que han cometido. Se entiende que conforme el número de errores sea mayor,los reflejos serán menores. Y suponemos que el grupo cruz obtendrá peores resultados (más errores) que el grupo cara. Lo que hemos obtenido es:

Una inspección visual de los datos parece indicar que nuestra hipótesis de investigación va bien encaminada. Da la impresión de que el grupo cruz muestra valores superiores respecto al grupo cara, si bien existe una apreciable variación en ambos grupos. Esta impresión inicial requiere ser objeto de un procedimiento más preciso. Comenzaremos con alguna representación gráfica, para pasar acto seguido a la cuantificación.

Estudio de la relación. Diagrama de medias

Sin Con0

1

2

3

4

5

6

7

3,67

5,75

Grafico de medias para consumo x errores

18

Grupo cara Grupo cruz1 2 2 3 3 3 5 6 3 4 83 5 4 4 4 5 8 4 6 7 66 4 5 5 3 4 7 5 5 6 54 3 7 2 3 3 6 5 4 8 7

Page 19: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

En el estudio de una relación entre una variable nominal, categórica o formadora degrupos, y una variable cuantitativa, el diagrama de medias es una representación gráfica compuesto por un conjunto de barras, una por cada categoría o grupo de datos, donde la altura de cada barra se corresponde con el valor de la media aritmética de ese grupo de datos. En lugar de barras, podemos recurrir a puntos o a otros recursos gráficos. El objetivo es representar de algún modo la media aritmética de ese grupo.

En nuestro ejemplo, podemos observar que el número medio de errores bajo consumo de alcohol (5,75) es claramente superior a los errores que por término medio se cometen en el grupo que no ha consumido alcohol (3,67). En la representación gráfica observamos no solo las cantidades numéricas, sino también su expresión en términos gráficos, lo que permite una valoración acertada y rápida.

t de Student

Para cuantificar la relación, acudimos a un procedimiento ideado por Gosset (#) un empleado de la cervecera Guiness. Su actividad investigadora se enfrentaba con la política de la empresa, poco amiga de las publicaciones. Así que Gosset dio a conocer sus hallazgos con el pseudónimo “el estudiante”. Por este motivo, su propuesta se conocecomo la t de Student.

• Procedimiento

La lógica de la t es, como suele ocurrir en estadística, lógica. Si lo queremos cuantificar una diferencia, obviamente comenzamos calculando la diferencia:

X̄ 1 − X̄ 2

Esto no parece tener mucho mérito. Si no hubiera pasado de aquí, sería difícil entender que “el estudiante” tuviera que acudir incluso al anonimato. Lo que pensó fue en acudir a la misma lógica que utilizamos para las distancias estandarizadas. En este caso, había que estandarizar la diferencia. Esto implica expresarla en número de desviaciones tipo o, con más precisión, número de errores tipo de la diferencia (desviación tipo de la distribución muestral de diferencias). Es decir:

t =X̄ 1− X̄ 2σ X̄ 1 − X̄ 2

El problema ahora consiste en encontrar la expresión de cálculo para el error tipo de la diferencia. Aquí se complica un poco la cosa puesto que no hay una expresión, sino dos, en función de criterios que exceden los objetivos de este curso. Vamos a considerar la opción menos complicada, según la cual

σ X̄ 1 − X̄ 2= √ n1 S 1 + n2 S 2n1 + n2− 2 ( 1n1 +

1n2)

Aunque tienes todo el derecho a dudarlo, la expresión es también comprensible o, como estoy abundando, es también lógica. El primer quebrado o razón es una media ponderada de las desviaciones tipo. Si ambos grupos tienen el mismo tamaño, esa expresión es la media de los valores de las dos desviaciones. Pero si un grupo es más cuantioso que el otro, es razonable que pese más, así que cada desviación tiene el peso

19

Page 20: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

proporcional que le corresponde al tamaño de su grupo de datos. El denominador no es exactamente la suma de ambos grupos (en cuyo caso hablaríamos de una media aritmética normalita) sino que es corregido expresándose en términos de grados de libertad. Recuerda aquel principio de que el último paga el pato. Aquí, como tenemos dos grupos, tenemos dos últimos. Recuerda también las expresiones de los errores tipo: consiste en dividir la desviación poblacional (o algo que utilizamos en su lugar, como es ladesviación o la cuasidesviación de la muestra, como en este caso) entre la raíz cuadrada del tamaño de la muestra. Pues bien, esa es la razón del segundo término que se encuentra dentro de la raíz: una especie de división combinada de los tamaños de ambos grupos.

Te hayas enterado de mucho o no de tanto, lo fundamental aquí es observar que esa expresión indica la desviación tipo de la distribución muestral de diferencias entre medias, lo que nos permite estandarizar la diferencia observada y conseguir, finalmente elvalor de la t que estábamos buscando. Cuando llegue el momento de la prueba de significación de la hipótesis nula y al igual que hicimos en el caso de la chi cuadrado de Pearson, necesitaremos echar mano de los grados de libertad que, ya he adelantado, tiene la expresión

g.l. = n1 + n2 - 2

Los cálculos correspondientes a nuestro ejemplo están aquí:

• Interpretación

Tenemos entones una t = 5,74. El paso es importante, pero insuficiente. ¿Qué significa una t con ese valor? Del mismo modo que hicimos con la chi cuadrado de Pearson, necesitamos un criterio que nos permita acotar la t en un intervalo comprensible.Puestos a desear, que ese intervalo sea como el de la V de Cramer: de 0 a 1.

Existe la solución. Y no está mal. Consiste en traducir t en una r. Como ya conocemos cómo interpretar r, problema resuelto. La expresión es:

r =t

√ t2 + n1 + n2 − 2= 0,663

Como ya sabemos, una r = 0,663 apunta a un tamaño de efecto grande. Así que podemos concluir que al menos en el caso de nuestra muestra, el consumo de alcohol y los reflejos están relacionados entre sí.

• PSHN

1. Enunciado de la hipótesis nulat = 0 en la población.

2. ResultadosHemos obtenido t = 5,736 desde una muestra de n1 + n2 = 44.

3. Decisión

20

Grupo “sin” Grupo “con”

Media= 3,667 0,363 Media= 5,75S = 1,344 dif = 2,083 S = 1,41n = 24 t = 5,736 n = 20

σdif

=

Page 21: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

La tabla de la distribución de probabilidad asociada a la t de Student (consulta el anexo II), para un riesgo α=0,05 y 44 – 2 = 42 grados de libertad da un valor que no nos interesa porque no es ahí donde tenemos que mirar. Nuestra hipótesis tiene un sentido, no es de dos colas. No estamos poniendo a prueba si los dos grupos difieren entre sí, sino si el grupo que ha consumido alcohol tiene más errores que el grupo que no lo ha consumido. Así que estamos ante una prueba de una sola cola. No obstante, la tabla (tal como avisa en su título) está pensada para pruebas de dos colas. ¿Qué hacemos? Pues imagínate la representación gráfica (aunque la de Student es algo más puntiaguda que la normal, imagínate la normal si quieres, pues es la que conoces). El área extrema de valor 0,05 en una prueba de una cola, se corresponde con un área extrema de valor 0,05·2 = 0,10 en una prueba de dos colas. Así que es 0,10 la cantidad que tengo que consultar en la tabla. Lo hago y observo que para gl(40), tseg = 1,68, mientras que para gl(45), tseg = 1,68. Así que no hay dudas, para gl(42), tseg = 1,68. Vemos que es claramente inferior a lo que hemos observado. En otros términos, lo que observamos se aleja mucho lo máximo que cabría esperar por azar, así que rechazamos la hipótesis nula.

4. ConclusiónEl consumo de alcohol disminuye los reflejos.

21

Page 22: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

Anexo I. Tabla de valores máximos para la χ2 de Pearson

22

nivel de significacióng.l. 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10

1 6,63 5,41 4,71 4,22 3,84 3,54 3,28 3,06 2,87 2,712 9,21 7,82 7,01 6,44 5,99 5,63 5,32 5,05 4,82 4,613 11,3 9,84 8,95 8,31 7,81 7,41 7,06 6,76 6,49 6,254 13,3 11,7 10,7 10,0 9,49 9,04 8,67 8,34 8,04 7,785 15,1 13,4 12,4 11,6 11,1 10,6 10,2 9,84 9,52 9,246 16,8 15,0 14,0 13,2 12,6 12,1 11,7 11,3 10,9 10,67 18,5 16,6 15,5 14,7 14,1 13,5 13,1 12,7 12,3 12,08 20,1 18,2 17,0 16,2 15,5 15,0 14,5 14,1 13,7 13,49 21,7 19,7 18,5 17,6 16,9 16,3 15,9 15,4 15,0 14,7

10 23,2 21,2 19,9 19,0 18,3 17,7 17,2 16,8 16,4 16,011 24,7 22,6 21,3 20,4 19,7 19,1 18,5 18,1 17,7 17,312 26,2 24,1 22,7 21,8 21,0 20,4 19,8 19,4 18,9 18,513 27,7 25,5 24,1 23,1 22,4 21,7 21,2 20,7 20,2 19,814 29,1 26,9 25,5 24,5 23,7 23,0 22,4 21,9 21,5 21,115 30,6 28,3 26,8 25,8 25,0 24,3 23,7 23,2 22,7 22,316 32,0 29,6 28,2 27,1 26,3 25,6 25,0 24,5 24,0 23,517 33,4 31,0 29,5 28,4 27,6 26,9 26,3 25,7 25,2 24,818 34,8 32,3 30,8 29,7 28,9 28,1 27,5 26,9 26,4 26,019 36,2 33,7 32,2 31,0 30,1 29,4 28,8 28,2 27,7 27,220 37,6 35,0 33,5 32,3 31,4 30,6 30,0 29,4 28,9 28,421 38,9 36,3 34,8 33,6 32,7 31,9 31,2 30,6 30,1 29,622 40,3 37,7 36,0 34,9 33,9 33,1 32,5 31,8 31,3 30,823 41,6 39,0 37,3 36,1 35,2 34,4 33,7 33,1 32,5 32,024 43,0 40,3 38,6 37,4 36,4 35,6 34,9 34,3 33,7 33,225 44,3 41,6 39,9 38,6 37,7 36,8 36,1 35,5 34,9 34,426 45,6 42,9 41,1 39,9 38,9 38,0 37,3 36,7 36,1 35,627 47,0 44,1 42,4 41,1 40,1 39,3 38,5 37,9 37,3 36,728 48,3 45,4 43,7 42,4 41,3 40,5 39,7 39,1 38,5 37,929 49,6 46,7 44,9 43,6 42,6 41,7 40,9 40,2 39,6 39,130 50,9 48,0 46,2 44,8 43,8 42,9 42,1 41,4 40,8 40,332 53,5 50,5 48,6 47,3 46,2 45,3 44,5 43,8 43,2 42,634 56,1 53,0 51,1 49,7 48,6 47,7 46,9 46,1 45,5 44,936 58,6 55,5 53,6 52,1 51,0 50,0 49,2 48,5 47,8 47,238 61,2 58,0 56,0 54,5 53,4 52,4 51,6 50,8 50,1 49,540 63,7 60,4 58,4 56,9 55,8 54,8 53,9 53,1 52,4 51,845 70,0 66,6 64,5 62,9 61,7 60,6 59,7 58,9 58,2 57,550 76,2 72,6 70,4 68,8 67,5 66,4 65,5 64,6 63,9 63,255 82,3 78,6 76,3 74,7 73,3 72,2 71,2 70,3 69,5 68,860 88,4 84,6 82,2 80,5 79,1 77,9 76,9 76,0 75,1 74,465 94,4 90,5 88,1 86,3 84,8 83,6 82,5 81,6 80,8 80,070 100,4 96,4 93,9 92,0 90,5 89,3 88,2 87,2 86,3 85,575 106,4 102,2 99,7 97,8 96,2 94,9 93,8 92,8 91,9 91,180 112,3 108,1 105,4 103,5 101,9 100,5 99,4 98,4 97,4 96,690 124,1 119,6 116,9 114,8 113,1 111,7 110,5 109,4 108,5 107,6

100 135,8 131,1 128,2 126,1 124,3 122,9 121,6 120,5 119,4 118,5120 159,0 153,9 150,8 148,4 146,6 145,0 143,6 142,4 141,3 140,2140 181,8 176,5 173,1 170,6 168,6 166,9 165,4 164,1 162,9 161,8160 204,5 198,8 195,3 192,7 190,5 188,7 187,1 185,7 184,5 183,3180 227,1 221,1 217,3 214,6 212,3 210,4 208,7 207,3 205,9 204,7200 249,4 243,2 239,3 236,4 234,0 232,0 230,3 228,7 227,3 226,0

Page 23: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

Anexo II. Tabla de la t de Student (para 1 cola, busca el doble del nivel de significación)

23

Nivel de significación (2 colas)gl 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,12 0,14

2 9,92 6,96 5,64 4,85 4,30 3,90 3,58 3,32 3,10 2,92 2,62 2,383 5,84 4,54 3,90 3,48 3,18 2,95 2,76 2,61 2,47 2,35 2,16 2,004 4,60 3,75 3,30 3,00 2,78 2,60 2,46 2,33 2,23 2,13 1,97 1,845 4,03 3,36 3,00 2,76 2,57 2,42 2,30 2,19 2,10 2,02 1,87 1,756 3,71 3,14 2,83 2,61 2,45 2,31 2,20 2,10 2,02 1,94 1,81 1,707 3,50 3,00 2,71 2,52 2,36 2,24 2,14 2,05 1,97 1,89 1,77 1,668 3,36 2,90 2,63 2,45 2,31 2,19 2,09 2,00 1,93 1,86 1,74 1,649 3,25 2,82 2,57 2,40 2,26 2,15 2,06 1,97 1,90 1,83 1,72 1,62

10 3,17 2,76 2,53 2,36 2,23 2,12 2,03 1,95 1,88 1,81 1,70 1,6011 3,11 2,72 2,49 2,33 2,20 2,10 2,01 1,93 1,86 1,80 1,69 1,5912 3,05 2,68 2,46 2,30 2,18 2,08 1,99 1,91 1,84 1,78 1,67 1,5813 3,01 2,65 2,44 2,28 2,16 2,06 1,97 1,90 1,83 1,77 1,66 1,5714 2,98 2,62 2,41 2,26 2,14 2,05 1,96 1,89 1,82 1,76 1,66 1,5615 2,95 2,60 2,40 2,25 2,13 2,03 1,95 1,88 1,81 1,75 1,65 1,5616 2,92 2,58 2,38 2,24 2,12 2,02 1,94 1,87 1,80 1,75 1,64 1,5517 2,90 2,57 2,37 2,22 2,11 2,02 1,93 1,86 1,80 1,74 1,64 1,5518 2,88 2,55 2,36 2,21 2,10 2,01 1,93 1,86 1,79 1,73 1,63 1,5419 2,86 2,54 2,35 2,20 2,09 2,00 1,92 1,85 1,79 1,73 1,63 1,5420 2,85 2,53 2,34 2,20 2,09 1,99 1,91 1,84 1,78 1,72 1,62 1,5421 2,83 2,52 2,33 2,19 2,08 1,99 1,91 1,84 1,78 1,72 1,62 1,5322 2,82 2,51 2,32 2,18 2,07 1,98 1,90 1,84 1,77 1,72 1,62 1,5323 2,81 2,50 2,31 2,18 2,07 1,98 1,90 1,83 1,77 1,71 1,61 1,5324 2,80 2,49 2,31 2,17 2,06 1,97 1,90 1,83 1,77 1,71 1,61 1,5325 2,79 2,49 2,30 2,17 2,06 1,97 1,89 1,82 1,76 1,71 1,61 1,5226 2,78 2,48 2,30 2,16 2,06 1,97 1,89 1,82 1,76 1,71 1,61 1,5227 2,77 2,47 2,29 2,16 2,05 1,96 1,89 1,82 1,76 1,70 1,61 1,5228 2,76 2,47 2,29 2,15 2,05 1,96 1,88 1,82 1,76 1,70 1,60 1,5229 2,76 2,46 2,28 2,15 2,05 1,96 1,88 1,81 1,75 1,70 1,60 1,5230 2,75 2,46 2,28 2,15 2,04 1,95 1,88 1,81 1,75 1,70 1,60 1,5231 2,74 2,45 2,27 2,14 2,04 1,95 1,88 1,81 1,75 1,70 1,60 1,5132 2,74 2,45 2,27 2,14 2,04 1,95 1,87 1,81 1,75 1,69 1,60 1,5133 2,73 2,44 2,27 2,14 2,03 1,95 1,87 1,81 1,75 1,69 1,60 1,5134 2,73 2,44 2,27 2,14 2,03 1,95 1,87 1,80 1,75 1,69 1,59 1,5135 2,72 2,44 2,26 2,13 2,03 1,94 1,87 1,80 1,74 1,69 1,59 1,5136 2,72 2,43 2,26 2,13 2,03 1,94 1,87 1,80 1,74 1,69 1,59 1,5137 2,72 2,43 2,26 2,13 2,03 1,94 1,87 1,80 1,74 1,69 1,59 1,5138 2,71 2,43 2,25 2,13 2,02 1,94 1,86 1,80 1,74 1,69 1,59 1,5139 2,71 2,43 2,25 2,12 2,02 1,94 1,86 1,80 1,74 1,68 1,59 1,5140 2,70 2,42 2,25 2,12 2,02 1,94 1,86 1,80 1,74 1,68 1,59 1,5145 2,69 2,41 2,24 2,12 2,01 1,93 1,86 1,79 1,73 1,68 1,58 1,5050 2,68 2,40 2,23 2,11 2,01 1,92 1,85 1,79 1,73 1,68 1,58 1,5055 2,67 2,40 2,23 2,10 2,00 1,92 1,85 1,78 1,73 1,67 1,58 1,5060 2,66 2,39 2,22 2,10 2,00 1,92 1,84 1,78 1,72 1,67 1,58 1,5070 2,65 2,38 2,22 2,09 1,99 1,91 1,84 1,78 1,72 1,67 1,57 1,4980 2,64 2,37 2,21 2,09 1,99 1,91 1,84 1,77 1,72 1,66 1,57 1,4990 2,63 2,37 2,21 2,08 1,99 1,90 1,83 1,77 1,71 1,66 1,57 1,49

100 2,63 2,36 2,20 2,08 1,98 1,90 1,83 1,77 1,71 1,66 1,57 1,49

Page 24: Relaciones entre variablesasignatura.us.es/dadpsico/apuntes/Relaciones.pdf · 2013. 5. 8. · inútil. Necesitamos al menos dos variables para hablar de relación. En la relación

Anexo III. Tabla de la r de Pearson

24

α αn 0,01 0,05 0,10 n 0,01 0,05 0,10

2 1,000 1,000 1,000 37 0,417 0,324 0,2743 0,986 0,954 0,920 38 0,412 0,320 0,2714 0,956 0,891 0,833 39 0,407 0,316 0,2675 0,919 0,829 0,758 40 0,402 0,312 0,2646 0,880 0,774 0,697 45 0,379 0,294 0,2487 0,843 0,727 0,646 50 0,361 0,278 0,2358 0,808 0,685 0,605 55 0,344 0,265 0,2249 0,775 0,650 0,570 60 0,330 0,254 0,214

10 0,746 0,619 0,540 65 0,317 0,244 0,20611 0,719 0,592 0,514 70 0,306 0,235 0,19812 0,695 0,567 0,491 75 0,296 0,227 0,19113 0,672 0,546 0,471 80 0,286 0,220 0,18514 0,652 0,526 0,453 85 0,278 0,213 0,18015 0,633 0,509 0,437 90 0,270 0,207 0,17416 0,615 0,493 0,423 100 0,256 0,197 0,16517 0,599 0,478 0,410 110 0,245 0,187 0,15818 0,584 0,465 0,398 120 0,234 0,179 0,15119 0,570 0,453 0,387 130 0,225 0,172 0,14520 0,557 0,441 0,377 140 0,217 0,166 0,14021 0,545 0,431 0,367 150 0,210 0,160 0,13522 0,533 0,421 0,358 160 0,203 0,155 0,13023 0,522 0,411 0,350 170 0,197 0,151 0,12724 0,512 0,403 0,343 180 0,192 0,146 0,12325 0,503 0,395 0,336 190 0,186 0,142 0,12026 0,493 0,387 0,329 200 0,182 0,139 0,11727 0,485 0,380 0,322 250 0,163 0,124 0,10428 0,476 0,373 0,316 300 0,149 0,113 0,09529 0,469 0,366 0,311 350 0,138 0,105 0,08830 0,461 0,360 0,305 400 0,129 0,098 0,08231 0,454 0,354 0,300 450 0,121 0,092 0,07832 0,447 0,349 0,295 500 0,115 0,088 0,07433 0,441 0,343 0,291 600 0,105 0,080 0,06734 0,434 0,338 0,286 700 0,097 0,074 0,06235 0,428 0,333 0,282 800 0,091 0,069 0,05836 0,423 0,329 0,278 900 0,086 0,065 0,055