Análisis de regresión lineal multivariable para la obtención del ...
Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple
-
Upload
carlosgonzalez -
Category
Documents
-
view
32 -
download
1
description
Transcript of Cea, María de Los Ángeles - Análisis Multivariable. Cap. 1 Regresión Múltiple
REGRESIÓN MÚLTIPLE
La regresión múltiple es una de las técnicas analíticas multivariables principales. Primero, por su pionera y amplia aplicación en la investigación empírica. Segundo, por proporcionar la base de técnicas analíticas posteriores, como el análisis discriminante o el modelado de ecuaciones estructurales. Esta es la razón de que se haya optado por su disposición, en el texto, en primer lugar.
Antes de proseguir con su exposición, hay que señalar que lo dicho en este capítulo concierne exclusivamente al procedimiento de regresión más popular: la regresión lineal de mínimos cuadrados ordinarios. También conocido como procedimiento OLS (deí inglés “Ordinal Least Squares”). En el capítulo 2 se desarrolla la regresión logística, de aplicación más reciente y adecuada a variables muy usuales en la investigación social: las variables cualitativas (o no métricas), a! ser su nivel de medición nominal u ordinal. En este primer capítulo también se describen otros procedimientos de regresión de uso más restringido (subapartado 1.6.2).
Todos los análisis de regresión, como técnicas analíticas multivariables de dependencia que son, se adecúan a un mismo propósito: el análisis de relaciones de dependencia (causa-efecto) entre los valores de una única variable dependiente (aquella cuya variabilidad el investigador desea analizar) y los correspondientes a dos o más variables independientes (también denominadas variables predíctoras o explicativas). Difieren, no obstante, en las características de las variables que se analizan, que determinan la ejecución de los análisis y los supuestos necesarios para su correcta realización. Concretamente, él análisis de regresión múltiple de mínimos cuadrados ordinarios tiene los siguientes objetivos principales:
1. Predecir los valores que adoptará la variable dependiente a partir de los valores conocidos de la serie más pequeña posible de variables independientes. Elío conlleva la búsqueda de la ecuación que mejor represente la asociación lineal
14 Análisis multivariable. Teoría y práctica en la investigación social
existente entre las variables incluidas en el análisis. A partir de dicha ecuación, y gracias a los coeficientes beta, puede también graduarse la aportación de cada variable independiente (X) en la predicción de la variable dependiente (Y).
Si bien, hay que hacer dos rnatizaciones. Primero, “el análisis de regresión es sobre todo útil para la estimación de la magnitud de los efectos, no para la determinación de qué variables predictoras son relevantes” (Wittink, 1988:93). Segundo, “los análisis de regresión no pueden probar causalidad, sólo pueden justificar o contradecir supuestos causales” (Gunst y Masón, 1980:17). Depende de cómo se haya especificado el modelo, de qué variables predictoras se han incluido, siempre acorde con consideraciones teóricas. Se precisa que las variables predictoras sean “relevantes” en la explicación y predicción de la variable dependiente.
2. Cuantificar la relación de dependencia mediante ei coeficiente de correlación R de Pearson y su cuadrado (el coeficiente de determinación). Este último coeficiente informa de la proporción de varianza de la variable dependiente (Y) que queda explicada por la conjunción de variables independientes (X) que conforman la ecuación de regresión. La relevancia de dichas variables explicativas en la predicción de Y se mide, básicamente, con la ayuda de este coeficiente (el coeficiente de determinación).
3. Determinar el grado de confianza con que el investigador puede afirmar que la relación observada en los datos muéstrales es realmente cierta. Rara vez se analizan datos poblacionales. La práctica común en la investigación empírica es extraer una muestra de la población de interés, mediante procedimientos que garanticen su representatividad. De ello depende las posibilidades de inferencia de los datos analizados, a un nivel de probabilidad determinado (Cea, 1996).
En regresión múltiple, la significatividad del modelo en su conjunto se comprueba mediante el estadístico de comprobación “F ” de Snedecor. La significatividad de cada uno de los coeficientes concretos que conforman la ecuación de regresión se mide, en cambio, con la ayuda de la razón “t” de Student. Ambas pruebas de significatividad permiten conocer las probabilidades de inferencia de los estadísticos muéstrales correspondientes a parámetros poblacionales -como se detalla en los subapartados 1.5,3 y 1.4.3, respectivamente-.
La consecución de estos tres objetivos fundamentales descansa en dos pilares básicos, tradicionalmente referidos (véase Guillén, 1992):
1. El cálculo diferencial, analizado primeramente por Fermat, Leibniz y Newton, en el s. xvii; y, posteriormente, por DTUembert y Bernouilíi, en el s. xvm. Su aplicación permite cuantificar la relación existente entre variables. En el análisis de regresión se hace uso, en especial, del principio de “mínimos cuadrados", enunciado en 1794 por Gauss. Éste sirve de fundamento al análisis de regresión lineal, en general.
2. La teoría de la probabilidad, cuyo principal desarrollo se produce, a partir del s. x v i i i , con las aportaciones fundamentales de Moivre, Bayes, Laplace y Pearson.
Capítulo 1: Regresión múltiple 15
Su uso ayuda a determinar el nivel de confianza con que puede afirmarse que los estadísticos estimados, en la muestra analizada, predicen adecuadamente las características correspondientes de la población objeto de estudio.
La exposición del análisis de regresión múltiple comienza, a diferencia del resto de técnicas analíticas multivariables reseñadas en este texto, con la enumeración y desarrollo de cada uno de los supuestos básicos. Éstos son de imprescindible cumplimiento para garantizar la correcta realización del análisis de regresión lineal. Después, se procede al detalle de cada uno de los componentes del análisis, así como de los diversos procedimientos alternativos para su realización. Como ya se dijo en la introducción, para facilitar la comprensión de la técnica analítica, la exposición teórica se acompaña de ejemplos prácticos. Principalmente, del análisis propio efectuado de una selección de ítems de la encuesta “Actitudes ante la inmigración”, de junio de 1996, del Centro de Investigaciones Sociológicas (C.I.S.); amén de otros ejemplos también con datos reales.
1.1. Supuestos básicos del análisis de regresión múltiple
La correcta aplicación del análisis de regresión múltiple de mínimos cuadrados ordinarios (OLS) exige el cumplimiento de una serie de supuestos básicos. Su grado de cumplimiento garantiza la esencia del análisis: poder inferir los estadísticos obtenidos en la muestra analizada a sus correspondientes parámetros poblacionales. Estos supuestos se resumen en los siguientes:
1. Tamaño de la muestra elevado.2. La variable dependiente ha de ser continua.3. Inclusión de variables independientes relevantes.4. Linealidad: la relación entre la variable dependiente y cada variable inde
pendiente ha de ser lineal.5. Aditividad: los efectos de las variables independientes en la dependiente han de
poderse sumar entre sí.6. Normalidad: La distribución de los datos (tanto para la variable dependiente co
mo las independientes) ha de corresponderse con la distribución normal.7. Homocedasticidad o igualdad de las varianzas de los términos de error en la se
rie de variables independientes.8. Ausencia de colinealidad (o de correlación) entre las variables independientes.9. Independencia de los términos de error.
1.1.1. Tamaño muestral elevado
La finalidad de cualquier análisis estadístico no se limita a la descripción de los casos de los que se ha recogido información. Éstos constituyen la muestra de la investigación. Ante todo, se quiere describir, a partir de las características observadas en la
16 Análisis multivanable. Teoría y práctica en la investigación social
muestra, al conjunto de la población a la que ésta pertenece. La capacidad de inferencia de los resultados de la investigación se halla muy determinada por el tamaño de la muestra, además de] procedimiento seguido en su selección: si el procedimiento de selección de las unidades de la muestra ha sido aleatorio o no. La aleatoriedad garantiza la equiprobabilidad, o igualdad en la probabilidad de ser elegido para participar en la muestra, de todas las unidades de la población de interés. También se exige que el procedimiento de selección de la muestra haya sido riguroso en todas sus fases.
Respecto al tamaño de la muestra, su cuantía incide directamente en la reducción del error de estimación y en la consiguiente signifícatividad de los resultados del análisis. Por esta razón, se precisa que el tamaño de la muestra sea lo más elevado posible, para favorecer la signifícatividad de los estadísticos muéstrales.
La adecuación del tamaño de la muestra a las exigencias del análisis se comprueba en relación con el número de variables independientes (o predictoras) que se incluyen para la predicción de Y. En regresión lineal múltiple se barajan distintos ratios mínimos de observaciones precisas por cada variable independiente introducida en el análisis. El ratio más bajo, propuesto por autores como Afiti y Clark (1990:179), es al menos de 5 a 10 veces más casos que variables independientes o predictoras. Otros autores, como "la- bachnick y Fxdell (1989:128-129), elevan el ratio preciso a 20 veces más casos que variables independientes. De modo que, si el análisis incluye 6 variables predictoras, el tamaño muestral mínimo para un correcto análisis ha de ser de 120 unidades muéstrales o casos. Cuando se opta por un procedimiento de regresión secuencial (o “por pasos”), el ratio de número de casos por variables aumenta a 40 casos por cada variable. En el supuesto anterior se precisaría, por tanto, un tamaño muestral mínimo de 240 unidades.
El no cumplimiento de los ratios mínimos referidos suele corresponder a la obtención de errores de estimación elevados. Lo que revierte, negativamente, en la pérdida de significativídad estadística y la consiguiente posibilidad de inferencia del modelo de regresión estimado a partir de la muestra analizada.
Además, si se quiere comprobar la validez del modelo obtenido siguiendo el procedimiento llamado “validación cruzada”, es conveniente que el tamaño muestral sea incluso superior. Este procedimiento de validación se caracteriza por dividir la muestra total en dos submueslras: la muestra de análisis y la muestra de validación. La muestra de análisis es la que se utiliza para la consecución del modelo de regresión. Una vez obtenido éste, Sos resultados se validan con la muestra de validación. Lo habitual es destinar el 60% de la muestra total a la muestra de análisis, dejando el 40% restante para la validación del modelo. También, puede optarse por afijar la misma proporción de casos en ambas submuestras. Este seccionamiento del tamaño muestral exige, obviamente, que el número de unidades muéstrales sea cuantioso. La muestra de análisis ha de cumplir los ratios mínimos de casos por variables referidos para facilitar la signifícatividad estadística y consiguiente inferencia del modelo de regresión resultante.
Por las razones expuestas, se recomienda que, antes de proceder a realizar los anáfisis, se compruebe eí tamaño muestral reaí disponible. Esta comprobación adquiere mayor relieve cuando se incluyen variables con una proporción considerable de “missing valúes” (o casos sin respuesta). Cuando esto acontece, la generalidad de los
Capítulo i: Regresión múltiple 17
paquetes estadísticos al uso eliminan para el análisis, de forma automática, todos los casos sin respuesta (“missing valúes”) en alguna de las variables consideradas, salvo que el investigador especifique lo contrario. En consecuencia, si el número de variables independientes es elevado, y cada una de ellas tiene una cierta cantidad de casos sin respuesta (que necesariamente no corresponde a los mismos casos en todas las variables), la eliminación deliberada de dichos casos supone una merma cuantiosa en el tamaño de la muestra. Esta reducción adquiere mayor gravedad cuando el tamaño de la muestra no es elevado. La muestra final puede no cumplir los ratios mínimos requeridos para el análisis. En cambio, en muestras elevadas, la eliminación de casos sin respuesta apenas tiene efecto en el análisis.
El no cumplimiento de los ratios casos por variables predictoras referidos puede, sin embargo, solventarse con alguna de las medidas siguientes:
a) Eliminar una o varias variables independientes. Este remedio drástico normalmente supone la eliminación de aquellas variables con menor capacidad pre- dictiva. Aquellas que presenten una menor correlación con la variable dependiente y, a su vez, tengan un número importante de casos sin respuesta.
b) Combinar variables independientes (con casos sin respuesta) relacionadas en una única variable (o inclusive más). Esta solución es menos drástica que la anterior y suele suponer una pérdida menor de información.
E j e m p l o d e d is e ñ o m u e s t r a l
La encuesta analizada ex profeso para este texto (“Actitudes ante la inmigración’') fue realizada por el C.l.S. del 6 al 10 de junio de 1996 (estudio 2.214). El ámbito de la encuesta fue nacional. Se incluyeron fas provincias insulares, aunque se excluyeron Ceuta y Meli- lla. El universo fue ia población española de ambos sexos de 18 y más años.
El tamaño de la muestra diseñado, para un nivel de confianza de! 95,5%, heterogeneidad máxima (P = Q = 50) y un error máximo elegido para el conjunto de la muestra de ±2%, es 2.500 unidades muéstrales. Pero, finalmente se realizaron.2.493 entrevistas.
El procedimiento seguido para la selección de la muestra fue polietápico, estratificado por conglomerados, con selección de las unidades primarias de muestreo (municipios) y de las unidades secundarias (secciones) de forma aleatoria proporcional de las unidades últimas (individuos) por rutas aleatorias y cuotas de sexo y edad. Al ser la afijación proporcional, no procede su ponderación.
Los puntos de muestreo fueron 161 municipios elegidos aleatoriamente, tocando a 44 de las 50 provincias. Los estratos se formaron por el cruce de las 17 regiones autonómicas con ei tamaño de hábitat, dividido en 7 categorías: menos o igual a 2.000 habitantes; de 2.001 a 10.000; de 10.001 a 50.000; de 50.001 a 100.000; de 100.001 a 400.000; de 400.001 a1.000.000; más de 1.000.000 de habitantes.
Los cuestionarios se aplicaron mediante entrevista personal en los domicilios. Esta información se detalla en la ficha técnica del citado estudio.
18 Análisis multivariable. Teoría y práctica en la investigación social
Al ser ei procedimiento de selección muestral aleatoria, se garantiza la igual probabilidad que tienen los individuos que componen la población de interés de participar en la muestra. Por lo que se cumple un requisito básico para la aplicación de un análisis de regresión lineal múltipSe: la selección aleatoria de la muestra. También se cumple otro de los requisitos básicos, cual es el tamaño muestra! elevado. La muestra final consta de 2.493 unidades muéstrales. Tamaño muestra! considerable, superior a ¡os mínimos exigidos, y que permite el seccionamiento de la muestra total en dos submuestras para propósitos de validación. Como después se verá, para la “validación cruzada” se decide dividir !a muestra total en dos submuestras de igual tamaño: la muestra de análisis y la muestra de validación. No hubo necesidad de destinar el 60% de la muestra total a la muestra de análisis y el 40% a la muestra de validación, como es habitual. Incluso optando por eliminar del análisis los casos sin respuesta en alguna de las variables de interés, se está ante un tamaño muestral de 1.713 unidades.
1.1.2. Variables continuas: la creación de variables ficticias
Como técnica estadística multivariable de dependencia, el análisis de regresión (de mínimos cuadrados ordinarios o OLS) exige la existencia de una única variable dependiente y dos o más variables independientes. La variable dependiente ha de ser métrica (medida a nivel de intervalo o de razón) y continua. Una variable dependiente discreta viola el supuesto de que el error en el modelo de regresión está normalmente distribuido, con varianza constante. Si bien, Fox (1991: 63) advierte que “este problema sólo es serio en casos extremos -por ejemplo, cuando hay muy pocas categorías de respuesta-, o donde una gran proporción de observaciones está en un número pequeño de categorías condicionales en los valores de las variables independientes”.
Las variables independientes pueden, en cambio, ser continuas o dicotómicas. Aun- que se prefiere que sean métricas y continuas. Es decir, que se hallen medidas con precisión numérica.
En consecuencia, cuando la variable dependiente es no métrica, hay que optar por otra técnica multivariable de dependencia, como la regresión logística, por ejemplo (capítulo 2). El procedimiento de regresión de mínimos cuadrados ordinarios no es apropiado cuando la variable dependiente es dicotómica (con codificación binaria: 0 - 1 , u otra) y, en general, cualitativa.
Por el contrario, la existencia de variables independientes no métricas no invalida la aplicación del método de regresión de mínimos cuadrados ordinarios. Aunque, con la condición de que se hayan previamente traducido a variables ficticias (también conocidas como "dummy variables”). De otra forma, “la utilidad del modelo de regresión sería severamente limitada si todas las variables independientes utilizadas como predictores tuviesen que estar medidas en una escala de intervalo. Los problemas de investigación que implican diferencias grupales son bastante corrientes. Por ejemJ pío, diferencias étnicas, sexuales, regionales, en la conducta, actitudes, características
Capítulo l: Regresión múltiple 19
socioeconómicas, etc.” (Hardy, 1993:1-2).-De lo que se trata es de comprobar si las variables independientes analizadas tienen efectos varios en los grupos diferenciados. Si no se quiere perder la información proporcionada por estas variables, habría que traducirías a una serie de variables ficticias para su utilización posterior en un análisis de regresión lineal.
En suma, un modelo de regresión lineal puede combinar variables cuantitativas con cualitativas. Pero, como su correcta aplicación exige que las variables estén medidas en una escala continua, toda aquella variable predictora que sea cualitativa (o categórica) habrá de ser transformada en una serie de variables ficticias, que facilite su tratamiento como continua,
Por variable ficticia se entiende una variable dicotomica que se crea a partir de una variable cualitativa (nominal u ordinal). Ésta puede ser dicotòmica (tiene sólo dos categorías, como la variable “sexo”, por ejemplo) o politómica (con más de dos categorías, como la variable “estado civil”). Para captar toda la información que contiene las “g” categorías de la variable, habrá que crear “g ■ 1” variables ficticias. Siempre habrá una variable ficticia menos que el número de categorías iniciales de la variable categórica (o cualitativa) original.
Aquella categoría que no se transforma en variable ficticia actúa en los análisis como grupo de referencia. En general, se aconseja que la categoría elegida de referencia se halle bien definida y que contenga un número suficiente de casos. Quiere esto decir, que se desaconseja la consideración como grupo de referencia de categorías genéricas como “otros” o que se hallen escasamente representadas en la muestra.
La codificación binaria más aplicada en ia creación de variables ficticias consiste en la atribución de los códigos numéricos 0 y 1 en cada categoría de la variable. El código 1 se asigna a los casos que pertenecen a una categoría concreta; el código 0 a aquellos que no pertenecen. De este modo la variable nominal “sexo”, medida originariamente con dos categorías, 1 varón y 2 mujer, se transforma en una única variable ficticia: 1 varón y 0 mujer, o a la inversa, 0 varón y 1 mujer. Depende de qué grupo se tome de referencia. En el primer supuesto serían las mujeres, mientras que en el segundo los varones.
Alternativamente se puede aplicar otra codificación binaria: -1 y +1, donde el código ™1 denota al grupo de referencia. Si bien esta última codificación es menos popular que la anterior. Por el contrario, el empleo de otros códigos numéricos, como 1 y 2, por ejemplo, no se considera apropiado (Hutcheson y Sofroniou, 1999). La razón está en que el procedimiento de regresión atribuye un significado específico a estos números: el grupo codificado 2 se interpretaría como 2 veces el valor del grupo codificado 1, cuando en realidad se trata de categorías distintas y no ordenadas (nominales). En cambio, la aplicación de los códigos 0 y 1 únicamente describe la presencia (1) o ausencia(0) de un atributo concreto de la variable en cuestión. En ningún caso reflej an un orden cuantitativo de las categorías de las variables.
Cuando la variable incluye más de dos categorías (politómica), habría que crear tantas variables ficticias como número de categorías de la variable (“g”) menos 1. Un procedimiento a seguir se ilustra en el siguiente ejemplo:
20 Análisis multivariable. Teoría y práctica en la investigación social
E jem plo de codificació n de variables ficticias ---------------------------
La variable categórica “estado civil", originariamente medida en 5 categorías: 1 soltero, 2 casado, 3 separado/divorciado, 4 viudo y 5 en pareja. Como variable nominal, necesariamente exige su previa transformación en variable ficticia para su incorporación al análisis de regresión lineal. Como esta variable incluye 5 categorías, son 4 las variables ficticias a crear. Arbitrariamente, se escoge una de las categorías de la variable para actuar de grupo de referencia. La única condición que se impone es que su presencia en la muestra no sea escasa. En este ejemplo se elige la categoría de “soltero" como grupo de referencia. La codificación resultante sería ia siguiente:
ESTADO CIVIL (Originai)
VARIABLES FICTICIASD1 D2 D3 D4
Soltero 0 0 0 0
Casado 1 0 0 0
Separado/divorciado 0 1 0 0
Viudo 0 0 1 0
En pareja 0 0 0 1
De este modo, la variable ficticia D1 = 1, si ia persona está casada; D1 = 0, si su estado civií es otro. D2 = 1, sí está separado o divorciado; D2 - 0 si su estado civil es otro. D3 = 1, si es viudo/a, D3 = 0, si su estado civil es otro. D4 = 1, si vive en pareja; D4 = 0, si su esta- do civil es otro. Los sujetos que puntúen 0 en todas ias cuatro variables ficticias, constituyen el grupo de referencia (los “soiieros”).
Si se desea comparar cada variable ficticia con e! promedio grupaS, se está ante un procedimiento de codificación llamado “desviación” (Hutcheson y Sofroniou, 1999). Este segundo procedimiento no difiere del anterior, salvo en ¡a codificación del grupo (o categoría) de referencia. Éste pasa a codificarse -1, en vez de 0 (para cada una de las cuatro variables ficticias creadas), Lo que posibilita la comparación de cada grupo codificado 1 (variable ficticia) y el promedio de todos los grupos. Hecho que incide en que los coeficientes de regresión para las variables ficticias permanezcan constantes, indistintamente del grupo que se tome de referencia.
Hay que advertir, no obstante, que cuando se aplica este segundo procedimiento de codificación no puede omitirse ninguna de las g - 1 variables ficticias creadas a partir de la variabie categórica original. De otra forma se dificulta la comparación con el promedio grupa!.
Para cada una de estas cuatro variables ficticias (indistintamente de! procedimiento seguido en su elaboración) se calcula un coeficiente de regresión, por separado. Cada una de estas variables actúa en el modelo como variable independiente. Lo que puede provocar un efecto no deseado: elevar la colinealidad, af poderse predecir e! vaior de cualquiera de dichas variables a partir del conocimiento de las otras tres variables. La colinealidad se trata en el subapartado 1.1.8.
Capítulo I: Regresión múltiple 21
Las variables ordinales (como la variable “clase social” o “satisfacción”) no precisan de su transformación en variables ficticias para su incorporación a un análisis de regresión lineal. De acuerdo con Afiíi y Clark (1990: 226), las variables ordinales “representan variables con una escala latente”. Esto posibilita su tratamiento como variable continua. Pero ello exige que los códigos numéricos asignados a cada categoría de la variable se correspondan con la cualidad que expresan. Así, por ejemplo, en la variable “clase social”, medida en cinco categorías: alta, media-alta, media, media-baja y baja; debería aplicarse una escala numérica en consonancia con el nivel de estatus correspondiente. El código numérico más bajo, el 1, se aplicaría a la “clase social baja”. En cambio, el código numérico más elevado, el 5, a la categoría de “clase alta”. Y no a la inversa. Lo que facilita la interpretación de la variable en la ecuación de regresión.
Pero el investigador también puede optar por ignorar el orden latente de las variables ordinales, tratándola a modo de variable nominal. Ello exige su transformación a tantas variables ficticias como número de categorías menos uno. En el ejemplo anterior, tendría que crearse 4 variables ficticias. Arbitrariamente se tomaría una de las categorías de la variable “clase social” como grupo de referencia. La categoría elegida puede ser la “clase social alta”. Las cuatro variables ficticias serían: clase media-alta (DI), media (D2), media-baja (D3) y baja (D4). Si D I = 1, el individuo es de clase media-alta; DI = 0, no es de clase media-alta. Y así con las otras variables ficticias.
El proceder de esta segunda manera, transformando las variables ordinales en ficticias, tiene, no obstante, un inconveniente importante. La codificación ficticia no retiene información sobre el orden expreso en la variable. Las categorías de la variable cambian a variables no relacionadas. “El análisis consecuentemente pierde algún poder” (Hutcheson y Sofroniou, 1999: 92), al perderse el orden de las categorías de la variable ordinal. Por esta razón, se aconseja elegir la primera opción: dar a la variable ordinal el tratamiento de variable continua.
Por último, señalar una utilidad importante de transformar variables ordinales, e incluso de intervalo, en ficticias. Cuando se sospeche la existencia de una relación curvilínea entre dicha variable independiente con la dependiente. En este caso la transformación a variables ficticias tendría la utilidad de representar segmentos de la distribución de dichas variables independientes. Lo que proporciona -de acuerdo con Hardy (1993)- una alternativa útil a la regresión polinomial o al uso de transformaciones.
1.1.3. Variables independientes relevantes
La solución de regresión depende bastante de qué variables independientes participen en el análisis. Tan importante es comprobar que no se ha excluido (de la base de datos) ninguna variable independiente que se estime “relevante” (en la predicción de la variable dependiente) como la no inclusión de variables “irrelevantes” .
En regresión, como en la generalidad de los análisis estadísticos, se busca la obtención de un modelo parsimonioso. Es decir, un modelo explicativo que incluya el menor numero posible de variables predictoras (o independientes). Pero, asimismo, és
22 Análisis multivariable. Teoría y práctica en la investigación social
tas han de mostrar “relevancia” en la predicción de la variabilidad de la variable dependiente. “El añadir variables innecesarias causa una pérdida en precisión de los coeficientes estimados en las variables relevantes” (Schroeder et al, 1986:17). Ello se debe al aumento del error típico de la estimación (subapartados 1.4.2. y 1.5.2.), que ocasiona ia incorporación de variables “irreíevantes”, sin que ello se traduzca en una mejora en proporción de varianza de la variable dependiente explicada por las independientes, medida mediante el coeficiente de determinación R 2 (subapartado1.5.1.). Por esta razón fundamental se desaconseja la inclusión de muchas variables independientes en el análisis de regresión, a menos que muestren que son “relevantes” para la predicción de la variable dependiente.
La comprobación de si se han incluido variables predictoras “irrelevantes” puede hacerse siguiendo alguna de las opciones ya resumidas por Sánchez Camón (1995:412):
a) Comprobar cuánto mejora la explicación de la variable dependiente el hecho de que se incluya una nueva variable independiente (véase incremento en R2).
b) Mediante la realización de un contraste que permita conocer si el efecto de cada variable independiente es estadísticamente significativo.
-]~ E jem p lo d e s e l e c c ió n d e v a r ia b l e s in d e p e n d ie n t e s r e l e v a n t e s —
Del total de ítems que componen ia encuesta de “Actitudes ante la inmigración” de 1996 det C.I.S., se han escogido las siguientes variables (enunciadas con eí número de la pregunta con el que figura en ei cuestionario):
A. Variable dependiente;* P2G1: “Dígame, por favor, en una escala de 0 a 10, la simpatía que Vd. siente por los
norteafricanos (marroquíes, etc.), teniendo en cuenta que 0 significa ninguna simpatía y 10 mucha simpatía".
Se ha elegido esta variable por su carácter de “continua” . Se quiere conocer qué variables ayudan a predecir el mayor o menor grado de simpatía hacia ios norteafricanos.
B. Variables independientes:* P210: “Dígame, por favor, en una escala de 0 a 10, la simpatía que Vd. siente por
ios latinoamericanos, teniendo en cuenta que 0 significa ninguna simpatía y 10 mucha simpatía".
* P306: “A Vd, te preocuparía mucho, bastante, poco o nada que un hijo o una hija suya se casara con un ciudadano de Marruecos u otro país norteafricano”. Mucho (1) Bastante (2) Poco (3) Nada (4) No sabe (8) No contesta (9).
* P506: “¿Hasta qué punto: mucho, bastante, poco o nada le importaría a Vd. tenercomo vecinos a una familia de ciudadanos de Marruecos u otro país norte- africano?”. Mucho (1) Bastante (2) Poco (3) Nada (4) N.s. (8) N.c. (9).
Capítulo 1: Regresión múltiple 23
• P11:
- P16:
• P19:
• P21:
• P2904:
• P33:
<• P37:
• P39:
• P41:• P42:• P43a:
• P49a;
• P51;
"¿Qué le parece a Vd. el número de personas procedentes de otros países que viven en España?”. Son demasiados (1) Son bastantes, pero no demasiados (2) Son pocos (3) N.s. (8) N.c. (9).“En su opinión ¿cree que las leyes que regulan !a entrada y permanencia de extranjeros en España son demasiado tolerantes, más bien tolerantes, correctas, más bien duras o demasiado duras?”. Demasiado tolerantes (1) Más bien tolerantes (2) Correctas (3) Más bien duras (4) Demasiado duras (5) No conoce la legislación en materia de inmigración (6) N.s. (8) N.c. (9).“Y, en genera!, ¿cree Vd. que se debería de tratar de regularizar la situación de los inmigrantes ilegales o por el contrario se les debería devolver a su país de origen?”. Se debería regularizar su situación (1) Se les debería devolver a su país (2) N.s. (8) N.c. (9).“¿Qué política cree Vd. que sería la más adecuada con respecto a los trabajadores inmigrantes?”. Facilitar la entrada de trabajadores inmigrantes (1) Facilitar la entrada sólo a aquellos que tengan un contrato de trabajo (2) Hacer muy difícil la entrada de trabajadores inmigrantes (3) Prohibir por completo la entrada de trabajadores inmigrantes (4) N.s. (8) N.c. (9).“El aumento de los inmigrantes favorece el incremento de la delincuencia en nuestro país”. De acuerdo (1) En desacuerdo (2) N.s. (8) N.c. (9).“¿Ha tenido Vd. alguna vez relación o trato con inmigrantes en España?” Sí (1) No (2) N.c. (9).“En estos últimos años se está produciendo en algunos países eurdpeos un cierto auge de partidos políticos de ideología racista que, como Le Pen en Francia, propugnan expulsar del país a ciertos colectivos por su raza o religión (negros, mahometanos, judíos, etc,). ¿A Vd. este auge le parece muy positivo, positivo, negativo o muy negativo?". Muy positivo (1) Positivo (2) Negativo (3) Muy negativo (4) N.s. (8) N.c. (9).“Cuando se habla de política se utiliza normalmente las expresiones izquierda y derecha. En esta tarjeta hay una serie de casillas que van de izquierda a derecha. ¿En qué casilla se colocaría Vd.?Izda 01___________________________ 10 Dcha N.s (98) N.c. (99)“Sexo” Hombre (1) Mujer (2).“Cuántos años cumplió Vd. en su último cumpleaños?” ______N.c. (99).“¿Cuáles son los estudios de más alto nivel que Vd. ha cursado (con independencia de los que ha terminado o no?”. Algunos años de primarla (01) Estudios primarios (02) Bachillerato elemental (03) FP1 (04) Bachillerato superior (05) FP2 (06) Arquitecto e ingeniero técnico (07) Diplomado escuela universitaria (08) Estudios superiores de 2 o 3 años (09) Arquitecto e ingeniero superior (10) Licenciado universitario (11) Doctorado (12) Estudios de postgrado, master (13) Estudios no reglados (corte y confección, mecanografía...) N.s. (98) N.c. (99).“¿Con qué frecuencia asiste Vd. a misa u otros oficios religiosos sin contar las ocasiones relacionadas con ceremonias de tipo social, por ejemplo, bodas, comuniones o funerales?’ Casi nunca (1) Varias veces al año (2) Alguna vez al mes (3) Casi todos los domingos o festivos (4) Varias veces a la semana (5) N.c, (9). “¿A qué dase social diría Vd, que pertenece?” Alta (1) Media-alta (2) Media- baja (3) Media-media (4) Baja-trabajadora (5) N.s. (8) N.c. (9).
24 Análisis multivariable, Teoría y práctica en la investigación social
® P52: "Actualmente, entre todos los miembros del hogar y por todos los conceptos, ¿de cuántos ingresos netos disponen por término medio en su hogar al mes?” Menos de 50.000 pts. (01) 50.001-100.000 (02) 100.001-150.000 (03) 150.001-200.000 (04) 200.001-300.000 (05) 300.001-400.000 (06)400.001-500.000 (07) 500.001-750.000 (08) 750.000-1 millón de pts. (09) Más de 1 millón de pts. (10) N.c. (99).
• Tamuni: ‘Tamaño del hábitat “ Hasta 2.000 hab. (1) 2.001-10.000 (2) 10.001-50.000 (3)50.001-100.000 (4) 100.001-400.000 (5) 400.001-1.000.000 (6) Más de1.000.000 (7).
Del total de 18 variables inicialmente elegidas para la predicción de la variable dependiente, 14 son finalmente las variables que participan en el análisis. Las 4 variables descartadas por mostrar muy escasa correlación (bivariable) con la variable dependiente son las siguientes: P33 (r = ,095), P49a (r = -,010), P51 (r = ,028) y Tamuni (r = ,015).
La mayoría de las variables elegidas son ordinales, exceptuando ias variables métricas P210, P39, P42 y P52 (en intervalos); y ias nominales P19, P2904 y P41.
Como ya se expuso, las variables ordinales no precisan de su transformación en variables ficticias para su incorporación como variables independientes en el análisis de regresión Uneal Estas variables representan variables en una escala latente que posibilita su tratamiento como variable continua. Para ello se precisa que los códigos numéricos asignados a cada categoría de la variable se correspondan con Sa cualidad que expresan. Esta correspondencia facilita la interpretación de la variable en la ecuación de regresión. Por esta razón, variables como P306, P506, P11 o P37, por ejemplo, se han recodifica- do para mantener la correspondencia necesaria entre el código numérico y la cualidad que expresa: Mucho (4) Bastante (3) Poco (2) Nada (1); Son demasiados (3) Son bastantes, pero no demasidos (2) Son pocos (1); Muy positivo (4) Positivo (3) Negativo (2) Muy negativo (1).
La variable P43a (estudios) se ha agrupado en cinco categorías: Primarios o menos (1), EGB, FP1 (2) Bachillerato, FP2 (3) Medios (diplomado, técnico, superiores de 2 o 3 años) (4) Superiores (5).
Al estar agrupada la variable P52 (ingresos) en intervalos, se ha procedido previamente a calcular los puntos medios de los intervalos (la suma de sus límites, superior e inferior, dividida entre dos), como valores representativos de los mismos, para el cálculo de la media y demás estadísticos.
Las variables nominales P19, P2904 y P41 se han transformado en ficticias. A! tener cada una de ellas sólo dos categorías son tres las variables ficticias creadas: P41 (sexo) Varón(1) Mujer (0); P2904 (inmigrante delincuente) De acuerdo (1) En desacuerdo (0); P19 (regularizar inmigrantes) Sí (1) No (0). Recuérdese que el código numérico “0” designa al grupo de referencia.
No se ha querido incluir más variables en el análisis porque la finalidad es obtener un modelo “parsimonioso”. La incorporación de variables innecesarias o que muestren ser “irrelevantes” para la predicción de la variable dependiente suele ir acompañada de una pérdida de precisión de los coeficientes estimados en ias variables “ relevantes” (Schroeder et al., 1986), debido al aumento, que suele provocar, en ei error típico de las estimaciones de las variables "relevantes”.
Capítulo 1: Regresión múltiple 25
La relación entre la variable dependiente y cada variable independíenle ha de ser lineal. Esto significa que el efecto de cada variable independiente (Xf) en la dependiente (Y), es el mismo, cualquiera que sea el valor de la variable independiente. O, dicho con otros términos, para “cada variable independiente X;, la cantidad de cambio en el valor medio de Y asociado con un aumento de una unidad en X;, manteniendo todas las otras variables independientes constantes, es el mismo sin considerar el nivel de X;” (Berry y Feldman, 1985: 51).
Por el contrario, sí se observa que el cambio en el valor medio de la variable dependiente asociado con el incremento de una unidad en la variable independiente varía con el valor de la variable X; se dice que la relación entre la variable dependiente y la independiente es no lineal (no se ajusta a una recta). Cuando esto sucede, el modelo de regresión no logra captar “el modelo sistemático de relación entre las variables dependiente e independientes” (Fox, 1991:49).
En regresión múltiple, el cumplimiento de este cuarto supuesto puede fácilmente comprobarse de forma visual, con la ayuda de los gráficos de regresión parcial y los de residuos.
A) Gráficos de regresión parcial
Estos gráficos son de gran utilidad para conocer qué variables concretas incumplen el supuesto de linealidad. Muestran, para cada variable independíente, su relación con la dependiente. Para que el supuesto de linealidad se cumpla, la nube de puntos que corresponde a los valores de X; e Y en cada caso concreto, ha de ubicarse en tomo a una recta. Esta puede ser creciente o decreciente. Es creciente, cuando ambas variables, X. e Y, se hallan positivamente relacionadas; es decir, que el aumento del valor de la variable independiente supone igualmente un aumento en el valor de la variable dependiente. En cambio, la recta será decreciente si la relación entre las variables es negativa: al aumento de valor de la variable independiente le sigue una disminución en el valor correspondiente a la variable dependiente. Véanse gráficos a y b en la figura 1.1.
Por el contrario, si se observa que la nube de puntos no sigue una misma pauta lineal, creciente o decreciente, sino en forma de curva (habiendo un punto de inflexión en los datos, pasándose de una tendencia creciente a decreciente, o a la inversa) se está ante una relación no lineal (gráfico c). Cuando esto acontece, es preciso realizar una transformación logarítmica en dicha variable independiente (log X.) para alcanzar la linealidad que exige el análisis de regresión lineal.
En cambio, si en el gráfico se observa que la nube de puntos no sigue ninguna pauta (ya sea lineal o curvilínea), significa que no existe ninguna relación entre las variables dependiente e independiente. Eí cociente de correlación de ambas variables, como en el supuesto anterior de relación curvilínea, se aproxima a cero (r = 0) -véanse subapartados 1.3.2. y 1.5.1™. Lo que lleva a reconsiderarla inclusión de dicha variable independiente en el análisis de regresión lineal (al mostrar no ser de utilidad en 1a predicción de ja variable dependiente).
1.1.4. Linealidad
26 Análisis multivariable. Teoría y práctica en la investigación social
a) Relación linea? positiva Y
b) Relación íineal negativaY
c) No-lineal(relación curvilínea)
Xd) Inexistencia de relación
entre las variables
Figura 1.1. Gráficos de regresión parcial.
Los ejes de los gráficos de regresión parcial pueden venir expresados en las unidades originales en que fueron medidas ambas variables o en sus correspondientes puntuaciones estandarizadas (unidades Z). Éstas resultan de tipificar la variable para neutralizar la incidencia de la unidad de medida. En este caso, los valores de las variables se localizan en el intervalo de “ -3” a “+3”.
A su utilidad en el análisis de la relación bivariable entre cada X(- e Y, hay que añadir que los gráficos de regresión parcial también muestran ser de utilidad en la detección de atípicos. Por atípico comúnmente se entiende todo caso que se distancie de la tendencia observada en la generalidad de los datos (véase subapartado 1.5.4.). En el gráfico de regresión parcial cualquier punto que se aleje de la nube de puntos identifica a un posible atípico, cuya confirmación precisa de otros procedimientos analíticos resumidos en el susodicho subapartado.
E j e m p l o d e c o m p r o b a c ió n d e l .s u p u e s t o d e l in e a u d a dMEDIANTE EL GRÁFICO DE REGRESIÓN PARCIAL
Para ilustrar e! uso del gráfico de regresión parcial en la comprobación def supuesto de iinealidad, se han seleccionado dos gráficos del total de realizados mediante el programa SPSS (versión 10.0).
Capítulo 1: Regresión múltiple 11
a)Gráfico de regresión parcial Variable dependiente: simpatía marroquí
Empatia fótíttú&ftáricana
b)Gráfico de regresión parcial Variable dependiente: simpatía marroquí
El primer gráfico a) refSeja la relación bivariable existente entre la variable dependiente “simpatía por los norteafricanos: marroquíes, etc.” (P201) y la independiente “simpatía por los latinoamericanos” (P210). Ambas variables se encuentran en la misma escala de medida. Sus valores van de 0 a 10. Del gráfico puede deducirse la existencia de una relación lineal positiva entre ambas variables, aunque no es perfecta. La simpatía mostrada hacia los latinoamericanos ayuda a predecir la sentida hacia los norteafricanos (marroquíes, etc.). La valoración dada a este último colectivo de inmigrantes está positivamente relacionada con la dada a otro colectivo de inmigrantes: los latinoamericanos. Las personas que más simpatía sienten hacia los norteafricanos son, asimismo, los que más simpatía muestran hacia los latinoamericanos. Al aumento en ia valoración hacia ios latinoamericanos le sigue normalmente una mayor valoración hacia los norteafricanos. Pero, la relación lineal positiva observada entre ambas variables no es perfecta. Si fuese perfecta, la nube de puntos se ajustaría a una recta ascendente. Este tipo de gráfico coincide con un coeficiente de correlación r = 1,0, que indica la existencia de una relación lineal positiva perfecta entre ambas variables: conforme aumenta el valor de la variable independiente, se incrementa, asimismo, el de ia dependiente; ios valores attos y bajos en ambas variables coinciden. En cambio, la correlación existente entre (as dos variables referidas (simpatía por los latinoamericanos y simpatía por los norteafricanos) no es perfecta, aunque sí importante: “r = ,593”, como se verá posteriormente, en la matriz de correlaciones. Lo que explica que ia nube de puntos no sea totalmente lineal. La nube de puntos pierde la linealidad, a medida que disminuye la correlación entre las variables. Recuérdese que, cuando la correlación es nula, el gráfico de regresión parcial coincide con el mostrado en la figura 1.1 (gráfico d).
La existencia de puntos alejados de la nube de puntos principal informa de la existencia de atípleos a confirmar mediante otros procedimientos analíticos.
El gráfico b) es totalmente distinto al anterior. Ilustra la relación existente entre una variable independiente ficticia (“sexo") y la dependiente continua {“simpatía por los norteafricanos”). La variable “sexo" es una medida discreta convertida a ficticia mediante la codificación binaria “1” varón y “0” mujer. Ello afecta a que cuando se modela su relación con una variable dependiente continua no resulta una recta de regresión, aunque las variables se hallen muy relacionadas. Por e! contrario, el gráfico de regresión parcial ofrece dos nubes de puntos principales, que corresponden a los valores de la variable dependiente para cada uno de ios dos valores posibles de la independiente 1 y 0. En general, el anáfisis de regresión con variables independientes ficticias posibilita
28 Análisis multivariable. Teoría y práctica en la investigación social
el conocimiento de los valores predichos (o esperados) en la variable dependiente para cada uno de los subgrupos en la variable independiente. Lo que imposibilita su representación mediante una recta realizada desde una serie continua de valores.
B) Gráficos de residuos
A diferencia del gráfico de regresión parcial, el gráfico residuos no se Umita a relaciones bivariables. Por el contrario, muestra los efectos combinados de todas las variables predictoras incluidas en la ecuación de regresión con la dependiente. Para lo cual se representan los residuos estandarizados o los estudentizados -explicados en el subapartado 1.1.10- contrajos valores predichos de la variable dependiente a partir de la ecuación de regresión (FK Estos valores se obtienen de sustituir (en la ecuación de regresión resultante de los análisis) los valores correspondientes de la variable independiente, en cada caso concreto. La diferencia entre el valor de la variable dependiente observado en la'muestra (Y) y el predicho a partir de la ecuación de regresión (Y) es lo que se entiende por residuo (B¿). Si éste se halla dividido por ía desviación típica, el residuo será estandarizado (E ). Los estudentizados (Ef.) se caracterizan por seguir la distribución “t” de Student con N - p - 1 grados de libertad (siendo “N” el tamaño de la muestra y “p” el número de variables independientes).
La figura 1.2 incluye distintas posibilidades de gráficos de residuos. Estos difieren de los gráficos de regresión parcial en dos aspectos importantes: uno, ahora se relacionan ios residuos con Y (los valores predichos de la variable dependiente), y no los valores de Y con X; como sucede en los gráficos de regresión parcial, dos, la nube de puntos ha de ser horizontal, y no ascendente ni descendente (según sea positivo o negativo el coeficiente de regresión para la variable independiente). El supuesto de li- nealidad se cumple cuando los residuos se distribuyen aleatoriamente, próximos a la línea horizontal que parte de 0. Téngase presente que este gráfico se realiza con residuos estandarizados (Es.) y estudentizados (E,.). En cambio, cuando ia nube de puntos presenta una forma en curva, en vez de rectangular, el supuesto de Iinealidad no se cumple. Como sucede en los gráficos b) y c) incluidos en la figura 1.2.
a) Relación Hneal b) Relación no lineal c) Relación no finen!
10 20 30 40 50 y¡ 10 20 30 40 50 y- 10 20 30 40 50 í>.
Figura 1.2. Gráficos de residuos.
Berry y Feldman (1985: 54) proponen otra forma alternativa de comprobar el supuesto de Iinealidad, que consideran más “rigurosa”. Consiste en dividir la muestra en
Capítulo 1: Regresión múltiple 29
varias submuestras que incluyan un rango de valores para la variable independiente. Si la regresión en cada submuestra, por separado, genera estimaciones de intercepto y de coeficientes de pendiente que difieran sustancialmente a través de las submuestras, se considera la relación entre las dos variables no lineal.
El incumplimiento del supuesto de linealidad no supone la invalidación del análisis de regresión, aunque sí lo debilita. Cuando acontece, la relación entre la variable dependiente con la independiente no queda suficientemente captada por e] coeficiente de regresión lineal. Para que esto no suceda, conviene aplicar alguno de los siguientes remedios contra la no linealidad:
a) La aplicación de métodos de regresión no lineal, como la regresión polinomial.b) La transformación logarítmica de la variable independiente (log X¿). La ecua
ción de regresión que resulta de utilizar log X¡ en lugar de X¡ no presentaría ningún problema en la interpretación de los valores predichos de la variable dependiente (Y). Por esta razón, “la mayoría de los investigadores aceptan la transformación de loglfe, como razonable en estas situaciones” (Afifi y Clark, 1990:119).
1.1.5. Adiíividad
La predicción de la variable dependiente exige que los efectos de las distintas variables independientes puedan sumarse entre sí. Esto significa que, para cada variable independiente incluida en el modelo de regresión, la cantidad de cambio que provoca en la variable dependiente será el mismo, indistintamente de los valores de las otras variables independientes incluidas en la ecuación de regresión. Si, por el contrario, se observa que su influencia se ve afectada por los valores que presenten otras variables independientes, se está ante un modelo de regresión no aditivo (o interactivo). Ello acontece cuando las variables independientes interactúan unas con otras, al influir en la variable dependiente.
Berry y Feldman (1985) diferencian tres variedades de modelos de regresión no aditivos:
a) Modelo interactivo de variable ficticia. Cuando una de las variables independientes es dicotòmica (es decir, dispone de dos opciones de respuesta diferentes: sí-no, varón-mujer, aprobado-suspenso), el modelo es interactivo si la variable independiente está linealmente relacionada con la variable dependiente para ambos valores de la variable ficticia dicotòmica. No obstante, la pendiente de la recta de regresión y el intercepto que caracterizan la relación lineal entre la variable dependiente y las independientes diferirán según sea el valor de la variable ficticia dicotòmica (D;).
b) Modelo multiplicativo. Si dos variables independientes, medidas a nivel de intervalo, interactúan en la variable dependiente, de modo que la pendiente
30 Análisis rnultivariable. Teoría y práctica en la investigación social
de la relación entre cada variable independiente y la dependiente esté relacionada linealmente con el valor de la otra variable independiente.
c) Modelo interactivo no lineal. La resolución de este tipo de modelo exige tomar logaritmos en ambos lados de la ecuación de regresión. Es decir, tanto para la variable dependiente como para cada una de ias variables independientes, incluyendo la constante y el término de error.
En consecuencia, si se observa que el cambio en el valor de Y, relacionado con un pequeño aumento en X ¡ depende del valor de X¡, significa que se está ante un modelo no lineal. Por el contrario, cuando el cambio en Y, relacionado con un pequeño aumento en X£, está relacionado con el valor de otra variable independiente, el modelo es interactivo.
Tacq (1997) propone una sencilla comprobación del supuesto de aditividad. La confección de una ecuación de regresión que incluya todos los efectos multiplicativos entre dos variables independientes. Por ejemplo, Y = b0 + b1x1H-b2x2 + b3x1x2 + eL Esta ecuación se añade al modelo aditivo simple, que no contiene términos de interacción: Y = b0 + b¡ x, -!■ b;) x2 + e. Si el valor del estadístico F empírico (obtenido del modelo) es mayor que el correspondiente F teórico (que figura en la tabla de F, a unos grados de libertad y nivel de significación concretos) -véase subapartado 1.5.3- significa que la totalidad de los efectos de interacción ofrece una contribución significativa a la explicación de la variable dependiente. En este caso, el modelo aditivo no sería adecuado.
En resumen, con más de dos variables independientes en el modelo pueden incluirse varios términos producto para cada dos, tres o más variables. De esta forma habría un refuerzo mutuo entre las variables independientes en la explicación de la variable dependiente. El modelo no sería aditivo, sino multiplicativo. La suma ponderada de los efectos de las variables independientes no explicaría el valor de la variable dependiente, sino los productos de las variables independientes con efectos interactivos.
1.1.6. Normalidad
El supuesto de normalidad es común a otras técnicas de análisis rnultivariable. Consiste en la correspondencia de los datos (tanto relativo a la variable dependiente, como a las independientes) con la distribución normal. Ello es importante porque permite el uso de los estadísticos “F” de Snedecor y “t” de Student, en la comprobación de la signifkañvidad del modelo de regresión en su conjunto (“F”) y de sus coeficientes por separado (“t”).
El incumplimiento de este supuesto es más probable cuando el análisis de regresión se realiza en una muestra de tamaño pequeño (inferior a los ratios mencionados en el subapartado 1.1.1). Conforme aumenta el tamaño de la muestra, y merced a la teoría del límite central, es más cierta ia correspondencia de la distribución de datos con la curva normal. De hecho, algunos autores, como Afifi y Clark (1990:116), afirman que “las salidas ligeras de este supuesto apreciablemente no alteran nuestras inferencias, si el tamaño muestral es suficientemente grande”.
Capítulo 1: Regresión múltiple 31
Como en otros supuestos de regresión, la forma más sencilla de comprobar éste es visual, con la ayuda de alguno de los gráficos siguientes:
A ) Histograma de residuos
Incluye los residuos, preferiblemente estandarizados, junto con las frecuencias de la variable. Para que el supuesto de normalidad se satisfaga, los residuos (aquellos datos que no logran ser explicados por el análisis de regresión, al no coincidir los valores observados con los predichos a partir de ía ecuación de regresión) han de estar normalmente distribuidos. El histograma, en suma, ha de tener una forma acampanada (de campana de Gauss). Su distribución ha de ser perfectamente simétrica, con media 0 y desviación típica 1. Si, por el contrario, se observa una agrupación exagerada de residuos, no en el centro, sino en un extremo de la distribución, ya sea en los valores positivos o en los negativos, el supuesto de normalidad no se cumple.
- ^ EJEM PLO DE HISTOGRAMA DE RESIDUOS ---------------'--------------------------------- "
Para ilustrar la aplicación del histograma en la comprobación del supuesto de normalidad, a continuación se incluye el histograma correspondiente a los datos aquí analizados de la encuesta de “Actitudes ante fa inmigración”. El gráfico contiene las frecuencias de la variable dependiente Junto a los residuos estandarizados, para un tota! de 1.267 casos válidos. En él puede observarse que e¡ supuesto de normalidad prácticamente se cumple. La media de la distribución es “,05” y fa desviación típica “1,00”. Recuérdese que e! supuesto de normalidad exige que la distribución de datos sea perfectamente simétrica. Lo que significa que su me-
Histograjna Variable dependiente; simpatía marroquí
160-¡-----------------------------------------------------------
Regresión residuo tipificado
32 Análisis multivariable. Teoría y práctica en la investigación social
dia aritmética ha de ser igual a “0,0” y su desviación típica igual a “1,0”. Si. se comparan los valores obtenidos con los de referencia, puede concluirse que la asimetría de la distribución observada es ligera. Como era de esperar por ei tamaño muestral analizado, en relación con ei número de variables predictoras incluidas en el análisis, ia distribución de los datos casi se corresponde con la curva norma!. Para un análisis más detallado del ligero apuntamiento y desviación hacia la derecha de la distribución observada ha de acudirse a los gráficos de probabilidad normal para variables predictoras concretas, y no para el conjunto de la distribución, además de estadísticos específicos de asimetría y curiosis. Éstos ayudan a comprobar la extensión a la que la serie de puntuaciones observadas se desvían de ia distribución normal.
B) Gráfico de probabilidad normal
Algunas veces referidos como gráfico P - P . Difiere del histograma de residuos en que también puede aplicarse cuando el tamaño de la muestra analizada es pequeño. En él se compara la distribución observada de los residuos estandarizados1 (o tipificados) con la esperada bajo el supuesto de normalidad. Para ello se representan ambas distribuciones de probabilidad acumuladas: la esperada y la observada. Si ambas distribuciones coinciden, se obtiene una recta que forma un ángulo de 45°. Lo que significa que se está ante una distribución normal. Las salidas de la normalidad se producen cuando la distribución de datos se distancia de la diagonal definida por dicha recta.
Cuando la línea de puntos cae por debajo de la diagonal, la distribución es plati- cúrlica. Tanto más, cuanto más se distancie la línea de puntos de la diagonal. Este tipo de distribución se caracteriza por una elevada dispersión de sus valores con respecto a la media de la distribución, lo cual dificulta su representatividad. La distribución de los datos presenta una forma achatada o plana, con escasos valores en su centro. El valor de curtosis correspondiente es negativo (inferior a 0). Por el contrario, si la línea de puntos se sitúa por encima de la diagonal, la distribución es leptocúrtica. Sus valores se hallan muy concentrados en torno a la media de la distribución, al haber muchos casos en su centro; su dispersión respecto de la media aritmética es muy pequeña, favoreciendo su representatividad. El valor de curtosis es en este caso positivo (superior a 0).
Un arco sencillo por encima o por debajo de la diagonal indica, asimismo, asimetría (positiva o negativa). La asimetría constituye un indicador de la agrupación de las frecuencias en la curva de una distribución, del grado en que coinciden las medidas de tendencia central (media, mediana y moda). La distribución es simétrica (o normal) cuando los valores de dichos estadísticos no difieren. Gráficamente, la nube de puntos se ajusta a la diagonal. Si se sitúa por encima de la diagonal, la distribución es asimétrica a la derecha (o con sesgo positivo). Los casos se agrupan a la izquierda de la curva, al haber en la distribución mayor representación de los valores inferiores a la medía. El valor de asimetría correspondiente es positivo (superior a 0).
Un arco por debajo de la diagonal informa, en cambio, que la distribución es asimétrica negativa (o con sesgo negativo); tanto más, cuanto más se distancie la línea de
Capítulo i: Regresión múltiple 33
puntos de la diagonal definida por ambas probabilidades. En ias distribuciones asimétricas negativas la agrupación de valores se produce a la derecha de la curva, al haber una mayor presencia de valores superiores a la media en la muestra analizada. La asimetría en este caso toma un valor negativo. De detectarse algún tipo asimetría, es preciso examinar por separado cada variable para comprobar en cuáles se incumple el supuesto de normalidad.
E! gráfico P - Pde probabifidad normal de residuos estandarizados {o tipificados) de la misma distribución de datos analizada corrobora las conclusiones del histograma de residuos. Como puede observarse en el gráfico P - P adjunto, la nube de puntos se sitúa a lo largo de la diagonal (que resulta de comparar las distribuciones de probabilidad acumuladas observadas y esperadas -para una distribución normal“ para los residuos estandarizados), sin dis- tanciamientos notorios. Lo que lleva a afirmar el cumplimiento del supuesto de normalidad. La asimetría a la derecha detectada es muy leve. Apenas se vislumbra un pequeño arco por encima de la diagonal en el rango semiintercuartílico de las probabilidades acumuladas.
Como ambos gráficos de residuos (P - P de probabilidad normal y el histograma de residuos) muestran el práctico cumplimiento det supuesto de normalidad rnultivariable, puede seguirse ía recomendación de Tabachnick y Fidell (1989: 79), según la cual, “en regresión múltiple, si los gráficos de residuos parecen normales, no existe razón para visualizar variables Individuales para comprobar la normalidad". No obstante, esta comprobación univariable puede ser deseable en busca de mejora de! modelo obtenido. Para lo cual habrá de seguirse otros procedimientos estadísticos y gráficos que se verán más tarde.
P - P D E PROBABILIDAD NORMAL
Gráfico P-P normal de regresión residuo tipificado Variable dependiente: simpatía marroquí
1,00
"O ca u*
£ 0,000,00 ,25 ,50 ,75 1,00
Prob. acum. observada
34 Análisis multivariable. Teoría y práctica en la investigación social
® La normalidad también puede comprobarse con la ayuda de estadísticos. El de mayor aplicación es el estadístico W de Shapiro-Wilks (propuesto por ambos autores en 1965, en “An analysis of variance test for normality”, Biometrika 52:591-611). Este estadístico ha alcanzado una amplia aplicación en la comprobación del supuesto de normalidad, aunque limitada a tamaños muéstrales pequeños (inferiores a 50 unidades). Su popularidad en gran parte se debe a su presencia en la mayoría de los paquetes estadísticos.
Su valor se obtiene a partir de los valores esperados de los residuos (E( = Y¡ - Y¿) de una distribución normal estándar. El rango de valores posibles va de 0,0 a 1,0. Un W - 1,0 significa el cumplimiento del supuesto de normalidad, mientras que un W - 0,0, su incumplimiento.
La generalidad de los paquetes estadísticos suelen ofrecer los valores de W acompañados de la probabilidad asociada (valor p), para comprobar la hipótesis nula que los datos se ajustan a una distribución normal. Cuando el valor de W es pequeño, próximo a 0,0, así como el valor de p, se rechaza la hipótesis nula de que los datos se hallen normalmente distribuidos.
La comprobación del supuesto de normalidad también puede hacerse con el estadístico D de Kolmogorov-Smimov. Pero, únicamente cuando se analice un tamaño muestral elevado. Con este segundo estadístico de comprobación, la hipótesis nula de normalidad se rechaza a la inversa que con el anterior: para valores elevados de D (y no bajos), o un valor pequeño de p.
E j e m p l o d e c o m p r o b a c ió n d e l s u p u e s t o d e n o r m a l id a dMEDIANTE ESTADÍSTICOS
La comprobación del supuesto de normalidad no se ha limitado al análisis de los gráficos de residuos. También se ha acudido a estadísticos que describan la forma de la distribución, en qué medida coincide o se distancia de la curva normal. Como ia muestra analizada supera las 50 unidades, ei programa SPSS no calcula los valores correspondientes at estadístico de Shapiro-Wilks. Los valores de normalidad que ofrece son los valores D de KolmogorovSmir- nov, con una corrección de la significatividad de la normalidad de Liliiefors. Esta corrección es de utilidad cuando se aplican estimaciones muéstrales y se desconocen la media y la va- rianza poblacionales. Los valores D figuran con sus grados de libertad respectivos. Éstos son iguales al número de casos válidos (o con respuesta) en la variable concreta analizada.
Atendiéndonos a los datos que figuran en la tabla anexa puede observarse que, a excepción de dos variables principales (“vecino marroquí” y “regularizar a inmigrantes”), que presentan valores D próximos a “,5”, ia generalidad de las variables se sitúan por debajo de este valor. Especialmente, las variables “edad” (,097), “ideología política” (,139) y “simpatía hacia el marroquí” (,147), con valores D próximos a 0. Lo que significa su proximidad con la curva normal. Pero, la prueba de significatividad efectuada informa de lo contrario. Los niveles de significación de Liliiefors son, en todas las variables, “ ,000". Lo que supone el rechazo de la hipótesis nula de normalidad en todas las variables consideradas para el análisis. Esta
Capítulo 1: Regresión múltiple 35
conclusión no concuerda con la inspección anterior de los datos, aunque era de prever por el tamaño de la muestra de análisis.
Es sabido que en muestras grandes (superiores a 1.000 unidades) lo más habitúa! es que las pruebas de significatividad lleven al rechazo de la hipótesis nula. Y, dado que el tamaño muestral se halla presente en su cálculo (los grados de libertad), era de esperar esta no coincidencia en los resultados. Incíuso entre ios valores Dy su significatividad correspondiente. Como Hair et al. ("1999:65) afirman: “E! investigador debería siempre recordar que los tests de significación son menos útiles en muestras pequeñas (menores de 30) y muy sensibles para grandes muestras (superiores a 1.000 observaciones)” . Asimismo, Tabachníck y Fídeli (1989) desaconsejan eS uso de las pruebas de significatividad en la comprobación del supuesto de normalidad cuando la muestra sea grande. Los estadísticos de normalidad muestran adecuación en muestras pequeñas o moderadas, pero no en tamaños muéstrales elevados como el aquí analizado. Además, observan que “porque tos errores típicos de tanto asimetría como curtosis contienen N, con muestras grandes la hipótesis nula es probable que se rechace cuando existen sólo desviaciones pequeñas de la normalidad” -como sucede en los datos aquí analizados-, A io que añaden: “En una muestra grande, una variable con asimetría significativa (o curtosis) con frecuencia no se desvía lo suficiente de la normalidad para hacer una diferencia realista en el análisis. En otras palabras, con muestras grandes los niveles de significatividad de asimetría y curtosis no son tan importantes como sus tamaños reales (peor cuanto más se distancien de 0) y apariencia real de la distribución” (Tabachnick y Fidel!, 1989:73-74).
Estas observaciones han ayudado a la interpretación de los resultados, a la no consideración de la significatividad, al contar con un número de casos válidos mínímo, en la peor de las sitúa- dones (en la variable "leyes de inmigración”), de 1.713 unidades. La prueba de normalidad de Kol- mogorov-Smimovse ha contrastado con los estadísticos descriptivos de asimetría y curtosis y medíante los gráficos Q - Q normal para cada una de las variables consideradas.
Pruebas de normalidad3
Kolmogorov-Smimov*Estadístico 9* Sig.
Simpatía marroquí ,147 2.183 ,000Leyes inmigración ,208 1.713 ,000Ideología política ,139 1.804 ,000Sexo ,351 2.492 ,000Edad ,097 2.492 ,000Simpatía latinoamericano ,127 2.174 ,000Numero inmigrantes ,305 2.111 ,000Regularizar inmigrante ,471 2.171 ,000Entrada inmigrante ,346 2.288 ,000Partido racista ,385 2.237 ,000Casar con marroquí ,383 2.415 ,000Estudios ,221 2.281 ,000Ingresos ,240 1.793 ,000Vecino marroquí ,489 2.468 ,000Inmigrante delincuente ,378 2.138 ,000
a Corrección de la significación de Ulliefors.
JÓ Análisis multivariable. Teoría y práctica en ¡a investigación social
Gráfico Q-Q norma] de leyes inmigración
Valor observado
c)Gráfico Q -Q normal de vecino marroquí
Vaior observado
e)Norm al gráfico Q -Q de vecino marroquí
Valor observado
b)
Gráfico Q-Q normal de ideología política
d)Gráfico Q-Q normal de ingreso
Valor observado
f )Norm al gráfico Q-Q de ingresos
Transformaciones: íog natural
Capítulo 1: Regresión múltiple 37
Como son muchas las variables analizadas, se han seleccionado gráficos Q - Q que muestran ajuste de la variable a la distribución normal y otros que muestran desajuste. Los gráficos Q - Q normal (o gráficos de cuantil-cuantil} son similares a los gráficos P - P, pero aplicados a variables individuales. Ayudan a identificar salidas de la normalidad no para el conjunto de las variables, sino en cada una de las variables de interés. Las puntuaciones figuran igualmente ordenadas y se comparan los valores observados para cada caso con el esperado bajo el supuesto de normalidad. Los gráficos a) y b) ejemplifican una buena correspondencia de (as variables con la distribución normal. La mayoría de los puntos coinciden con la diagonal, siendo mínimas las desviaciones (debidas a procesos aleatorios). En cambio, los gráficos c) y d) muestran discordancia con la distribución normal. Corresponden a las variables “vecino marroquí" e “ingresos” . Éstas son, precisamente, las dos variables con mayores niveles de asimetría (“2,677” y “2,824” con un error típico de “,049” y “,058”, respectivamente. Recuérdese que el error típico de asimetría es una medida de la extensión a la que la asimetría puede variar como una función del tamaño de ¡a muestra) y de curtosis (“6,528” y “12,622”, con errores típicos de “,099” y “,116"). Se trata, en ambos casos, de distribuciones asimétricas a Sa derecha (la mayoría de ¡os valores se sitúan a la izquierda de la media) y lep- tocúrticas (demasiados casos en el centro de la distribución), especialmente la variable “ingresos”. Las demás variables se distancian menos de la distribución norma!, con valores de asimetría y curtosis por debajo del valor de referencia “±,80” que expresa una asimetría (positiva o negativa) y curtosis importante.
Para comprobar si la introducción de una transformación en dichas variables pudiese corregir su desviación de ía normalidad, se procede a su transformación logarítmica al estimarse importante su desviación de la normalidad (curtosis y asimetría positiva severa). Los gráficose) y f) corresponden a los gráficos Q - Q normal con las variables transformadas a sus logaritmos naturales. Si se comparan ambos gráficos con los habidos previo a la transformación logarítmica de las variables (gráficos c) y d)), puede observarse que dicha transformación no resuelve la no-normalidad en ia variable “vecino marroquí”, aunque sí en ía variable "ingresos”, al quedar la nube de puntos prácticamente ajustada a la diagonal. Lo que lleva a considerar esta última transformación en la solución de regresión. Una explicación posible ante este dispar efecto de ia transformación de las variables es lo ya observado por Afifí y Clark (1990), que la efectividad de la transformación, al inducir normalidad, aumenta en variables cuya desviación típica es grande en relación con su media. La media de la variable “ingresos” es 143.991 pesetas al mes, siendo la desviación típica de 105.233 pesetas. En cambio, la media de la variable “vecino marroquí” es 1,27 con una desviación de ,672.
® Los remedios más aplicados ante el incumplimiento del supuesto de normalidad, rnultivariable son los siguientes;
a) La transformación logarítmica de la variable dependiente (log Y), sobre todo, cuando la distribución de los residuos muestra asimetría positiva severa. Si dicha asimetría es mediana, puede aplicarse la raíz cuadrada (VY).
b) La transformación cuadrada, si la asimetría es negativa.c.) También puede optarse por la transformación inversa, cuando la distribución de
los residuos muestra un incumplimiento grave del supuesto de normalidad.
38 Análisis multivariable. Teoría y práctica en la investigación social
No obstante, Nourisis (1986) advierte que el estadístico “F”, empleado en la comprobación de hipótesis de significatividad del modelo de regresión en su conjunto, suele ser bastante insensible a las salidas “moderadas” de la normalidad. Por ello recomienda adoptar alguno de los remedios referidos sólo cuando el incumplimiento del supuesto de normalidad sea importante. Afifi y Clark (1990; 67) proponen que las transformaciones para alcanzar normalidad no se lleven a cabo “si la desviación típica dividida por la media es inferior a l/4”. “Las transformaciones son más efectivas al inducir normalidad cuando ia desviación típica de la variable no transformada es grande relacionada con la media” (como sucede con la variable “ingresos” aquí analizada).
En caso de optar por la transformación, el análisis de regresión ha de realizarse con los datos transformados. Los resultados pueden compararse con aquéllos obtenidos con los datos no alterados. De esta forma puede observarse la ganancia adquirida con la transformación.
1.1.7. Homocedasticidad
Para que la relación de las variables independientes con la dependiente pueda medirse con rigor, se precisa que la varianza de los valores de la variable dependiente sea igual en cada valor de las variables independientes (o predictoras). Esto se conoce como homocedasticidad o igualdad de las varianzas de los términos de error residual en la serie de variables independientes. La variable dependiente ha de mostrar niveles iguales de varianza en los distintos valores de las variables independientes. En cambio, si la variabilidad en los términos de error de las distintas variables independientes no es constante, se dice que los residuos son heterocedásticos. Ello significa que su magnitud (de los residuos) aumenta o disminuye en fundón de los valores que adopten las variables independientes, o según cuáles sean los valores predichos. La varianza de la variable dependiente se concentra en unos valores concretos de las variables independientes, lo que provoca que la predicción del valor de la variable dependiente sea mejor (de existir heterocedasíicidad), no en todos, sino sólo en determinados valores de las variables independientes.
Aunque el supuesto de homocedasticidad es uno de los que más se incumplen habitualmente (Hair et al, 1992; 1999), en el análisis de regresión lineal debe valorarse. Para que el análisis de la relación de dependencia sea correcto, la varianza de la variable dependiente no ha de concentrarse en unos valores determinados de las variables independientes. Ello no sólo ocasiona diferencias en la predicción del valor de la variable dependiente, sino que en general se relaciona con la obtención de pruebas de significatividad (mediante los estadísticos “t” y “F”) cuyos resultados sean incorrectos. La posibilidad de que esto acontezca es mayor cuando se analizan datos seccionales (o transversales) que longitudinales; por ejemplo, en una encuesta convencional. Como Gujarati (1988; 319) observa: “En datos seccionales, se suele tratar con miembros de una población en un punto determinado en el tiempo, tales como consumidores individuales o sus familias, empresas, industrias, o subdivisiones geográficas, tales como estados, países o ciudades, etc. Lo que es más, estos miembros pueden ser de diferentes
Capítulo 1: Regresión múltiple 39
tamaños, tales como empresas pequeñas, medias o grandes o renta alta, media o baja. En los datos de series temporales, por otro lado, las variables tienden a ser de ordenes similares de magnitud porque generalmente se recogen los datos para la misma entidad a lo largo de un período de tiempo”.
La figura 1.3 incluye situaciones de homocedasticidad a) y heterocedasticidad b) para un modelo de regresión simple. Incluye la probabilidad condicional de la variable dependiente (Y) para valores seleccionados de la variable independiente (X). Como puede observarse, la homocedasticidad se da cuando la varianza condicional de Y permanece constante, indistintamente de los valores que tome la variable independiente. Si, por el contrario, la varianza no permanece constante, sino que aumenta conforme se incrementa el valor de la variable independiente se habla de heterocedasticidad. La figura 1.3b ilustra esta situación. En ella puede observarse como la varianza de los términos de error se halla positivamente correlacionada con la variable independiente. La distribución pasa de ser leptocúrtica a cada vez más platicúrdca.
La homocedasticidad suele relacionarse con el supuesto de normalidad. De hecho se observa que “cuando el supuesto de normalidad multivariable se satisface, las relaciones entre las variables son homocedásticas” (Tabachnick y Fidell, 1989:82). En general, la heterocedasticidad es más probable que acontezca cuando se da alguna o varias de las situaciones siguientes:
a) Se incumple el supuesto de normalidad.b) Las variables no se encuentran directamente relacionadas.c) Algunas de las variables son asimétricas mientras que otras no lo son.d) En determinadas variables independientes, las respuestas se concentran en un
número limitado de valores.
a) Términos de error homocedácticos b) Términos de error heterocedácticos
Figura 1.3. Homocedasticidad y heterocedasticidad.
Berry y Feidman (1985: 73) destacan tres situaciones en las cuales la heterocedasticidad se convierte en problema:
a) Cuando la variable dependiente está medida con error, y la cantidad de error varía con el valor de la variable independiente. Por ejemplo, la encuesta. En ella,
40 Análisis multivariable. Teoría, y práctica en la investigación social
la unidad de análisis más habitual es el individuo y algunos de eSlos pueden aportar una información más adecuada que otros.
b) Cuando la unidad de análisis es un “agregado” y la variable dependiente la forma un promedio de valores para los objetos individuales que componen las unidades agregadas. Por ejemplo, el nivel de renta medra en alguna unidad agregada. Si el número de individuos seleccionados, en cada unidad agregada, para determinar el nivel de renta media, difiere a través de las unidades, la adecuación con la que está medida la variable dependiente también variará.
Los niveles de renta medios estimados a partir de una muestra grande de individuos suelen caracterizarse por un menor error de medición que las medias obtenidas de una muestra pequeña. Esta aseveración se deduce del conocimiento de que la varianza de la distribución de una media muestral decrece cuando el tamaño de la muestra aumenta (Wonnacott y Wonnacott, 1972; 120-122).
c) La heterocedasticidad también puede preverse en las situaciones donde existe variación significativa en la variable dependiente. Berry y Feldman (1985) citan, como ejemplo ilustrativo, un modelo en el que la renta anual de la familia sea la variable independiente y sus gastos anuales en vacaciones la dependiente. Lo más razonable es esperar que en las familias con rentas bajas el gasto medio en vacaciones sea igualmente bajo. La variación en los gastos en todas ias familias es, en consecuencia, bastante pequeña. Debido a que las familias de rentas bajas han de gastar el grueso de su renta en cubrir las necesidades básicas, dejando muy pocos fondos para gastar en vacaciones. Pero, cuando la renta familiar aumenta, el gasto medio destinado a vacaciones no aumenta necesariamente. Lo que resulta en variación importante en los valores de la variable dependiente. Esta situación se conoce como heterocedasticidad.
La heterocedasticidad a veces se debe a errores de medición. En otras ocasiones es consecuencia de la existencia de una interacción importante entre una variable independiente incluida en el modelo con otra ausente del mismo. Siguiendo el ejemplo de Berry y Feld- man (1985:75), “podría argumentarse que la cantidad de gasto de una familia para vacaciones está determinada no sólo por la renta de la familia, sino también por la satisfacción que sus miembros obtienen de las vacaciones, y el nivel de satisfacción y de renta puede esperarse que interactúen al determinar los gastos en vacaciones: entre las familias que obtienen poca satisfacción de las vacaciones podemos esperar que la renta tenga un débil efecto en los gastos en vacaciones, pero cuando la satisfacción obtenida aumenta, se puede esperar que la renta tenga un efecto más fuerte en el nivel de gastos”.
Al igual que la normalidad y otros supuestos de regresión, la heterocedasticidad puede detectarse mediante un gráfico de residuos. La figura 1.4 incluye gráficos de residuos estandarizados en distintas situaciones de homocedasticidad. En el eje vertical se sitúan ios residuos y en el horizontal los valores de la variable independiente. Habrá heterocedasticidad, cuando se observe aumento o disminución en los residuos con los valores de la variable independiente. Berry y Peldman (1985: 80) diferencian las tres situaciones expuestas en la figura 1.4.
Capítulo 1: Regresión múltiple 41
E*. E„
X, O X;
a) Homocedasticidad con una muestra grande
b) Homocedasticidad con c) Heterocedasticidad una muestra pequeña (varianzas de error
crecientes)Figura 1.4. Gráficos de residuos estandarizados para homocedasticidad.
Si el tamaño muestral es elevado, los residuos deberían repartirse por igual a lo largo de los valores de la variable independiente, como muestra la figura 1.4a, en dos líneas horizontales paralelas alrededor de 0, que es la media residual. En muestras pequeñas, por el contrario, la varianza de los residuos de regresión no es idéntica en todos los valores de la variable independiente, aun habiendo homocedasticidad perfecta. La varianza será mayor en los valores próximos al centro de la distribución que en los extremos, como puede observarse en la figura 1.4b. Cualquier gráfico que se aleje de las dos variedades mencionadas muestra la violación del supuesto de homocedasticidad, como indica la figura 1.4c. En ella puede verse cómo la varianza de los residuos decrece con el aumento del valor de ía variable independiente.
Cuando se analiza la incidencia conjunta de varias variables independientes se obtienen gráficos a modo de los expuestos en la figura 1.5. Se trata de gráficos de residuos (preferiblemente estudentizados o estandarizados) contra los valores predichos de la variable dependiente (Y;); es decir, la combinación de las variables independientes que forman la ecuación de regresión. En esta modalidad gráfica, los aumentos o disminuciones de los residuos de acuerdo con el valor predicho de la variable dependiente (V'-) expresan incumplimiento del supuesto de homocedasticidad (figuras 1.5b y 1.5c). De los tres tipos de gráficos quizás sea la figura 1.5c la que refleje la situación de heterocedasticidad más habitual Este gráfico presenta una forma triangular. La figura L5b en forma de diamante, que también expresa heterocedasticidad, se da en situaciones de mayor variación de residuos hacia el centro de la distribución de Y que en los extremos.
-h3+2+10
-1-2-3
'«¡mm
Y¿
+3 +2 + 1 0
-1 -2 -3 ■Yi
a) Homocedasticidad b) Heterocedasticidad c) Heterocedasticidad
Figura 1.5. Gráficos de residuos estudentizados para homocedasticidad.
42 Análisis multivariable. Teoría y práctica en la investigación social
El supuesto de homocedasticidad también puede comprobarse con la ayuda de estadísticos. Entre los más aplicados se encuentran los tres siguientes;
a) El test de Léveme. Propuesto en 1960 por Levane en un artículo titulado “Ro- . bust tests for equality of variances”. De su título puede deducirse la finalidadde la prueba: aplicar un análisis de varianza sobre el valor absoluto de las puntuaciones de desviación. Se trata de medir la igualdad de varianzas para un único par de variables (simples o compuestas). Y se comprueba que su robustez mejora cuando se sustituyen las desviaciones alrededor de la mediana (\Y¡. - Yj) por las desviaciones alrededor de la media (í Y- - F;l). La significatividad se comprueba mediante el estadístico “F”. Éste se aplica para determinar si la hipótesis nula ( R j de homogeneidad de la varianza debe rechazarse. Esta hipótesis se rechaza cuando ei estadístico de Levene es significativo (habituaJmente, p < ,05). Lo que supone el incumplimiento del supuesto de homocedasticidad.
De acuerdo con Hair ei al. (1999:168), el uso de esta prueba (de Levene) “es particularmente recomendable porque es el que menos queda afectado por desviaciones de la normalidad, otro de los problemas que ocurren con frecuencia en la regresión”.
b) El test de Goldfield y Quant. Propuesto en 1965 por los autores susodichos, consiste en la reordenación de las “n” observaciones de la muestra de forma creciente, de acuerdo con la variable independiente que se sospeche que covariará con la varianza del término de error. Después se elimina un 25% de Jos casos del centro de la distribución. Igual número se elimina también de los casos que se hallan por debajo y por encima del medio de la distribución. Requiere, en consecuencia, la división de ias observaciones en dos grupos. Para cada uno de ellos se realiza un análisis de regresión OLS. Después se comparan sus respectivas sumas de residuos cuadrados (RSS) en relación con sus grados de libertad (véase subapartado 1.5.3). Si el cociente entre ambos muestra ser significativo, de acuerdo con el estadístico de comprobación F, puede afirmarse, al nivel de sig- nifteatividad elegido, eí incumplimiento del supuesto de homocedasticidad.
Esta prueba estadística muestra adecuación a tamaños muéstrales pequeños. También, cuando se asume que la varianza heterocedástica se encuentra positivamente relacionada con una de las variables predictoras en el modelo de regresión.
c) La d de Durbin-Watson. Este estadístico puede utilizarse igualmente en la comprobación del supuesto de homocedasticidad, además de en la comprobación del supuesto de independencia de los términos de error. Esta prueba se aplica a residuos correlacionados serialmente, como se muestra en el subapartado 1.1.9, En la comprobación del supuesto de homocedasticidad. su valor ha de estar comprendido entre 1,5 y 2,5 para poderse afirmar que existe homocedasticidad (Freí y Ruloff, 1989).
A estos tres procedimientos de comprobación principales cabe añadir otros, aunque de uso menos extendido. Destacan, por ejemplo, la prueba de Park, la de Gíejser
Capitulo 1: Regresión múltiple 43
y la prueba de correlación de rango de Spearman. Una información detallada de las mismas se encuentra en Gujarati (1988).
E j í'JEMPLO DE COMPROBACION DEL SUPUESTO DE HOMOCEDASTICIDAD
El supuesto de homocedasticidad se ha comprobado, primero, para e( modelo de regresión en su conjunto; y, segundo, en cada variable predictora por separado. Para su comprobación se ha acudido no sólo a estadísticos, sino también a gráficos de residuos. No se olvide que la recomendación más extendida es el uso preferente de gráficos (Hair et a/. 1992; 1999). Particularmente, aquellos que incluyen residuos (diferencias entre los valores de Y observados y los predichos a partir del modeio de regresión -véase subapartado 1.1.10-), en especial, en el análisis de regresión lineal, caracterizado por incluir variables métricas.
En ia comprobación conjunta del supuesto de homocedasticidad se observa, nuevamente, discordancia entre lo dicho por estadísticos de comprobación y lo reflejado en ios gráficos de residuos. Atendiendo a lo indicado en el estadístico d de Durbin-Watson, cuyo valor es 1,819, puede afirmarse, de acuerdo con lo dicho por Frei y Ruloff (1989), que el supuesto de ho- mocedasficidad se satisface. El valor del estadístico d se halla comprendido en el rango de valores que define el cumplimiento del supuesto de homocedasticidad de 1,5 a 2,5. Este resultado ya se preveía al haberse constatado, con anterioridad, la práctica correspondencia de la distribución de los datos con la curva normal.
La misma conclusión no puede extraerse, sin embargo, de la observación del gráfico de residuos conjunto, que incluye ios residuos estudentizados respecto a los valores tipificados de la variable dependiente predícha a partir del modelo de regresión expuesto en el gráfico a). Para que el supuesto de homocedasticidad se satisfaga plenamente, la nube de puntos no debe mostrar ninguna pauta creciente o decreciente. La banda que agrupa a los residuos ha de ser igual en amplitud en todos los valores de la variable dependiente predicha y en torno a la media residual (0), como se muestra en la figura 1.5.a. Al haberse elegido los residuos estudentizados, el 95% de los mismos debería caer en el intervalo que va de -2 a +2 para que la forma del modelo fuese correcta. La mayoría de los puntos en el gráfico de dispersión a) se
a) Gráfico de dispersión Variable dependiente: simpatía marroquí
Regresión valor pronosticado tipificado
44 Análisis rnultivariable. Teoría y práctica en la investigación social
concentran en dicho intervalo, aunque en menor proporción de ia recomendable. Además, se observa que la nube de puntos tiene igual amplitud, aunque muestra una continua tendencia lineal decreciente. Si bien ésta no se ajusta plenamente a situaciones claras de heterocedasticidad, como las expuestas en las figuras 1.5b y 1.5c. En suma, de ia observación de dicho gráfico no puede concluirse el cumplimiento satisfactorio del supuesto de homocedasticidad. Para mejorar el ajuste del modelo, podría probarse algún procedimiento de regresión alternativo, como e! análisis de regresión de mínimos cuadrados ponderados. A tal fin, se escogerían pesos que fuesen proporcionales a la inversa de la varianza {subapartado 1.6.2).
Aunque distintos autores (Tabachnick y Fidell, 1989; Afifi y Clark, 1990) advierten que la existencia de heterocedasticidad no invalida el anáfisis de regresión linea!, aunque io debilite, es bueno buscar algún remedio a la misma. Afifi y Clark (1990: 116), por ejemplo, observan que “el supuesto de homogeneidad de la varianza no es crucial para la recta de mínimos cuadrados. De hecho, las estimaciones de mínimos cuadrados de a y b son insesgadas si o no el supuesto es válido”.
El análisis por separado de las variables predictoras muestra ei pleno cumplimiento de! supuesto de homocedasticidad en variables continuas como “edad” o “ingresos” y en variables ficticias como “sexo” o "identificación del inmigrante con delincuente”, por ejemplo. Esta conclusión se extrae tanto de la aplicación del estadístico de Levene como de la observación de ios gráficos de dispersión correspondientes. Véase el gráfico b), de ia variable "edad”. Este gráfico ejemplifica como ha de ser el gráfico de dispersión para mostrar homocedasticidad en una variable continua. La varianza de la variable dependiente ha de ser constante en tos distintos valores de la variable independiente. El gráfico c) (la variable “sexo”, dicotomizada en 1 varón y 0 mujer) se adecúa, en cambio, a la situación de análisis de una variable ficticia.
Por último, ios gráficos d) y e) para las variables “simpatía hacia latinoamericanos" y “estudios”, respectivemente, no muestran la satisfacción del supuesto de homocedasticidad. Si se atiende, además, a lo dicho por el estadístico de Levene, que figura a continuación, el incumplimiento del supuesto de homocedasticidad es evidente en ambas variables. Recuérdese que en la prueba de Levene (aplicada para ia comprobación de la homocedasticidad en un único par de varianzas) el rechazo de la hipótesis nula de igualdad de varianzas se produce cuando el valor de este estadístico es significativo (p < ,05), a decir por la prueba de significativsdad de F. En
Capítulo 1: Regresión múltiple 45
ambas variables la significatividad del estadístico es inferior a dicho referente, lo que supone el rechazo de ia hipótesis nula. Se está ante variables que incumplen el supuesto de homoce- dasticidad La varianza de la variable dependiente difiere en los distintos valores de las dos va- riabies predictoras. Para la interpretación de los gráficos téngase además presente las unidades de medición de ambas variables (expuestas en el subapartado 1.1.3).
En la tabla A figuran los valores del estadístico de Levene, ¡unto a su significatividad, en distintos supuestos: datos sin transformar o transformados (cuando las características y el nú» mero de casos en ios distintos valores de ambas variables lo permite), en busca de alcanzar igualdad en tas varianzas. Las transformaciones realizadas han sido tres: la logarítmica, la recíproca y ia transformación de raíz cuadrada. Mediante el estadístico de Levene se compara, por separado, la variabilidad de la variable dependiente (“simpatía hacia los norteafricanos: marroquíes...”) en los distintos valores de cada variable independiente. Aunque el programa
Tabla ADatos sin
transformar Levene Sig.
Transformación logarítmica
Levene Slg.Transformación
recíproca Levene Sig.
Transformac/ó/i raíz cuadrada
Levene Sig.Leyes inmigración
Media Mediana
1,8151,978
,053,032
3,0991,629
,001,094
8,1143,500
,000,000
1,4071,144
,171,325
Ideología política Media Mediana
2,0761,756
,024,065
2,2701,501
,013,135
2,4921,448
,006,155
2,0931,588
,023,106
SexoMediaMediana
3,602,678
,000,746
3,602,678
,000,746
46 Análisis multivariable. Teoría y práctica en la investigación social
Datos sin transformar
Levene Sig.Transformación
logarítmica Levene Sig.
Transformación recíproca
Levene Sig.Transformación raíz cuadrada
Levene Sig.Edad
MediaMediana
1,1361,073
,331,379
.,868,626
,563,792
1,373,977
,189,462
,975,726
,464,700
Simpatía latinoamericano Media Mediana
25,03619,095
,000,000
29,57819,536
,000,000
Regularizar inmigrantes Media Mediana
22,1445,729
,000,000
22,1445,729
,000,000
Entrada inmigrantes Media Mediana
3,3921,689
,000,080
8,1143,129
,000,001
14,5184,293
,000,000
5,2322,381
,000,009
Partido racista Media Mediana
4,1282,402
,000,008
6,2432,543
,000,005
8,3042,707
,000,003
5,1272,461
,000,007
N.° inmigrantes Media Mediana
3,6291,941
,000,037
2,2141,888
,015,043
6,3652,430
,000,008
2,5021,794
,006,058
Casar con marroquí Media Mediana
25,8909,704
,000,000
32,4948,940
,000,000
39,9768,292
,000,000
28,6229,318
,000,000
EstudiosMediaMediana
3,0992,331
,001,011
1,0561,155
,394,319
2,576,954
,005,483
1,7411,684
,068,081
IngresosMediaMediana
,412,372
,941,959
,615,533
,801,867
1,8621,375
,047,188
,314,320
,978,976
Vecino marroquí Media Mediana
37,66018,686
,000,000
38,05915,921
,000,000
37,53813,112
,000,000
37,73517,437
,000,000
inmigrante delincuente Media Mediana
4,096,837
,000,593
4,096,837
,000,593
Capítulo 1: Regresión múltiple 47
SPSS (versión 10.0) facilita distintos vaíores del estadístico de Levene (basándose en ta media, en la mediana, en ¡a mediana y con los grados de libertad corregidos, y en la media recortada), se ha decidido escoger, para simplificar la tabla, los valores de Levene correspondientes a la media y a la mediana con los grados de libertad corregidos. De esta forma puede comprobarse si realmente mejora su robustez, cuando se sustituyen ¡as desviaciones alrededor de la mediana por las desviaciones alrededor de la media.
De la lectura de !a tabía puede concluirse que las desviaciones respecto a la mediana se adecúan más, especialmente, en las variables ficticias, por las propias características de dichas variables (variables dícotómicas). Hecho este inciso, hay que decir que ia significativi- dad del estadístico de Levene es, en genera!, superior cuando su cálculo se realiza a partir de fa media, que cuando se basa en la mediana, aun ajustando por grados de libertad.
En siete de las catorce variables predictoras analizadas se incumple el supuesto de homocedasticidad, a decir por los resultados de ia aplicación de esta prueba estadística. El vaior del estadístico de Levene es bastante significativo (p < ,05), ¡o que supone el rechazo de la hipótesis nula de igualdad de varianzas. La varianza de la variable dependiente difiere en los distintos valores de las siguientes variables independientes: "simpatía hacia latinoamericanos”, “re- gufarización de inmigrantes", “valoración de partidos de ideología racista”, “consideración dei número de inmigrantes”, “casarse con marroquí”, “estudios’’ y “tener por vecino a un marroqur'.
En la otra mitad de ias variables ¡a significatividad de este estadístico de comprobación es inferior (p >,05), ya sea respecto de la media o de ta mediana. Esto significa la aceptación de fa hipótesis nula. La varianza de la variable dependiente muestra constancia en dichas variables: “leyes inmigración”, “ideología política", “sexo”, “edad”, “entrada de inmigrantes”, “ingresos” e “identificación det inmigrante con delincuente”.
De tas opciones barajadas para alcanzar la homocedasticidad en aquellas variables en las cuales la varianza de la variable dependiente difiere, sóio parece lograrse en dos varia- bies: “número de inmigrantes” y “estudios”. En la primera, la homocedasticidad puede lograrse mediante la aplicación de una transformación de raíz cuadrada. En cambio, respecto a la variable “estudios”, puede realizarse cualquiera de las tres transformaciones comprobadas. Si bien, normalmente se prefiere la transformación logarítmica como se detalla a continuación.
Si con la ayuda de estos estadísticos y/o de los gráficos de residuos referidos se detecta la existencia de heterocedasticidad, habrá que aplicar algún remedio que posibilite la aplicación de la regresión lineal a los datos de interés. Las opciones posibles son varias y dispersas; desde la aplicación de procedimientos de regresión distintos al estándar de mínimos cuadrados ordinarios (OLS), hasta transformaciones de la variable dependiente en busca de ía estabilidad de la varianza.
a) Schroeder et al. (1986: 77) aconsejan el empleo del procedimiento de regresión de mínimos cuadrados generalizados, para proporcionar pesos diferenciales a las observaciones y, de esta forma, burlar sus efectos en las pruebas de hipótesis. No obstante, son más los autores que se inclinan por el procedimiento de regresión de mínimos cuadrados ponderados (WLS): Chatterjee y Price (1977:49), Afifi y Clark (1990:116) o, más recientemente, Tacq (1997:131), por citar al
48 Análisis multivañable. Teoría y práctica en ia investigación social
gunos. Mediante este último procedimiento de regresión (expuesto en el su- bapartado 1.6.2) las estimaciones de los parámetros de regresión se realizan, como su nombre indica, minimizando una suma ponderada de los cuadrados de los residuos. Esta suma se caracteriza porque ios pesos son inversamente proporcionases a la varianza de ios errores. Por ejemplo, si la varianza es una función lineal de X, el peso idóneo sería entonces 1/X.
b) Transformaciones de la variable dependiente en log Y, - fY o en 1/Y, para lograr ia estabilidad de su varianza. Con los valores transformados se procede a efectuar el análisis de regresión lineal.
Aunque estas transformaciones son defendidas por varios autores (como Gunst y Masón, 1980: 239; o Tacq, 1997:131), Afífi y Clark (1990:158) opinan que “las transformaciones de Y deberían evitarse cuando sea posible, porque tienden a oscurecer la interpretación de la ecuación de regresión”. A este respecto, Hair et al. (1992: 52) hacen las siguientes matizaciones:
1. Las frecuencias sugieren una transformación de raíz cuadrada.2. Las proporciones son mejor transformadas mediante la transformación ar-
coseno. Una nueva variable que sea igual a dos veces el arcoseno de la raíz cuadrada de la variable original.
3. El cambio proporcional se maneja mejor tomando el logaritmo de la variable.
4. La heterocedasticidad no sólo se debe a un tipo de variable. También puede resultar de la distribución de bien la variable independiente, bien la dependiente, Con frecuencia esto se ve mediante una distribución de los residuos en forma de cono. Si el cono se abre a la izquierda, toma la raíz cuadrada. Si, por el contrario, se abre a la derecha, es preferible el inverso.
Respecto a las transformaciones de Y, Nourisis (1986) pone el énfasis, principalmente, en cómo se presente la varianza o desviación de Y:
1. Cuando la varianza sea proporcional a la media de Y, para un valor X dado, es mejor utilizar la raíz cuadrada de Y, siempre y cuando todos los valores de Y; sean positivos.
2. Cuando la desviación típica sea proporcional a la media, prueba la transformación logarítmica.
3. Cuando la desviación típica sea proporcional al cuadrado de la media, emplea el recíproco de Y.
4. Cuando Y sea una proporción o razón, nuevamente la transformación arcoseno se presenta como la mejor opción para estabilizar la varianza de Y.
Por último, hay que destacar la recomendación dada ai efecto por McCullagh y Nel- der (1989). Estos autores advierten de que la heterocedasticidad puede ser el resultado del incumplimiento de los supuestos de normalidad y de linealidad. Por lo que, pue~
Capítulo 1: Regresión múltiple 49
de reducirse, e incluso eliminarse, si antes se ha aplicado alguna corrección a ambos incumplimientos. Pero esto no significa que la heterocedasticidad se resuelva con la aplicación de las mismas correcciones de la normalidad y/o Iinealidad. Así se observa que para datos de frecuencia, que típicamente tienen errores de Poisson, una transformación de Y1/2 aproxima heterocedasticidad (o varianza constante); Y 213 aproxima normalidad; y utilizar log Y provoca aditividad en los efectos sistemáticos.
1.1.8. Ausencia de colinealidad entre las variables independientes
Para que se puedan medir los efectos concretos de cada variable independiente en la dependiente es imprescindible la ausencia de colinealidad; es decir, de correlación entre las variables independientes incluidas en el modelo de regresión. La existencia de correlación elevada entre dos o más variables independientes (multicolineaUdad) repercute, de manera directa, en los errores típicos de los coeficientes de regresión de dichas variable. Éstos se ven indebidamente incrementados, lo que provoca que la estimación de los coeficientes sea menos precisa (coeficientes infiabl.es), con el consiguiente aumento de los intervalos de confianza (a este respecto véase subapartado 1.4.2). El modelo de regresión puede ser significativo en su conjunto (en virtud de la razón “F”, que mide la significatividad del coeficiente de correlación cuadrada múltiple o coeficiente de determinación R2 -véanse subapartados 1.5.1 y 1.5.3-) y, en cambio, no ser significativos los coeficientes de regresión individuales de las variables muy colímales que lo componen.
La colinealidad elevada provoca, en suma, un aumento en la variabilidad de los coeficientes de regresión estimados (que informan de la cantidad de variación de Y por cada unidad de variación de X_„ manteniendo constante las demás variables independientes en el modelo). Este aumento del error típico de coeficiente suele suponer un incremento en la varianza explicada de Y (R2). Pero, al mismo tiempo, aumenta el error de estimación, con la pérdida consiguiente de significatividad estadística de los coeficientes de regresión de las variables muy colímales. Esta significatividad se mide con el estadístico “t” de Student, que se obtiene del cociente entre el coeficiente estimado y el error de estimación. De manera que, cuanto mayor sea el error de estimación, menor es el valor empírico de “t”, lo que determina la no significatividad estadística del coeficiente de regresión estimado.
A diferencia de otros supuestos de regresión, la multicolineaUdad afecta no tanto a la obtención del modelo (en la vertiente descriptiva), como a sus posibilidades de inferencia: la generalización de los estadísticos muéstrales a los correspondientes parámetros poblacionales.
Pero la multicolineaUdad no debería concebirse como algo que o “existe” o “no existe”. “La multicolineaUdad existe en grados” (Berry y Feldman, 1985: 40). “Está presente en todos los análisis de regresión, ya que es improbable que las variables independientes estén totalmente no correlacionadas” (Schroeder et al 1986:76). Sirvan como ejemplo, variables muy habituales en la investigación social, como son las variables “nivel educativo’' y “ocupación”. Ambas variables actúan como indicadores habituales de la posición social de un individuo. Sus valores se encuentran muy interrelacionados entre sí. Lo que
50 Análisis multivariable. Teoría y práctica en la investigación social
eleva la correlación (colinealidad) entre ambas variables. Dicha correlación se convierte en problema sólo cuando es elevada; es decir, cuando una de las variables independientes comparte con otra (u otras) más de la mitad de su variabilidad. La multicolinealidad es perfecta si la variabilidad de dicha variable puede ser perfectamente predecida a partir del conocimiento de otras variables predictoras. Al no aportar ninguna información única al modelo de regresión, debería considerarse su no incorporación al modelo de regresión porque afectaría negativamente al cálculo de la ecuación de regresión.
La multicolinealidad puede detectarse en distintas fases del análisis de regresión: en los preámbulos, en la matriz de correlaciones, durante su ejecución, en los coeficientes de regresión y en sus errores típicos correspondientes. También mediante los estadísticos de tolerancia y el llamado factor de inflación de la varianza (FTV) y otros que a continuación se detallan.
• La matriz de correlación muestra la correlación entre cada variable independiente, por separado, con la dependiente y, también, de las independientes entre sí. Un coeficiente de correlación entre dos variables independientes igual a0,0 indica ausencia completa de colinealidad. Mientras que una correlación de 1,0, colinealidad perfecta. A partir de 0,60 suele considerarse la colinealidad problemática. Y más, cuando la correlación supera el valor 0,80, que denota que ambas variables se hallan muy correlacionadas.
Pese a estos referentes comúnmente aceptados, Berry y Feldman (1985:42) reconocen que “es muy difícil definir un valor de corte que siempre sea apropiado”. En muestras pequeñas, una correlación entre dos variables independientes de 0,70 puede repercutir negativamente en la estimación de los coeficientes. En muestras una correlación de 0,85 puede incluso afectar menos al cálculo de la ecuación de regresión.
Por su parte, Wittink (1988:89) matiza que “una correlación de 0,50 entre dos variables predictoras tiene poco impacto en el error típico. Pero una correlación de 0,95 requiere casi tres veces tanta variación en X¿ (o tres veces el tamaño de la muestra) comparado con tener correlación cero. Con una correlación de 0,99 requerimos casi siete veces tanta variación, o siete veces el tamaño de la muestra”. A partir de una correlación de 0,95 entre dos variables predictoras se está, en consecuencia, ante un problema grave de colinealidad. Este valor de corte es, no obstante, bastante elevado y se aleja del habitualmente propuesto como indicativo de colinealidad problemática: 0,60 (Tacq, 1997); o, al menos, del valor 0,80 (Berry y Feldman, 1985; Hutcheson y Sofroniou, 1999).
En esta discusión de qué valor de correlación tomar como referente de colinealidad problemática, téngase también presente una limitación inherente a la matriz de correlaciones. Ésta sólo muestra las relaciones individuales entre cada par de variables: independiente con independiente y de independiente con dependiente. Si se quiere en cambio comprobar el grado de relación entre cada variable independiente con las otras variables independientes, al mismo tiempo, habrá que acudir a otros procedimientos.
Capítulo í: Regresión múltiple 51
® La existencia de multicolinealidad también puede detectarse durante el análisis, cuando se observen errores típicos elevados en coeficientes de regresión de variables que se espera sean importantes predictores de la variable dependiente. La obtención de errores típicos inflados redunda en la pérdida de significativi- dad estadística de los coeficientes de regresión, como ya se ha mencionado.
No obstante, hay que precisar que la existencia de errores típicos elevados no siempre es indicativa de coUnealidad elevada. Puede ser consecuencia de haber estimado dicho coeficiente en un tamaño muestral pequeño y/o que la variable, en la muestra analizada, tenga una elevada varianza. Ambos aspectos, relacionados con los casos analizados, han de valorarse antes de atribuir, de forma automática, errores típicos elevados a la existencia de multicolinealidad.
o Un procedimiento alternativo de comprobar la existencia de multicolinealidad consiste en efectuar un análisis de regresión para cada variable independiente por separado. En cada ocasión, una de las variables independientes actúa como variable dependiente. El resto continúa siendo independiente. Para cada una se calcula una ecuación de regresión. Después se comparan los distintos coeficientes de determinación R2. Si el valor de éste se aproxima a 1,0, puede afirmarse que la variable en cuestión presenta un grado muy elevado de multicolinealidad con otras variables independientes. Un valor de R2 igual a 0,0 expresa, por el contrario, la total ausencia de multicolinealidad.
La detección del grado de multicolinealidad se considera más precisa siguiendo este tercer procedimiento que con la comparación de correlaciones bi- variables, de dos variables por separado, mediante la matriz de correlación (Coo- per y Weekes, 1983; Berry y Feldman, 1985; Menard, 1995). Ello se debe, precisamente, a que se analiza de manera simultánea la correlación de cada variable independiente con las demás independientes (mediante el valor de R2).
A favor de este procedimiento de detección de multicolinealidad también está la facilidad de su ejecución. La mayoría de los paquetes estadísticos proporcionan, entre sus varias opciones, la posibilidad de obtener el valor del coeficiente R2 múltiple para cada variable independiente, por separado. Ya sea gracias al estadístico llamado Tolerancia, ya mediante su recíproco, el Factor de Inflación de la Varianza (FIV).
a) La tolerancia se define como la cantidad de variabilidad de la variable independiente que “no es” explicada por otras variables independientes. Su valor se obtiene restando a 1 la proporción de la varianza de dicha variable independiente que es explicada por las demás variables independientes o predictoras (¿?2;) .
TOL¿= 1 - / ^
Donde “R2” es la correlación múltiple cuadrada de la variable independiente X¡ (considerada como dependiente) y las otras variables independientes.
Análisis multivariable. Teoría y práctica en la investigación social
TOL; tiene un rango de valores de 0,0 a 1,0. Un valor próximo a 1,0 denota ia ausencia completa de multicolineaUdad: la variable Xi no presenta ninguna correlación con el resto de variables predictoras. Un valor de tolerancia inferior a 0,20 es, en cambio, indicativo de un grado elevado de multicolineaUdad. Si el valor desciende a 0,10, la multicolineaUdad es muy alarmante y exige la adopción de alguna medida para reducirla. El valor 0,0 expresa multicolineaUdad perfecta: la varianza de la variable X; está total- mente determinada por los otros predictores.
En consecuencia, interesan valores de tolerancia elevados porque son indicativos de una baja multicolineaUdad. Cuando la colinealidad aumenta, el valor de tolerancia disminuye. Lo que repercute en la peor estimación del coeficiente de regresión, debido al incremento de su error típico.
b) El factor de inflación de la varianza (FIV, en inglés VIF) es el reverso de la “tolerancia’'. Su definición es la siguiente:
FIV- = TOLf = — —̂-t-1 -R ?
Ai ser inverso de tolerancia interesan valores de FJ V. bajos. Cuanto más se aproxime a 1,0 mejor. Un valor de FIV (o VIF) de 1,0 indica la inexistencia de relación entre las variables predictoras. Valores superiores a 10,0 expresan mul- ticolinealidad severa. En tolerancia el valor equivalente es 0,10, que exige una actuación al respecto. No obstante, se recomienda adoptar alguna medida con valores inferiores: un valor de FIV de 5 o más o de tolerancia de 0,2 o menos. En general, los valores de ambos estadísticos de colinealidad coinciden, cuando sólo hay dos variables independientes.
Antes de proceder al análisis de regresión, conviene especificar, en el programa informático que se utilice, el grado de multicolineaUdad que se admite. Los puntos de corte más usuales son 0,30 para tolerancia y su equivalente para FIV: 10,0 (Afifi y Clark, 1990; Hair et al, 1992,1996; Graybill e lyer, 1994; Me- nard, 1995), Ambos valores corresponden a una correlación múltiple cuadrada superior a 0,90. Un nivel ya en sí bastante elevado, aunque inferior al aplicado, por defecto, en la mayoría de los programas, salvo que se especifique lo contrario. En el programa SPSS, por ejemplo, el valor de tolerancia aplicado por defecto para excluir una variable del análisis es 0,01, Este valor es demasiado bajo ya que permite la incorporación, a la ecuación de regresión, de variables que tienen hasta el 99% de su varianza determinada por otras variables previamente incorporadas al modelo de regresión.La aplicación de un procedimiento de incorporación de variables ia dependientes secuencia! (o “por pasos”) -como se verá en el subapartado 1.6.1- permite comprobar la presencia de variables con elevado grado de colinealidad
Capítulo 1: Regresión múltiple 53
de una forma alternativa, aunque menos rigurosa que la anterior. Consiste en observar si la incorporación de una nueva variable a la ecuación de regresión supone una variación importante en el coeficiente de regresión, de alguna (o algunas) variables independientes previamente introducidas en la ecuación. La entrada de una nueva variable suele provocar una variación en el valor de los coeficientes de las variables incorporadas en pasos previos. Esta variación será tanto mayor cuanto más correlacionada esté la variable con la recién incorporada al modelo. Si la correlación es baja, apenas hay variación en el valor del coeficiente. Pero, cuando la colinealidad adquiere cierta magnitud, la variación es muy apreciable. No obstante, la mayoría de los paquetes estadísticos aplican, por defecto, valores de tolerancia que impiden la entrada de variables muy colinea- les (como se mencionó en el punto anterior).La multicolinealidad también puede comprobarse observando oscilaciones en los coeficientes de regresión (o coeficientes de pendiente “b”), siguiendo un procedimiento que puede aplicarse en los análisis de regresión “no secuenciales”. Se divide la muestra del estudio en dos mitades. A continuación, se realiza un análisis de regresión en cada submuestra, por separado. Las variaciones en los coeficientes de ambas mitades se toman como indicios de multicolinealidad, Ésta es más grave, cuanto mayor es la diferencia entre los respectivos coeficientes.Un último procedimiento de detección de multicolinealidad atiende a los au- tovalores. Éstos expresan cuántas dimensiones distintas existen entre las variables independientes. Sus valores se obtienen de la matriz de productos cruzados de las variables independientes. Para que exista elevada multicolinealidad debe haber varios autovalores próximos a 0. Esto acontece cuando la multicolinealidad es tan alta que pequeños cambios en los datos pueden provocar grandes cambios en las estimaciones de los coeficientes de regresión. Situación que suele coincidir con modelos de regresión con errores típicos elevados.
De los autovalores se obtiene el índice de condición (IC). Este índice se define, en cada dimensión, como la raíz cuadrada del cociente entre el autovalor mayor y el menor. Cuando IC es superior a 30, la colinealidad es elevada. Si es mayor de 10, pero menor de 30, la colinealidad es moderada. Un valor inferior a 10 supone que se está ante variables de escasa colinealidad.
^ E j e Mp ÚO'DB COMPROBA CIÓN ÜE LA EXISTENCIA ÓÉ MÜLTiGOLÍNÉMj&Áb ■■
Para comprobar la existencia de multicolinealidad se procede, primero, al análisis de la matriz de correlaciones que figura en el subapartado 1.3.2. En esta matriz puede observarse que la correlación más elevada (,573) se da entre las variables X10 (“casar con marroquí” : P306} y X13 {'Vecino marroquí"”; P506). La correlación es importante, aunque no alcanza el valor de referencia habitualmente aplicado para denotar una colinealidad elevada (que exigiría
54 Análisis rnultivariable. Teoría y práctica en la investigación social
alguna actuación al respecto): >,80. Ambas variables se hallan relacionadas y de forma positiva, si bien sólo comparten el 33% de su variabilidad (,5732). Las personas que manifies- tan que no les importaría tener como vecinos a una familia de ciudadanos de Marruecos u otro país norteafricano suelen coincidir, aunque no plenamente (al ser ta correlación de ,573), con aquellos que afirman que no les preocuparía que su hijo o hija se casase con un marroquí; y, a ¡a inversa.
Además, téngase presente que ai ser el tamaño de la muestra analizada bastante elevado (n = 2.492 individuos), los valores de referencia comúnmente adoptados para denotar una co- lineatidadapreciabie (,60) y severa o muy importante (,80, que supone que casi dos de las tres partes de la variabilidad de una de las variables puede predecirse por el conocimiento de! valor de la otra variable con la que se halla relacionada) pueden incluso aumentarse, de acuerdo con Berry y Feldman (1985). El efecto de la multicolinealidad en la obtención de la ecuación de regresión es menor cuando se analiza una muestra grande que cuando fa muestra es pequeña.
Las segundas variables más correlacionadas entre sí son Xn (“estudios”: P43a) y X12 (“ingresos”: P52), con una correlación también positiva de ,471. Le sigue en importancia la correlación negativa habida entre las variabfes X4 (“edad”: P42) y X ,, (“estudios”: P43a): -,442. Los “estudios” y los “ingresos” covarían de forma ascendente (conforme aumenta el nivel de estudios io normal es que se incremente el nivel de ingresos, y a la inversa), mientras que la “edad” y los “estudios” se encuentran negativamente relacionados (los niveles de estudios más bajos se dan, con mayor frecuencia, entre las personas de más edad; a medida que la edad del encuestado desciende, es más probable que su nivel de estudios sea superior, pero no en todos ios casos. La correlación entre ambas variables no es muy elevada: -,442).
En suma, de la lectura de la matriz de correlaciones se concluye que ninguna de las 14 variables independientes analizadas se halla, positiva o negativamente, correlacionada con otra variable independiente en una magnitud que aconseje la adopción de alguna medida para evitar ios efectos negativos de su inclusión en el análisis de regresión.
En el subapartado 1.4.2 se comprueba, asimismo, que ninguno de los coeficientes de regresión de las cinco variables predictoras que conforman el modelo de regresión final tiene un error típico elevado. Además, como se observa en el subapartado 1.6.1, donde se expone la obtención del modelo de regresión mediante procedimientos secuenciales, los coeficientes de regresión de las variables y sus errores típicos prácticamente coinciden en los distintos pasos. La incorporación de una nueva variable predictora apenas altera los coeficientes de variables previamente introducidas en la ecuación de regresión. Esta inaiteración apreciabie en los coeficientes y errores típicos correspondientes responde a la escasa correiación existente entre las sets variables que finalmente forman el modelo de regresión: X5, XtQ, X1f X6, X13 y X3. Las correlaciones bivariadas existentes entre cada par de estas seis variables pueden comprobarse en ia matriz de correlaciones referida (subapartado 1.3.2).
La comprobación de ta presencia de multicolinealidad sigue con el cálculo de los valores de tolerancia y el factor de inflación de la varianza (FiV), tanto para las variables incluidas como en fas excluidas del modelo de regresión. Con ambos estadísticos puede comprobarse la correlación simultánea de cada variable independiente con el resto de variables independientes.
Primero, se caiculan los valores de tolerancia y FIV para las variables que forman el modelo de regresión. Los valores de ambos estadísticos se recogen en la tabla siguiente. En ella puede observarse que en ninguna variable los valores de tolerancia o de FIV alertan de la exis
Capítulo 1: Regresión múltiple 55
tencia de multicolineaUdad importante. Todos Sos valores de tolerancia superan, y a gran dis tancia, el valor ,20, que denota un grado elevado de multicolineaUdad. La tolerancia más alta (,994) corresponde a la variable X3 (“sexo”). La correlación de esta variable con las cinco restantes es apenas perceptible. En la matriz de correlaciones se recogen dichas correlaciones: -0 5 8 (X3 y X5), -,024 (X3.y X10) , ..,035 (X3 y X.), -,027 (X3 y X6), ,026 (X3 y X13).
Como era de prever, los valores de tolerancia más bajos se dan en las dos variables independientes que mayor correlación presentaban entre ellas: X10 (,639) y X13 (,652). Que el valor de tolerancia de la variable X10 sea ligeramente inferior al obtenido en la variable X13 se debe a que la primera variable presenta una correlación, en general, ligeramente superior a X13 con cada una de !as cuatro variables predictoras restantes. Exactamente, éstas son las correlaciones entre cada par de variables: -,246 (X10 y X,) y -,227 (X13 y X,); -,024 (X10 y X3) y ,026 (X13 y X3); -,274 (X10 y x 5) y ,267 (X13 y Xs); ,233 (Xf0 y X6) y ,194 (X1S y X6). Compruébense dichas correlaciones en la matriz de correlaciones (subapartado 1.3.2),
Al definirse FIV como el recíproco de tolerancia, las conclusiones que pueden extraerse de los valores de dicho estadístico coinciden con las expuestas para la tolerancia. Todos los valores de FIV se sitúan muy por debajo del valor de referencia 5,0, que denota la existencia de multicolineaUdad importante. El valor de FIV más elevado se obtiene, como era de esperar, en la variable X10 (1,566), El más bajo corresponde a la variable X3 (1,006), que denota ia práctica inexistencia de multicolineaUdad en relación con dicha variable, al posicionarse próximo a 1,00.
Tabla A
Variables independientes en el modelo de regresión
Tolerancia Fados de inflación de la varianza
Xs: simpatía hacía latinoamericanos ,875 1,143X10: casarse con marroquí ,639 1,566X.,: leyes de inmigración ,842 1,187X6: n.° inmigrantes ,842 1,187X13: vecino marroquí ,652 1,534X3: sexo ,994 1,006
Los valores de tolerancia en las variables independientes excluidas del modelo de regresión son igualmente elevados. El más bajo se da en la variable Xa (,786) y el más alto en X4 (953). Los de FIV claramente bajos: el más alto en X8 (1,272) y el más bajo en X4 (1,049). De las variables excluidas del modelo interesa, sobre todo, conocer sus valores de tolerancia mínimos. Éstos son los valores "mínimos’’ de tolerancia que ia variable tendría si se incorporase al modelo de regresión. Denota su correlación con las variables ya incluidas al modelo. Lo normal es que los valores de tolerancia mínimos sean inferiores a los de tolerancia, como se observa en la tabla B a continuación. Pero, en todo caso, se sitúan muy por encima del valor de referencia de ,20. El valor de tolerancia mínima más bajo (,628) corresponde a la variable X14. La correlación de esta variable con las seis incluidas en el modelo de regresión es ligeramente superior a ia habida en cualquiera de las siete variables restantes excluidas del modelo, como puede observarse en la matriz de correlaciones.
56 Análisis mullí-variable. Teoría y práctica en la investigación social
Tabla B
Variables excluidas del modelo de regresión
Tolerancia FIV Toleranciamínima
X2: ideología política ,949 1,053 ,63 6X4: edad ,953 1,049 ,634X7: regularizar inmigrante ,831 1,203 ,633Xa: entrada inmigrantes ,786 1,272 ,631Xg: partido racista ,890 1,124 ,635X?1: estudios ,915 1,093 ,638X12: ingresos ,928 1,077 ,637X14: inmigrante delincuente ,825 1,212 ,628
Un último diagnóstico de multicolinealidad realizado afecta a ios autovaiores y ai índice de condición (IC). Recuérdese que los autovaiores indican cuántas dimensiones distintas existen entre ias variables independientes. Sólo en las dimensiones 6 y 7 ios autovaiores se sitúan próximos a 0. Pero, a decir por 1C, sólo en la dimensión 7 se obtiene un valor IC (20,139) situado en el intervalo de 10 (colinealidad moderada) a 30 (colinealidad severa). En las demás dimensiones los valores iC son inferiores a 10. Ei valor de iC decrece, obviamente, conforme disminuye la dimensión.
Atendiendo a las proporciones de la varianza de la estimada explicada por cada componente principal asociado con cada autovalor sólo puede calificarse la colinealidad de problemática, cuando un componente asociado a un IC elevado contribuye sustancialmente a la varianza de dos o más variables. Esta situación no se da plenamente en los datos aquí analizados. De ia lectura de la tabla C se concluye que no es necesario reducir el modelo de regresión a 5 e incluso 4 variables independientes para conseguir un modelo más estable, aunque puede probarse. La dimensión 7 explica el 52% de ¡a varianza de la variable X6 y el 34% de la varianza de !a variable X5. Éstas son las mayores proporciones de varianza explicada. En las otras variables (X10, X(3 y X3) es mínimo. Lo que no hace imperioso la eliminación de la dimensión 7 del análisis de regresión iineai. La colinealidad detectada por cualquiera de los procedimientos referidos es de escasa cuantía y no precisa de ninguna actuación al respecto para mejorar los resultados del análisis de regresión.
Tabla C
Dimensión Autovalor índice de condición
Proporciones de la varianzaConstante *5 XfQ *6 1̂3
1 5,855 1,000 ,00 ,00 ,00 ,00 ,00 ,00 ,002 ,497 3,432 ,00 ,00 ,03 ,00 ,00 ,01 ,883 ,349 4,097 ,00 ,04 ,15 ,08 ,00 ,08 ,084 ,108 7,371 ,00 ,03 ,04 ,43 ,25 ,07 ,005 ,102 7,565 ,00 ,00 ,74 ,01 .00 ,76 ,016 7.464E-02 8,857 ,00 ,59 ,03 ,19 ,23 ,03 ,007 1.444E-02 ■ 20,139 ,00 ,34 ,02 ,29 ,52 ,05 ,02
Capítulo 1: Regresión múltiple 57
® Cuando se detecte ia existencia de elevada colinealidad, ha de adoptarse algún remedio para evitar su negativa incidencia en los resultados del análisis de regresión. Entre los remedios más utilizados destacan dos: uno más radical, que supone la eliminación de las variables muy colímales; y un segundo, más conservador, que defiende la combinación de variables colineales en una única variable latente (llámese índice, factor o componente principal). También puede elegirse aumentar el tamaño de la muestra. Con ello se reduciría el error típico y, de esta forma, el efecto negativo de la multicolinealidad. Pero, como ello no siempre es posible, habrá que elegir alguna de las medidas siguientes:
e Eliminar las variables independientes que presenten un grado elevado de colinealidad. Éste es el remedio más drástico contra la multicolinealidad, por lo que provoca una amplia disparidad de opiniones.
Algunos autores, como Wittink (1988: 91, 93) advierten que “omitir una variable predictora relevante puede causar severos problemas. Tal omisión es un ejemplo de lo que se llama error de especificación”. “La validez (falta de sesgos) requiere la inclusión de las variables predictoras relevantes, mientras que la fiabilidad (error típico pequeño) de las estimaciones de ios parámetros puede empeorar si las variables predictoras están bastante correlacionadas.” Esto le lleva a defender la combinación de variables predictoras frente a su eliminación..
Otros autores afirman, en cambio, que esta solución no lleva a una gran pérdida de información. Ello se debe a que “las variables independientes que estén bastante correlacionadas presumiblemente representan el mismo fenómeno” (Frei y Ruloff, 1989: 339).
En la decisión de adoptar o no esta medida radical ha de considerarse diversos aspectos. Principalmente, el número de variables predictoras cuyo grado de colinealidad exige una actuación, qué proporción representan estas variables en el conjunto de las variables independientes y su relevancia en la investigación (para que su eliminación no redunde, negativamente, en un incremento del error de especificación).
0 Efectuar un análisis factorial exploratorio ( de componentes principales o de factor común) con las variables independientes de interés. Esta solución supone emplear, en el análisis de regresión, índices o variables latentes (los factores obtenidos del análisis factorial, ya sean componentes principales o factores comunes -véase capítulo 5-) integrados por indicadores bastante correlacionados (las variables predictoras colineales). Estos índices (o factores) actúan en el análisis de regresión como las variables independientes. Y, debido a que estos índices han de estar, por definición, incorrelacionados entre sí (unos índices o factores respecto de otros) y, en cambio, los indicadores (o variables empíricas) que lo componen, bastante correlacionadas, el problema de la multicolinealidad se resuelve (Tacq, 1997).
Chatterjee y Price (1977: 172) matizan que “este método de análisis no resolverá la multicolinealidad si está presente, pero indicará aquellas funciones
58 Análisis multivariable. Teoría y práctica en la investigación social
que son estimables y las dependencias estructurales que existen entre las variables explicativas”.
Este uso del análisis factorial con anterioridad al análisis de regresión lineal puede tener una doble finalidad: una, la identificación de variables independientes, que sean bastante colineales, para su exclusión del análisis de regresión; dos, la combinación de variables colineales en un único índice o factor. Estas aplicaciones del análisis factorial (relacionadas con ía redistribución de la varianza compartida por las variables independientes) se desarrollan en el capítulo 5, dedicado al análisis factorial.
1.1.9. Independencia de los términos de error
Un último supuesto básico del análisis de regresión lineal concierne a la necesidad de que los términos de error no estén correlacionados. El valor de la variable dependiente en cada caso concreto ha de ser independiente del resto. Si las observaciones son independientes unas de otras, ios residuos sucesivos tampoco han de estar correlacionados. En caso contrario, se tiene que hablar de correlación serial de los residuos, o de autocorrelación,
A diferencia de la heterocedasticidad (que es más habitual en diseños de investigación transversales o seccionales), la autocorrelación se produce, con mayor frecuencia, en los estudios longitudinales. Éstos se caracterizan porque la recogida de información se produce de forma secuencial, en períodos de tiempo sucesivos, planificados en el proyecto de investigación. La finalidad es analizar la evolución del fenómeno que se investiga a lo largo del “tiempo”. Como la información referida a unas mismas variables se recoge en dos o más momentos temporales, el valor que puede tener una variable en un momento probablemente no es independiente del valor que dicha variable adquirió en un tiempo anterior. Esto se evidencia más, cuando los dos procesos de recogida de información acontecen en un período corto de tiempo; y, sobre todo, si el diseño de investigación es longitudinal de panel. El recoger un mismo tipo de información, de unas mismas personas, en tiempos sucesivos, puede producir el efecto no deseado del aprendizaje (Cea, 1996).
Schroeder et al. (1986) sintetizan en tres las causas principales de la autocorrelación:
1. La omisión de una variable explicativa importante.2. El empleo de una forma funcional incorrecta.3. La tendencia de los efectos a persistir a ío largo del tiempo o, para las variables
dependientes, a comportarse cíclicamente. Tal vez por ello la autocorrelación es más común en datos de series temporales.
Sánchez Carrión (1995: 417), por ejemplo, ilustra la autocorrelación con la siguiente aseveración: lcLa inflación que pueda haber en un país en t¿ , t no es independiente de la inflación en t ”. Nourisis (1986: B-188), por su parte, expone el ejem-
Capítulo 1; Regresión múltiple 59
pío siguiente: “Supon que estudias ei tiempo de sobrevivencia después de una operación como una función de la complejidad de la operación, la cantidad de sangre transferida, la dosis de medicamentos y así. Además de estas variables, también es posible que la habilidad del cirujano aumente con cada .operación y que el tiempo de sobrevivencia de un paciente esté influido por el número de pacientes tratados. En caso de que esto sea cierto, habrá autocorrelación”.
Asimismo, en un estudio sobre el éxito académico existirá autocorrelación, si se observa que la calificación obtenida en un examen no sólo depende de las variables independientes horas de estudio, asistencia a clase, cociente de inteligencia o motivación por la asignatura. También se ve afectado por el momento de corrección del examen: si es el primer examen que se corrige, o el último. Las calificaciones dadas a exámenes precedentes puede afectar a la obtenida en exámenes posteriores. La presencia de un buen examen (o trabajo) subconscientemente afecta a la calificación de los exámenes inmediatamente posteriores, al elevarse el nivel de exigencia del profesor. Igualmente, el haber corregido, previamente, exámenes deficientes beneficia a exámenes mediocres posteriores, al disminuir el grado de exigencia del profesor. El estado anímico de éste también puede afectar a la calificación final del examen. Sobre todo, cuando éstos se corrigen en distintos períodos de tiempo. Si ello se demuestra, habrá autocorrelación. En su evaluación habrá que tener información adicional sobre el orden en que se recogieron los datos en la muestra. Esta información no siempre está disponible en los datos de encuesta. En este caso, habrá que acudir a gráficos de residuos y/o estadísticos al efecto.
Entre las consecuencias negativas de la autocorrelación destaca, en primer lugar, su efecto pernicioso en la significatividad de los coeficientes de regresión. La autocorrelación provoca una subestimación del error típico. Éste será inferior al habido realmente, si no existiese autocorrelación. La consecuencia inmediata es la obtención de un valor “t” inflado, superior al real. Éste indicará que el valor correspondiente del coeficiente de regresión es significativo estadísticamente, cuando en realidad no lo es. Lo que invalidará el modelo de regresión.
Para evitar la incidencia negativa de la autocorrelación, primero hay que proceder a su identificación. De nuevo, los gráficos de residuos son de gran ayuda para este propósito. Los residuos ahora se disponen en orden secuencial. Especialmente, cuando los datos se recogen y graban secuencialmente. En este caso, los residuos se representan siguiendo la variable de secuencia en gráficos como los incluidos en la figura 1.6. En los ejemplos expuestos anteriormente, la variable de secuencia es el “orden” en que los pacientes son intervenidos quirúrgicamente y, en el otro ejemplo, el “orden” en que se corrigen los exámenes.
El supuesto de independencia de los términos de error se cumple, cuando los residuos se distribuyen de una forma aleatoria. Es decir, no muestran ninguna pauta consistente, como sucede en la figura 1.6a. En este gráfico se alternan los casos con residuos positivos con los negativos. Por el contrario, hay autocorrelación, cuando los residuos siguen una pauta discernible, a modo de la reflejada en la figura 1.6b. En él puede apreciarse como se pasa, secuencialmente, de residuos negativos elevados
60 Análisis multivariable. Teoría y práctica en la investigación social
(-3,0) a positivos (3,0). El orden puede ser también el inverso: pasar de residuos elevados positivos (3,0) a negativos (-3,0). Estos últimos gráficos son característicos de situaciones en que el orden de disposición del caso en la muestra analizada afecta a la información que de é! se obtenga, como sucede en los ejemplos antes expuestos.
Caso123
-3,0 0,0 3,0 Caso123
-3,0 0,0 3,0
a) Ausencia de autocorrelación b) Autocorrelación (o dependenciade las observaciones)
Figura 1.6. Gráfico de residuos para detectar autocorrelación de los términos de error.
La autocorrelación puede igualmente identificarse con la ayuda de estadísticos. El más aplicado, cuando se analizan datos secuenciales, es el coeficiente de Durbin-Wat- son. Este coeficiente se calcula a partir de los residuos estudentizados (Et), en cada caso, mediante la siguiente fórmula:
N
¿ ~ : _
IX(=1
Con el coeficiente de Durbin-Watson, así definido, se comprueba si la correlación serial (a cada residuo Et se le resta el inmediatamente precedente, Et_f) es nula. La autocorrelación es positiva (los términos de error se hallan positivamente correlacionados) cuando la diferencia entre los residuos sucesivos es pequeña. El valor “d” correspondiente es pequeño. En caso contrario, la autocorrelación es negativa. La diferencia entre los residuos sucesivos es grande. Lo que se materializa en un valor “d” elevado.
Como en todo contraste de hipótesis, el valor de “d” empírico, obtenido de la muestra, se compara con. el correspondiente valor “d” teórico, a un nivel de probabilidad concreto. La hipótesis nula de no autocorrelación entre los términos de error sucesivos se rechaza, cuando la diferencia entre ambos valores “d” es significativa a dicho nivel de probabilidad (p < ,05, usualmente). En general, cuando el valor “d" empírico está comprendido en el rango de 1,5 a 2,5 no existe motivo de preocupación.
Capítulo 1: Regresión múltiple 61
Si se detecta autocorrelación en la distribución de datos, el remedio más habitual es la aplicación del método de regresión de mínimos cuadrados generalizados. Éste parte de] método de regresión de mínimos cuadrados ordinarios, pero difiere -como se verá en el subapartado 1.6.2- en utilizar variables que han sido transformadas.
1.1.10. El análisis de los residuos en la comprobación de los supuestos de regresión
Como el lector habrá podido constatar, el análisis de los residuos es de gran utilidad en la comprobación de la mayoría de los supuestos de regresión. Especialmente, en regresión múltiple, cuando se analizan dos o más variables independientes. Ello se debe a la dificultad que supone reflejar en un gráfico bidimensional los valores de la variable dependiente para cada una de las variables independientes, de manera simultánea.
En regresión lineal se entiende por residuo la diferencia entre los valores observados en la variable dependiente (Y¡) y sus correspondientes valores predichos, a partir de la ecuación de regresión (Yf), para cada uno de los casos analizados (siendoi = 1,2, 3...n). Residuo es, parafraseando a Hutcheson y Sofroniou (1999: 24), “lo que queda una vez que un modelo se ha ajustado a los datos”: Ei = Yi -
No debe confundirse el residuo (denotado E¡ o r.p en algunos textos) con el error de predicción (s¡). El error de predicción -como se detalla en el subapartado 1.5.2- representa la diferencia entre el valor verdadero de Y¡ en la población (no en ia muestra analizada) y su correspondiente valor estimado mediante la ecuación de regresión. El valor real de la variable dependiente en la población puede diferir del observado en la muestra, lo que denota la existencia de error de medición en la investigación realizada.
Existe una amplia variedad de residuos, aunque todos ellos hacen referencia a la diferencia entre la respuesta observada y la predícha. Entre los más empleados se encuentran los siguientes:
a) Residuos brutos (o “raw residuals”)- Éstos se ajustan a lo que normalmente se entiende por residuo: la diferencia entre los valores de la variable dependiente observados (Y¿) y los predichos (Y ), en cada caso concreto. Cuanto más grande sea dicha diferencia, peor es el ajuste a la ecuación de regresión.
Ei = Y r Y i
Si bien, téngase presente que los residuos brutos se hallan expresados en la unidad de medición de la variable dependiente. Lo que hace que su cuantía sea muy dispar. Superior en variables como ingresos, por ejemplo; e inferior en variables como antigüedad en el cargo. Depende de la unidad de medición de la variable dependiente.
b) Residuos estandarizados (o “standardized residuals”, o *ZRESID, en programas como el SPSS). Tratan de paliar la deficiencia observada en los residuos
Análisis multivariable. Teoría y práctica en la investigación social
brutos, cuya cuantía se halla relacionada con la unidad de medición de la variable dependiente. Para ello se divide al residuo bruto (£.) por la estimación de su desviación típica (<r). De esta forma la magnitud del residuo queda expresada en unidades de desviación típica por encima (si el signo es positivo) o por debajo de la media (si es negativo).
Elò
Y , - Y :
\ N ~ p — l
Donde “N” representa el tamaño de la muestra (que también puede representarse por “n”, para diferenciarlo del tamaño de la población); y “p", el número de variables independientes incluidas en la ecuación de regresión.
Esta tipificación de los residuos (que quedan convertidos a la misma unidad de medición: unidades de desviación típica) facilita su comprensión, además de la comparación de residuos y de modelos de regresión distintos.
Saber, por ejemplo, que un residuo bruto es igual a -849,25 apenas proporciona información. Sólo que el valor observado en la variable dependiente ( Yj) es inferior a su correspondiente valor predicho (F ¿). Y ello porque el signo de dicho residuo es negativo. Si su valor fuese positivo, indicaría lo opuesto: la Y¡ observada es superior a la predicha (Y¿).
Si se transforma el residuo bruto en estandarizado (al dividirse por la estimación de su desviación típica), su valor pasa de ser -849,25 a .3,0. Ello permiteconocer no sólo que el valor de Y¡ es inferior al correspondiente Y., sino también que es bastante superior a otros en valor absoluto. Alcanza su valor máximo. El rango de los residuos estandarizados va de -3,0 a +3,0, aproximadamente. Al estar estandarizados, estos residuos se caracterizan por ser su media 0 y su desviación típica 1.
c) Residuos estudentizados (“Studentized residuals” o SDRESID, en notación SPSS). Se definen de forma similar a los estandarizados: el cociente del residuo bruto y su desviación típica estimada. A esta definición común (con el residuo estandarizado) se añade, no obstante, la consideración de la distancia de cada valor de ía variable independiente respecto de su media: “di ”, que expresa la distancia habida entre el punto i y el punto medio.
La variabilidad de los valores predichos no es igual en todos los puntos, sino que varía con ios valores de la variable independiente y de la proximidad de ésta respecto de la media. La variabilidad en los valores predichos es menor, cuando la variable independiente se aproxima a la media. Por el contrario, aumenta para ios valores más extremos de la variable independiente. Estas consideraciones sobre la variabilidad cambiante se materializan en la formulación
Capítulo 1; Regresión múltiple 63
de los residuos estudentizados, al dividir el residuo bruto por la desviación típica estimada del residuo en ese punto.
Los residuos estudentizados se ajustan a ía distribución “t” de Student, con N - p *1 grados de libertad. Los valores “d¿ ” también suelen denotarse uh. (GraybiU e Iyer, 1994; Gunst y Masón, 198Ó). Esta cantidad -que suele igualmente referirse “leverage”- indica el elemento “i” de la diagonal de la matriz H (también llamada “hat matriz” y las cantidades íih¡ ”, “hat valúes”). Las observaciones con un valor “h¡ ¿ > 2¡)/n” deberían examinarse como observaciones potencialmente muy influyentes en la ecuación de regresión. Lo mismo acontece con valores de “E t> 2”.
d) Residuo eliminado estudentizado (“Studentized deleted residuals”). Difiere del anterior en que, aí calcular el error típico residual, no se incluye el iésimo residuo (~ i). De esta forma se obtiene una distribución del estadístico “t” de Student con “N - p - 2” grados de libertad.
Los valores de cualquiera de estos cuatro residuos se añaden a gráficos que facilitan la comprobación inmediata de ios supuestos de regresión. Los gráficos de residuos más comunes son los que representan los residuos (ya sean brutos, estandarizados o estü- dentizados) contra:
• Una de las variables independientes (X¡).® Los valores predichos de ia variable dependiente (Y¡),• La suma ponderada Y¡ de las variables independientes (X-).
De estos gráficos, el más empleado es el segundo: el gráfico de residuos contra los valores de Y.. En él, tanto los residuos como los valores predichos de la variable dependiente se hallan estandarizados. Para que refleje el cumplimiento de los supuestos de regresión, este gráfico no ha de mostrar ningún modelo sistemático en consideración al valor de Y¡ (como ha podido constatarse en los subapartados anteriores).
, La adecuación del modelo de regresión puede, asimismo, comprobarse mediante el llamado “casewtse p lo t”. Éste constituye igualmente un gráfico de residuos, aunque para cada caso concreto y de una forma estandarizada. Como proporciona información de cada uno de los casos analizados (su valor predicho, Y¡, con sus residuos corres
64 Análisis multivariable. Teoríú y práctica en la investigación social
pondientes), su uso se complica cuando el tamaño muestxal es elevado. El número de páginas del gráfico aumenta con el número de casos analizados. Lo que dificulta su lectura e interpretación.
O . La obtención del modelo de ¡regresión múltiple; fases principales
Como en cualquier procedimiento analítico, la consecución de un modelo de regresión lineal incluye varias fases. Desde los “preámbulos", que abarca todas las tareas referidas a la preparación de los datos, hasta la fase final de interpretación del modelo de regresión obtenido. La interpretación de los resultados acontece una vez que ha concluido la evaluación de la adecuación predictiva del modelo, tanto desde la vertiente estadística como la lógico-sustantiva. El modelo de regresión ha de ser teóricamente plausible, además de significativo desde el punto de vista estadístico. De no ser así, habrá que remitirse a las fases iniciales del análisis, en busca de causas posibles de la no significatividad detectada en el modelo. Para este propósito es imprescindible comprobar si se han cumplido cada uno de los supuestos básicos de regresión. En caso afirmativo, habrá que remitirse al modelo teórico y a su operacionalización. En caso negativo, habrá que buscar algún remedio que posibilite la obtención de un modelo de regresión adecuado.
La figura 1.7 esquematiza, a modo de gráfico, las fases principales de un análisis de regresión lineal múltiple. Es un esquema genérico. Como se verá en el apartado 1.6, la consecución de un modelo de regresión lineal difiere según el procedimiento que se haya seguido en la incorporación de variables independientes a la ecuación de regresión. Si se ha optado por un procedimiento instantáneo o, por el contrario, se ha seguido uno secuencial (o “por pasos”)- y, dentro de ellos, qué variedad ha sido la finalmente elegida (“hacia delante”, “hacia atrás” o “paso a paso de inclusión y eliminación de variables”).
1.3. La preparación de los datos para el análisis
Como muestra la figura 1.7, los preámbulos del análisis de regresión lineal incluyen diversas tareas a realizar previas a la ejecución, propiamente dicha, del análisis de regresión. Comprende la elaboración de un modelo de regresión teórico, la selección de los casos a analizar, la comprobación de los supuestos básicos de regresión, la depuración de los datos e indagación exploratoria. Los supuestos básicos de regresión lineal ya se expusieron en el apartado 1.1. En él también se hizo referencia a aspectos relacionados con la muestra de análisis (subapartado 1.1.1), aunque no a otras tareas que componen, igualmente, los preámbulos al análisis de regresión.
Lo primero es elaborar un modelo teórico. El tener un modelo teórico de partida, diseñado a partir del marco teórico de la investigación, es básico en regresión, como en cualquier procedimiento analítico. Ayuda a decidir qué variables independientes ele-
Capítulo .1: Regresión múltiple 65
PREÁMBULOS DEL ANÁLISIS DE REGRESIÓN MÙLTIPLE1°
Elaboración de un modelo de regresión teórico en consonancia con ei marco teórico de la investigación Selección de los casos a analizarComprobación de los supuestos básicos para un análisis de regresión linealDepuración de ios datos: tratamiento de los “casos sin respuesta” (o datos incompletos)Indagación exploratoria. Incluye el análisis de correlaciones biva- riables a partir de la matriz de correlaciones
REPLANTEAR
2 0
ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN
° Obtención de los coeficientes de regresión s El error típico de los coeficientes ° La significatividad de los coeficientes
LA EVALUACIÓN DEL MODELO DE REGRESIÓN OBTENIDO
® Ei ajuste del modelo de regresión* El error de predicción° La significatividad del modelo de regresión, desde la vertiente es
tadística y lógico-sustantiva ® La detección de casos “atfpicos”
„ 4.0 INTRODUCCIÓN DE MODIFICACIONES
CONCLUSIÓN DEL ANÁLISIS: presentación de resultados
gir para la predicción de la variable dependiente, además de ios casos a analizar. La experiencia de otros investigadores que hayan analizado el mismo problema de investigación contribuye a evitar errores cometidos en estudios anteriores. Esta expenen-
Figura 1.7. Fases principales de un análisis de regresión mííitiple.
66 Análisis multivariable. Teoría y práctica en la investigación social
cía se convierte en un referente crucial en todo diseño de investigación (Cea, 1996). En las fases finales de la investigación, también es crucial la mediación de un marco teórico. Éste sirve de marco de referencia al que acudir en la interpretación de los resultados del análisis.
A continuación se desarrollan otros dos aspectos no tratados: el tratamiento de los casos “sin respuesta” y la matriz de correlaciones.
1.3.1. Depuración de los datos: el tratamiento de los casos “sin respuesta”
Una vez concluida la recogida de información de la muestra elegida, procede realizar tareas preliminares de depuración de los datos que se han recogido. Incluye la eliminación de errores de grabación, además de algunas decisiones clave, como la referida al tratamiento de los casos sin respuesta en una o en varias variables de la investigación.
El análisis de regresión precisa, como la generalidad de las técnicas analíticas, de datos “completos” en todas las variables incluidas en el análisis. Pero, en la práctica investigadora, esto no sucede siempre. Es frecuente encontrar variables de las que se carece de información en algunos casos de la muestra. Cuando esto acontece, ha de adoptarse alguna medida que evite los efectos negativos que la inclusión de datos incompletos tiene en el análisis. Fundamentalmente, la sobreestimación de los errores típicos de los coeficientes de las variables afectadas. Esta sobreestimación redunda, de manera negativa, en la significatividad de los coeficientes de regresión y, más ampliamente, en el ajuste global del modelo de regresión.
Las actuaciones posibles ante datos incompletos dependen de varios aspectos: el tamaño de la muestra, la proporción que en ella representen los datos incompletos, si éstos afectan a una o a varias variables y, por último, si se hayan distribuidos de forma aleatoria. “La negativa sistemática de los sujetos a responder un tipo de pregunta particular en una encuesta puede distorsionar seriamente los resultados” (Hutcheson y Sofroniou, 1999:18).
Si la proporción de datos incompletos es pequeña en una muestra elevada y éstos se distribuyen de forma aleatoria, la mejor opción puede ser eliminarlos del análisis. Pero, cuando estas condiciones no se cumplen, la aplicación de este remedio radical a los datos incompletos no es recomendable. Primero, porque puede suponer una reducción drástica del tamaño muestral, que haga peligrar la validez estadística de los resultados del análisis. Y, segundo, porque puede provocar la obtención de resultados sesgados.
Además, téngase presente que, para efectuar el análisis de regresión, se eliminan de la matriz de datos inicial todos aquellos casos que no aporten información en al menos una de las variables consideradas. La merma del tamaño muestral original es más drástica cuantas más variablesse incluyan en el estudio y no coincidan los casos sin respuesta en todas las variables. Según estimaciones de Jaccard y Wan (1996) la reducción en el tamaño muestral puede llegar incluso a suponer su reducción a la mitad, cuando
Captalo 1: Regresión múltiple 67
se incluyen 15 variables y cada una de ellas tiene, al menos, un 5% de sus valores sin respuesta.
- La eliminación de los casos sin respuesta tampoco es una solución recomendable, cuando estos casos no son azarosos Al contrario, se ajustan a un perfil determinado, que les diferencia de aquellos que sí aportan información. Tómese, por ejemplo, dos variables: “ingresos” y “categoría profesional”. Si se observa que personas de distintas categorías profesionales no declaran igualmente sus ingresos -las personas de categorías profesionales superiores son, por ejemplo, los más reacios a informar de sus ingresos-, no se está ante datos incompletos al azar. La eliminación de estos casos del análisis supondrá, salvo que representen una baja proporción en el conjunto de la muestra, la obtención de resultados sesgados, además de estimaciones de parámetros inconsistentes. Por esta razón se aconseja que, antes de proceder a eliminar del análisis a los casos sin respuesta, se compruebe si aquellos casos que no aportan información en variables de interés se ajustan a un mismo perfil. De ser así, habrá que desestimar su eliminación de la muestra de análisis y optar por otro remedio a la “no respuesta”.
Cuando no se cumplen las circunstancias referidas de tamaño muestral elevado y/o baja proporción de casos sin respuesta, y éstos no se distribuyen al azar, sino que reúnen unas mismas características, es habitual elegir alguno de los remedios siguientes:
® La imputación a partir de los casos de los que se tiene información. Se trata de sustituir estos valores sin respuesta por otros que tendrán tratamiento de valores observados reales. Los valores se imputan siempre bajo el supuesto de cuál habría sido el valor dado a la variable por ese caso o sujeto si hubiese dado una respuesta. A tal fin pueden seguirse distintos procedimientos.
1. Reemplazar los valores sin respuesta (“missing values”) en una variable por la media de los valores observados en dicha variable, antes de proceder al análisis. Esta solución es especialmente útil, cuando se quiere hacer uso de los datos incompletos y las intercorrelaciones existentes entre las variables son pequeñas. La ventaja principal es que todos los casos de la muestra original intervienen en la obtención del modelo de regresión. El inconveniente sería los sesgos que su aplicación puede introducir en las estimaciones de los parámetros de regresión.
2. Tomar los valores de respuesta dados por otros casos que han proporcionado respuestas similares en otras variables. Se trata de atribuir a los casos sin respuesta ía dada por otros individuos de similares características, que han proporcionado las mismas respuestas que ellos en las demás variables. Esta atribución de respuesta es más arriesgada que la solución anterior. Individuos con similares características no tienen por qué ser plenamente coincidentes.
68 Análisis multivariable. Teoría y práctica en la investigación social
3. Predecir cuál habría sido la respuesta del sujeto, partiendo de la información que sí proporcionó en otras variables. Esta predicción puede llevarse a efecto mediante una ecuación de regresión, que analice el valor que corresponderá a la variable en cuestión, considerando las respuestas que dicho sujeto dio en otras variables.
Este tercer procedimiento de imputación es una opción deseable cuando existen correlaciones elevadas entre las variables consideradas (Afifi y Clark, 1990). Pese a ello, su aplicación puede introducir sesgos en el análisis, como sucede con los demás procedimientos de imputación.
Incluir los casos sin respuesta, en una o en varias variables, con el código “mis- sing valué”. Si los datos son continuos, estos valores sin respuesta suelen codificarse como valores extremos (por ejemplo, 99 o 0), En estas circunstancias, esta opción no parece ser muy útil. Pero sí, en cambio, cuando se analizan variables ficticias. La consideración de ios datos incompletos “como una respuesta separada a una cuestión junto con otras respuestas puede ser una opción interesante. Algunas veces, en los datos de encuesta, el hecho de que un sujeto no responda una cuestión particular puede ser una parte de información útil a analizar” (Afifi y Clark, 1990: 224).El investigador también puede considerar la eliminación del análisis de cualquier variable que presente una proporción elevada de casos sin respuesta. A menos que ésta se estime crucial en la predicción de la variable dependiente.Un último remedio que puede evitar la incidencia negativa en la merma de la muestra original que puede suponer la eliminación de los casos sin respuesta, sin acudir a la imputación, es la eliminación del análisis sólo de los casos que no aporten información en la variable que se analiza; es decir, sólo cuando se estimen los parámetros de la variable afectada por la no respuesta. Que el caso se elimíne de dicho análisis no supone su eliminación de otros análisis que afecten a otras variables de las que sí proporciona información. Este proceder ofrece la gran ventaja de suponer una reducción sensiblemente menor del tamaño muestral que la eliminación total del caso, indistintamente de la variable que se analice, sin necesidad de recurrir a la imputación. De ahí que haya sido ésta la actuación seguida en el análisis de los datos aquí expuestos.
E je m p l o d e t r a t a m ie n t o d e l o s c a s o s *s in r e s p u e s t a
ES tratamiento dado a ios casos "sin respuesta” en ia encuesta aquí analizada ha sido el último mencionado; realizar eí análisis de regresión sólo con aquellos casos que sí proporcionan información en ias variables de interés. Al ser e! tamaño de la muestra original bastante elevado (n = 2.492 casos), no era imperioso recurrir a la imputación. Se quería con ello
Capítulo 1: Regresión múltiple 69
evitar los sesgos que toda suposición de cuál habría sido la respuesta dada puede introducir en la estimación de los parámetros. Pero, proceder a la eliminación de todo caso que no aportase información en alguna de las variables incluidas en el estudio suponía una reducción drástica en eí tamaño de la muestra origina!, bastante superior a ia mitad (n = 692}. Esta drástica merma en el tamaño muestral, por encima de las predicciones de Jaccard y Wan (1996), se debe no sólo al número de variables elegidas para el análisis (15), sino también a que los casos "sin respuesta” no coinciden en todas fas variables. La desestimación de los casos “sin respuesta", aunque sólo sea en una de tas variables seleccionadas para el análisis, provoca esta reducción tan llamativa en el tamaño muestral, cuando se analizan conjuntamente las variables. Sin duda la reducción habría sido menor, sí los casos “sin respuesta" no se hubiesen distribuido a! azar en ia muestra, adecuándose a un mismo perfil en la mayoría de las variables.
En cambio, la eliminación parcial del caso sin respuesta del anáfisis, sólo cuando afecta a la variable que se analiza, supuso una reducción sensiblemente menor en el tamaño de ia muestra original a 1.280 casos. Esta reducción se debió al cruce de las dos variables con más casos sin respuesta: “leyes inmigración’' (P18), con un tota) de 1.713 casos válidos; y la variable “ingresos” (P52), declarados sólo por 1.793 de los 2.492 encuestados. Pese a ello, el tamaño muestral continúa siendo elevado y posibilita, para la comprobación de la validez de los resultados, eí seccionamiento aleatorio de la muestra a la mitad (aproximadamente 640 casos en cada submuestra: de anáfisis y de validación).
1.3.2. Indagación exploratoria: la matriz de correlaciones
Antes de comenzar el análisis de regresión, propiamente, es conveniente hacer indagación exploratoria en los datos a analizar. Se precisa conocer si, con la información reunida, puede llevarse a cabo un análisis de regresión. Además de la comprobación de los supuestos básicos de regresión, ya referidos, procede realizar análisis univariables de cada una de las variables de interés por separado. En especial, se analizan sus medias y desviaciones típicas. Recuérdese que la regresión lineal exige que las variables se ajusten a una escala continua. Por lo que, la media y la desviación típica se convierten en las medidas de tendencia central y de dispersión más representativas, y dos estadísticos principales cuyos valores se revisan.
E je m p l o d e in d a g a c ió n e x p l o r a t o r ia u n ivar iab le-MEDIA Y DESVIACIÓN TÍPICA
A continuación figuran las medias y desviaciones típicas de las variables analizadas en la muestra total. Para su interpretación se recomienda la relectura del subapartado 1.1.3. En
70 Análisis rnultivariable. Teoría y práctica en la investigación social
Estadísticos descriptivos
MediaDesviación
típica N
Simpatía marroquí 5,9629 2,7276 2.183Leyes inmigración 2,6947 1,0354 1,713Ideología politica 4,6729 1,9595 1.804Sexo ,4811 ,4997 2.492Edad 44,9330 18,1276 2.492Simpatía latinoamericano 7,1693 2,2478 2.174Número inmigrantes 2,2260 ,6284 2.111Regularizar inmigrante ,7568 ,4291 2.171Entrada inmigrante 1,9069 ,6305 2,288Partido racista 1,4242 ,5692 2.237Casar con marroquí 1,6729 1,0094 2.415Estudios 2,1482 1,1990 2,281ingresos 143.991,0 105.233,1459 1.793Vecino marroquí 1,2670 ,6723 2.468Inmigrante delincuente ,5716 ,4950 .2.138
él se describe cada una de las variables; si son continuas o ficticias, además de los códigos numéricos dados a cada uno de sus valores. Esta información es de gran interés en ta interpretación de estos estadísticos descriptivos.
Además, observóse como el tamaño muestral (N) varía en cada variable, ai excluirse del análisis los casos sin respuesta sólo en la variable a la que afecta. En las variables “sexo" y “edad" se dispone de información de todos los casos de ia muestra original. Pero, en otras variables, como “leyes inmigración” (P16) e “ingresos” (P52), los casos analizados se reducen considerablemente. En ia variable “ingresos” ia reducción no sorprende, debido a la reticencia normalmente mostrada a ia declaración específica de los ingresos, aun pidiéndose que se den de forma aproximada. En ía variable “leyes inmigración” tampoco, al haberse incluido como opción de respuesta (en la valoración de las leyes que regulan la entrada y permanencia de extranjeros en España) “no conoce la legislación en materia de inmigración”.
Por último, señalar que la mayor desviación típica de ia variable “ingresos”, seguida a distancia de ia variable “edad”, se debe a la unidad de medición de ambas variables: pesetas y años. En las otras variables el rango de valores posibles se restringe a 11 como máximo (en las variables “simpatía marroquí” y “simpatía latinoamericano”: la escala de valores va de 0 [ninguna simpatía] a 10 [mucha simpatía]); y en las variables ficticias (“sexo” [P41], “regularizar inmigrante” [P19] e “inmigrante delincuente” [P2904]) se reduce a los valores 1 y 0 (el grupo de referencia).
A la indagación exploratoria univariable le sigue la bivariable que analiza la relación habida, por separado, entre cada dos variables. Primero, se quiere conocer el grado de relación de cada variable independiente con la dependiente para decidir
Capítulo 1: Regresión múltiple 71
la pertinencia de su inclusión en el análisis. Si una variable independiente muestra una mínima correlación con la dependiente, se puede reconsiderar su inclusión en el análisis. Segundo, se comprueba la relación habida entre cada dos variables independientes. La finalidad es comprobar el grado de colinealidad existente entre ellas y si éste puede afectar negativamente a los resultados del análisis (como ya se dijo en el subapartado 1.1,8). Toda esta información la proporciona la matriz de correlaciones.
La matriz de correlaciones incluye las correlaciones bivariadas de cada una de las variables que participan en el análisis. Esta matriz se caracteriza por ser cuadrada y simétrica. Los mismos valores se sitúan por encima y por debajo de la diagonal de la matriz (que resulta del cruce de una variable por sí misma). Por esta razón, en algunos programas estadísticos sólo se dan los valores que se hallan a un lado de la diagonal (por encima o por debajo), para no proporcionar información redundante.
En ía matriz de correlaciones la diagonal siempre está compuesta por unos. Incluye la correlación de cada variable, ya sea dependiente o independiente, consigo misma. De ahí que la correlación sea siempre 1,0, el valor máximo posible. Las variables figuran en el mismo orden en filas y en columnas. La variable dependiente puede estar en la última fila y columna, o en la primera, depende del programa que se utilice. Sus valores se cruzan con cada una de las variables independientes, de lo que se obtiene un coeficiente de correlación producto-momento de Pearson (“r”). Éste constituye una medida basada en la covarianza entre dos variables relacionada con la dispersión de sus respectivas distribuciones. Concretamente, se obtiene del cociente entre la covarianza de “X” e “Y” y la raíz cuadrada de las varianzas de “X” e “Y”, para todo valor i = (1,2,3...N), siendo “N” (o “n”) el tamaño de la muestra. Dos fórmulas alternativas son las siguientes:
S 2x - -í-i------ X 2 = Varianza de X, siendo cuadrado de la media de X
S 2y = -i2~ ----- Y 2 ~ Varianza de Y, siendo “ Y 2 ”el cuadrado de la media de Y
N
donde Sxy = ------ X Y = Covarianza de X en Y
N
72 Análisis rnultivariable, Teoría y práctica en la investigación social
Mediante cualquiera de estas fórmulas se obtiene un coeficiente que expresa eí grado y la dirección de la relación existente entre dos variables (“X” e “Y”, cuando se mide la relación de cada variable independiente con la dependiente; o de “X” y “X ”, si ía relación es entre dos variables independientes). Su valor oscila de -1,0 a 1,0. El valor 0,0 expresa inexistencia de relación entre las variables; +1,0 correlación perfecta positiva (conforme aumenta eí valor de una variable se incrementa, igualmente, el valor de la otra); y -1,0 correlación perfecta negativa (el incremento de una variable provoca la disminución de la otra).
La figura 1.8 contiene la composición de una matriz de correlaciones. En ella aparece cada coeficiente de correlación entre cada par de variables, indistintamente de si actúan de dependiente o de independientes. La diagonal está formada por unos y, a ambos lados de eíía, se sitúan los mismos coeficientes. Es igual, por ejemplo, la correlación de la variable X t con X 2 (r12) que a la inversa (r2í), de la variable X 2 con X v Las correlaciones entre variables ficticias equivalen a los coeficientes phi (<p) y se relacionan con x 1 (chi-cuadrado), porque <j> - Ambos estadísticos miden la relación entre variables cualitativas en una tabla de contingencia 2x2. Ello afecta a que la correlación entre este tipo de variables se interprete como ía proporción de casos que en ese grupo es mayor (signo positivo) o menor (signo negativo) que la proporción de casos en los otros grupos.
X , x 2 x s . . . . X , Y
X , 1 r u r J3 . . .
x 2 r 2l 1 r 23 - • • • r 2p
x 3 l 32 1 ; . • •
X , f p2 r * ■ ■ I T py
Y r y t r >6 • • ryp 1
Figura 1.8. Matriz de correlaciones.
Una forma de analizar la matriz de correlaciones es determinar un valor de corte, por ejemplo, una correlación igual o superior a 0,50, o incluso inferior: 0,40. Sea cual fuere el valor que se escoja, se procede a señalar todas aquellas correlaciones cu-
Capítulo 1: Regresión múltiple 73
ya correlación sea de igual o superior magnitud que el valor tomado de corte. Esto ayuda a tener una primera impresión de las interrelaciones existentes entre las variables. Se insiste en que 1a relación es exclusivamente entre dos variables y no se tiene en consideración la influencia, a su vez, con otras variables.
Si la relación es entre dos variables independientes, recuérdese que todo valor igual o superior a ±0,80 se considera indicativo de una elevada correlación entre las variables (se está ante variables muy colímales). Son funciones casi perfectas una de otra, lo que demanda la adopción de alguna de las medidas contra la multicolineaUdad referidas en el subapartado 1.1.8. También puede tomarse como referente de colinealidad importante toda correlación igual o superior a ±0,60.
Asimismo, puede darse la situación de correlaciones inferiores a las esperadas. EUo puede deberse a la existencia de una relación no lineal entre las variables o, simplemente, a la presencia de outliers (casos “atípleos’'). Para descartar ambas explicaciones a la baja correlación entre las variables hay que proceder a la comprobación de los supuestos de regresión (apartado 1.1) y, en su caso, a la detección de “atípleos” (véase subapartado 1.5.4).
Por último, advertir de que las correlaciones demasiado bajas pueden deberse, igualmente, a valores extremos de la media y desviación típica de la variable. “Si las medias de las variables para una muestra dada son números muy grandes y las desviaciones típicas muy pequeñas, entonces los programas de ordenador pueden producir matrices de correlación cuyos valores son demasiado pequeños” (Hutcheson y So- froniou, 1999:18). Esta tercera explicación tendrá, asimismo, que comprobarse, lo que exige un análisis univariable de las variables afectadas.
E j e m p l o , d e m a t r iz d e c o r r e l a c ió n
En el subapartado 1.1.8 se hizo referencia a la matriz de correlaciones, a su aplicación en la comprobación del grado de colinealidad existente entre dos variables independientes. A lo expuesto en el susodicho subapartado hay que añadir comentarios referidos, principalmente, a las correlaciones de cada variable independiente con la dependiente.
En la salida original del programa SPSS (versión 10.0) figura la matriz de correlaciones completa, junto a la significatividad (unilateral) de cada correlación bivariable y eí tamaño muestra! en el que se han calculado. Para facilitar su exposición y lectura, se ha decidido exponer la matriz de correlaciones como se hace en un informe de resultados. Las correlaciones bivariables sólo aparecen una vez, no repitiéndose a ambos lados de ia diagonal. Recuérdese que la correlación entre la variable X, y X2 es igual a la habida entre X2 y X.,. Lo mismo sucede con las demás variables.
74 Análisis multivariable. Teoría y práctica en la investigación social
Matriz de correlaciones
Y x, x2 x3 x, x 5 x 6 x7 xe x9 x 10 x „ x ,a X13 X,4
Y 1,000 ,302 -,115 -.050 -113 ,593 -.297 ,281 -,294 -.216 -47 6 ,140 ,057 -.396 -,268{,000} (,000) (.010) (.000) (,000) (,000) (.000) (.000) (,000) (,000) (.000) (.012) {,000) (,000)
x, 1,000 -,181 -.035 -12 9 ,196 -,337 ,286 -,368 -141 -,246 ,184 ,156 -,227 -,289(.000) (,076) (,000) {,000) (,000) (,000) (.000) {,000) (,000) (,000) (.000) (.000) (,000)
X2 1,000 -,031 ,118 -.048 ,140 -,111 ,136 ,170 ,147 -,052 ,037 ,117 ,149'(,098) (,000) (,024) (,000) (,000) (.000) (.000) (.000) (.017) (.086) {,000) (,000)
x3 1,000 “ ,058 -009 —,027 -,039 ,046 ,021 -,024 ,080 ,107 ,026 ,055(,002) (,330) (.106) (.035) (.015) (.160) (.116) (,000) (.000) (.102) (.005)
X4 1,000 -,102 ,141 -,089 ,117 ,097 ,163 „442 -,291 ,124 ,201(,000) (,000) (.000) {,000) (,000) (,000) (.000) (.000) (,000) (.000)
xs 1,000 -,230 ,228 -.246 -219 -27 4 ,120 ,085 ",267 -,199(,000) (.000) (,000) (,000) (,000) (,000) (.000) (.000) (,000)1,000 -,283 ,275 ,183 ,233 -.254 -.223 ,194 ,316
(.000) (.000) (,000) (,000) (,000) (.000) (,000) (,000)*7 1,000 -,388 -,199 -,265 ,175 ,118 -,249 -,268
(.000) (,000) (,000) (,000) (,000) (.000) (,000)1,000 ,257 ,290 -,154 -,139 ,266 ,309
(.000) (,000) (,000) (.000) (,000) (.000)x 8 1,000 ,239 “ ,128 -070 ,261 ,179
(.000) (.000) (,002) (.000) (.000)X,o 1,000 -.114 -,023 ,573 ,271
(.000) (.169) (,000) {,000)x „ 1,000 ,471 -,095 -,204
(.000) (.000) (.000)1,000 -,041 -.117
(.041) (,000)X,3 1,000 ,207
(.000)*,4 1,000
* Las cifras entre paréntesis corresponden a la significatividad de tas correiacíones bivariabies respectivas.• Y: “simpatía hacia norteafricano (marroquí,..)’’ (P201); X,: "Seyes inmigración" (P16); X¿. “ideología política” (P39);
X3: "sexo” (P41); X4: “edad” (P42); Xa: "simpatía hacia latinoamericanos" (P210); Xe: “número de inmigrantes” (P1 1}; X7: “regularizar a inmigrantes” (P19); Xa: "entrada inmigrantes” (P21); X9: “partido racista" (P37); X10; “casar con marroquí" (P306); Xt1: "estudios” (P43a); Xl2'. "ingresos” (P52); X13: Vecino marroquí" (P506); X,4: “inmigrante delincuente” (P2904).
Debajo de cada correlación y entre paréntesis está la significatividad (unilateral) de cada correlación. Corno puede observarse, la mayoría de las correlaciones habidas son bastante significativas, af ser p < ,05 (la probabilidad de error en !a estimación es inferior al 5% en la mayoría de las situaciones). La significatividad es muy elevada en todos los coeficientes de correlación de cada variable independiente con la dependiente, pero no en todos Sos coeficientes de correlación entre dos variables independientes. La significatividad es inferior al valor tomado habitualmente de referencia en las correlaciones entre las variables: X, y X3 (,075), X2 y X3 (,098), Xs y X5a (,088), X3 y X5 (,330), X3 y X6 (.106), X3 y X9 (,160), X3 y X10 (,116), X3 y X13 (,102), X10 y X12 (,169). Afecta, sobre todo, a la variable ficticia X3 (“sexo”), a su correlación con siete variables (la mitad de las consideradas). La correlación con estas variables es, asimismo, muy baja, siendo la más alta de -,035, que corresponde a su correlación con ia variable X1. Con las otras seis variables las correlaciones son, inclusive, más bajas. Estas bajas correlaciones significan que apenas existen diferencias entre ios varones y las mujeres en las variables referidas.
Capítulo 1: Regresión múltiple 75
Recuérdese que ía variable “sexo”es una variable ficticia que, al tener codificación binaria (1 varón, 0 mujer), su relación con fas otras variables no se ajusta a una recta de regresión, aunque realmente las variables estén muy relacionadas. En las variables ficticias, el coeficiente de correlación producto-momento de Pearson (“r") no expresa el grado de relación existente entre dos variables, sino la proporción de casos que en ese grupo (el codificado 1) es mayor (signo-positivo) o menor (signo-negativo1) que ia proporción de casos en el grupo de referencia (codificado 0). Por ejemplo, !a correlación de X3 con Y de -,050 significa que la proporción de varones (codificados 1) que muestran “simpatía hacia los norteafricanos (marroquíes...)’1 es muy ligeramente inferior a la de mujeres (el grupo de referencia, a! codificarse 0). En cambio, la correlación positiva de la variable X3 con X12 de ,107 indica la pro- porción en que los “ingresos" de los varones superan a los declarados por las mujeres. A la vista de ambas correlaciones, que son bastante significativas y de escasa cuantía, puede concluirse que existen más diferencias entre los varones y las mujeres en los "ingresos" declarados (a favor de los varones) que en la ‘‘simpatía'1 manifestada hacia los norteafricanos (ligeramente superior en las mujeres). Es en la variable “ingresos” donde ias diferencias por género son superiores (aunque con escasa magnitud: ,107). Respecto a las otras variables, las diferencias por género son apenas perceptibles. La correlación más baja se da entre la variable X3 y X5 (-.009). En ia manifestación del grado de “simpatía hada ios latinoamericanos” las diferencias entre los varones y las mujeres son nulas (inclusive inferiores a las registradas en ta variable Y: “simpatía norteafricano”) e, igualmente, en dirección negativa (mínimamente superior en las mujeres).
Las otras dos variables ficticias (X7 y X14) muestran una mayor correíación con Y que X3. En la variable X7 (“regularizar a inmigrantes”) la correlación es positiva y ligeramente superior (,281). Entre las personas que creen que sí “se debería tratar de regularizar la situación de ios inmigrantes ilegales” (grupo codificado 1) ia proporción de casos que muestran más simpatía hacia los norteafricanos es ,281 superior a la habida entre los contrarios a ía re- gularización (el grupo de referencia). Asimismo, ta correlación de X14 e Y de -,268, significa que entre aquellos que están de acuerdo en que “el aumento de los inmigrantes favorece el aumento de la delincuencia en nuestro país” aquellos que muestran simpatía hacia los norteafricanos son en una proporción de ,268 inferiores a los que están en desacuerdo con dicha aseveración. En este último grupo (eí grupo de referencia) es superior el grado de simpatía manifestado hacia los norteafricanos, aun no siendo excesiva en magnitud.
De las catorce posibles variables predictoras consideradas Xs (“simpatía hacia latinoamericanos”) es fa variable más correlacionada con Y (“,593). La correlación habida entre ambas variables es positiva e importante, aunque no perfecta. Las simpatías mostradas hacia los latinoamericanos y norteafricanos covarían en ia misma dirección. Ambas variables están positivamente relacionadas, lo que significa que tos aumentos (o disminuciones) en simpatía hacia los latinoamericanos suelen coincidir, aunque no siempre, con aumentos (o disminuciones) igualmente en ia simpatía manifestada hacia los norteafricanos. Para que la correlación entre ambas variables fuese perfecta (y la coincidencia de sus valores total en todos los casos) su valor debería aproximarse a 1,0. No obstante, la correlación entre ambas variables es importante y puede afirmarse que ésta será la primera variable que formará la ecuación de regresión, la que más ayuda a predecir el valor de Y.
X10 (“casar con marroquí”) es la segunda variable en importancia que muestra una mayor correíación con Y, aunque en dirección negativa (-,476). El signo de! coeficiente responde a cómo está definida esta variable. El valor más alto (4) corresponde a aquellos que afirman que “le preocuparía mucho que un hijo o una hija suya se casara con un ciudadano
76 Análisis multivariable. Teoría y práctica en la investigación social
de Marruecos u otro país norteafricano"; el valor más bajo (1), a aquellos que declaran que no les preocuparía "nada" dicho matrimonio. Hecha esta especificación, el signo del coeficiente no sorprende. La simpatía mostrada hacia los norteafrícanos varía inversamente con la pre- ocupación de que un hijo o hija se casase con un marroquí. A medida que aumenta la preocupación hacia un posible matrimonio con un marroquí u otro ciudadano de un país norteafricano, desciende Sa simpatía hacia este grupo de personas. Ésta es menor entre los que dicho matrimonio tes preocuparía “mucho” o “bastante” que entre aquellos a ios que les preocuparía “poco” o “nada”. La relación entre ambas variables es lineal, aunque no perfecta. A partir de ¡a matriz de correlaciones puede predecirse que ésta será la segunda variable en formar la ecuación de regresión, al ser la segunda más correlacionada con Y, cumpliendo a su vez la condición de estar apenas correlacionada con X5. La correlación (muy significativa) habida entre las variables X10 y X5 es leve (-,274). Se trata de dos variables poco collneales. La inclusión de una de ellas en ia ecuación de regresión no restringe la incorporación de la otra.
Como se verá posteriormente, la incorporación de variables predictoras a la ecuación de regresión está determinada no sólo por la correlación que dicha variable tenga con la dependiente, sino también de la tenida con variables independientes previamente introducidas en la ecuación (por mostrar una mayor correlación con Y).- En suma, para poder predecir que la variable X13 (ia tercera más correlacionada con Y: -,396) y X1 (la cuarta, ,302), por ejemplo, van a formar parte de la ecuación de regresión, habrá antes que observar cuáles son las correlaciones de estas dos variables entre sí y con las variables previamente indicadas como posibles integrantes de la ecuación. Un grado elevado de colinealidad con variables ya en la ecuación dificulta la incorporación de nuevas variables, aun estando muy correlacionadas con Y. Como se señaló en el subapartado 1.1.8, en el análisis de regresión se trata de evitar la multicolineaUdad y con ello la redundada en la predicción de Y. Para más información reléase dicho subapartado. En los siguientes se volverá a hacer referencia a esta matriz de correlaciones para la interpretación deí modelo de regresión.
1.4. La eí: isa cío n de regresión
En el análisis de regresión lineal múltiple la relación entre la variable dependiente (Y) y la serie de variables independientes se expresa como una función lineal de las variables independientes (X.). Dicha función conforma la ecuación siguiente para i = 1,23—n observaciones muéstrales:
Y. - a + b ,X u + b2X 2l + b3X v + ........+ bpX p¡ +
Esta ecuación permite predecir el valor de la variable dependiente, en cada caso concreto (Y;), a partir de unos valores determinados de la serie de variables independientes que muestran relación con la dependiente.
Como dicha predicción es rara vez exacta, al tratarse generalmente de datos muéstrales, la ecuación también incluye un término de perturbación (e(.). Éstos son, en suma, sus componentes:
Capítulo I: Regresión múltiple 77
“Xj, X 2, X y.. X. ” las distintas variables predictoras de las que se ha obtenido información en ía muestra analizada.
“a”: también denominado “&0”. Identifica la constante o el intercepto de la recta de regresión. Es el punto donde la recta (o el piano) de regresión “intercepta”, o sea, corta el eje Y, De ahí su referencia de “intercepto”. También se le conoce como “constante” porque su valor denota el valor promedio de Y cuando las variables independientes son nulas; es decir, iguales a cero. Pero, téngase presente que no siempre el valor cuantitativo del intercepto tiene una interpretación directa. Esto sucede, habitualmente, cuando presenta un valor negativo. Rara vez, en el mundo real, un valor de Y puede ser inferior a 0 (salarios, calificación académica, lloras de estudio, por ejemplo). En estas circunstancias de valores de “a” (o “b0”) negativos, su cuantía no es directamente interpretable, aunque continúa siendo imprescindible para la predicción de Y.
En caso de variables independientes ficticias (véase subapartado 1.1.2), el intercepto (o constante) refleja el valor predicho de la variable dependiente para el grupo de referencia. Ello se debe a que todas las variables pericias son iguales a cero para el grupo de referencia (0 varón, i mujer; 0 suspenso, 1 aprobado, por ejemplo). Su valor se interpreta como la frecuencia media de la variable dependiente para el grupo que se ha codificado 0.
“bv &2— bp” son los coeficientes de pendiente parcial o de regresión parcial. En regresión simple, cuando sólo hay una variable independiente, su valor representa la pendiente de la recta de regresión. En regresión múltiple, con dos o mas variables independientes, su valor identifica la pendiente del hiperplano de regresión con respecto a su respectiva variable independíente (X ). Separan el efecto de cada variable independiente en la dependiente del resto. Esto se debe a que su cuantía expresa el cambio promedio en la variable dependiente asociado a una unidad de cambio en X , cuando el resto de las variables independientes se mantienen constantes (esto se conoce como control estadístico).
En variables independientes ficticias (con codificación binaria 0 - 1) el coeficiente de pendiente en cada una de las variables ficticias estima la diferencia en el valor de Y entre el grupo en cuestión y el grupo de referencia. En variables con sólo dos categorías, como sexo, el valor de dicho coeficiente se convierte en la diferencia en las medias entre el primer grupo (el codificado 1) y el segundo grupo (el codificado 0). Si los “varones” actúan, por ejemplo, como grupo de referencia (codificado 0), el coeficiente “b” asociado a “mujer” (con el código 1) denota la diferencia en Y entre “mujeres” y “varones”. En general, los casos que puntúen 0 en cada una de las “g - 1 ” variables ficticias creadas se toman como grupo de referencia, respecto al cual se comparan los coeficientes de regresión de cada una de .las variables ficticias formadas a partir de una variable cualitativa. Por esta razón se recomienda seleccionar como grupo de referencia aquel que haga más significativa la interrelación de los respectivos coeficientes de pendiente.
Como los coeficientes de pendiente suelen estimarse de datos muéstrales, siempre habrá una variación en su valor, dependiendo de la muestra que se ana
78 Análisis multivariable. Teoría y práctica en la investigación social
lice. Esa variación se cuantifica mediante ei “error de estimación” o error típico de los coeficientes de regresión (véase subapartado 1,4.2).
“e/’: el término de error aleatorio que se añade a la ecuación de predicción de Y. El modelo de regresión, en similitud a otros modelos estadísticos, es un modelo pro- babilístico y no determinístico. Rara vez la relación causa-efecto detectada entre las variables es exacta. Por lo que debe cuantificarse la magnitud del error de predicción de Y a partir de la serie de variables independientes incorporadas al modelo predictivo.
La denominación “aleatorio” le viene de la convicción de que los errores deben seguir un modelo aleatorio. Esto quiere decir que se sitúan, de forana aleatoria, alrededor de la recta de regresión, con un valor esperado de cero (E(e¡) = 0) y una varianza constante ai. (subapartado 1.5.2).
A partir de la ecuación de regresión puede predecirse el valor de la variable dependiente en cada caso concreto (Y;). Para ello se sustituye, en la ecuación, los valores que presenta dicho caso en cada una de las variables independientes. Estos valores se multiplican por sus respectivos coeficientes de regresión. Se suman todos los productos y se añade el error de predicción, a partir del cual se calculan los intervalos de confianza (como se expone en los subapartados correspondientes). Toda inferencia se realiza en términos de probabilidad. “Cualquiera que sea el método utilizado en la contrastación de hipótesis, los resultados nunca son ciertos, sino aproximaciones en términos de probabilidad” (Goode y Hatt, 1952:87).
La finalidad de la regresión múltiple no es únicamente descriptiva: cuantificar el grado de relación existente entre una serie de variables independientes y una sola variable dependiente. Es también ínferencial. De ios coeficientes de regresión, estimados en la muestra analizada, se persigue su generalización al conjunto de población de la cual se ha extraído la muestra. Ello exige el cumplimiento de los supuestos de regresión resumidos en el apartado 1.1.
Para ia población, la ecuación de regresión múltiple se formula igualmente, salvo que los parámetros de regresión pasan a denominarse con letras del alfabeto griego. Los símbolos “a ” (alpha) y “/?’( beta) nombran, respectivamente a la constante (o intercepto) y a los coeficientes de regresión (o de pendiente). Su valor se obtiene a partir de sus correspondientes estimaciones muéstrales, aunque se halla estandarizado (expresado en unidades de desviación típica). Todas las variables independientes tienen ahora el mismo promedio y cantidad de variación. Sus respectivos coeficientes beta se hallan en unidades de desviación típica, y no en la unidad de medición original de la variable, lo que facilita ia comparación de los coeficientes: el conocimiento de qué variable afecta más a la predicción de la variable dependiente. Para su estandarización se divide cada coeficiente b por su desviación típica. ue ” (epsííón) ahora nombra al error de estimación.
Y ¡ - a + p lX l¡ + pt X 2i + fi.3X 3i -f... + f}pX pi + e,
Capítulo J: Regresión múltiple 79
Si ei investigador prevé la posibilidad de que el efecto de una variable predictora en Y dependa de los valores de otra variable independiente, ha de añadir a la ecuación de regresión el efecto de un término de interacción al modelo original, a modo del siguiente, donde X 2i X 3 ” denota el término de interacción.
Y¡ = a + & X tt + p ,X 2i + & X 3l + & X 2ÍX 3¡ + £¡
Las interacciones pueden afectar a más de dos variables predictoras. En realidad, puede haber tantas interacciones como variables predictoras, si sus efectos en la variable dependiente son interactivos ( y no aditivos). El coeficiente “/J4” de la ecuación anterior indica el cambio en “X 2” por líX 3’% mientras se controla por los otros términos en el modelo. La interpretación de los términos de interacción se complica, no obstante, al aumentar las interacciones incluidas en el modelo de regresión, que cada vez se hace más complejo. Para evitar la complejidad innecesaria se recomienda no proceder de forma rutinaria, sino incluir sólo aquellas interacciones que muestren ser significativas. Dos razones principales, destacadas por Gunst y Masón (1980: 38-39), apoyan esta recomendación:
a) El número de interacciones posibles para modelos de regresión con varias variables predictoras puede ser elevado. Con sólo 5 variables predictoras existen 10 posibles términos de interacción de 3 variables, 5 de 4 variables y 1 de 5 variables. La consideración de todas estas interacciones resultaría en un modelo complejo con 36 términos, sin que esto redunde, necesariamente, en una mejora sustancial de ajuste a los datos.
b) Los términos de interacción a veces repiten información proporcionada por las variables predictoras individuales. Si la redundancia inducida por los términos de interacción es demasiado fuerte, se pueden distorsionar las estimaciones de los coeficientes para las variables predictoras individuales. Esta redundancia se identifica con la multicolinealidad (referida en el subapartado 1,1.8).
Pero, si no se incluyen interacciones que realmente existen, los parámetros estimados para los otros términos del modelo pueden verse afectados. Para obviarlo, una práctica empleada comúnmente consiste en añadir el producto liX i X " en la ecuación de regresión para representar posibles interacciones (Afifi y Clark, 1990). Éstas pueden darse entre dos o más variables continuas o entre una continua y una. ficticia. En este último caso, se comprueba si la respuesta a un cambio en una variable independiente continua difiere entre los grupos clasificados de acuerdo con la variable ficticia. No obstante, se insiste en la conveniencia de que sólo se incluyan aquellas interacciones que muestren ser significativas.
A continuación se detalla cada uno de los integrantes de la ecuación de regresión, junto con los procedimientos principales seguidos en su estimación.
80 Análisis rnultivariable. Teoría y práctica en la investigación social
1.4.1. Estimación de los coeficientes de regresión
El procedimiento de estimación de los coeficientes de regresión más aplicado, siempre que se satisfagan todos los supuestos básicos de regresión, es el método de mínimos cuadrados ordinarios (OLS). Este método de estimación fue primeramente enunciado por Legendre en 1805, si bien Gauss lo venía aplicando desde 1795. Su nombre le viene de su propia finalidad: la obtención de una recta que haga mínima la distancia que separa, simultáneamente, a todos los puntos de datos de la recta (o hiperplano en regresión múltiple). Estos puntos representan la conjunción de los valores de las distintas variables independientes (X ) con la dependiente (F¿), en cada caso observado en el estudio, y se reflejan en un gráfico de dispersión.
Para la consecución de la recta que “mejor” ajuste a los datos (aquella que haga mínima la distancia de los puntos respecto de ella) se emplea la suma de los valores cuadrados de las distancias verticales. Más conocido como la suma de los errores cuadrados
(denotado SSE): SSE = ¿ é f - ¿ (Y , “ % ?M i-i
Si los errores no se elevan al cuadrado, las distancias por encima de la recta de regresión anularían a las que se sitúan por debajo de la recta. Cuanto más se aproximen los puntos (de los datos) a la recta, mejor es el ajuste del modelo, al ser mínima la suma de los términos de error al cuadrado. En cambio, cuanto más se distancien los puntos, peor es el ajuste.
La representación gráfica de la aplicación del principio de mínimos cuadrados es más sencilla en regresión simple (cuando sólo se analiza el efecto de una variable independiente en 1a dependiente) que en regresión múltiple (donde un plano sustituye a la recta de regresión). Conforme aumenta eí número de variables predictoras, la representación gráfica se complica considerablemente, en relación con el número de variables independientes implicadas. Con tres variables independientes, se tiene un plano en un espacio tridimensional, debido a que el número de variables independientes es tres. La localización de este plano está determinada por ios valores de "a, bv h%... b n. Estos se obtienen mediante la aplicación del método de mínimos cuadrados ordinarios. Es decir, considerando la desviación de cada valor respecto a la medía de la variable en cuestión. La figura 1.9 ilustra la representación del principio de mínimos cuadrados ordinarios cuando se analiza una única variable independiente, al ser en este contexto más visual y fácilmente comprensible. También se incluye la representación cuando son dos las variables independientes consideradas (regresión múltiple). Con más de tres variables la representación gráfica se vuelve demasiado compleja y de difícil comprensión.
Los puntos representan en el gráfico de regresión simple los valores observados deY para cada valor de X en cada caso observado; en el gráfico de regresión múltiple, los valores observados de Y para cada combinación de valores de las dos variables independientes (Xj y X2). De lo que se trata es de buscar una recta (regresión simple') o un plano (regresión múltiple) que haga mínima la suma de ias diferencias, elevadas al cuadrado, entre los valores observados de Y (en la muestra) y los estimados medíante la
Capítulo I: Regresión múltiple 81
ecuación de regresión (TQ, para cada caso concreto (i -1 ,2 ,3 ... n). Dichas diferencias constituyen Jos errores de predicción (“e/’)- Existe uno para cada punto. Su valor informa de la distancia habida entre ei punto y la recta o plano. Rara vez se logra un ajuste perfecto de los puntos a la recta o plano, por to que siempre existe error. Lo que se quiere es que sea lo menor posible, que la distancia habida entre ambos valores sea mínima.
Y
X
a) Regresión simple b) Regresión múltipleFigura 1.9. Representación del principio de mínimos cuadrados ordinarios.
Cuando se comprueban los efectos conjuntos de 4 o más variables predictoras en la dependiente, la representación gráfica del principio de mínimos cuadrados ordinarios se hace casi imposible. La función lineal que se estima en este caso se llama hiperplano y, como reconoce Tacq (1997:116), “escapa a nuestra imaginación”. Para el caso general de “p” variables predictoras se precisaría ajustar un hiperplano p-dimensional a un gráfico de “p + 1” dimensiones. El principio, no obstante, es el mismo.
En resumen, mediante la regresión de mínimos cuadrados ordinarios se pretende buscar los valores de los coeficientes de regresión (a, bv bp), que minimicen la suma de las desviaciones cuadradas de las observaciones, “Y”, de los valores predichos de la variable dependiente (Y ). En ei caso de una única variable independiente (regresión simple), los valores de los coeficientes “a” y “b” se obtienen de las ecuaciones siguientes:
X c X í - x m - y )i*i______________
i t í x t - x )
Covarianza de XY / Varianza de X
Una vez conocido “b” se procede al cálculo de “a”:
a - Y - b X
Pero, cuando se dispone de dos o más variables predictoras (regresión múltiple), las fórmulas para ia estimación de ios coeficientes de regresión se complican. Requieren
la aplicación del álgebra de matrices. Siguiendo la formulación del álgebra de matriz, la ecuación de regresión queda así definida:
Y ' = X * B'+ e '
Donde: “ Y es un vector n-dimensional de la variable dependiente.“X*” = (1, X ., X 2, X y .., X ) contiene una columna de V unos y una co
lumna de “n” observaciones en cada una de las “p” variables independientes,
“B'” es un vector de p + 1 dimensiones (siendo “p” el número de variables predictoras) de los parámetros deí modelo: a, Pr, fi2, f í y fíp-
“e e s un vector de los “n” términos de error aleatorios.
En regresión se diferencian los coeficientes de regresión estandarizados (conocidos como coeficientes beta) de los no estandarizados (los coeficientes dependiente “b ”). Ambos proporcionan más información que el coeficiente de correlación:
* El coeficiente de correlación (“r”) indica el grado de relación lineal existente entre dos variables y la dirección de la misma. Si el signo es positivo, las dos variables covarían en la misma dirección: el aumento de una de ellas provoca el aumento de la otra (por ejemplo, a más horas de estudio, mejor resultado académico; o a menos horas de asistencia a clase, peor calificación en el examen). El signo negativo significa, por el contrario, que ambas variables covarían en direcciones opuestas: conforme se incrementa el valor de una de ellas, disminuye el valor de la otra (el aumento del número de cajetillas de tabaco filmadas al día supone la disminución de la esperanza de vida dei fumador, por ejemplo). Su valor expresa el grado de covariación entre ambas variables. En el subapartado 1.3.2 figuran las fórmulas aplicadas para su obtención.
® El coeficiente de pendiente “b ” (en regresión simple, de pendiente de la recta', en regresión múltiple, de pendiente del hiperplano de regresión con respecto a las “p” variables independientes) proporciona más información que el coeficiente anterior. Indica cuánto varía la variable dependiente cuando la independiente cambia en una unidad, controlándose, a su vez, eí efecto de las demás variables independientes. Por lo que, muestra ser de especial utilidad para comprobar el impacto de una variable independiente en la dependiente y sus variaciones en las diferentes muestras. Esto último mediante el cálculo del error de estim ación de cada coeficiente “b '\
A este coeficiente también se le conoce como coeficiente de regresión parcial. Ello se debe a que su valor se ve afectado por la composición de las variables incluidas en ei análisis, exactamente, por las posibles interrelaciones que existan entre ellas. E l coeficiente para una variable concreta siempre se ajusta en función de las otras variables incluidas en la ecuación de regresión. La inclusión o exclusión de una de ellas suele conllevar una alteración en el valor de los coeficientes de las variables en la ecuación. De ahí la importancia de incluir en el
82 Análisis multivariable. Teoría y práctica en la investigación social
Capítulo 1: Regresión múltiple 83
análisis variables relevantes. A veces incluso ja omisión de variables que no sean significativas a un determinado nivel de significación (usualmente p < 0,05) puede ocasionar problemas en la interpretación de los coeficientes de pendiente, cuyo valor se ve afectado por la omisión de variables.
Además, téngase presente que la magnitud de los coeficientes de pendiente también se halla afectada por ia unidad de medición de la variable. Lo que limita su aplicación en la comprobación de la importancia relativa de las diversas variables independientes a la predicción de la dependiente. Ello exige la conversión de las variables a una misma unidad de medición, es decir, su estandarización.
Por último, añadir que cuando la variable dependiente está expresada en logaritmos, los coeficientes se interpretan de una forma aproximada, en términos porcentuales. Nourisis (1986) lo ilustra con eí siguiente ejemplo: un coeficiente de regresión parcial de -,104 para la variable sexo, cuando las mujeres se codifican como 1, indica que los salarios (variable dependiente) de las mujeres se estima que sean cerca del 10% menos que el salario de los varones, después del ajuste estadístico para las otras variables independientes en el análisis.
• El coeficiente de regresión estandarizado (también referido como coeficiente beta) mide la variación en unidades de desviación típica de la variable dependiente por cada unidad de variación de la independiente, esta última también expresada en unidades de desviación típica. Para ello, cada puntuación “X ” se trans-
(X- — X -)forma en puntuaciones típicas: Z x¡ ------ ------ —■ , al igual que la variable Y:
{Y - Y )Z y - — ~----- , Después se procede a un nuevo cálculo de la ecuación de re-
Lj y
gresión, pero sin el intercepto (o constante). Las puntuaciones Z suponen desviaciones respecto de la media, lo que implica su traducción al origen.
Los coeficientes beta se obtienen del producto de cada coeficiente “b” por el cociente entre la desviación típica de la variable independiente y la desviación típica
s Xide la variable dependiente: Py, x, ~ by.x,
En regresión simple, el valor del coeficiente beta coincide con el coeficiente de correlación correspondiente (la relación entre las dos variables). En regresión múltiple, no. Su valor se ve afectado por la correlación existente entre la variable independiente respectiva con las demás predictoras incluidas en la ecuación. 1
A diferencia de los coeficientes “b”, los beta no deben ser mayores de 1, porque son coeficientes estandarizados (con media cero y desviación típica uno). Si, alguna vez, se obtiene un coeficiente beta superior a 1, puede tomarse como indicio de la existencia de una importante colinealidad entre las variables.
Por último, insistir en que los coeficientes beta no se utilizan para predecir el valor de la variable dependiente, sino para comparar e inferir la importancia relativa de cada variable independiente en el modelo de regresión. La están-
84 Análisis multivariable. Teoría y práctica en la investigación social
darización permite la comparabilidad directa de los distintos coeficientes de regresión, puede conocerse qué variable predice más el valor de la dependiente. Además, su valor también está afectado por la correlación existente entre las variables independientes en 1a ecuación, por lo que proporcionan una información más veraz del poder predictivo de cada variable independiente que el coeficiente de correlación y el de pendiente.
La importancia relativa de cada variable independiente puede igualmente comprobarse contrastando la variación, o incremento, del valor de R2, que provoca la incorporación de dicha variable a la ecuación. .Para ello se resta el valor de R2 obtenido tras la incorporación de la variable del habido previo a la inclusión: es decir, R2 - R ^ , siendo “R ^ n el cuadrado del coeficiente de correlación múltiple, cuando todas las variables exceptuando (“i”) se incorporan a la ecuación. La cantidad de cambio en el valor de R2 se interpreta como la proporción de información única aportada por la variable independiente correspondiente en la predicción de la variable dependiente.
La raíz cuadrada del aumento se conoce como el coeficiente de correlación parcial. Se define como la correlación existente entre una variable independiente y la variable dependiente cuando los efectos de las otras variables independientes se mantienen constantes. En caso de no existir correlación entre las variables independientes, el cambio en R2, cuando se introduce una nueva variable en la ecuación, es el cuadrado del coeficiente de correlación entre esa variable y la dependiente.
Si el coeficiente de correlación parcial de una variable se eleva al cuadrado, se obtiene cuánto supondría su incorporación al modelo de regresión en la proporción de varianza explicada de Y (R2). Concretamente, su valor expresa la proporción de la varianza no explicada que puede quedar explicada, si se incorpora la variable a la ecuación. Por ejemplo, si R2 = ,43 (que supone que queda un 57% de la varianza de Y sin explicar por las variables en la ecuación), un coeficiente de correlación parcial en una nueva variable de ,524 no significa que dicha variable explique el 52,4% de la varianza que previamente no ha quedado explicada. Si se eleva al cuadrado (,524z = ,275) se obtiene que el 27,5% del 57% de la varianza de Y no explicada puede quedar explicada si se incorpora esa nueva variable a la ecuación. Su inclusión a la ecuación supone un aumento en porcentaje de varianza explicada de Y (R2) del 15,7%. Esta cantidad se obtiene de multiplicar la proporción de varianza no explicada de Y por el cuadrado del coeficiente de correlación parcial de la variable: (1 - ,43) x ,275 = ,157.
Pero, únicamente se considera la incorporación (por muy pequeña que sea) de variables cuyo coeficiente de correlación parcial sea significativo estadísticamente. Su significatividad se mide mediante el estadístico “t” de Student, explicado en el su- bapartado 1.4.3.
1.4.2. El error típico de los coeficientes y los intervalos de confianza
En la evaluación de la importancia relativa de las variables independientes también ha de considerarse la variabilidad de los coeficientes de regresión estimados. Esta se mide me
Capítulo 1: Regresión múltiple 85
diante el error típico (“standard error”), que constituye una medida de la variabilidad de las estimaciones de los coeficientes, a partir de la información extraída de una muestra.
El error típico dei coeficiente de regresión “b" (SEB) se define como la variación en ía estimación del valor del coeficiente de una a otra muestra (de iguales características) que pertenezcan a la misma población. Permite conocer la divergencia en las estimaciones de los coeficientes y equivale a 1a distribución de las estimaciones del coeficiente de regresión que resultaría, si se extrajesen repetidamente muestras, de un determinado tamaño, de una misma población y, para cada una de ellas, se calculase el coeficiente de regresión, Como estos coeficientes estimados de muestras aleatorias varían de sus correspondientes valores poblacionales, el error mide, precisamente, cuál es esa variación. Esta información es imprescindible a efectos inferenciales (de los coeficientes estimados en una muestra a sus correspondientes parámetros poblacionales).
Eí cálculo del error típico de un coeficiente concreto (Sh ) se realiza mediante la siguiente fórmula:
¡ X M - t y / i N - p - i )S , - K ; ----------1 ---------------
| I ( * , . - X ) 2( W )
Donde: “N" (o “n”) es el tamaño de 1a muestra.“p ,? el número de variables independientes en la ecuación.“rff la correlación múltiple cuadrada obtenida de la regresión de X\ en to
das las otras variables independientes.
Cuanto más bajo sea su valor, mejor es la estimación del coeficiente “b”: menos variación habrá en muestras distintas de una misma población. Lo que repercute, obviamente, en su significatividad estadística. La obtención de errores típicos elevados suele ser, a decir de su fórmula, consecuencia de uno o varios de los aspectos siguientes:
a) Elevados errores de predicción de la variable dependiente,b) Elevada varianza de la variable independiente,c) Elevada correlación de la variable independiente correspondiente con otras va
riables independientes (multicolineaUdad).d) Tamaño muestral bajo. Cuando no se cumplen los ratios número de casos por
variables predictoras a los que se hizo mención en el subapartado 1.1,1.e) Elevada correlación de la variable independiente con otras excluidas del mo
delo.
A partir de error típico pueden calcularse los intervalos de confianza para cada coeficiente de regresión que haya mostrado ser significativo (subapartado 1.4,3), Para ello se multiplica el error por el valor teórico de “t” de Student, con “N - p - 1 ” grados de libertad (siendo “p" eí número de variables predictoras en la ecuación de re
86 Análisis rnultivariable. Teoría y práctica en la investigación social
gresión), al nivel de probabilidad elegido. El nivel de significación más habitual es “a = ,05”. Adviértase que la distribución *‘t” se asemeja a la distribución normal cuanto más se aleja el tamaño muestral de 30 unidades.
Los intervalos de confianza para cada coeficiente de pendiente b se obtienen del modo siguiente;
Intervalo de confianza = b ± (i)(SE fí)
Donde “t” es el percentil 100 (l-et/2) de la distribución “t”, con KN - p - 1” grados de libertad. El límite inferior del intervalo viene dado por la diferencia del coeficiente estimado respecto al producto del valor “t” crítico y el error de estimación del coeficiente. El límite superior, en cambio, queda definido por la suma de dicho producto y el coeficiente de regresión. Para la constante, el intervalo de confianza se calcula del mismo modo y con los mismos grados de libertad:
Intervalo de confianza = a ± (J)(SEA)
El cálculo de los intervalos de confianza es preciso a efectos inferenciales. A partir de la estimación muestral de los coeficientes de regresión, el intervalo de confianza, proporciona el rango de valores entre los que se halla dicho coeficiente en la población. La inferencia se realiza a un nivel de significatividad determinado: el más usual (“a = ,05”) supone una probabilidad de acierto del 95% de que el parámetro pobla- cionaí esté incluido en el intervalo estimado.
1.4.3. La significatividad de los coeficientes de regresión
La contribución dé cada variable independiente al modelo de regresión se evalúa, primero, comprobando la significatividad estadística de cada coeficiente de regresión parcial por separado. El análisis de regresión se asienta en la teoría de la probabilidad, en las posibilidades de inferencia de los estadísticos calculados en una muestra a los correspondientes parámetros poblacionales, lo que se refleja en la desestimación de cualquier resultado que no satisfaga el requisito de la significatividad.
Por razones de coste económico y temporal, fundamentalmente, el investigador rara vez recibe información de cada una de las unidades (personas, familias, viviendas, organizaciones...) que forman la población objeto de estudio, aunque ésta fuese de pequeñas dimensiones. La práctica común es extraer una muestra del universo o población de interés. Pero, si a partir de las estimaciones muéstrales se quiere inferir los correspondientes parámetros poblacionales, la muestra ha de ser “representativa” de la población. Dicha “represe n latí vid a d ” está subordinada, esencialmente, al tamaño de la muestra y al procedimiento seguido en la selección de las unidades muéstrales. El tamaño de la muestra determina la probabilidad de tener estadísticos significativos,
Capítulo 1: Regresión múltiple 87
el procedimiento de selección, las posibilidades de generalización de los hallazgos del estudio. Para ello es imperativo que en la selección de la muestra se siga un procedimiento aleatorio, que dé a cada unidad de la población la misma probabilidad de participar en la muestra. El azar permite la equiparación de la muestra a la población, la inclusión de toda la variedad de sus componentes.
Respecto a la significatividad estadística, rutinariamente se procede a su comprobación en todo estadístico calculado con datos muéstrales. Para ello se hace uso de los supuestos de la Estadística Inferencial: la prueba de hipótesis y la estimación de los parámetros poblacionales. En concreto, la evaluación de la significatividad de los coeficientes de pendiente (b ) comienza con la definición de una hipótesis nula (/70), sobre un valor del parámetro poblacional ($). En la generalidad de las situaciones la hipótesis nula se formula en los siguientes términos: /3¿ -■ 0. De aceptarse, supondría la no significatividad estadística del coeficiente estimado, dado que el valor de dicho coeficiente siempre difiere de cero.
La hipótesis nula se contrasta con la hipótesis alternativa de que coeficiente de regresión es diferente de cero (H{, $ t- 0). Ésta es la hipótesis que el investigador espera corroborar con sus datos. Supone la significatividad estadística de los coeficientes estimados, que siempre serán diferentes de cero, lo que significa que la variable independiente respectiva se halla linealmente relacionada con la dependiente. En cambio, un ¿0 = 0 indica ia independencia de ambas variables: el valor medio de la variable dependiente no cambia conforme lo hace la independiente.
El contraste de hipótesis siempre se realiza a un nivel de significación que el investigador escoge. El más aplicado (“a = ,05”) supone una probabilidad de acierto del 95% o, lo que es igual, una probabilidad máxima del 5% de equivocarse al rechazar la
cuando ésta realmente es cierta. Otro nivel de significación muy usual es “a ~ ,01”, que conlleva una menor probabilidad de equivocación. Se reduce al 1%. Pese a ello, este último nivel de significación es menos aplicado que el anterior, al ser más restrictivo. Exige un valor “t” empírico superior para que el coeficiente estimado resulte significativo a una probabilidad de acierto del 99%. Esto puede provocar la desestimación, como significativos, de coeficientes que se encuentren entre ambos niveles de significación. Por ejemplo, para 60 grados de libertad, a un nivel de significación a = ,05, el valor “t” teórico es 2,000; para un a ,01 el valor “t” teórico aumenta a 2,660, lo que supone un incremento apreciable en el valor mínimo para que la “t” empírica (la obtenida en la muestra analizada) sea significativa, y pueda inferirse a la población el coeficiente estimado correspondiente. Como lo habitual es que el tamaño muestral supere los 100 casos como mínimo, la distribución “t” se aproxima a ia normal (“z’% coincidiendo sus respectivos valores teóricos. Para un a = ,05 el valor “t ” teórico es 1,96; para un a ~ ,01, el valor “t” se eleva a 2,576.
La prueba de significación estadística consiste en comprobar si el valor “t” empírico se ubica dentro de la zona de aceptación de H 0. Esta zona queda definida por el correspondiente valor “t” teórico o crítico, que figura en ía tabla de la distribución “t” de Student, para una prueba bilateral (al incluirse tanto valores positivos como negativos), al nivel de significación elegido y para unos grados de libertad igual a “N - p - 1 ”.
88 Análisis multivariable. Teoría y práctica en la investigación social
El valor “t” empírico, necesario para el contraste de hipótesis, se obtiene de ía división de cada coeficiente por su error:
Donde: “b ” es el valor estimado del coeficiente de pendiente o de regresión parcial,
‘73/’ el correspondiente coeficiente de pendiente en la población, bajo la hipótesis nula formulada: H0; /?¿ = 0.
“Sb ” el error típico estimado de “b/ ’.
Cuando la variable independiente es ficticia, la razón “t” para cada coeficiente b equivale a 1a razón “t” para ía diferencia entre la media del grupo codificado 1 y la media del “grupo de referencia” (codificado 0), que actúa a modo de grupo de control.
En la salida de ordenador suele figurar los valores de la razón “t”, junto al coeficiente de regresión y su nivel de significación. Este ultimo ha de ser, al menos “<,05” para que sea significativa la “t” empírica y sea inferible el correspondiente coeficiente de regresión. En caso afirmativo, se procede al cálculo de los intervalos de confianza a modo de lo expuesto en el subapartado 1.4.2.
La significatividad deí intercepto (o constante) también puede comprobarse mediante ía razón “t”, del mismo modo que el coeficiente de pendiente. La hipótesis nula se formula, igualmente, en términos de independencia: el valor del intercepto en la población es igual a cero (H0 : a - 0); frente a la alternativa que lo contradice. La “t” empírica se obtiene del cociente entre eí intercepto y su error de estimación (Sa):
a —at = -------
S.
Pero, a diferencia de los coeficientes de pendiente, los paquetes estadísticos no siempre proporcionan información referida a la prueba de hipótesis del intercepto estimado en la muestra. Por último, se indica que eí cuadrado del estadístico “t” equivale al estadístico “F ”, con “p” y “N - p - 1 ” grados de libertad, lo que permite su uso alternativo para dicho contraste de hipótesis.
■: tZJEfolPLO DE ECUACIÓN DÉ REGRESIÓN.MÚLTIPLE
Tras realizar un procedimiento secuenciaI (o por “pasos”) de selección de variables predictoras, que se describe en el subapartado 1.6.1, se obtiene el siguiente modelo de regresión, a partir de las variables consideradas. De fas 14 variables que ¡niciaimente se creia podrían ayudar a la predicción de la variable dependiente (“simpatía hacia los noríeafricanos
Capítulo 1: Regresión múltipla 89
[marroquíes, etc.]1’), só!o 6 muestran poder predictivo significativo. Especialmente, ¡as variables X5 (“simpatía hacia latinoamericanos”) y X10 (“casar con marroquí”), que son las dos variables que más varianza de Y logran explicar. La tabla A incluye los coeficientes estandarizados y no estandarizados de las variables que conforman el modelo de regresión, junto a su significatividad.
Tabla A
Modelo de regresiónCoeficientes no estandarizados
Coeficientesestandarizados r Sig.
Intervalo de confianza para B al 95%
B Errortípico
Beta Limiteinferior
Límitesuperior
(Constante) 3,786 ,400 3,458 ,000 3,001 4,571Xs simpatía latinoamericano ,558 ,026 ,460 21,429 ,000 ,507 ,610X10 casar con marroquí ~,698 ,068 -.258 -10,281 ,000 -,832 -,565X, leyes inmigración ,261 ,058 ,099 4,527 ,000 ,148 ,374Xg número de inmigrantes -.356 ,095 -,082 -3,751 ,000 -,543 -.170X13 vecino marroquí -,348 ,101 -,086 -3,443 ,001 —,546 -,150X3 sexo -,265 ,110 -,049 -2,414 ,016 -,481 -,050
Primero figuran los coeficientes no estandarizados. Con ellos se confecciona la ecuación de regresión, que permite predecir el valor de la variable dependiente (en cada caso concreto) en función de unos valores concretos en las variables independientes que han mosírado relevancia en la predicción de Y. La ecuación de regresión es la siguiente:
Y = 3,786 + ,558X5 - ,698X10 + ,261X, - ,356X6 - ,348X13 - ,265XS
® 3,786 es la constante o intercepto: el punto del hiperpiano que intercepta eí eje Y. Su valor denota el valor promedio de Y cuando el valor de las variables independientes es cero. A veces, el valor de la constante no tiene interpretación directa. Sobre todo, cuando el valor es negativo. En esta ecuación, la constante tiene un valor positivo y podría interpretarse. En una escala de 0 (ninguna simpatía) a 10 (mucha simpatía), 3,786 es la simpatía promedio hacia ios norteafricanos (marroquíes...), cuando el encuestado manifiesta que no siente ninguna simpatía hacia los latinoamericanos (X5); no le preocupa que un hijo o hija suyo se case con un ciudadano de Marruecos (u otro país norteafricano) (X10); piensa que las leyes que regulan la entrada y permanencia de extranjeros en España son demasiado tolerantes (X,); le parece que son pocas las personas procedentes de otros países que viven en España (X6); no le preocupa tener como vecinos a una familia de ciudadanos de Marruecos u otro país norteafricano (X13); y es mujer (X3).
® Los coeficientes de pendiente parcial (que separan el efecto de cada variable independiente en la dependiente del resto) expresan el cambio promedio en la variable dependiente para cada unidad de cambio en la variable dependiente respectiva, manteniéndose las demás variables independientes constantes. El valor promedio de Y aumenta cuando las variables X5 y X, se incrementan en una unidad. Ambas variables se hallan positivamente relacionadas con la variable dependiente. ES aumento en una unidad en ta escaía de 0 a 10 de
90 Análisis multimríable. Teoría y práctica en la investigación social
“simpatía hacia latinoamericanos” provoca, a su vez, un aumento, aunque en menor cuantía, en la “simpatía hacia los norteafricanos". El incremento es de ,558. El valor promedio de Y también aumenta, aunque en una cantidad inferior (,261), conforme las leyes que regulan la entrada y permanencia de extranjeros en España pasan a percibirse como “duras” o “intolerantes”. Recuérdese que los valores de esta variable van de 1 (demasiado tolerantes) a 5 (demasiado duras).
E! valor promedio de Y disminuye, en cambio, conforme aumentan los valores de las variables X10, Xe, X13 y X3. Estas cuatro variables están negativamente relacionadas con Y. La simpatía hacia los norteafricanos (Y) disminuye, situándose por debajo de su valor promedio (3,786, obtenido cuando las independientes son cero), al aumentar dichas variables en una unidad. La disminución en el valor de Y es de ,698, conforme aumenta la preocupación por un futuro casamiento con un marroquí (X10), manteniéndose las demás variables constantes; de ,358, al aumentar la percepción sobre el número de inmigrantes como demasiados (X6); de ,348, si aumenta ia preocupación por tener como vecinos a una familia de ciudadanos de Marruecos (X13); y de ,265, si el individuo es varón.
Comparando estos coeficientes de regresión parcial con los coeficientes de correlación de cada una de las variables independientes con Y (matriz de correlaciones: subapartado 1.3.2), puede observarse que los signos de ambos coeficientes coinciden, pero no su valor. Los coeficientes de correlación se calculan para cada variable por separado, mientras que los coeficientes de regresión parcial para cada variable se ven afectados por la relación de dicha variable con las demás incluidas en la ecuación de regresión.
E! cálculo de la ecuación de regresión cumple una finalidad eminentemente predictiva. Se quiere predecir el valor de la variable dependiente en función de qué valores se presenten en una serie de variables independientes. Por ejemplo, una persona que reúna las características siguientes:
- Manifieste una simpatía hacia los latinoamericanos (X5) de 7 en una escala de 0 (“ninguna simpatía”) a 10 ("mucha simpatía").
- Le preocupa “bastante” (3) que un hijo o hija suya se case con un ciudadano de Marruecos u otro país norteafricano (X10).
- Considera que las leyes que regulan la entrada y permanencia de extranjeros en España (X.) son “correctas” (3).
- Piensa que son “bastante, pero no demasiados” (2) las personas de otros países que viven en España (X6).
- Le preocupa “bastante" (3) tener como vecino a una familia de ciudadanos de Marruecos u otro país norteafricano (X13),
--- Es varón (1) (X3).
Para una persona con estas características puede predecirse que su “simpatía hacia los norteafricanos” es:
Y= 3,786 + (,5S8)(7) + (-,698)(3) + (,261 )(3) + (-,356) (2) + (-,348)(3) + (-2 6 5 )0 ) = 4,36
Pero, como los coeficientes de regresión son estimaciones a partir de datos muéstrales, la predicción de Y (“simpatía hacia norteafricano”) nunca puede ser exacta. Hay que añadir el error de predicción (o error típico de la estimación a partir de las variables independientes incorporadas al modelo predictivo). Éste, como se expone en ei subapartado 1.5.2, es una me-
Capítulo 1: Regresión múltiple 9l
dtda de ia adecuación del modelo de regresión en la predicción de Y. Cuanto más se aproximen los valores de Y observados en fa muestra con los estimados por eí modelo de regresión, menor es eí error de predicción, lo que se traduce en una mayor precisión en ta estimación de) valor promedio de Y. Como se verá en el susodicho subapartado, el error típico üe ia estimación en este modelo de regresión múltiple es 1,9595. Un valor pequeño en magnitud, que no significa necesariamente que el error de predicción sea pequeño. Para saber si el error es elevado o bajo hay que analizarlo respecto a la variabilidad de Y, como se detalla en dicho subapartado. Aquí soto se avanza que, aunque la cuantía de error sea 1,9595, el error de predicción es elevado, a decir por la amplitud del intervalo en ia predicción de Y. De acuerdo con el modelo obtenido, para un nivel de significación de ,05 (que significa que hay un 5% de probabilidad de equivocarnos en la inferencia o, !o que es igual, la probabilidad de acierto es del 95%), ia “simpatía hacia los norteafricanos” de una persona que reúna las características señaladas es un valor comprendido en el intervalo que va de 0,519 a 8,201. Este intervalo es demasiado amplio e indica que el ajuste de los puntos al hiperplano no ha sido perfecto. La correspondencia entre ios valores observados de Y y ¡os estimados no se alcanza en algo más de ía mitad de los casos, como se verá en el apartado 1.5. El inten/a- io de confianza se ha obtenido restando (límite superior) y sumando (límite superior) al valor de Y estimado (9 - 4,36) el producto del error típico de la estimación (1,9595) y el valor teórico de t para e! nivel de significación escogido (,05) y sus grados de libertad correspondientes (N - p -1 ). Como el tamaño muestral es muy elevado, la distribución f de Student se aproxima a la distribución normal, siendo el valor f teórico correspondiente 1,96.
* Además de los coeficientes de regresión, en la tabla A de resultados figuran ios errores típicos de cada uno de los coeficientes no estandarizados estimados. Estos errores expresan la variabilidad de dichos coeficientes si, en vez de ésta, se hubiesen analizados otras muestras del mismo tamaño extraídas de ia misma población. Como ei tamaño muestral es muy elevado (bastante superior a los ratios mínimos exigidos), y la multicolinealidad de las variables incluidas en la ecuación baja, al igual que sus varianzas, es de prever bajos errores típicos de ¡os coeficientes de regresión.
A diferencia del error de estimación de Y, ios errores típicos de los coeficientes son bajos, a excepción del correspondiente a la constante (que es ei más elevado: ,400). Existe poca variabilidad en los coeficientes estimados. De ¡os coeficientes de pendiente, b5 (,558) es el que presenta un menor error típico (,026) y b3 (,265) el mayor (,110), (o que se traduce en un intervalo de confianza más amplio a efectos de inferencia estadística.
• Las posibilidades de inferencia de los coeficientes estimados en ia muestra depende de su significatividad. Como se dijo en el subapartado 1.4.3, la significatividad de los coeficientes de regresión se comprueba mediante el contraste de hipótesis t de Student. Se comparan (os valores í empíricos con la f teórica (o crítica) para “N - p - 1 ” grados de libertad, a un nivel de significación determinado. Los valores f empíricos se obtienen de dividir el coeficiente por su error típico. Por ejemplo, para X13: “t = -,348 / ,101 = -3,44”; igual para la constante: 3,786 /,4Q0 = 9,46.
Como todos ios valores t empíricos superan el correspondiente valor t crítico (1,96, para un nivei de significación de ,05), se rechaza la hipótesis nula. Esto significa que todos ¡os coefí-
0,519
8,201
92 Análisis multivariable. Teoría y práctica en la investigación social
cientes son significativos estadísticamente y, en consecuencia, inferibles a la población a la que pertenece ia muestra analizada. En la tabla A puede verse que la significatividad es plena. Salvo en la variable “sexo" (que es significativa a un nivel de ,05), los demás coeficientes, incluyendo ¡a constante, lo son a un nivel de ,01: la f empírica supera el valor teórico para ce =,01 (2,576).
A! ser todos los coeficientes significativos, se calculan los intervalos de confianza. En la tabla A figuran los límites inferiores y superiores de! intervalo de confianza para la inferencia de cada coeficiente a un nivel de confianza del 95%, que equivale a un nivel de significación o probabilidad de equivocarnos en la inferencia (de rechazar la hipótesis nula cuando real- mente es cierta) del 5%. Por ejemplo, para la variable Xg, hay un 95% de probabilidad de que su coeficiente de regresión parcial en la población sea un valor comprendido en el intervalo que va de ,507 (.558 - [1,96][,0261) a ,610 (,558 + [1,96][,026j). La estimación muestral es, exactamente, ,558. En consecuencia, el intervalo no es muy amplio. En Sas otras variables las oscilaciones son mayores.
® Los coeficientes de regresión parciales (no estandarizados) son de utilidad en la predicción del valor promedio de Y. Si quiere conocerse la importancia relativa de cada variable independiente en la predicción de Y hay que acudir a coeficientes estandarizados o coeficientes beta. Los coeficientes no estandarizados se ven afectados por la unidad de medición de la variable, lo que dificulta la comparación entre ellos. Para ello hay que proceder a su estandarización, multiplicando cada coeficiente de pendiente (“b”) por el cociente de la desviación típica de la variable independiente y la desviación típica de la variable dependiente. Por ejemplo, para X5 el coeficiente beta {"/?’) es igual a: ",558 - 2,2478/2,7276 = ,460”. Las desviaciones típicas de todas las variables analizadas se incluyen en el subapartado 1.3.2.
Los coeficientes beta se calculan para todas las variables independientes, pero no para la . constante porque las puntuaciones Z suponen desviaciones respecto de la media, lo que implica su traducción al origen. Su valor se ve afectado, al igual que los coeficientes no estandarizados (“b”), por la correlación existente entre la variable independíente correspondiente y las demás independientes en la ecuación. Pero, a! estar todos los valores expresados en la misma unidad de medición (unidades de desviación típica), permiten la comparación entre ellos y conocer qué variable independiente contribuye más a la predicción de Y. Ésta es su utilidad principal (la “comparación” de los efectos de cada variable predictora) y no la predicción de Y.
A diferencia de ios coeficientes “b”, los “j9’ han de tener un valor entre 0 y ±1. Todo valor superior a 1 indica la existencia de multicolineaUdad. El mayor coeficiente (i corresponde a Xs (,460). Precisamente, ésta es la variable independiente más correlacionada con Y (r = ,593). Le sigue en importancia X10 (-,258), la segunda más correlacionada con Y (r = -,476). X3 es, en cambio, ia variable de menor coeficiente fí (—049) y, a su vez, la menos correlacionada conY (r = -,050). Estas correlaciones figuran en la matriz de correlaciones (subapartado 1.3.2).
Pero, aunque en estas tres variables la correspondencia entre los coeficientes y ios de correlación sea cierta, no lo es en todas las variables. X13 es la cuarta variable independiente con mayor coeficiente /? (-,086), pero la tercera más correlacionada con Y (r = -,396). De la comparación de los coeficientes ¡} con ios coeficientes de correlación (en la matriz de correlaciones), puede concluirse que la correlación bivariada con la variable dependiente no determina !a inclusión de la variable independiente en la ecuación de regresión. La variable X3 ("sexo”), por ejemplo, es de las 14 variables la menos correlacionada con Y, si bien logra ser incluida en la ecuación de regresión. En cambio, variables más correlacionadas con Y, como X7 (r - ,281) o X s {r = -,294) han quedado excluidas del modelo. La explicación a su exclusión está en la correlación que estas variables tienen con variables previamente incluidas en la ecuación de regresión, ai mostrar mayor poder predictivo de Y.
Captada 1: Regresión múltiple 93
° Del producto de los coeficientes beta y los coeficientes de correlación se extrae el porcentaje de varianza de Y que cada variable independiente logra explicar. En concreto, Sa contribución de cada variable independiente en la predicción del valor medio de Y. Ésta se muestra en ia tabla B.
Tabla B
Variables r P rx j3
,593 ,460 ,2728
^10 -476 -,258 ,1228,302 ,099 ,0299
*6 -,297 ",082 ,0243-,396 -.086 ,0341
x3 -,050 -,049 ,0025
48,64% es el porcentaje de varianza de Y que logra explicar eí modelo de regresión integrado por estas seis variables independientes. X5 es la variable independiente que mayor proporción de varianza explica (27,28%), seguida por X10 (12,28%). Sólo estas dos variables predictoras explican ei 39,56% de la varianza de Y. Las cuatro variables restantes apenas contribuyen en la predicción de Y. X13 es la tercera variable predictora en importancia, pero a distancia de las anteriores (explica el 3,41% de la varianza de Y); X.,, la cuarta, a! explicar el 2,99%. La variable “sexo" (X3) apenas es relevante en la predicción de Y: no logra explicar ni un 1% de su variabilidad (exactamente, el 0,25%). Aunque exista una mayor predisposición en los varones a manifestar una menor simpatía hacia ios norteafricanos que en !as mujeres, ei conocimiento de la variable “seto” apenas es de utilidad para predecir Y. Respecto a la variable “simpatía norteafricanos” las diferencias por género son casi inapreciables, lo que puede llevar a reconsidererar su inclusión en el modelo de regresión.
• Al ser los coeficientes beta los que mejor representan la contribución de cada variable independiente en la predicción de Y, éstos son los coeficientes que normalmente se utilizan en la representación gráfica del modelo de regresión. En este modelo, como no se ha incluido ningún término de interacción, su representación gráfica es la siguiente:
94 Análisis mitltívariable. Teoría y práctica en la investigación social
* Las otras ocho variables independientes analizadas han quedado excluidas del modelo de regresión. Ninguna de ellas presenta un coeficiente de regresión significativo, como puede verse en la tabla C. La signifícatividad de ios coeficientes supera el valor de referencia habitual de ,05, al ser los valores f empíricos inferiores a 1,96.
Además de la significatividad y el valor f, en la tabla se incluyen los coeficientes befa dentro y de correlación pardal. Beta dentro es el coeficiente de regresión estandarizado que tendría la variable si se incorporase ai modelo de regresión. Todos elios son valores muy bajos, En cambio, el coeficiente de correlación parcial expresa la correlación de cada variable independiente con ia dependiente, cuando los efectos de las otras variables independientes se mantienen constantes. Elevando su valor al cuadrado, se obtiene la proporción de varianza de la “no explicada" de Y por el modelo de regresión (51,36%) que quedaría explicada si dicha variable independiente se incluyese en eí modelo. Por ejemplo, X7 es la variable que mayor coeficiente de correlación parcial tiene (,051). Este coeficiente no significa que dicha variable (“regularizar a inmigrantes”) explique e! 5,1% de la varianza “sin explicar" de Y. Para conocer realmente qué proporción de varianza explica, hay que elevar dicho coeficiente al cuadrado: ,0512 = ,0026, Ei 0,26% del 51,36% de la varianza “no explicada” de Y sería explicada incorporando la variable X7 ai modelo de regresión. Exactamente, “,5136 x ,0026 = ,0013”, una proporción de varianza totalmente insignificante. X7, al igual que las otras siete variables, no aporta nada a la predicción de Y. Su conocimiento no ayuda a reducir el error de predicción de Y.
Tabla C
Variables excluidas del modelo de regresión
Beta dentro t Sig. Correlaciónparcial
X2 ideología política -.018 -8 6 8 ,386 -,024X4 edad ,009 ,430 ,668 ,012X7 regularizar inmigrantes ,040 1,820 ,069 ,051Xa entrada Inmigrantes -.028 -1,233 ,218 -0 3 5X3 partido racista -,001 -0 4 7 ,963 -.001X n estudios ,012 ,586 ,558 ,016X t2 ingresos -,021 -1,026 ,305 -.029X 14 inmigrante delincuente -,038 -1,741 ,082 -,049
1.5. La evaluación del modelo
La evaluación del modelo de regresión incluye distintos aspectos relacionados con el ajuste del modelo y su significatividad (estadística y lógico-sustantiva). También se analizan los casos “atípleos”, aquellos que no han logrado explicarse con el modelo pre- dictivo obtenido.
1.5.1. E l ajuste del m odelo de regresión
Estimada la ecuación de regresión, interesa conocer lo bien que el modelo obtenido logra predecir la variabilidad de la variable dependiente. Esto puede saberse, prí-
Capítulo 1: Regresión múltiple 95
mero, con la ayuda de gráficos, en los cuales se trata de comprobar lo bien que la nube de puntos se “ajusta” a la recta o plano de regresión. A estos gráficos se ha hecho referencia en páginas anteriores.
Pero, aunque los gráficos ayudan a visualizar el “ajuste”, la distancia que separa los puntos de la recta (o plano) se mide, de forma más precisa, mediante el coeficiente de correlación múltiple cuadrado (Rz). Éste constituye una medida de proximidad relativa, empleada en el análisis de regresión para evaluar la bondad de ajuste del modelo. La proximidad se mide como ía proporción de varianza de ia variable dependiente que queda explicada por la recta (o plano) de regresión.
“i?2” también se refiere como coeficiente de determinación. Su valor expresa la proporción de variación total de la variable dependiente que es “determinada” o explicada por las variables independientes que conforman la ecuación de regresión. El rango de valores posibles va de 0,0 a 1,0. Un valor de R2 ~ 1,0 indica que el modelo de regresión logra explicar completamente la varianza de la variable dependiente. Esta situación se produce cuando todos los puntos caen en la recta (o plano) de regresión. En cambio, un R2 = 0,0 denota que ei modelo de regresión carece de poder predictivo. Ningún punto coincide con la recta de regresión. Ambas situaciones son, no obstante, difíciles de encontrar en la práctica investigadora. Tan improbable es obtener una ecuación de regresión que logre explicar toda la variabilidad de la variable dependiente, como conseguir una que no explique nada. Lo habitual son valores intermedios.
El coeficiente de determinación es el cuadrado del coeficiente de correlación R. Este último expresa el grado en que la variación de la variable dependiente se halla relacionada con las variaciones, simultáneas, de las variables independientes en la ecuación. Cuando se considera sólo una variable independiente, el valor de “R ” figura acompañado de un signo (“+”, Éste informa si ambas variables se mueven en la misma dirección (signo positivo) o en direcciones contrarias (signo negativo) -como se expuso en los subapartados 1.3.2 y 1.4.1-.
Cuando se analiza la relación de dependencia con dos o más variables independientes, el valor del coeficiente de correlación R múltiple aparece sin signo (ni positivo ni negativo). Ello se debe a que se analiza, conjuntamente, la influencia de la serie de variables independientes en la dependiente. Lo normal es que no coincida la dirección de la relación de cada variable independiente con la dependiente. Por eso, al analizarse su influencia conjunta, el signo se anula. El coeficiente R múltiple sólo indica el grado de correlación entre las variables afectadas, pero no la dirección de la relación entre ellas. Esta última información la proporciona los coeficientes de pendiente y los coeficientes de correlación bivariable (en la matriz de correlaciones).
La variación total de la variable dependiente (o suma total de cuadrados, TSS) considera ias desviaciones de la variable dependiente observada en cada uno de los casos
N __
de la muestra (i - 1 ,2 ,3...N) respecto de la media de Y: (Y¡ - Y ) 1. Su valor es igual<=t
a la suma de dos partes; una, ía variación que queda explicada por la ecuación de regresión (o suma de cuadrados de regresión, RSS), que mide la desviación de cada va-
96 Anàlisi? multivariable. Teoría y práctica en la investigación social
A' __
lor estimado de Y respecto de la media de Y: ^ (F¡ - Y )2; dos, la variación residual,<=i
ía que queda sin explicar por la ecuación (o suma de cuadrados residual, ESS), que considera la desviación de cada valor observado de Y respecto ai predícho por el mode-
N
ío de regresión obtenido: ^ l(X¡ " ^¡Y -;=1
El coeficiente de determinación R2 múltiple, como medida de bondad de ajuste del modelo de regresión, se obtiene deí cociente entre la suma de cuadrados de regresión (RSS), la variación que queda explicada, y la variación total (TSS). Cuanto mayor es RSS respecto a TSS, mejor es el ajuste del modelo. El valor de R2 se halla muy próximo a 1,0. Los valores observados de Y coinciden con los predichos (Y¡). Los puntos se sitúan todos alineados en el plano de regresión. En caso contrario, su valor se aproxima a 0,0; los residuos (Ei = Y ¡- Y,') son muy elevados, siendo el ajuste extremadamente malo. El conocimiento de las variables independientes no ayuda a la predicción de Y, aí ser variables totalmente independientes unas de otras. En este caso, el plano de regresión no ajusta los valores de Y mejor que su media.
N
RSSTSS = RSS + ESS
El valor de R2 se toma como medida de reducción proporcional en el estadístico de error. Mide la proporción (o porcentaje, si se multiplica por 100) en que el modelo de regresión reduce el error de predicción de Y, relacionado con predecir ía media de ía variable dependiente (Y ), Por ejemplo, un valor de R2 múltiple igual a ,613 significa que el 61,3% de la variación (sobre la media) en la variable dependiente es explicada por la variación en las variables independientes, que conforman el modelo de regresión, sobre sus medias respectivas. El conocimiento de los valores de las variables independientes logra reducir en un 61,3% el error de predicción de la variable dependiente.
Un valor de R2 próximo a 0,0 no siempre se debe a la inexistencia de relación entre las variables independientes con la dependiente; también puede ocurrir que no se hayan incluido variables predictoras relevantes en el modelo. Berry y Feldman (1985) destacan otros dos factores como contribuyentes a una baja varianza explicada de Y:
a) Un elevado error de medición en las variables.b) Fallos en la especificación de la forma funcional de la ecuación de regresión.
Relacionado con esto, señalan dos limitaciones importantes de R2 como medida de bondad de ajuste (Berry y Feldman, 1985:15).
Capítulo l: Regresión múltiple 97
a) Su valor se halla determinado por la muestra analizada: las regresiones llevadas a cabo en dos muestras diferentes pueden producir idénticos coeficientes de pendiente parcial pero, en cambio, sus respectivos R2 pueden diferir considerablemente de una a otra muestra. Ello se debe a diferencias en la varianza de Y en las muestras.
b) El empleo de R 2 puede ser engañoso, si se intenta comparar la bondad de ajuste relativa de diferentes modelos de regresión con un número distinto de variables independientes. La razón está en. que el valor de R2 siempre tiende a aumentar (aunque sea poco) cuando se añaden nuevas variables a la ecuación, incluso cuando éstas apenas tienen efecto en la variable dependiente. De hecho, cuando el número de variables independientes (p) se aproxima al número de casos de la muestra (N), el valor de R2 se aproxima a 1,0.
Para obviar esta última limitación, se introduce un ajuste en R 2 que corrige la sobreestimación de R2, cuando no se mantienen las debidas proporciones de número de casos por variables predictoras. El R2 ajustado (R2, también referido R2) queda definido de la siguiente forma:
r I =N - p - 1
Donde: “R 2” es el coeficiente de determinación múltiple.“p” el número de variables independientes o predictoras.“N” (o “n”) el tamaño de la muestra analizada.
El valor de R2 generalmente coincide con el correspondiente a R2, salvo cuando el tamaño de la muestra es insuficiente en relación con las variables independientes en el análisis. Al menos debe haber 20, e incluso 10 casos por variable predictora (véase subapartado 1.1.1). Cuando se está próximo a estos límites mínimos, ei valor de R2 es inferior a R2. Tanto más, cuanto menor es la proporción de casos por variables predictoras. Además, el valor de R 2 disminuye conforme se añaden variables independientes a la ecuación de regresión, a diferencia de R2, que siempre aumenta (aunque sea poco). Esta disminución en el valor de R2 responde a la ya referida merma en la proporción de casos por variable independiente que se precisa para la adecuada realización de los análisis {R2 puede incluso tomar valores negativos).
Además de cumplir esta finalidad de “ajuste”, R2 es de utilidad en la comparación de modelos de regresión estimados en muestras diferentes y con diversas variables predictoras.
1.5.2. El error de predicción
Otro estadístico de utilidad en la comprobación de la bondad de ajuste del modelo de regresión es el error típico de la estimación de Y (también denominado Se o a). És
98 Análisis rnultivariable. Teoría y práctica en la investigación social
ta es una medida de la adecuación dei modelo para la predicción de Y. Se define a par-•«
: la suma de las des-tir de la suma de errores cuadrados de regresión ^ (Y¡ ~ Y,)2
viaciones de cada valor Y observado respecto a su correspondiente valor predicho (Y¡) mediante la ecuación de regresión. Cuanto mayor es la distancia entre ambos valores, mayor es eí error de predicción.
Se = iN - p - 1
El error de predicción depende de la confluencia de varios factores. Principalmente, Jas variables independientes que se hayan incluido o excluido del modelo, y de la correlación que exista entre ellas. Su valor aumenta conforme se incrementa la correlación entre las variables independientes, ya sea con otras incluidas en el modelo (co- linealidad), ya con aquellas que han quedado excluidas. El error de predicción se ve muy afectado por la exclusión de variables predictoras relevantes y, en general, por una incorrecta especificación de la relación entre las variables.
El conocimiento deí error de predicción (el error promedio en la predicción de la variable dependiente) interviene a efectos inferencíaíes: inferir, a partir del modelo de regresión, el valor de la variable dependiente en la población de interés. La inferencia se realiza en términos de probabilidad, la cual determina, junto al error, ta amplitud del intervalo de confianza para la predicción de Y. También afecta el tamaño de la muestra empleada en la estimación de los coeficientes de regresión, además del número de variables independientes utilizadas en la predicción de Y:
Intervalo de confianza = Y, ± (t x Se)
Donde “t” es el percentil “100(1-0/2)” de la distribución “t” de Student con “N - p - 1 ” grados de libertad. El valor de la variable dependiente estimado (Y;) se interpreta como una estimación de la media de Y en las “p” variables independientes.
1.5.3. L a significatividad del modelo
Una vez estimado el error de predicción del modelo, corresponde la comprobación de su significatividad. En el subapartado 1.4.3 se trató la significatividad de los coeficientes de regresión estimados por separado (mediante la razón “t” de Student). Ahora se trata de comprobar si el efecto conjunto de todas las variables independientes que han mostrado ser relevantes en ia predicción de Y difiere significativamente de cero o no. La hipótesis nula adopta la siguiente formulación: “/ / 0; pl = fí2 = jU3 =... = j3 = 0”, ia
Capítulo 1: Regresión múltiple 99
media de Y es tan adecuada en la predicción de Y como el modelo de regresión. La hipótesis alternativa se formula, en cambio, en términos de desigualdad: ''//{, (i> = fl2 ~= ... - 0”. No se comprueba sí cada uno de los coeficientes “b” (se excluye el intercepto, “a”) es, individualmente, igual o diferente de cero, sino si tomados en conjunto son simultáneamente iguales (Hti) o diferentes de cero como dice el modelo estimado. El rechazo de la hipótesis nula, al nivel de significación elegido, supone la corroboración del modelo. Este es estadísticamente significativo. Después, habrá que comprobar si lo es, igualmente, desde la vertiente lógico-sustantivo, si tiene un significado lógico y se adecúa al modelo teórico tomado de referente.
La comprobación de la significatividad del modelo en su conjunto se realiza mediante la razón “F”. Ésta se define como la razón (o cociente) entre varianza explicada de Y por el modelo de regresión y la varianza residual:
p R2/ p __ RSS/G.L. Regresión(1 - R 2) ¡ ( N - p - 1) ~ ESS/G.L. Residual
Los grados de libertad (g.l.) de regresión son iguales a “p” (número de variables independientes en ei modelo); y g.l. residual a “N - p - 1 ”. Todos estos valores se incluyen en ia tabla ANOVA (análisis de varianza) en el análisis de regresión múltiple:
Fuente de variación
Suma de cuadrados
Grados de libertad
Mediacuadrática
Razón“F”
Significatividad“F”
Regresión
Residual
Total
/-i
í-1
£ c r ,- F )a¡=t
P
N - p - 1
N - 1
R S S / p
ESS / N - p - 1
TSS / N - 1
RSS/p
.......... *.................—Contraste de los valores "F” empírico y teórico, con p y N-p-1 grados de libertad a un nivel de significación determinado
E S S / N - p - 1
El modelo de regresión adquiere significatividad estadística cuando la razón “F” empírica supera a la teórica a un nivel de significación concreto, usualmente, “,05”, que significa una probabilidad de acierto al rechazar la hipótesis nula deí 95%. Para que el rechazo de la hipótesis nula sea posible, la significatividad asociada a la razón “F" ha de ser, al menos, “<,Ü5”. Lo que permitiría concluir que la predicción de la variable dependiente a partir de la ecuación de regresión estimada es significativa estadísticamente, no pudiéndose atribuir a la casualidad. Por el contrario, cuando la significatividad de la razón “F” supera eí valor “,05” (si éste ha sido el niveí de significatividad elegido), se acepta la hipótesis nula. Lo que supone la no significatividad del modelo estimado. No hay evidencia suficiente para asegurar que la varianza explicada de la variable dependiente por el modelo de regresión no pueda atribuirse a variación muestral aleatoria.
100 Análisis muhivarutbUi. Teoría y práctica en la investigación social
E j e m p l o d e c o m p r o b a c ió n d e l a j u s t e d e l m o d e l o d e r e g r e s ió n
Como ya se avanzó, ei modelo de regresión (estimado mediante ei procedimiento "paso a paso" de inclusión y eliminación de variables), integrado por las variables independientes X5, X10, Xv X6, X13 y X3, es estadísticamente significativo, a decir por la prueba de signifi- catividad F realizada. En la tabla A se descomponen sus integrantes.
Tabla A
Fuente de variación
Suma do cuadrados
Grados de libertad
Mediacuadrática
Razónttpu Signifícatividad«p*
Regresión 4627,827 6 771,304
Residual 4887,883 1273 3,840 200,879 ,000
Total 9515,710 1279 7,440
El coeficiente de correlación múltiple es igual a ,697, io que significa que ei grado de relación conjunta entre las seis variables independientes con la dependiente es muy importante. Recuérdese que un valor próximo a 1,0 indica correlación perfecta entre las variables. Este coeficiente no va acompañado de signo porque la dirección de la relación de cada variable independiente con la dependiente (positiva o negativa) no coincide. En las variables X5 y X1 es positiva, mientras en X10, X6, X13 y X3 es negativa. Elevando este coeficiente al cuadrado se obtiene el coeficiente de correlación múltiple cuadrado o coeficiente de determinación (R2): ,6972 = ,486. De acuerdo con este coeficiente, traducido a términos porcentuales, el 48,6% de ¡a variación (sobre la media) en la variable dependiente es explicada por la variación en las variables independientes que integran el modelo de regresión, sobre sus medias. Esto significa que ei conocimiento del valor de las variables independientes iogra reducir en un 48,6% el error de predicción de Y, cantidad nada desdeñable. Casi la mitad de la varianza de Y es explicada por la conjunción de seis variables predictoras. El ajuste de la nube de puntos al hiperplano es bueno, aunque no perfecto. Queda un 51,4% de su variabilidad sin explicar, al estar afectada por otras variables no consideradas.
R2 se obtiene de! cociente entre ia suma de cuadrados de regresión (la variación explicada) y ia suma de cuadrados total (varianza total de Y): 4627,827 / 9515,710 = ,486.
El coeficiente R2 ajustado, que corrige la sobreestimación de Ff- cuando el tamaño muestral es pequeño en relación con el número de variables independientes analizadas, apenas difiere del anterior, debido a que la proporción de casos por cada variable independiente es muy elevada: = ,484 . Este valor se obtiene aplicando la fórmula siguiente:
Capítulo 1: Regresión múltiple 101
El error típico de estimación de Y se calcula, en cambio, a partir de la suma de cuadrados residual {la variación residual de Y, la que queda sin explicar por el modelo de regresión).. Mide el desajuste de la nube de puntos respecto af hiperplano: ía no coincidencia entre los valores Y observados en ia muestra con los estimados por la ecuación de regresión. En este modelo, ei error típico de la estimación ha sido 1,9595. Su valor se obtiene mediante ia siguiente ecuación:
... ^ f4W T883N - p - 1 ~ V1280 - 6 - 1 ~ ’
Como ya se vio en el subapartado 1.4.3, ei valor del error determina la amplitud de los intervalos de confianza en la predicción de Y, a un nivel de probabilidad determinado.
Por úítimo, el modelo de regresión estimado en ia muestra es inferibie a! universo, al ser significativo estadísticamente. La F empírica (200,879) supera bastante su correspondiente valor teórico (2,10), para un nivei de significatividad de ,05 y 6 y 1.273 grados de libertad. Eí rechazo de ía hipótesis nula (la media de Y es tan adecuada en ia predicción de Y como el modelo de regresión) era predecible por el elevado tamaño de la muestra. La F empírica es eí resultado de la razón siguiente:
F « RSS/P = 4627,827/6 = 771,304 = ^ESS/N - p — 1 4887/1273 3,840
« En una comprobación posterior de la validez det modelo de regresión, se procedió a ia división aleatoria de ía muestra total en dos submuestras iguales: la muestra de análisis y la de validación. En ambas se obtuvieron resultados similares, aunque no idénticos, que se resumen en la siguiente tabla:
Tabla B
Fuente de Suma de Grados Media Razón Slgn. Ajuste del modelovariación cuadrados libertad cuadrática «p. "F" de regresión
ANÁLISIS • ANÁLISISRegresión 2.421,903 5 484,381 R ,721Residual 2.241,519 629 3,564 135,924 ,000 R2 ,519Total 4.663,422 634 7,356 R2a ,516
Error típico est. 1,8878VALIDACIÓN » VALIDACIÓN
Regresión 2.337,153 5 467,431 R ,717Residual 2.207,797 619 3,567 131,053 ,000 Ra ,514Total 4.544,951 624 7,284 ,510
Error típico est. 1,8886
En ambas submuestras, el modelo de regresión es bastante significativo, al ser la probabilidad de error al rechazar ía hipótesis nula (cuando en realidad es cierta) inferior al 1%.
102 Análisis mullivariable. Teoría y práctica en la investigación social
Ei porcentaje de varianza explicada es prácticamente igual: 51,6% en ía muestra de análisis y 51%, en ía muestra de validación (de acuerdo con eí estadístico R cuadrado corregido o ajustado, R2,). El error típico de la estimación también es similar (1,8878 en la muestra de análisis y 1,8886 en la muestra de validación) y ligeramente inferior al obtenido con la muestra entera. Obsérvese que elio se debe a que el modeío de regresión obtenido tras la división aleatoria de la muestra total logra un mejor ajuste {la aproximación de'la nube de pinitos'al hiperplano es mayor) que cuando se analiza la muestra en su conjunto (en esta ocasión el valor R2a es ,484, que es igual a un 48,4% de varianza explicada). Además, adviértase que el modelo antes incluía seis variables independientes. Ahora, se obtiene un modelo que explica un 3,2% más de la variabilidad de Y (ía muestra de análisis), pero con sólo cinco variables independientes. La variable “sexo” (X3) queda excluida del modelo, ai dejar de ser significativa en la predicción de la variable dependiente. Las otras cinco variables independientes confirman, en cambio, su poder predictivo en la ecuación de regresión. Si bien, la variable X13 ("vecino marroquí”) muestra ahora mayor contribución a la predicción de fa variable dependiente que ta variable X6 (“número de inmigrantes”).
Respecto a la eliminación de la variable X3 ésta era de esperar, no sólo porque dicha variable es, de ias incluidas en el modelo, la menos correlacionada con Y, sino sobre todo porque su incorporación al modelo suponía un ligero incremento en los niveles de colinealidad, a decir por su valor en el índice de condición (subapartado 1.1.8). La tabla C detalla ia composición, bastante similar, del modelo de regresión en ambas submuestras. Además, la contribución de sus cinco variables explicativas en ia predicción de Y (“simpatía hacia nortea- fricanos: marroquíes...’’} es parecida a ia extraída en la muestra total. Para comprobar lo dicho, compárense estos resultados con los incluidos en ei subapartado 1.4.3.
Tabla C
Modelo efe regresión
Coeficientes no estandarizados
Coeficientesestandarizados
t Sig.TB Error
típico Beta
. MUESTRA DE ANÁLISIS(Constante) 3,595 ,536 6,705 ,000X5 simpatía latinoamericano ,589 ,035 ,494 16,598 ,000X 10 casar con marroquí - 5 1 5 ,096 -,192 -5 ,387 ,000X1 leyes inmigración ,211 ,079 ,080 2,651 ,008X)3vecino marroquí -4 1 7 ,135 —.106 -3 ,098 ,002X6número de inmigrantes -,358 ,130 -0 8 4 -2,752 ,006
. MUESTRA DE VALIDACIÓN(Constante) 3,238 ,583 5,554 ,000Xs simpatía latinoamericano ,586 ,036 ,487 16,193 ,000X t0 casar con marroquí -,540 ,096 -,202 -5,628 ,000X., leyes inmigración ,302 ,083 ,114 3,651 ,000X13vecino marroquí -4 8 8 ,139 -,122 -3,499 ,001X,:núnnem de inmigrantes -,284 ,136 -,066 -2 ,097 ,036
Capítulo 1: Regresión múltiple 103
La evaluación del modelo de regresión incluye también la detección de “atípicos” (o “outliers”). Por “atípico” se entiende toda observación que no ha quedado bien representada por el modelo de regresión. Son observaciones no coincidentes con el resto de los casos analizados, y van acompañadas de residuos elevados: existe una gran disparidad entre la respuesta observada (Y) y la predicha a partir de la ecuación de regresión (Y). Su presencia apenas influye en la adecuación del modelo, si sólo afecta a unos casos esporádicos, Pero cuando son varios los casos afectados, urge la adopción de alguna medida para paliar los efectos negativos que su presencia tiene en ia resolución del modelo de regresión.
La detección o identificación de “atípicos” puede efectuarse con ayuda de gráficos y/o estadísticos concretos. Los gráficos de residuos constituyen una vía rápida y sencilla para detectar “atípicos”. Entre los gráficos más aplicados en la detección de “atípicos” destaca el histograma de frecuencias de residuos estudentizados. Este gráfico ya fue descrito, en general, en el subapartado 1.1.6. Puede realizarse con residuos estandarizados o estudentizados. En la identificación de “atípicos” se prefiere, no obstante, los residuos estudentizados (Et ) con preferencia a los estandarizados (E, ) (Sen y Srivastava, 1990). Medíante ambos tipos de residuos, toda observación con residuos superior a 2 (desviaciones típicas) se considera un posible “atípico”. Este valor de referencia responde al nivel de significación más aplicado en la investigación empírica: ,05 (que supone una probabilidad de acierto del 95%). A este nivel de significación, el valor “z ” y “í” teóricos (siempre que los grados de libertad de este ultimo sea superior a 120) es 1,96. De este modo, todo residuo (estandarizado o estudentizado) superior a este valor se identifica como estadísticamente significativo. Su confirmación precisa, no obstante, un análisis más profundo. Cuando el residuo es mayor de 3, su calificación como “atípico” es más clara. En el histograma todos los casos con valores superiores a 3,16 o menores dé -3,16 aparecen en el intervalo etiquetado “out” (fuera).
En la identificación de “atípicos” también es de gran utilidad el gráfico de líneas de residuos estudentizados. En este gráfico, toda observación con residuos positivos o negativos muy elevados (se aplican los mismos valores de referencia que en el histograma) se consideran “atípicos”; es decir, observaciones que no han quedado bien representadas en la ecuación de regresión. La figura 1.10 incluye el gráfico de líneas de residuos estudentizados que corresponde al análisis de regresión aquí realizado para la muestra total.
Otro gráfico que puede ayudar en la detección de “atípicos”, de más reciente aplicación, es el gráfico de residuos brutos, E i (en el eje vertical) y eliminados, Ef_i:¡ (en el horizontal). Estos últimos reflejan el cambio en el ajuste de la ecuación de regresión cuando el caso “i” es eliminado. A diferencia del gráfico de residuos estandarizados, en este gráfico, la nube de puntos debería aproximarse a una recta, desde el origen, de 45°, con una pendiente de 1. Tbdo caso que se aleje de dicha recta se considera un potencial “atípico”. Tanto más, cuanto mayor sea su distancia a la recta. La figura 1.11 ilustra la aplicación de esta modalidad gráfica con los datos aquí analizados (la muestra to-
1.5.4. La detección de “atípleos"
104 Análisis rnultivariable. Teoría y práctica en la investigación social
tal). La nube de puntos se ajusta a la recta de 45° y pocos puntos se distancian de ella. Si se compara con ei gráfico de la figura 1.10, ia identificación de posibles “atí- picos” se evidencia más en el gráfico de líneas de residuos estudentizados que en este último.
OP-a
Pá
251 501 751 1.001 1.251 1.501 1.751 2.001 2.251 126 376 626 876 1.126 1.376 1.626 1.876 2.126 2,376
Numero de caso
Figura LIO. Gráfico de líneas de residuos estudentizados.
10“
o»JbCflo=5rs<n<UOS
-10 -
-10 -0 10 Residuos eíímüaados
Figura 1.1L Gráfico de residuos brutos (o no estandarizados) y eliminados.
A estos gráficos hay que añadir los gráficos de regresión parcial, que permiten la identificación de “atípicos”, pero para cada relación de la variable dependiente con cada in-
Capítulo 1: Regresión múltiple 105
dependiente, por separado. Asimismo, es de utilidad el gráfico de residuos parcial que considera la correlación parcial de cada variable independiente con la dependiente, después de eliminar el efecto de las otras variables predictoras en el modelo. A veces, también se aplican el gráfico de caja en la identificación de “atípleos”, pero su uso es menos habitual. En este último gráfico, los datos se representan en una caja alrededor de la media. Todo caso que se sitúe lejos de la caja se considera un posible “atípico”. La figura 1.12 incluye el gráfico correspondiente a los datos del ejemplo.
Residuos estudentizados
Figura 1.12. Gráfico de caja con residuos estudentizados.
® Además de los gráficos, existen estadísticos específicos que ayudan a identificar, de forma más precisa, el grado al que una observación es un “atípico”. Entre los más aplicados destacan los siguientes:
- La distancia D ¡ de Cook, algunas veces también referid a“ C ” (Nourisis, 1986; Graybill e Iyer, 1994), se define como función de los residuos estudentizados eliminados (jE^a o SDRESID), definido en el subapartado 1.1.10, y los elementos de la diagonal, uhn”, de la matriz H, mediante la expresión siguiente:
D,f p2
p + xK i
i - h
Esta distancia se calcula para cada una de las N observaciones que componen la muestra. Mediante ella se comprueba la cantidad en que varían las estimaciones de los coeficientes de regresión, si la observación “i” se elimina del análisis. Concretamente, proporciona una medida de la distancia entre el valor del coeficiente de pendiente cuando se utilizan todas las observaciones en el cálculo de la
106 Análisis multivariable. Teoría y práctica en la investigación social
ecuación de regresión y cuando se omite la observación “i”. Toda observación que presente un valor elevado, D¡ > Fp t ( N p j a un nivel de significación concreto (normalmente, “,05”), se considera un posible “atípico” (y se recomienda un examen riguroso). Los casos con mayores valores de distancia coinciden con aquéllos cuya eliminación provoca una mayor variación eñ los coeficientes de regresión. Esto suele acontecer bien cuando la observación presenta un residuo estudentizado muy elevado, o bien cuando la razón “h, J (1 -■ h- ¿)” es también elevada. Esto último se conoce como valores “leverage”. Se obtienen de comparar la distancia del valor de un caso desde las medias de todas las variables independientes. Los casos con valores “leverage” superiores a “2p/N” (donde “p” es el número total de coeficientes, incluyendo el intercepto) se consideran “atípicos".
Cook y Weisberg (1982) proponen que toda observación con una distancia de Cook superior a 1 es un posible “atípico”. Hutcheson y Sofroniou (1999) prefieren no utilizar ese valor de referencia genérico, e incluso conservador. Proponen un punto de referencia calculado a partir del cociente siguiente: “4 / (N - p)”.
■ La medida de distancia de Welsch-Kuhn, más conocida como DFFITS, mide simultáneamente la influencia en el coeficiente de regresión y en la varianza. Guarda bastante similitud con la distancia de Cook:
DFH TS, =
Toda observación que presente un valor absoluto de DFFITS > 't(p iÑ se considera un posible “atípico”.
® La detección de “atípicos” también puede limitarse a un diagnóstico por caso. Se identifican los casos con un residuo estandarizado (ZRESID) superior a un valor dado. Lo más habitual (y así lo aplica el programa SPSS, por ejemplo, por defecto) es fijarlo en 3. Se suele escoger este punto de referencia (o de corte) porque, si los datos están normalmente distribuidos, la probabilidad de alcanzar un valor superior a 3 es bastante baja. Además, ya se dijo que todo caso con un residuo estandarizado superior a +3,0 o inferior a -3,0 es un claro “atípico”. Cuando el residuo se sitúa entre 2,0 y 3,0, se precisa confirmación por otros procedimientos.
~j E je m p l o d e identificación d e “a t íp ic o s “
La aplicación de gráficos en la identificación de atípicos ya se ha ilustrado en las figuras1.10, 1.11 y 1.12, además del histograma y de los gráficos de regresión parcial descritos en páginas precedentes. A continuación figuran Sos “atípicos" obtenidos tras fijar como punto de ‘'corte“ todo residuo estandarizado (o tipificado) superior a +3,0 o inferior a -3,0.
Capítulo 1: Regresión múltiple 107
Diagnósticos por casoa
Número de caso
Residuotip.
Simpatíamarroquí
Valorpronosticado
Residuobruto
246 - 4,284 ,00 8,3941 - 8,3941353 - 3,224 ,00 6,3181 -6,3181369 - 3,263 ,00 6,3946 - 6,3946698 4,217 10,00 1,7374 8,2626727 -3,438 ,00 6,7365 - 6,7365
1.017 3,137 9,00 2,8528 6,14721.149 3,339 10,00 3,4570 6,54301.195 3,356 10,00 3,4233 6,57671.497 -4 ,015 ,00 7,8677 - 7,86771.501 -3,419 ,00 6,7001 - 6,70011.556 -3 ,665 ,00 7,1820 -7,18201.834 - 3,081 2,00 8,0378 - 6,03781.920 3,322 9,00 2,4903 6,50972.143 3,408 10,00 3,3228 6,67722.280 - 3,041 ,00 5,9586 - 5,9586
a Variable dependiente: simpatía marroquí.
Como puede apreciarse en la tabla, los casos atípleos coinciden con aquéllos cuyo valor pronosticado se distancia bastante de su valor observado en la variable dependiente. Lo que explica qué sus residuos (brutos o estandarizados) sean muy elevados. En total son 15 los casos claramente no explicados por el modelo de regresión. En los gráficos coinciden con puntos alejados del conjunto de datos. (Si el punto de corte se hubiese fijado en 2,48 serían los casos identificados como posibles “atípleos”.) A la identificación de los “atípleos” le sigue la adopción de alguna medida, en busca de alcanzar alguna mejora en el modelo. A este respecto, téngase presente que la proporción de “atípleos” es muy pequeña en el conjunto de la muestra. Además, la distancia de Caok {con un valor medio de ,001) indica que, al ser un valor muy pequeño, la exclusión de dichos “atípleos” del cálculo de los estadísticos de regresión no afectaría a un cambio sustancial de sus coeficientes de regresión.
® Tras la identificación de atípleos, procede la adopción de alguna medida al respecto, en busca de alcanzar alguna mejora en el modelo de regresión. Lewis-Beck (1980) resumen a cuatro las actuaciones posibles ante la existencia de “atípicos”:
a) Excluir del análisis los casos que muestren ser “atípicos”. Éstos pasarían a engrosar la lista de “missing valúes” (o casos sin respuesta). El principal inconveniente de esta solución radical es la reducción que puede producir en el tamaño de la muestra (y la consiguiente pérdida de información). Salvo que el número de “atípicos” sea escaso, siendo su presencia en la muestra mínima.
108 Análisis rnultivariable. Teoría y práctica en la investigación social
b) Efectuar dos ecuaciones de regresión: una con “atípicos” incluidos y otra sin ellos. Siguiendo este proceder no habría pérdida de información. Pero presenta el inconveniente principal de duplicar los análisis con unas mismas variables.
c) Transformar la variable afectada por "atípicos”. Ésta se considera una opción óptima. Supone el cálculo de una única ecuación de regresión, no-variando el tamaño de la muestra.
d) Aumentar el tamaño de la muestra para comprobar si los “atípicos” son realmente “atípicos” o si, por el contrario, se ajustan a la realidad de un modelo más general (quizás no lineal). Los inconvenientes principales de esta actuación son el coste económico y la dificultad que supone abarcar más unidades muéstrales.
Antes de tomar alguna (o varias) de estas medidas, tal vez debiera seguirse la recomendación de Gunst y Masón (1980) de comprobar si los “atípicos” se deben a errores de grabación. Hutcheson y Sofroniou (1999) señalan a datos incorrectamente grabados y a indicadores de “missing valúes” incorrectamente especificados en eí programa utilizado, como dos posibles razones de “atípicos”. En caso afirmativo, estos errores pueden corregirse de forma inmediata. Habría que remitirse a la fuente de in- formación general para, a continuación, corregir el valor mal grabado por el correcto en la base de datos. En caso negativo, habría que decidir qué hacer con ios “atípicos”. .i; Sin duda, la decisión se verá bastante afectada por la proporción que representen los “atípicos” en la muestra analizada.
1.6. Variaciones en el análisis áe regresión
El procedimiento de regresión expuesto en páginas precedentes es el ordinario, aunque existen variaciones al mismo. Primero, en función de cómo se seleccionen las. variables predictoras para constituir el modelo de regresión, si se ha seguido un procedimiento secuencial (o “por pasos”) y, en caso afirmativo, cuál de ellos. También hay ■ que hacer referencia a alternativas principales al procedimiento de mínimos cuadra- ;, dos ordinarios (OLS), de gran utilidad cuando se incumplen uno o varios de los supuestos básicos para ia regresión OLS. Cada uno de estos contenidos se desarrollan en los subapartados siguientes.
1.6.1. Los procedimientos secuenciales de selección de variables predictoras
En ¡a realización de un análisis de regresión es habitual partir de una serie amplia de variables independientes (o predictoras). El objetivo principal es seleccionar un gru-: po reducido de ellas que muestren una contribución significativa a ia predicción de la variable dependiente. Se busca un modelo sencillo, parsimonioso y, a la vez, fácil de m-, terpreíar. Todo lo cual incide en la decisión de aplicar algún procedimiento secuencial
Capítulo 1: Regresión múltiple 109
de selección de variables predictoras. Sobre todo, cuando la investigación es exploratoria y es elevado el número de variables independientes cuyo poder predictivo quiere comprobarse. En cambio, cuando la investigación es confirmatoria, los procedimientos secuenciales no son de utilidad. La finalidad no es efectuar una selección de variables en función de su poder predictivo, sino corroborar un modelo concreto obtenido en indagaciones precedentes.
Tres son los procedimientos esenciales de selección secuencial de variables predictoras:
a) Inclusión secuencial de variables “hacia delante” (“forward”).b) Eliminación progresiva de variables “hacia atrás” (“backward”).c) El procedimiento “paso a paso” ("stepwise”) de inclusión y eliminación de va
riables.
Las dos primeras opciones pueden considerarse casos especiales del tercer procedimiento, que es más utilizado. A favor de la primera opción está el menor número de cálculos que supone su realización. Pero, la segunda opción (la eliminación progresiva de variables) suele tratar mejor el problema de la multicolinealidad que la primera opción. Por esta razón algunos autores, como Chatterjee y Price (1977), por ejemplo, recomiendan su utilización con preferencia al procedimiento de inclusión secuencial de variables “hacia delante”. Pero, veamos en qué consiste cada uno de estos procedimientos secuenciales.
A) Inclusión secuencial de variables “hacia delante"
El análisis comienza con el modelo más sencillo: aquel que sólo incluye la constante (o intercepto). A continuación, el programa procede a la selección “secuencial” de variables, en función del grado de relación que éstas manifiesten con la variable dependiente y su significatividad. También afecta el grado de colinealidad de las variables independientes candidatas a ser incluidas en 1a ecuación de regresión con aquellas variables que previamente han sido incorporadas.
La selección de variables predictoras es “secuencia!”. En cada paso se incorpora una nueva variable a la ecuación de regresión, lo que suele ocasionar una alteración en los coeficientes de regresión respecto al paso anterior. Dicha variación en los coeficientes es mayor cuando la variable recién incorporada a la ecuación presenta un grado de colinealidad elevado con una o varias de las variables predictoras que previamente fueron introducidas en la ecuación de regresión. Si la colinealidad es elevada, puede incluso suponer la pérdida de significatividad de variables que, en pasos anteriores, mostraron poder predictivo en la explicación de la variable dependiente. Pero, a diferencia de! tercer procedimiento secuencial, de inclusión y eliminación de variables, en éste no se contempla la eliminación de variables previamente incluidas en la ecuación de regresión, de un paso a otro.
110 Análisis multivariable. Teoría y práctica en la investigación social
La primera variable que se incluye es aquella que muestra una correlación simple más alta con la variable dependiente, indistintamente de si la correlación es positiva o negativa. Esta información la proporciona la matriz de correlaciones (subapartado 1.3.2). En el primer paso, se está ante un modelo de regresión simple, compuesto por una sola variable independiente. Si el modelo muestra ser significativo, de acuerdo con la razón “F” (subapartado 1.5.3), se comprueba si puede incorporarse otra variable independiente a la ecuación. A tal fin, se examinan bs correlaciones parciales de las variables independientes no incluidas en la ecuación con la dependiente y su significatividad. Entre aquellas variables cuya correlación parcial sea significativa, de acuerdo con la razón “t” (subapartado 1,4.3), se escoge la variable que presente la correlación parcial más elevada con la variable dependiente. Si se desea saber qué ocurrirá si dicha variable se incluyese en la ecuación, la mayoría de los programas estadísticos, como el SPSS, ofrecen el coeficiente de regresión estandarizado (a veces llamado “beta in” o “beta dentro”).
Tras cada incorporación de una variable a la ecuación de regresión, se comprueba la significatividad del modelo. El análisis prosigue hasta que el modelo deja de ser significativo estadísticamente, o hasta que no queden variables independientes que muestren tener un efecto significativo en la predicción de la variable dependiente.
En el programa estadístico se fija un valor mínimo de F para que la variable independiente pueda incluirse en la ecuación y su correspondiente valor “p”. Este último expresa la significatividad del estadístico “F”. Por ejemplo, en el programa SPSS el valor mínimos de Fpara entrar (“F-to-enter” o “F-in”) y el criterio de probabilidad asociado a este estadístico por defecto son, respectivamente, F > 3,84 y p < 0,05. Éstos son los valores que se aplican, mientras el investigador no especifique lo contrario.
Bendel y Afifi (1977) compararon varios valores “F-to-enter” mínimos, aplicados habitualmente en este procedimiento de selección de variables (“forward” o “hacia delante”). Un valor que recomiendan es el percentil “F” que corresponde a un valor p = 0,15. Utilizar el criterio usual de p - 0,05 es demasiado bajo y con frecuencia excluye del modelo a variables relevantes en la predicción de Y. Es mejor opción aplicar niveles de significatividad de 0,15 e incluso 0,20. Esto repercute negativamente en un riesgo mayor de rechazar la hipótesis nula, cuando es cierta; es decir, afirmar que una relación es cierta, cuando en realidad no lo es. La probabilidad de equivocación se eleva al 20%. Pero, por el contrario, disminuye el riesgo de desacierto al rechazar la hipótesis nula, cuando en realidad es falsa (es decir, de no encontrar una relación que realmente es cierta). Si el tamaño muestral es elevado, el valor de F mínimo para entrar que recomiendan es el percentil 85 de la distribución F, con 1 e infinitos grados de libertad. O, lo que es igual, un valor F mínimo de 2,07 y no el habitual de 3,84, que es más restrictivo.
Tomar un valor mínimo de F elevado (F> 4,0, por ejemplo) supone dar una menor oportunidad a La variable para incorporarse a la ecuación de regresión. Se conseguiría un modelo de regresión más restrictivo, aunque con mayor nivel de significatividad.
En la valoración de los valores de F de entrada mínimos, téngase además presente que la significatividad del modelo no se ve sólo afectada por el nivel de riesgo que el investigador asume de equivocarse. También influye los grados de libertad asociados a la suma de cuadrados de regresión y la suma de cuadrados residual (véase subapartado 1,5.3).
Capítulo 1: Regresión múltiple 111
Por último, añadir que tras la incorporación de una nueva variable, se produce un aumento en el valor de Ti1. El incremento varía en relación con la correlación existente entre dicha variable con la dependiente, una vez considerada su correlación con las demás predictoras en la ecuación. Cuanto mayor sea la correlación de la nueva variable predicíora con el resto de predictoras y menor su correlación con la .dependiente, menor será el incremento en R z de un paso a otro. Lo que también puede afectar a que el error típico de la estimación no disminuya, como es de esperar, sino que aumente. Todo lo cual afecta en la disminución del valor “F ’ empírico de un paso a otro. De ahí la reiterada recomendación de no incorporar variables independientes que sean irrelevantes en la predicción de Y, ya que provocan un aumento en el error de predicción sin haber logrado incrementar la proporción de varianza explicada de la variable dependiente.
B) Eliminación progresiva de variables “hacia atrás ”
Este segundo procedimiento es el contrario al anterior. El análisis comienza con todas las variables independientes incluidas en el modelo. Después se procede a la eliminación “secuencial” (una a una) de las variables que muestren menor relevancia en la predicción de Y. La primera variable en ser eliminada es aquella que muestra una menor contribución a la reducción de la suma de errores cuadrados, lo que suele coincidir con presentar un valor “í” no significativo. Tras cada eliminación, se recaicula la ecuación de regresión con las variables independientes que aún permanecen en ella. El proceso de eliminación y reestimación del modelo concluye cuando todas las razones “f” son significativas; es decir, cuando las razones “í” absolutas mínimas son superiores a “t os(w _ (depende del nivel de significación elegido; 0,05,0,10 o superior).
En el programa SPSS se aplica por defecto el criterio usual de un valor F mínimo para permanecer en la ecuación (“F-to-remove”, “F-out” o “F para salir”) de 2,71, que equivale a la probabilidad máxima asociada (“P-out”) de 0,10. Toda variable cuyo valor F no sobrepase dicho valor (2,71), siendo su significatividad superior a 0,10, se convierte en candidata a ser eliminada del modelo de regresión. Sí se quiere un modelo menos restrictivo, a costa de aumentar el error de rechazar la hipótesis nuh (cuando en realidad es cierta), puede seguirse la recomendación de Afifi y Clark (1990) de reducir el valor de MF para salir” a 1,07.
Como en el procedimiento anterior, tras la eliminación de una variable, se recal- culan los Fparciales para las variables predictoras que quedan en la ecuación. El proceso concluye cuando ninguna Fparcial es inferior a la cuantía mínima de F fijada para permanecer en la ecuación.
C) El procedimiento "paso a paso" de inclusión y eliminación de variables
Este tercer procedimiento de selección secuencial de variables predictoras es una combinación de los dos precedentes. Es un proceso de selección “hacia delante”
112 Análisis rnultivariable. Teoría y práctica en la investigación social
que incorpora los criterios de eliminación “hacia atrás”. Añade al primer procedimiento la posibilidad de eliminar, en un paso posterior, una variable predíctora introducida en un paso anterior. La incorporación y eliminación de variables se ve sobre todo afectada por el grado de colinealidad existente entre ias variables independientes. Por esta razón se incluye, como criterio adicional para la incorporación de variables a la ecuación, su nivel de tolerancia (por ejemplo, TOL¡> 0,01).
Como en ei procedimiento de inclusión de variables “hacia delante”, el procedimiento “paso a paso” comienza con sólo el intercepto (o constante). En cada paso se van incoiporando variables independientes a ia ecuación de regresión (una a una). La variable escogida será aquella que cumpla ios mismos criterios que en la selección “hacia delante”. Pero, a diferencia de la selección “hacia delante”, en el procedimiento “paso a paso” de inclusión y eliminación de variables no se considera definitiva la incorporación de una nueva variable al modelo. Su aportación a la predicción de Y es constantemente re valúa da, tras la incorporación de una nueva variable predíctora al modelo de regresión. Para la exclusión de una variable predictora se siguen los mismos criterios que en la eliminación “hacia atrás”. No obstante, hay que advertir que si quiere evitarse que una misma variable sea continuamente introducida y eliminada del modelo de regresión, hay que fijar un valor “F para entrar” mínimo superior al correspondiente valor máximo de “F para salir”. O, lo que es igual, “P-in” ha de ser inferior a “P-out”. Recuérdense los valores mínimos recomendados por Afifi y Clark (1990), por ser muy útiles en ía práctica, de 2,07 en “F para entrar” y 1,07 en “F para salir”; o los aplicados convencionaímente de 3,84 y 2,71, respectivamente.
Si quiere examinarse la secuencia completa hasta que se introducen todas las variables, será conveniente establecer un valor “F para entrar” mínimo pequeño (por ejemplo, 0,1, que corresponde a un valor “P-in” de 0,99). Lo que lleva inevitablemente a fijar un valor “F para saiir” máximo inferior a 0,1. Después de examinar esta secuencia, puede hacerse una segunda corrida utilizando otros valores F. Para más información, véase Nourisis, 1986; Afifi y Clark, 1990; o Graybiil e lyer, 1994.
Como en todo procedimiento secuencial, el modelo de regresión se vuelve a estimar tras la incorporación y/o eliminación de una variable predictora. Esta reconsideración de la contribución de las variables independientes a la predicción de Y lleva a la recomendación de este procedimiento para propósitos eminentemente exploratorios (Graybiil e íyer, 1994). Cuando ei investigador desea la inclusión de variables independientes concretas, con el propósito de comprobar una teoría, o a efectos puramente comparativos con otros estudios, puede forzar ía incorporación de las variables de interés al modelo de regresión. En la mayoría de los programas estadísticos se ofrece la posibilidad de “forzar” la inclusión de variables, al comienzo o después del proceso de selección secuencia!. Además, cualquiera de los tres procedimientos de selección de variables secuencial permite experimentar con diferentes combinaciones de variables independientes en la búsqueda de aquella combinación de variables que mejor logre predecir el valor de la variable dependiente.
Capítulo ]: Regresión múltiple 113
, E j e m p l o d e p r o c e d im ie n t o s e c u e n c ia l d e s e l e c c ió n
DE VARIABLES. PREDICTORAS : ■
En la búsqueda de un modelo de regresión que ayude a predecir la "simpatía hacia los norteafricanos (marroquíes, etc)”, se escoge el procedimiento “paso a paso” de inclusión y eliminación de variables, por considerarlo más adecuado a los propósitos del estudio. Se busca la obtención de un modelo parsimonioso, que evite la incorporación de variables muy colineales. Los valores mínimos de "Fpara entraf y “Fpara salii!l seguidos son los aplicados por defecto en el programa SPSS: 3,84 y 2,71, respectivamente, que equivalen a las probabilidades de F "de entrada” de 0,05 y “de salida” de 0,10. Se busca un modelo altamente significativo y no se juzga necesario disminuir las exigencias de entrada y de eliminación de variabies. Sobre todo, cuando se alcanza un modelo de regresión que logra explicar eí 48,4% de ia varianza de la variable dependiente, incluyendo seis variables predlctivas en la ecuación de regresión. En la tabla A se resume el modelo:
Tabla A
Modelo R R cuadradoR cuadrado corregida
Error tip. de ía estimación
Cambio en R cuadrado
1 ,593a ,351 ,351 2,1979 ,3512 ,676b ,457 ,457 2,0106 ,1063 ,688c ,473 ,472 1,9821 ,0164 ,692d ,479 ,477 1,9721 ,0065 ,696® ,484 ,482 1,9632 . ,0056 ,697' ,486 ,484 1,9595 ,002
a Variables predictoras: (constante), simpatía latinoamericano',6 Variables predictoras: (constante), simpatía iatino- amertcano, casar con marroquí;0 Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración;ú Variabies predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes;e Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes, vecino marroquí;' Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes, vecino marroquí, sexo.
El análisis comienza con una única variable predictora (“simpatía hacia latinoamericanos;”) que es, de las 14 consideradas, la más correlacionada con la variable dependiente ("simpatía hacia norteafricanos”), como se vio en la matriz de correlaciones (subapartado 1,3.2). La segunda en entrar es “casar con marroquí”, que cumple la doble condición de ser la segunda variable independiente más correlacionada con Y, estando, a su vez, poco correlacionada con ia variable antes introducida (r = —,274). En total son seis las variables independientes incluidas en el modelo de regresión. Ninguna de ellas es expulsada tras la incorporación de una nueva variable porque, como ya se señaló en la matriz de correlaciones y cuando se describió la colinealidad entre las variables independientes, son pequeñas las correlaciones existentes entre las variables independientes.
La primera variable en formar el modelo de regresión se distingue además por ser la variable que explica el mayor porcentaje de varianza de Y (35,1%, de acuerdo con el coeficiente
114 A nálisis m ultivariable. Teoría y práctica en la investigación socia l
fí cuadrado corregido). Como es usual, tras cada incorporación de una nueva variable, aumenta la proporción de variabilidad explicada y desciende el error típico de ía estimación, aunque en menor proporción de lo deseable. Ello se debe al poco poder predictivo de las cuatro últimas variables que se incorporan al modelo. Si la segunda variable (“casar con marroquí”) provoca un aumento en R de! 10,6%, la tercera ('leyes inmigración”) sólo dei 1,6%. Las otras tres, inclusive menos: el 0,6%, 0,5% y 0,2%, respectivamente. Estas últimas cuatro variables predictoras (“leyes inmigración”, “n.° inmigrantes”, ‘Vecino marroquí' y “sexo”) apenas reducen el error de predicción de la variable dependiente (“simpatía hacia norteafricano”), aunque son incorporadas al modelo de regresión porque su contribución a la predicción de Y, aunque mínima, es significativa (p < 0,05).
En la tabla B se resume e! análisis de varianza (ANOVA) para comprobar la signifi- catlvidad del modelo de regresión en su globalidad. Al haber un total de 1.280 casos válidos, la razón Fes significativa en los seis modelos obtenidos en cada paso, aunque su valor desciende de 691,815 en e! primer modelo a 200,879 en el modelo 6 (integrado por las seis variables predictoras). El descenso es más acusado a partir del tercer paso y responde, fundamentalmente, al escaso poder predictivo de las nuevas variables que se incorporan al modelo de regresión. Tras una nueva incorporación disminuye ligeramente la proporción de casos por variables predictoras en el modelo, pero apenas aumenta la proporción de varianza explicada en la variable dependiente. Esta mínima mejora en el ajuste de! modelo es la causa principal del descenso en la razón F. Pese a ello, el modelo de regresión múltiple final, con seis variables predictoras, sigue siendo estadísticamente significativo, al ser el valor de F empírico bastante superior ai valor F teórico (2,10) correspondiente, para 6 (número de variables independientes) y 1.273 (tamaño muestral menos número de coeficientes calculados incluida la constante) grados de libertad y un nivel de significación de 0,05. La significatividad estadística del modelo era predecible por el elevado tamaño de la muestra analizada.
En la tabla B obsérvese, además, ios cambios habidos, en cada paso, en ¡as sumas de cuadrados de regresión y residual, como medidas de ajuste del modelo de regresión (o de adecuación entre la nube de puntos y el hiperplano de regresión).
La tabla C describe la composición de! modelo de regresión obtenido en cada paso. El primer modelo es de regresión simple, al estar integrado por una sola variable independiente (Xs). Ésta es la variable más correlacionada con la variable dependiente, (r = ,593). Si se eleva su correlación parcial al cuadrado (.5932 =,351), se obtiene que dicha variable explica el 35,1 % de la varianza de Y. Esta información coincide con la dada en la tabla A (,351 es el valor R 2 corregido en ei primer modelo).
Además, obsérvese que su coeficiente beta (j35=.593) coincide con su coeficiente de correlación con Y (como consta en la matriz de correlaciones). Esta coincidencia entre los coeficientes beta y de correlación sólo se produce en regresión simple, cuando la ecuación de regresión incluye una única variable independiente. Si son dos o más las variables predictoras, ambos coeficientes difieren. Ello se debe a que, mientras el coeficiente de correlación mide la correlación de ia variable independiente con la dependiente, sin considerar ías demás variables predictoras, tos coeficientes de regresión (estandarizados o no) se ven afectados por la correlación de la variable independiente con las demás incluidas en el modelo de regresión, Cuanto mayor sea su correlación, más diferirán ambos coeficientes.
La colinealidad (o correlación entre las variables independientes) es, asimismo, la razón principal de las variaciones en los coeficientes de pendiente (estandarizados o no) de un modelo a otro. E! cambio en la magnitud del coeficiente es mayor cuanto más córrela-
Capítulo 1: Regresión múltiple 115
cionada esté la variable con la recién incorporada al modelo. Como las variables aquí analizadas no presentan un grado elevado de colinealidad (como se comprobó en el subapartado 1.1.8), los coeficientes de pendiente apenas varían con la incorporación de una nueva variable predictora al modelo de regresión. Las mayores variaciones se producen en la constante (o intercepto), especialmente, cuando se pasa de! modelo 1 (con una sola variable independiente) al modelo 2 (que incluye dos variables predictoras): de ,807 cambia a 3,147. Este cambio es lógico ya que se pasa de una recta a un plano (de dos dimensiones) de regresión. Recuérdese que la constante es el punto de la recta (o piano) que “intercepta” el eje Y. La variación en la constante es menor entre el modelo 5 (3,616) y e¡ modelo 6 (3,786).
Tabla B
Anovas
Modelo Suma de cuadrados 9l
Mediacuadrática F Sig.
1 Regresión 3341,993 1 3341,993 691,815 ,000aResidual 6173,717 1278 4,831Total 9515,710 1279
2 Regresión 4353,291 2 2176,646 538,425 ,000bResidual 5162,419 1277 4,043Tota! 9515,710 1279
3 Regresión 4502,713 3 1500,904 382,038 ,000oResidual 5012,997 1276 3,929Total 9515,710 1279
4 Regresión 4556,983 4 1139,246 292,926 ,000dResidual 4958,727 1275 3,889Total 9515,710 1279
5 Regresión 4605,457 5 921,091 238,984 ,000aResidual 4910,253 1274 3,854Total 9515,710 1279
6 Regresión 4627,827 6 771,304 200,879 ,000'Residua! 4887,883 1273 3,840Total 9515,710 1279
a Variables predictoras: (constante), simpatía latinoamericano. b Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí. c Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración. d Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi
grantes.® Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi
grantes, vecino marroquí.( Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, núm. inmi
grantes, vecino marroquí, sexo.9 Variable dependiente: simpatía marroquí.
116 Análisis multivariable. Teoría y práctica en la investigación social
Tabla C
ModeloCoeficientes no estandarizados
Coef.Estándar
Beta
f Sig.Intervalo confianza
95% Correlaciónparcial
Tolerancia FIV
B Error tip. Límiteinferior
Límitesuperior
Constante ,807 ,201 4,019 ,000 ,413 1,201xs ,719 ,027 ,593 26,302 ,000 ,665 ,773 ,593 1,000 1,000
Constante 3,147 ,236 13,340 ,000 2,684 3,610x5 ,606 ,026 ,500 23,322 ,000 ,555 ,658 ,547 ,925 1,081X ,o -.916 ,058 -,339 -15,816 ,000 -1,030 -,802 -,405 ,925 1,081
Constante 2,256 ,274 8,237 ,000 1,718 2,793X 5 ,584 ,026 ,482 22,579 ,000 ,534 ,635 ,534 ,907 1,102X ,0 -,843 ,058 -,312 —14,448 ,000 -,957 -,728 -.375 ,886 1,128X, ,344 ,056 ,131 6,167 ,000 ,234 ,453 ,170 ,921 1,085
Constante 3,267 ,384 8,506 ,000 2,513 4,020X5 ,570 ,026 ,470 21,912 ,000 ,519 ,621 ,523 ,888 1,126X 10 -,815 ,059 -,301 “ 13,925 ,000 -,929 -,700 -.363 ,872 1,147X t ,284 ,058 ,108 4,907 ,000 ,170 ,397 ,136 ,850 1,177X6 -.357 ,096 -082 -3,736 ,000 -,544 -,169 -,104 ,844 1,185
Constante 3,616 ,395 9,159 ,000 2,842 4,391x 5 ,559 ,026 ,461 21,416 ,000 , 508 ,610 ,514 ,875 1,143X,0 —,690 ,068 -,255 -10,156 ,000 -.824 -,557 -.274 ,640 1,562X, ,267 ,058 ,101 4,633 ,000 ,154 ,381 ,129 ,844 1,185* 6 -,347 ,096 -.080 -3,662 ,000 -,534 -,161 -,102 ,844 1,185X 13 -,358 ,101 —,088 -3,546 ,000 -,557 -.160 -,099 ,653 1,531
Constante 3,786 ,400 9,458 ,000 3,001 4,571x 5 ,558 ,026 ,460 21,429 ,000 ,507 ,610 ,515 ,875 1,143x 10 -698 ,068 -,258 -10,281 ,000 -,832 -,565 -.277 ,639 1,566x , ,261 ,058 ,099 4,527 ,000 ,148 ,374 ,126 ,842 1,187
-,356 ,095 -082 -3,751 ,000 -,543 -,170 -105 ,842 1,187X 13 -,348 ,101 -086 -3,443 ,001 -,546 -.150 -.096 ,652 1,534x3 -,265 ,110 -,049 -2,414 ,016 -,481 -,050 -,067 ,994 1,006
Y: “simpatía hacía norteaíricano {marroquí...)" (P201); X,: "¡eyes inmigración" (P16); X3: “sexo" (P41); X5: “simpatía ¡ia- cia latinoamericanos" (P210); X6: “número de inmigrantes” (P11); X13: "casar con marroquí' (P306); X13: “vecino marroquí1 (P506).
Respecto a los coeficientes de pendiente, la mayor variación en su vaior se registra en X5, entre el modelo 1 (.719) y eí modelo 2 (,606). En el modelo 1 es ella ia única variable pre- dictora, mientras que en el modelo 2 está acompañada por la variable X10. Aunque la correlación entre ambas variables (X5 y X10) es pequeña (r = -,274), ¡a inclusión de la variable X1Q provoca un descenso lógico en los coeficientes (no estandarizado y estandarizado) de X£.__ Por su parte, la variable X10 experimenta una mayor alteración en su coeficiente de pendiente entre el modelo 4 (b10 - -815) y el modelo 5 (b10 = -,690). Este descenso en ¡a contribución^ de X10 en la predicción de Y se debe a su correlación con la variable recién incorporada, X13:
Capítulo 1: Regresión múltiple 117
r = ,573, Ésta es ¡a mayor correlación habida entre las variables predictoras (véase matriz de correlaciones), aunque se sitúa aún tejos del valor ,80, que incita a ia adopción de alguna medida que evite su incidencia negativa en el análisis de regresión. Los valores de tolerancia y FIV confirman (o dicho sobre colinealidad. Los valores de tolerancia más bajos y de FIV más altos se dan- en estas dos variables, aunque distan bastante de los valores que alertan de una colinealidad severa: ,20 en tolerancia y 5,0 en FIV.
Los errores típicos de los coeficientes son relativamente bajos, saivo los correspondientes a la constante, lo que concuerda con la variación de los coeficientes. Los errores típicos más elevados en ía estimación de los coeficientes se dan en ias variables Xg, X13 y X6, siendo en estas variables donde la amplitud de los intervalos de confianza es mayor. Pese a ello, la contribución de todas las variables predictoras en el modelo es significativa estadísticamente y, en consecuencia, ínferible al universo o población de la que se ha extraído fa muestra. Los coeficientes no se han obtenido por mera casualidad, al ser sus valores t empíricos superiores ai correspondiente valor teórico (1,96), con una probabilidad de error del 5%. Además, la incorporación de una nueva variable no ha supuesto, en ningún modelo, la expulsión de ninguna variable ya integrada en ía ecuación de regresión. Compruébese lo dicho en la tabla C.
Las razones que llevan a incluir o a excluir a una variable del modelo de regresión se encuentran en la tabla D. En ella figuran ias variables independientes que quedaron excluidas del modelo de regresión en cada paso, junto a sus coeficientes beta dentro y su significatividad, los coeficientes de correlación pardal y las medidas de colinealidad (tolerancia y FIV).
Del primer modelo de regresión quedaron excluidas todas las variables excepto Xs. Una vez comprobado que el modelo de regresión simple con ia variable X5 es significativo estadísticamente, se pasa a analizar si de las 13 variables excluidas del modelo, alguna puede ser incorporada. Salvo la variable Xia, cuyo valor t empírico (,308) es inferior al correspondiente teórico (1,96), cualquiera de las doce variables restantes es una posible candidata a ser incluida en el modelo de regresión. Pero, en cada paso, sólo puede ser elegida una. La variable finalmente seleccionada es X10 por ser la que mayor contribución muestra en la predicción de Y. El coeficiente de regresión estandarizado que esta variable tendría si se incorporase a la ecuación de regresión (beta dentro) es el más elevado (-339). Compruébese en la tabla C que este valor coincide con el coeficiente beta que la variable X10 presenta cuando se añade a la ecuación de regresión (modelo 2). Asimismo, su correlación parcial (-,405) es la más alta. Elevándola al cuadrado (-,405a - ,164), se obtiene que el 16,4% del 64,9% de varianza de Y no explicada por el primer modelo (tabla A) quedaría explicada con la inclusión de la variable X10. La proporción de varianza que quedaría explicada es exactamente: ,649 x ,164 = ,1064. X10 explica el 10,64% de la varianza Y. Sumando esta proporción a la explicada por Xs (,351 + ,106 = ,457), se obtiene que ambas variables explican conjuntamente el 45,7% de fa varianza de Y. Éste es precisamente el valor de R3 corregido que corresponde ai modelo 2 (,457), que incluye como variables predictoras a X 5 y X1Q.
En e! siguiente paso se elige a la variable X., por ias mismas razones anteriores. Obsérvese que en este segundo paso ¡a contribución de la variable X4 en ta predicción de Y deja de ser significativa.
E! análisis de regresión concluye en el paso 6, a¡ no haber ninguna variable cuya contribución a la predicción de Y sea significativa. Los valores t empíricos de las ocho variables excluidas del modelo de regresión son todos inferiores a 1,96.
118 Análisis multivariable. Teoría y práctica en la investigación social
Tabla D
ModeloBefa
dentro f SigCorrelación
parcial Tolerancia FIV Toleranciamínima
.X, ,193a 8,636 ,000 ,235 ,962 1,040 ,962X2 -,087a -3,867 ,000 -,108 ,998 1,002 ,998X3 -,044a -1,977 ,048 -.055 1,000 1,000 1,000x 4 -,053a -2,334 ,020 -,065 ,990 1,011 ,990Xa -,169a -7,475 ,000 -,205 ,947 1,056 ,947X7 ,155a 6,797 ,000 ,187 ,948 1,055 ,948XB -,158a -6,922 ,000 -,190 ,940 1,064 ,940Xg -,090a -3,932 ,000 -.109 ,952 1,050 ,952*io -,339a -15,816 ,000 -,405 ,925 1,081 ,925X11 ,069a 3,063 ,002 ,085 ,985 1,015 ,985x ia ,007a ,308 ,758 ,009 ,993 1,007 ,993X,s -,256a -11,505 ,000 -.306 ,929 1,077 ,929
- ,157a -6,934 ,000 -,190 ,960 1,041 ,960
xi ,131b 6,167 ,000 ,170 ,921 1,085 ,886X2 - ,042a -2,026 ,043 -,057 ,978 1,022 ,907X3 -,0 5 4 t! -2,609 ,009 -,073 ,999 1,001 ,924X4 -,0 0 7 b -,326 ,745 “,009 ,970 1,031 ,907X6 - .1 12b -5,271 ,000 -1 4 6 ,916 1,092 ,895x 7 ,086b 3,992 ,000 ,111 ,904 1,107 ,882Xa -,082b -3,777 ,000 -,105 ,886 1,129 ,872X9 ..,028b -1,287 ,198 -,036 ,918 1,090 ,891x 1, ,042b 1,999 ,046 ,056 ,978 1,022 ,917*ia ,007b ,340 ,734 ,010 ,993 1,007 ,919x » -,104b -4,125 ,000 -,115 ,659 1,517 ,656X„ -,085b -3,944 ,000 -,110 ,910 1,099 ,876
X2 -,024e -1,133 ,258 -,032 ,958 1,046 ,876*3 —,049e -2,399 ,017 -,067 ,998 1,002 ,885x 4 ,004e ,201 ,841 ,006 ,963 1,039 ,873X6 -,082e -3,736 ,000 -1 0 4 ,844 1,185 ,844x 7 ,060o 2,751 ,006 ,077 ,860 1,162 ,860Xa -,046e -2,043 ,041 -.057 ,805 1,243 ,805x 9 -,019e -.896 ,371 -,025 ,914 1,095 ,860x ,i ,023e 1,103 ,270 ,031 ,956 1,046 ,884x « —,012° -,561 ,575 -,016 ,972 1,029 ,886X,3 -,091e -3,632 ,000 „101 ,654 1,530 ,646X,4 -,058e -2,672 ,008 -,075 ,864 1,157 ,856
x 2 -,018" -871 ,384 -.024 ,951 1,052 ,836■*8 —,0S2d -2,557 ,011 -,071 ,996 1,004 . ,843X4 ,010d ,492 ,623 ,014 ,957 1,045 ,839X, ,048d 2,187 ,029 ,061 ,838 1,193 ,822Xs -,036'J -1,604 ,109 „,045 ,792 1,262 ,791x 9 - .0 1 21* -,553 ,581 -,015 ,906 1,104 ,837
,008d ,402 ,687 ,011 ,921 1,086 ,813*ia -,026d -1,263 ,207 -,035 ,940 1,064 ,816x í3 —,088d -3,546 ,000 -,099 ,653 1,531 ,640*14 -,044d -1,963 ,050 -,055 ,829 1,207 ,809
Capítulo 1: Regresión múltiple 119
Modelo Betadentro t Sig Correlación
parcial Tolerancia FiV Toleranciamínima
X2 - ,0 1 6e -.788 ,431 -.022 ,950 1,052 ,637X -,049® -2,414 ,016 -,067 ,994 1,006 ,639X, ,012e ,567 ,571 ,016 ,957 1,045 ,636X-, ,042® 1,912 ,056 ,054 ,832 1,201 ,635Xs -.030® - 1 ,33P ,182 -,037 ,788 1,270 ,633X9 -,002e -.097 ,923 -,003 ,890 1,123 ,637X n ,008a ,386 ,700 ,011 ,921 1,086 ,640X 12 -.027* -1,286 ,199 -,036 ,940 1,064 ,639* 1 4 ™,042e -1,887 ,059 -,053 ,828 1,208 ,630
X2 ~,018f -,868 ,386 -,024 ,949 1,053 ,,636x4 ,009* ,430 ,668 ,012 ,953 1,049 ,634X7 ,040' 1,820 ,069 ,051 ,831 1,203 ,633x a -,028 ' -1,233 ,218 -,035 ,786 1,272 ,631x 9 -,0 0 1 f -,047 ,963 -.001 ,890 1,124 ,635X,1 ,012' . ,586 ,558 ,016 ,915 1,093 ,638x 12 -.021 ' -1,026 ,305 -,029 ,928 1,077 ,637
-,038 f -1,741 ,082 -,049 ,825 1,212 ,628
° a Variables predictoras: (constante), simpatía latinoamericano; b Variables predictoras: {constante), simpatía ía!i~ noamericano, casar con marroquí; c Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración;d Variables predictoras; (constante), simpatía Satinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes; e Variables predictoras: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes, vecino marroquí;' Variables predicíofas: (constante), simpatía latinoamericano, casar con marroquí, leyes inmigración, n.° de inmigrantes, vecino marroquí, sexo.
• Y: “simpatía hacía norteafricano {marroquí...)'' (P201); X(: “leyes inmigración'1 (P16); Xa: “ideología política" (P39); X : “sexo" (P41); X4; “edad1’ (P42); X5; “simpatía hacia latinoamericanos” (P210); Xe: 'Inúmero de inmigrantes' (P11); Xr: “regularizara inmigrantes" (P19); Xa: "entrada inmigrantes" {P21); X9: “partido racista" (P37); Xt0: “casar con marroquí" (P306); X „: “estudios'’ (P43a); X12: “ingresos" (P52); X13: “vecino marroquí” (PSQ6); X14: “inmigrante delincuente" (P2904).
1.6.2, Alternativas a la regresión de mínimos cuadrados ordinarios
El análisis de regresión expuesto en este capítulo resulta de la aplicación del principio de “mínimos cuadrados ordinarios” (OLS). El incumplimiento de alguno o varios de sus supuestos básicos puede llevar, sin embargo, a la aplicación de procedimientos de regresión alternativos. A continuación se resumen rasgos diferenciadores de opciones alternativas más habituales:
A ) Regresión de mínimos cuadrados ponderados
El análisis de regresión de mínimos cuadrados ponderados (WLS) se presenta como una alternativa .deseable cuando se incumplen, principalmente, dos de los supuestos básicos de ia regresión de mínimos cuadrados ordinarios: homocedasticidad e independencia de los términos de error (subapartados 1.1.7 y 1.1.9, respectivamente).
120 Análisis rnultivariable. Teoría y práctica en la investigación social
Como su nombre indica, este procedimiento de regresión se caracteriza por “ponderar” los datos por el recíproco de su varianza, de forma que los “pesos” sean inversamente proporcionales a la varianza de los errores. De esta manera se logra una cierta redistribución de la varianza: “Las observaciones con varianzas más grandes tienen menos impacto en las observaciones asociadas con varianzas pequeñas” (Nourisis, 1994:223).
Si se quiere, se especifica un rango de potencia (el rango usual va de 0 a 3) y un incremento (por ejemplo, 0,2). En programas como el SPSS, por ejemplo, el rango de potencia aplicado por defecto va de -2 a +2, y el incremento es 075. Después se evalúa la función de “log-likelihood” para todas las potencias incluidas en el rango; y se procede a la selección de la potencia que haga máxima la función de máxima verosimilitud (“log-likelihood”). La variable independiente (elevada a una potencia 0,1,2 o 3) que logre un mayor “log-likelihood” se introduce en la ecuación de regresión. Después se calculan los coeficientes de regresión.
Esto se hace para la variable independiente que se haya escogido como variable de ponderación, al observarse (por ejemplo, mediante un gráfico bivariable de cada variable independiente con la dependiente) que la variabilidad de la variable dependiente no se mantiene constante para todos los valores de la variable independiente. Por el contrario, se halla relacionada con la magnitud de dicha variable independiente, que aumenta o disminuye (recuérdese el ejemplo del “gasto en vacaciones”, cuando se observa una mayor variabilidad entre las personas de un mayor nivel de ingresos que entre aquellos de un nivel de renta inferior), lo que supone la existencia de heterocedasticidad.
Las mejoras de la regresión de mínimos cuadrados ponderados respecto al procedimiento de mínimos cuadrados ordinarios no son tanto en los coeficientes de regresión, sino en el error típico de los coeficientes. Éstos suelen ser inferiores a los obtenidos en la regresión OLS. Ello significa una mejor estimación de los parámetros, más precisa, con la menor varianza posible.
B) Regresión no lineal: regresión polinómica y la estimaciónde máxima verosimilitud
Cuando los datos a analizar no cumplen el supuesto de linealidad, habrá que optar por un procedimiento de regresión “no lineal”. Sea el caso, por ejemplo, de la regresión logística (véase capítulo 2) y, en general, de la estimación de parámetros (intercepto, coeficientes de pendiente, errores de estimación) mediante el método de máxima verosimilitud (ML). Se trata de encontrar la serie de estimaciones de parámetros que haga máxima la probabilidad de ocurrencia (véase el capítulo referido).
Pero ésta no es la única solución ante la “no linealidad”. Existen otras que resultan de transformaciones en la ecuación de regresión, que permiten la aplicación del principio de mínimos cuadrados ordinarios. Entre estas transformaciones destaca la transformación logarítmica de la variable dependiente, añadiendo 1 a ia variable dependiente para, a continuación, tomar el logaritmo natural. La razón de añadir 1 es evitar tomar eí logaritmo natural de 0, que es indefinido. Medíante esta transformación, la ecuación de regresión adopta la forma siguiente: ln(F + 1) = a + + fi2X 2 + - + /L-Vp;
Capítulo i: Regresión múltiple 121
o equivalentemente: (Y + 1) = ea * + - + &pxp. Esto es igual a: Y = £<* + &*! +... i-PpXp-i; siendo “e” la base del logaritmo natural, que es igual a 2,72.
Otras transformaciones son la polinómica y ía exponencial. Ambas permiten la aplicación del principio de mínimos cuadrados ordinarios, cuando se incumple el supuesto de linealidad. En la polinómica, la variable dependiente se considera una función de una variable independiente y una o más potencias de dicha variable:
y = a + + ¡52X \ + P3X \ + ... + Pmx ,»+ e
Así se habla de modelo polinómico de orden 2, cuando la variable independiente se eleva al cuadrado (Y = a + [ííX l + j32X \ + e); y de orden 3, si se eleva al cuadrado y al cubo (Y = a + + ^ X \ + &X ̂+ e).
La transformación polinómica se muestra apropiada cuando se observa que la relación entre una variable independiente y la dependiente cambia de signo, conforme aumenta el valor de la variable independiente. En cambio, la transformación exponencial se adecúa más cuando la relación entre la variable independiente con ía dependiente aumenta o disminuye en magnitud, ai cambiar el valor de la variable independiente (y no tanto de signo). Depende del coeficiente de pendiente: si es mayoro inferior a 1,0. Si es mayor de 1,0, la pendiente crece; si es inferior, disminuye.
En la regresión exponencial la estimación de los coeficientes exige tomar logaritmos a ambos lados de la ecuación. Ésta adopta la forma siguiente:
log Y = log a + j3(log X) + íog e
Una última transformación la ofrece el modelo hiperbólico (o recíproco), definido como: Y - a + ¡i (1 íX) i- £. Berry y Feldman (1985) destacan como característica díferen- dadora de este último modelo que, cuando el valor de la variable independiente X aumenta infinitamente, el valor esperado de Y se aproxima a “a ”. El valor esperado de Y será inferior a “ce” cuando “/J”es negativo. Y si “/3” es positivo, el valor esperado de Y será mayor que “a ”; y se aproximará a “a ” desde arriba (y no desde abajo, como sucede cuando “/?’ es negativo). Una información más detallada de estas transformaciones se encuentra en textos especializados, como el de Berry y Feldman (1985) y el más reciente de Menard (1995). La transformación logarítmica y su repercusión en el análisis de regresión se incluyeren el siguiente capítulo, dedicado al análisis logit.
LECTURAS COMPLEMENTARIAS
Allison, P. D. (1.999). Múltiple regression, California, Sage.Berry, W. D. (1993). Understanding regression assumptions, Newbury Park, Sage. Fox, J, (1991), Regression diagnosücs, Newbury Park, Sage.Graybill, F. A. e Iyer, H. K. (1994). Regression analysis. Concepta, and applications, Ca
lifornia, Duxbury Press.Guillen, M. E (1992). Análisis de regresión múltiple, Madrid, CIS, Cuaderno Meto
dológico n. ° 4.
122 Análisis multivariable. Teoría y práctica en la investigación social
Hair, I F., Anderson, R, E., Tathan, R. L. y Black, W. C. (1999). Análisis multívariante, 5.a edición, Madrid, Prentice Hail.
Hardy, M. A. (1993). Regression with dummy variables, Newbury Park, Sage. Lewis-Beck, M, S. (1980). Applied regression. An introduction, Beverly Hills, Sage. Miles, J. y Shevlin, M. (2000). Applying regression and correlation, Newburry Park, Sage. Sen, A. y Srivastava, M. (1990). Regression analysis: theory; methods and applications,
Nueva York, Springer-Verlag.
EJERCICIOS PROPUESTOS
1. Con la misma base de datos, se quiere predecir el valor de la variable “ingresos” a partir de cuatro variables independientes: sexo, edad, estudios y tamaño del municipio. Comenta cada uno de los siguientes resultados:
Correlaciones
Ingresos Sexo E dad Estudios M unicipio
Correlación de Pearson Ingresos 1,000 ,107 -,291 ,471 ,239Sexo ,107 1,000 -,058 ,080 -,003Edad -,291 “,058 1,000 -,442 -,032Estudios ,471 ,080 -,442 1,000 ,228Municipio ,239 -,003 -,032 . ,228 1,000
Sig. (unilateral) Ingresos ,000 ,000 ,000 ,000Sexo ,000 ,002 ,000 ,432Edad ,000 ,002 ,000 ,053Estudios ,000 ,000 ,000 ,000Municipio ,000 ,432' ,053 ,000
N Ingresos 1.793 1,792 1.792 1.614 1.793Sexo 1.792 2.492 2.491 2.280 2.492Edad 1.792 2.491 2.492 2.280 2.492Estudios 1.614 2.280 2.280 2.281 2.281Municipio 1.793 2.492 2.492 2.281 2.493
Resumen del modeloe
M odelo R R cuadrado R cuadrado corregida
E rror tip. de la estim ación
Durbin-Watson
1 ,471a ,222 ,222 92.838,31132 ,490b ,240 ,240 91.767,48283 ,501c ,251 ,250 91.155,76644 ,506d ,256 ,254 90.881,5199 1,856
* Variables predictoras: (constante), estudios. b Variabíes predictoras: (constante), estudios, municipio, c Variables predictoras: (constante), estudios, municipio, edad. d Variables predictoras: (constante), estudios, municipio, edad, sexo. c Variables predictoras: (constante), ingresos.
Capítulo 1; Regresión múltiple 123
A N O V A
M odeloSuma de
cuadradosGrados de
libertadMedia
cuadrática F Significación
Regresión 3.969E+Í2 1 3,969E+12 460,455 ,000Residual ■ 1,389E+13 1612 8.619E+Ö9
Regresión 4,296E+12 2 2.148E+12 255,052 ,000Residual 1.357E+13 1611 8,421E+09
Regresión 4,484E+12 3 1,495E+12 179,889 ,000Residual l,338E-¡-13 1610 8.3Ö9E+09
Regresión 4,573E+12 4 1,143E+12 138,415 ,000Residual 1,329E+13 1609 8.259E+09
Coeficientestt
M odeloCoeficientes no estandarizados
Coefic.estándar. t Sig.
Estadísticos de colinealidad
B E rror tip. Beta Tolerancia FIV
1 (Constante) 55123,S24 4539,826 12,142 ,000Estudios 41368,712 1927,874 ,471 21,458 ,000 1,000 1,000
2 (Constante) 52539,797 4506,572 11,658 ,000Estudios 38590,370 1957,089 ,440 19,718 ,000 ,948 1,055Municipio 2,344 E-02 ,004 ,139 6,232 ,000 ,948 1,055
3 (Constante) 91911,243 9399,107 9,779 ,000Estudios 33973,633 2172,209 ,387 15,640 ,000 ,759 1,317Municipio 2,483 E-02 ,004 ,147 6,627 ,000 ,942 1,061Edad. -666,821 138,975 -,115 -4,764 ,000 ,800 1,250
4 (Constante) 85163,544 9594,543 8,876 ,000Estadios 33515,980 2170,175 ,382 15,444 ,000 ,756 1,322Municipio 2,508 E-02 ,004 ,149 6,712 ,000 ,942 1,062.Edad -656,238 139,591 -,113 —4,701 ,000 ,800 1,250Sexo 14889,155 4545,079 ,071 3,276 ,001 ,993 1,008
" Variable dependiente: ingresos.
Frec
uenc
ia
124 Análisis multivariable. Teoría y práctica en la investigación social
Variables excluidas11
M odelo Betadentro
í Sig, Correlaciónparcial
Estadísticos de colinealidad
Tolerancia FTVTolerancia
mínima
í Sexo ,070a 3,185 ,001 ,079 ,994 1,006 ,994Edad -,102a - 4,204 ,000 - ,104 ,805 1,242 ,805Municipio ,139a 6,232 ,000 ,153 ,948 1,055 ,948
2 Sexo ,073b 3,364 ,001 ,084 ,993 1,007 ,942Edad - ,115b - 4,764 ,000 -,118 ,800 1,250 ,759
3 Sexo ,071c 3,276 ,001 ,081 ,993 1,008 ,756
3 Variables predictoras en el modelo: (constante), estudios. b Variables predictoras en el modelo: (constante), estudios, municipio. c Variables predictoras en ei modelo: (constante), estudios, municipio, edad. d Variable dependiente: ingresos,
Histograma Gráfico de regresión parcialVariable dependiente: ingresos Variable dependiente: ingresos
Regresión residuo tipificado Edad
2. En la investigación “Las consecuencias psicosociales del cuidado informal a personas mayores” de Julián Montoro Rodríguez (Revista Internacional de Sociología (RIS), mayo-agosto, 1999:7-29) se analizan las consecuencias del cuidado asistencial en los cuidadores derivadas de la ayuda informal a personas mayores con dependencia o discapacidad. Las variables independientes son: a) por parte del cuidador: edad (en años), género (mujer = 1), situación laboral (trabaja tiempo parcial o completo = 1), posición subjetiva respecto de la clase social (baja =1, media/baja =2, media =3, media/alta =4, alta =5), salud subjetiva (muy mala =1, mala =2, regular =3, buena =4, muy buena =5), tiempo como cuidador (meses), horas semanales de dedicación a actividades relacionadas con el transporte, ios asuntos bancarios o legales, las comidas y lim-
Capítulo 1: Regresión múltiple 125
pieza de la casa y el cuidado personal, y la relación de parentesco (cónyuge =1);b) por parte de la persona mayor dependiente: edad (años), género (mujer =1) y la corresídencia (vive con familia = 1). Se realiza un análisis de regresión múltiple (tras un análisis factorial para resumir los indicadores) “paso a paso” de inclusión y eliminación de variables. En la medición de los factores que influyen en ía actitud depresiva de los cuidadores (N = 202) se obtienen los siguientes resultados en cada uno de los cuatro pasos de que consta el análisis (coeficientes beta). Coméntese los resultados.
Variables independientes Depresión ; actitud
M odelos I II III IV
Factores de contexto Persona mayor:
Edad Género Corresídencia
Cuidador:
-,13*-,12*
-,13**
Edad ,19** ,18** ,17** ,23***GéneroTrabaja
,12* ,13* ,11*
Ciase social subjetiva -,24*** -.25*** -,20***Salud subjetiva -,33*** -,34*** -,29*** -,22***Tiempo como cuidador Dedicación horas semanales Relación familiar: Esposo/a
-.11* -,12** -11** -,12**
R cuadrado ajustado ,23 ,23 ,32 ,41Cambio en R cuadrado ,27*** ,27*** ,10*** ,08***T estF 6,50*** 5,60*** 6,30*** 7,60***
* p < ,10; ** p < ,05; ***¿? < ,01
3. En eí estudio de Joan Font (1992) “La abstención en las grandes ciudades, Madrid y Barcelona” (REIS, n.° 58:123-139), se obtienen los resultados siguientes. Coméntese.
Participación Madrid = 75,4 - 0,5 Paro + 0,13 Asociación + 0,12 Estudios + 0,02 tamaño población Error St. 0,19 0,06 1,08 0,05C oef.T 2,7 2,2 1,6 0,4Error Y = 3,7 R2 = 0,51 Grados de libertad = 22
Participación Barcelona = 76,4 - 0,39 Inmigración + 0,15 Trabajo - 0,17 Estudios - 0,39 Paro Error St. 0,15 0,06 0,13 0,18C oef.T 2,2 2,5 1,3 2,5Error Y = 2,5 R2 = 0,56 Grados de libertad = 22
126 Análisis rnultivariable. Teoría y práctica en la investigación social
4. Pedro L. Iriso y David-Sven Reher obtienen en su estudio de 1987 “La fecundidad y sus determinantes en España, 1887-1920. Un ensayo de interpretación” (REIS, n.° 39: 45-118) varios modelos explicativos de la fecundidad matrimonial en España para el mundo urbano y rural, mediante la aplicación del análisis de regresión lineal. Coméntense los siguientes resultados referidos a la fecundidad matrimonial rural de 1900:
Matriz de betas y de correlaciones simples para fecundidad matrimonial rural, 1900
11 10 9 8 7 6 5 4 3 2 Î
Jornaleros (11) ,402 ,595 ,320 ,207 -.153 ,561 ,242 -,150 -,167 ,013(,402*) (,651*) (.681*) (,445*) (.321) (,565*) (,608*) (-,085) (,048) (-.396*)
Pob. no agr. rural (10) ,140 ,267 -,087 -,158 -,493 -,013 -,661 ,057 -,210(,377*) {,532*) (,101) (,131) (-,106) (.282) (-,429*) (-,324) (-,110)
Migración (9) ,396 ,596 ,244 ,340 -,057 - ,047 ,276(,703*) (,576*) (,481*) (,483*) (.526*) (,279) (-,424*)
Urbanización prúv. (8) -,065 ,586 ,058 ,376 ,538 -.056 ,215(,420*) (,561*) (,352*) (,611*) (,058) (,186) (-,316)
Razón act, masculina (7) ,049 -,118 ,166 - -,161 -,679(,458*) (.230) (.459*) (,300) (-,507*)
Mercado matr. (6) - - ,335 -
,115 (.614*)Analfabetismo (5) (,416*) -,059 ,175 - 3 9
(,120) (,204) (-,527*)Secularización prov. (4) - ,099 -,051
(,354*) (-,442*)5<U(3) ,760 ,825
(,751*) (-1,03)Npcialidad (Im) (2) -,176
(-,412*)Fecun. Matr. ( y (1)
M il tiple R ,402 ,663 ,802 ,671 ,635 ,727 ,684 ,558 ,917 ,859
• “Jornaleros" y “población agraria” se expresan en tanto por ciento, “Migración”: el valor 1,000 expresa un saldo migratorio nulo; un valor por debajo de 1,000 indica emigración, “Urbanización”: porcentaje de población que vive en cascos urbanos de más de 5,000 habitantes, “Ratón de actividad”: población masculina en edades activas / población masculina en edades no activas, “Mercado matrimonial”: razón de mascuiinidad en tomo a la edad media al casarse, “Analfabetismo”: porcentaje de población > 10 años que no sabe leer ni escribir, “Secularización”: porcentaje de voto a la izquierda, “3 q,)” = fallecidos entre 0 y 5 años por mil nacidos, “Nupcialidad” = Im, “Fecundidad matrimonial" =
' « Entre paréntesis: correlaciones simples. Sin paréntesis: coeficientes beta.• El asterisco (®) indica que la correlación es significativa para p » ,01.
1 (.576) ,396 (,703)
Migración
,586 p ----------------------------------Mercado matrimonial
,679(-,507)
(-.527)
Sólo se incluyen las relaciones (beta) que directa o indirectamente explican la variable dependiente en más de 0,300o (-0,300). Entre paréntesis, correlaciones simples; sin paréntesis, los coeficientes beta.