14-CAP 14

20
 195 Irene Moral Peláez Modelos de regresión: lineal simple y regr esión logística 14.1. Introducción Cuando se quiere evaluar la relación entre una variable que suscita especial interés (variable dependiente que suele denominarse Y) respecto a un conjunto de variables (variables independientes, que se denominan X 1 , X 2 , …, X n ) las pruebas de contraste de hipótesis mostradas hasta ahora no nos aportan sufi- ciente información sobre la relación en conjunto de todas ellas, dado que los contrastes de hipótesis que conocemos hasta ahora se basan en probar relacio- nes bivariantes (2 variables), en las que no se tiene en cuenta la posibilidad de que haya otras variables de interés y en las que el sentido de la relación es bidireccional. Es entonces cuando resulta adecuado y conveniente la aplicación de los modelos de regresión. Los modelos de regresión permiten evaluar la relación entre una variable (dependiente) respecto a otras variables en conjunto (independientes). Los modelos re regresión se expresan de la siguiente forma: Y = f (x 1 , x 2 , …) + ε. El objetivo principal de construir un modelo de regresión puede ser, por ejemplo, evaluar cómo afecta el cambio en unas características determinadas 14 14-CAP 14 3/12/06, 12:25 195

description

economia

Transcript of 14-CAP 14

  • 195

    Irene Moral Pelez

    Modelos de regresin: linealsimple y regresin logstica

    14.1. Introduccin

    Cuando se quiere evaluar la relacin entre una variable que suscita especialinters (variable dependiente que suele denominarse Y) respecto a un conjuntode variables (variables independientes, que se denominan X1, X2, , Xn) laspruebas de contraste de hiptesis mostradas hasta ahora no nos aportan sufi-ciente informacin sobre la relacin en conjunto de todas ellas, dado que loscontrastes de hiptesis que conocemos hasta ahora se basan en probar relacio-nes bivariantes (2 variables), en las que no se tiene en cuenta la posibilidad deque haya otras variables de inters y en las que el sentido de la relacin esbidireccional. Es entonces cuando resulta adecuado y conveniente la aplicacinde los modelos de regresin. Los modelos de regresin permiten evaluar larelacin entre una variable (dependiente) respecto a otras variables en conjunto(independientes). Los modelos re regresin se expresan de la siguiente forma: Y= f (x1, x2, ) + .

    El objetivo principal de construir un modelo de regresin puede ser, porejemplo, evaluar cmo afecta el cambio en unas caractersticas determinadas

    14

    14-CAP 14 3/12/06, 12:25195

  • 196

    (variables independientes) sobre otra caracterstica en concreto (variable de-pendiente), denominado modelo con fines explicativos; o tambin nuestro objetivopodra ser intentar estimar o aproximar el valor de una caracterstica (variabledependiente) en funcin de los valores que pueden tomar en conjunto otraserie de caractersticas (variables independientes), denominado entonces mode-lo con fines predictivos.

    Existen varias opciones para estimar un modelo de regresin, de entre losque destacan por su facilidad de aplicacin e interpretacin, el modelo de regre-sin lineal y el modelo de regresin logstica. Teniendo en cuenta el tipo devariable que deseemos estimar (variable dependiente o respuesta) aplicaremosun modelo de regresin u otro. Simplificando, cuando la variable dependiente esuna variable continua, el modelo de regresin ms frecuentemente utilizado esla regresin lineal, mientras que cuando la variable de inters es dicotmica (esdecir, toma dos valores como s/no, hombre/mujer) se utiliza la regresin logstica.Otro tipo de modelos de regresin utilizados, aunque no tan frecuentemente,son la regresin no lineal o la regresin ordinal que estiman una serie de mode-los matemticos que pueden ajustarse mejor que un modelo lineal.

    14.2. Condiciones de aplicabilidad

    La regresin logstica y los modelos de regresin lineal no pueden ser aplica-dos sobre cualquier tipo de variable. Por ejemplo, la regresin lineal no es apli-cable cuando la variable de inters es categrica, dado que al estimar el modelode regresin no se respeta la restriccin de que los valores de la variable depen-diente oscilan entre una serie de valores que son los permitidos o reales, siendoel resto de valores imposibles. Es por eso que resulta ms conveniente utilizaren ese caso el modelo de regresin logstica. Sin embargo, ambos modelos deregresin se construyen aplicando modelos matemticos similares. Al aplicar unmodelo de regresin logstica, en lugar de construir un modelo de regresinpara estimar los valores reales de la variable de inters, se construye una funcinbasada en el clculo de la probabilidad de que la variable de inters adopte elvalor del evento previamente definido, de la manera siguiente:

    Y = ln (p / (1-p))

    De forma que la nueva variable dependiente construida que vamos a estimars puede tomar cualquier valor (no est restringida a un rango de valores) ypodemos recurrir a los mtodos de estimacin de los modelos de regresintradicionales para construir el modelo de regresin logstica.

    14-CAP 14 3/12/06, 12:25196

  • 197

    Tras realizar una serie de transformaciones matemticas se pude deducir que:

    En definitiva, en el modelo de regresin logstica estimaremos un modelo deregresin que en lugar de realizar estimaciones para la variable dependiente real,las realizar sobre la funcin de probabilidad asociada a ella, pudiendo entoncesaplicar los mtodos de estimacin aplicables al modelo de regresin lineal, diferen-cindose entonces ambos modelos nicamente en la interpretacin de resultados.

    Para entender en qu consiste un modelo de regresin as como para interpre-tar correctamente los resultados debemos relacionar dos conceptos: el coeficien-te de correlacin y el anlisis de la varianza. Se puede demostrar que existe unarelacin entre el coeficiente de correlacin (r) y el anlisis de la varianza de laregresin, de tal forma que el cuadrado de r, llamado coeficiente de determina-cin, multiplicado por 100 se interpreta como el porcentaje de la varianza de lavariable dependiente que queda explicada por el modelo de regresin.

    14.3. Variables a introducir en un modelo de regresin

    Ambos modelos de regresin permiten que las variables utilizadas para po-der estimar el modelo (variables independientes) puedan ser de cualquier tipo,no existen restricciones sobre ellas. nicamente se deben tener en cuenta unaserie de consideraciones.

    14.3.1. Tipos de variables a introducir en el modelo

    Cuando la variable que se incluya en el modelo sea una variable continua, seintroducir la variable real o bien alguna transformacin de ella (logaritmo, cua-drado, etc.), cuando sea necesario. Sin embargo cuando la variable que se quieraintroducir en el modelo sea una variable categrica de ms de dos categoras, senecesitar recurrir a una serie de transformaciones para que los resultados ob-tenidos sobre la variable en cuestin sean correctos e interpretables. En dichocaso, no se podr introducir la variable original en el modelo, sino que si lavariable tiene n categoras debern expresarse cada una de estas categorasmediante n-1 variables dummy. Una variable dummy es una variable construidaartificialmente y que nicamente puede tomar los valores 0 o 1. Es posible ex-presar la misma informacin contenida en una variable de n categoras mediantela combinacin de n-1 variables dummy. Adicionalmente estas variables permitenrealizar todas las comparaciones necesarias respecto a las n categoras de lavariable original en el modelo de regresin.

    1p =- modelo de regresin1 + e

    14-CAP 14 3/12/06, 12:25197

  • 198

    Por ejemplo: Partimos con la variable tabaquismo que tiene 3 categoras yque introduciremos en el modelo mediante las variables dummy tabac1 y tabac2.Tabac1 nos mostrar los resultados de comparar la categora de fumador versuslas categoras de no fumador y exfumador, mientras que tabac2 nos mostrarlos resultados de comparar las categoras de fumador y exfumador versus nofumador. Es condicin indispensable que para interpretar los resultados obteni-dos al estimar el modelo de regresin, todas las variables dummy que represen-tan las categoras de una variable original han de interpretarse en conjunto, nopudiendo seleccionar nicamente las que hayan resultado estadsticamente sig-nificativas. La codificacin de las variables dummy tabac1 y tabac2 se muestra enla Tabla 19:

    Tabla 19. Ejemplo de variables dummy creadas para una variable con 3 categoras.

    La variable Tabac1 podra interpretarse como una variable que indica si es ono fumador activo y Tabac2 como si es no fumador y no ha fumado alguna vez.Los paquetes estadsticos realizan la transformacin de la variables categricasen las variables dummy necesarias automticamente y no es necesario realizartodo el proceso manualmente, nicamente debe identificarse al programa cules el nombre de las variables que requieren este tipo de transformacin.

    Es importante conocer este requisito al construir un modelo de regresin,principalmente al interpretar los resultados obtenidos, dado que en este tipo devariables, obtendremos un resultado global y otro para cada una de las variablesdummy, debiendo conocerse qu comparacin se realiza a travs de cada una delas variables dummy que intervienen en el modelo para poder explicar los resul-tados correctamente.

    14.3.2. Seleccin de las variables a introducir en el modelo

    La eleccin de las variables que deben introducirse en el modelo no deberasuponer un problema, dado que al estar el objetivo del estudio concretamentedefinido, automticamente las variables que son de mayor inters tambin que-dan identificadas. Sin embargo, no siempre queda todo tan evidente y se planteaencontrar relaciones posibles para evaluar una nica respuesta claramente

    Tabaquismo Tabac1 Tabac2

    Fumador 1 0

    No fumador 0 1

    Exfumador 0 0

    14-CAP 14 3/12/06, 12:25198

  • 199

    identificada. Puede ocurrir que aunque el objetivo de nuestro estudio est biendefinido, no dispongamos de informacin previa o de indicio alguno que nospueda indicar qu aspectos son los que suscitan mayor inters. Si a este hechose le aade, el irresistible impulso de registrar ms informacin de la que real-mente necesitamos por si posteriormente pudiramos recurrir a ella (excesode informacin), construir un modelo de regresin resulta un proceso laboriosoy complicado. Por lo tanto, recomendamos desde el inicio elegir con esmero lasvariables indispensables para su anlisis estadstico.

    Resulta imprescindible como primer contacto con el modelo analizar la rela-cin bivariante entre la caracterstica de nuestro inters y el resto de variablesregistradas durante el estudio una a una. Como criterios para seleccionar aque-llas variables a introducir en el modelo de regresin podramos aplicar los si-guientes:

    o en primera instancia y entre otros criterios igualmente vlidos, introduciren el modelo aquellas variables que resultaron estadsticamente significa-tivas en las comparaciones bivariantes realizadas previamente.

    o en un segundo plano debera considerarse la conveniencia de incluir en elmodelo adicionalmente aquellas variables que consideremos especialmenteimportantes o influyentes, como por ejemplo la edad o el gnero, si sos-pechamos que a pesar de no haber resultado estadsticamente significati-vas, podran modificar o intervenir en nuestros resultados,

    o otra serie de variables de las que hayamos tenido conocimiento de suinfluencia a travs de estudios previos.

    14.4. Concepto de interaccin

    Otro concepto importante que debe ser tenido en cuenta al construir unmodelo de regresin es que pueden introducirse trminos independientes ni-cos (una sola variable, por ejemplo efecto del tabaco) y adems las interaccionesentre variables de cualquier orden (efecto del tabaco segn gnero), si conside-ramos que pueden ser de inters o afectar a los resultados. Al introducir lostrminos de interaccin en un modelo de regresin es importante para la co-rrecta estimacin del modelo respetar un orden jerrquico, es decir siempreque se introduzca un trmino de interaccin de orden superior (xyz), debenintroducirse en el modelo los trminos de interaccin de orden inferior (xy,xz, yz) y por supuesto los trminos independientes de las variables que parti-cipan en la interaccin (x, y, z).

    Por ejemplo, supongamos que deseamos construir un modelo de regresinpara estimar la prevalencia de hipertensos en una muestra y decidimos que es

    14-CAP 14 3/12/06, 12:25199

  • 200

    imprescindible evaluar si la interaccin de las variables tabaco, gnero y edad essignificativa o no al estimar dicha prevalencia, por lo que introduciremos el tr-mino de interaccin tabaco * gnero * edad. Automticamente deberanintroducirse igualmente en el modelo los trminos de interaccin de ordeninferiores, es decir, tabaco*gnero, tabaco*edad y gnero*edad, as como lostrminos independientes tabaco, gnero y edad para poder estimar el modelocorrectamente. Si se introducen en un modelo de regresin trminos deinteraccin y resultan estadsticamente significativos, no se podrn eliminar delmodelo los trminos de interaccin de orden inferiores ni los trminos inde-pendientes de las variables que participan en la interaccin para simplificarlo,deben mantenerse, aunque no resulten estadsticamente significativos.

    14.5. Construccin del modelo de regresin

    Para construir un modelo de regresin, nos centraremos en el tipo de varia-bles que deseamos introducir (categricas o continuas) y posteriormente, vere-mos los mtodos que los paquetes estadsticos nos ofrecen actualmente paraobtener el modelo de regresin ms fiable.

    14.5.1. Seleccin de las variables del modelo

    Existen varios mtodos para construir el modelo de regresin, es decir, paraseleccionar de entre todas las variables que introducimos en el modelo, culesson las que necesitamos para explicarlo. El modelo de regresin se puede cons-truir utilizando las siguientes tcnicas:

    o Tcnica de pasos hacia adelante (Forward)): consiste en ir introduciendolas variables en el modelo nicamente si cumplen una serie de condicio-nes hasta que no se pueda introducir ninguna ms, hasta que ningunacumpla la condicin impuesta;

    o Tcnica de pasos hacia atrs (Backward): se introducen en el modelo to-das las variables y se van suprimiendo si cumplen una serie de condicio-nes definidas a priori hasta que no se pueden eliminar ms, es decir ningu-na variable cumpla la condicin impuesta;

    o Tcnica por pasos (Stepwise): combina los dos mtodos anteriores, adelan-te y atrs introduciendo o eliminando variables del modelo si cumplen unaserie de condiciones definidas a priori hasta que ninguna variable satisfaganinguna de las condiciones expuestas de entrada o salida del modelo

    o Tcnica de introducir todas las variables obligatoriamente (Enter): Estaltima tcnica de seleccin de variables para construir el modelo de re-

    14-CAP 14 3/12/06, 12:25200

  • 201

    gresin, produce que el proceso de seleccin de las variables sea manual,partiendo de un modelo inicial, en el que se obliga a que entren todas lasvariables seleccionadas, se va evaluando qu variable es la que menosparticipa en l y se elimina, volviendo a construir un nuevo modelo deregresin aplicando la misma tcnica, pero excluyendo la variable selec-cionada y aplicando el mismo proceso de seleccin. Este proceso se repi-te reiteradamente hasta que se considere que el modelo obtenido es elque mejor se ajusta a las condiciones impuestas y que no se puede elimi-nar ninguna variable ms de las que los componen.

    14.5.2. Mtodos de construccin del modelo de regresin

    Para evaluar la adecuacin de los modelos construidos, es conveniente co-menzar a evaluar el modelo saturado, es decir el modelo que contiene todas lasvariables de inters que queramos evaluar y todas las interacciones posibles.Progresivamente se van eliminando del modelo aquellos trminos no significati-vos, respetando el modelo jerrquico y comenzando por los trminos deinteraccin superiores. Como hemos dicho anteriormente, si un trmino deinteraccin es significativo, no podrn eliminarse del modelo los trminos deinteraccin de grado inferior, ni los trminos independientes de las variables queparticipan en la interaccin. Las variables introducidas en el modelo se van elimi-nando progresivamente a cada nuevo modelo que se construye en base a losresultados obtenidos en el modelo anterior, y se van evaluando los nuevos mo-delos, de la manera que se explicar ms adelante. Es importante observar quelos coeficientes de las variables que permanezcan en el modelo no varan deforma exagerada tras la eliminacin de alguno de los trminos del modelo, dadoque si as sucediera, podra tratarse de un factor de confusin y por tanto debe-ra mantenerse la variable en cuestin en el modelo, para permitir el ajuste delresto de variables y no obtener resultados artificiales.

    14.6. Obtencin y validacin del modelo ms adecuado

    Los modelos de regresin pueden ser validados en otro conjunto de datosde similares caractersticas, extrados de la misma poblacin, por ejemplo, conel fin de evaluar su fiabilidad. Otra posibilidad, cuando se trabaja con muestrasgrandes, es dividir aleatoriamente la muestra en dos grupos y utilizarlos paraobtener dos modelos con el fin compararlos para comprobar si se obtienenresultados similares.

    Por otro lado, identificar el modelo ms adecuado consistir en evaluar dife-

    14-CAP 14 3/12/06, 12:25201

  • 202

    rentes parmetros de los modelos de regresin. El modelo de regresin lineal seestima mediante una tcnica denominada mtodo de los mnimos cuadrados,mientras que en la regresin logstica se utiliza el mtodo de mxima verosimi-litud.

    14.6.1. Modelo de regresin lineal

    El mtodo de los mnimos cuadrados, consiste en calcular la suma de lasdistancias al cuadrado entre los puntos reales y los puntos definidos por la rectaestimada a partir de las variables introducidas en el modelo, de forma que lamejor estimacin ser la que minimice estas distancias. Para poder decidir qumodelo es el que mejor se adecua a los datos de los que disponemos en elmodelo de regresin lineal se comparan la F parcial obtenida en cada uno de losmodelos de regresin construidos. Si utilizamos cualquiera de las tcnicas deseleccin de variables expuestas previamente, se calcular dicho coeficiente cadavez que se elimine o introduzca una variable, dado que al realizar este proceso,en realidad se estn estimando nuevos modelos de regresin. En todos los casosel paquete estadstico realiza la operacin automticamente, exceptuando si uti-lizamos la tcnica de obligar a entrar todas las variables, en cuyo caso seremosnosotros quienes vayamos estimando todos los modelos posibles manualmente,para realizar posteriormente la seleccin.

    Otro mtodo para validar un modelo es evaluar los residuos de la regresin,es decir la diferencia entre el valor estimado por el modelo y el valor observadoy por tanto la parte que el modelo de regresin no es capaz de explicar. Si elmodelo de regresin resulta adecuado para explicar nuestros datos, los resi-duos deberan distribuirse segn una ley normal de media 0 y varianza constan-te. Este supuesto puede comprobarse grficamente al representar mediante unanube de puntos cmo se distribuyen los residuos de nuestro modelo de regre-sin. A travs de este mtodo se puede diagnosticar la falta de linealidad o laheterocedasticidad (cuando la varianza no es constante).

    El peligro de introducir en el modelo de regresin valores extremos, a pesarde ser valores realmente registrados, es que pueden provocar alteraciones im-portantes en los resultados de la regresin lineal, al estimarse sta en base almtodo de los mnimos cuadrados, como se ha explicado y basarse en el clculode las distancias entre puntos. Por tanto, resulta necesario tenerlos en conside-racin al ajustar el modelo, estimando dos modelos: uno incluyendo y otro ex-cluyendo dichos valores y finalmente valorando cules son los resultados quems se adecuan a nuestros propsitos.

    14-CAP 14 3/12/06, 12:25202

  • 203

    14.6.2. Modelo de regresin logstica

    Por su parte, la identificacin del mejor modelo de regresin logstica serealiza mediante la comparacin de modelos utilizando el cociente de verosimi-litud, que indica a partir de los datos de la muestra cuanto ms probable es unmodelo frente al otro. La diferencia de los cocientes de verosimilitud entre dosmodelos se distribuye segn la ley de la Ji-cuadrado con los grados de libertadcorrespondientes a la diferencia en el nmero de variables entre ambos mode-los. Si a partir de este coeficiente no se puede demostrar que un modelo resultamejor que el otro, se considerar como el ms adecuado, el ms sencillo.

    14.7. Factores de confusin

    Durante el proceso de seleccin del modelo de regresin ms adecuado, elque mejor se ajusta a los datos de los que disponemos, adems de seguir elprocedimiento explicado anteriormente, hay que considerar un ltimo aspectoadicional, especialmente si el proceso de seleccin de variables se hace median-te el mtodo manual de obligar a que todas las variables entren en el modelo yes el propio investigador el que paso a paso va construyendo el modelo deregresin ms conveniente.

    Durante el proceso de incorporacin de variables, al eliminar una variable deuno de los modelos de regresin estimados, hay que observar si en el modelode regresin resultante al excluir esa variable, los coeficientes asociados al restode variables introducidas en el modelo varan significativamente respecto almodelo de regresin que s inclua dicha variable. Si as sucede, significa quedicha variable podra ser un factor de confusin, al no mostrar una relacinsignificativa con la variable que estamos estudiando directamente, pero s indi-rectamente, al relacionarse con otras variables, que en s mismas pueden estarsignificativamente relacionadas con la variable de estudio. Por lo tanto, en dichocaso, es conveniente no excluir la variable en cuestin del modelo de regresin,aunque no cumpla los requisitos para permanecer en l, obligando a que perma-nezca, de modo que aunque no se incluya su interpretacin al evaluar los resul-tados del modelo, ajustemos el resultado del resto de variables seleccionadaspor su posible efecto.

    Por ejemplo: Al estudiar una muestra aleatoria de una poblacin de diabti-cos y analizando la posible relacin lineal entre la Tensin arterial sistlica (TAS)como variable respuesta y la edad y el gnero de los pacientes, obtendramos unmodelo de regresin donde el gnero de los pacientes sera significativo, esdecir, existira una ecuacin diferente de prediccin para hombres y otro para

    14-CAP 14 3/12/06, 12:25203

  • 204

    mujeres. Sin embargo, si controlramos tambin el ndice de masa corporal (IMC)introducindolo en la ecuacin, posiblemente la variable de gnero no serasignificativa, mientras que pasara a serlo el IMC. En ese caso el IMC sera unfactor de confusin que deberamos incluir en la ecuacin y ello aunque su coefi-ciente no fuera significativo.

    Aprovechamos este punto para decir que debe tenerse cuidado con los tr-minos relacin, correlacin o significacin y causalidad. Que dos fac-tores estn relacionados no implica de ninguna manera que uno sea causa delotro. Es muy frecuente que una alta dependencia indique que las dos variablesdependen de una tercera que no ha sido medida (el factor de confusin).

    14.8. Interpretacin de los resultados de los modelos de regresin

    En el modelo de regresin lineal el resultado que obtenemos se puede inter-pretar como la magnitud del cambio de la variable dependiente si incrementamosen una unidad el valor de la variable independiente (en el caso de que la variableindependiente sea de tipo continuo) y la magnitud del cambio en la variabledependiente si una caracterstica determinada est o no presente (en el caso detratar variables de tipo categrico).

    Para que la aplicacin de un modelo de regresin lineal resulte procedentedebe cumplirse que los valores de respuesta (y) sean independientes entre s y larelacin entre las variables sea lineal de la forma:

    Y = f (x1, x2, ) = 0 + 1 X1 + 2 X2 + 3 X3 + Para poder interpretar el resultado del modelo de regresin logstica debe-

    mos recurrir al concepto de odds, una de las medidas de las que se disponepara poder cuantificar el riesgo. De esta forma el o la odds se define como elcociente de la probabilidad de presentar una caracterstica y la probabilidad deno presentarla, o lo que es lo mismo el cociente del nmero de casos quepresentan la caracterstica entre el nmero de casos que no la presentan.

    Odds= p / (1-p)

    Se pueden comparar dos odds, por ejemplo entre los pacientes que padecenuna cierta enfermedad si presentan cierta caracterstica o no la presentan, enforma de cociente de ambas (denominada odds ratio), de manera que podamosconcluir si por ejemplo la enfermedad es ms frecuente entre los pacientes quepresentan dicha caracterstica o no la presentan (los trminos Odds y Odds-

    14-CAP 14 3/12/06, 12:25204

  • 205

    ratio a los que se hace referencia en este apartado y se explican con msdetalle en el captulo 15. Se puede demostrar que los coeficientes obtenidos enla regresin logstica son medidas que cuantifican el riesgo de presentar ciertacaracterstica respecto a no presentarla en base a la variable de estudio, demanera que:

    Exp () = ORDonde es el coeficiente resultado de la regresin logstica asociado a una

    cierta variable participante en el modelo. Cuando la variable independiente tra-tada es numrica, este valor se interpreta como el cambio en el riesgo cuando seincrementa en uno el valor de la variable, mientras que el resto de variablespermanecen constantes.

    Siempre que se construye un modelo de regresin es fundamental, antes depasar a extraer conclusiones, el corroborar que el modelo calculado se ajustaefectivamente a los datos usados para estimarlo. En el caso de la regresin log-stica una idea bastante intuitiva es calcular la probabilidad de aparicin del suce-so, presencia de hipertensin en nuestro caso, para todos los pacientes de lamuestra. Si el ajuste es bueno, es de esperar que un valor alto de probabilidad seasocie con presencia real de hipertensin, y viceversa, si el valor de esa probabi-lidad calculada es bajo, cabe esperar tambin ausencia de hipertensin. Esta ideaintuitiva se lleva a cabo formalmente mediante la prueba conocida como deHosmer-Lemeshow (1989), que bsicamente consiste en dividir el recorrido dela probabilidad en deciles de riesgo (esto es probabilidad de hipertensin 0.1, 0.2, y as hasta 1) y calcular tanto la distribucin de hipertensos, como nohipertensos prevista por la ecuacin y los valores realmente observados. Am-bas distribuciones, esperada y observada, se contrastan mediante una prueba deJi-Cuadrado.

    Finalmente, debe evitarse que en el modelo de regresin planteado puedaproducirse el fenmeno de la colinealidad, que dara lugar a soluciones inesta-bles. Se habla de colinealidad cuando dos o ms variables independientes que seintroducen en el modelo de regresin estn altamente correlacionadas entre s.

    14.9. Ejemplos

    Para conocer cmo se estima un modelo de regresin, se presentan a conti-nuacin dos ejemplos que ilustran en primer lugar, un modelo de regresinlineal con la variable dependiente continua y, en segundo lugar, un modelo deregresin logstica, donde la variable respuesta es de tipo binario.

    14-CAP 14 3/12/06, 12:25205

  • 206

    14.9.1. Ejemplo de modelo de regresin lineal

    Ejemplo 1: Se desea conocer qu variables pueden estar relacionadas con lascifras de tensin arterial. Para ello, se desarrolla un estudio que incluye a 71pacientes que acuden a consultas del mdico de atencin primaria. A estos pa-cientes se les hacen diversas mediciones. Se registra informacin sobre la princi-pal variable de inters, la tensin arterial sistlica (TAS) y diversas caractersti-cas sociodemogrficas como la edad y el gnero, medidas antropomtricas comoel peso y la altura y otras variables como tabaquismo y presencia de enfermeda-des concomitantes como la diabetes o la hipercolesterolemia. El objetivo delestudio sera identificar qu factores son los que se relacionan con el hecho depresentar cifras altas de TAS.

    La Figura 60 y la Figura 61 muestran los pasos a seguir para la obtencin delmodelo anterior mediante el paquete estadstico SPSS. En primer lugar se selec-ciona el tipo de regresin y a continuacin, se seleccionan las variables indepen-dientes y la respuesta (variable dependiente), as como aspectos tcnicos delmismo, como puede ser el mtodo a utilizar para la seleccin de variables.

    Figura 60. Obtencin de un modelo de regresin lineal por mens en SPSS

    14-CAP 14 3/12/06, 12:25206

  • 207

    Figura 61. Obtencin de un modelo de regresin lineal por mens en SPSS. Variablesintroducidas y mtodo de introduccin de variables

    En primer lugar, se presenta un resumen de los modelos obtenidos: en nues-tro caso, se han obtenido dos modelos (Figura 62). Observamos en este resu-men que aparece R cuadrado (R2), que es el cuadrado del coeficiente de corre-lacin muestral, tambin denominado coeficiente de determinacin. En conse-cuencia, este coeficiente indica la proporcin de variabilidad total de la variabledependiente explicada por el modelo de regresin (recta de regresin). Portanto, el segundo modelo, con una R2 = 0,289, es el que mejor explica la variabi-lidad de la TAS.

    Los resultados del anlisis de la varianza (ANOVA) se proporcionan paraevaluar la significacin del modelo. Cuanto mayor sea el estadstico F, mejor serla prediccin mediante el modelo lineal. De nuevo, si el p-valor asociado a F esmenor a alfa, se rechazarn las hiptesis nulas en las que se plantea que no hayrelacin entre las variables. Como se muestra en la siguiente figura, ambos mo-delos presentan valores de F significativos, por lo tanto, la recta de regresintendr los coeficientes de las variables independientes distintos de cero.

    14-CAP 14 3/12/06, 12:25207

  • 208

    Figura 62. Resultados obtenidos en la evaluacin de un modelo de regresin linealen SPSS. R de los modelos

    Se ha utilizado el mtodo de por pasos hacia delante y atrs para seleccionarlas variables en el modelo. Observamos que el modelo se ha completado en dospasos. En el primero se introdujo la variable edad y en el segundo se volvi aintroducir otra variable, el peso, finalizando en este momento el proceso deseleccin de variables.

    El modelo de regresin que se propone en segundo lugar, explica la TAS deuna persona, en funcin de su edad y su peso. Los coeficientes del modelo deregresin que se presentan en la figura Figura 63 como parte de los resultadosobtenidos en SPSS indican los trminos que modifican el efecto de las varia-bles. El modelo estimado (modelo 2) sera el siguiente:

    Y = 1 X1 + 2 X2 + 3 X3 + .. + n Xn + TAS = 2,056 x Edad + 1,7 x Peso +

    Donde es el error aleatorio que no se puede definir a partir de las variablesincluidas en el modelo.

    14-CAP 14 3/12/06, 12:25208

  • 209

    Figura 63. Resultados obtenidos en la evaluacin de un modelo de regresin linealen SPSS. Coeficientes de los modelos

    A partir de los coeficientes obtenidos, podemos deducir que por cada aode ms que tiene una persona, se incrementa en dos unidades la tensin arterialsistlica, mientras que por cada kilo de ms que pesa una persona, la cifra detensin arterial se incrementar en 1,7 unidades. El peso y la edad son las dosnicas variables que se relacionan con las cifras de TAS en nuestro ejemplo.

    14.9.2. Ejemplo de modelo de regresin logstica

    Ejemplo 2: Siguiendo el ejemplo anterior, supongamos que en lugar de inten-tar evaluar la relacin de las variables descritas con las cifras de TAS, lo que sedesea es evaluar la relacin entre los distintos factores expuestos y el hecho deque un paciente haya sido diagnosticado de hipertenso o no. Es en este momen-to cuando resulta adecuado la aplicacin de un modelo de regresin logstica,considerando como variable dependiente el hecho de que un paciente padezcao no hipertensin. El primer paso para ejecutar dicho modelo en SPSS es selec-cionar el tipo de modelo, tal como se muestra a continuacin.

    14-CAP 14 3/12/06, 12:25209

  • 210

    Figura 65. Obtencin de un modelo de regresin logstica por mens en SPSS. Variables introducidas y mtodo de introduccin de variables

    Figura 64. Obtencin de un modelo de regresin logstica (respuesta binaria) por mens en SPSS

    A continuacin (Figura 65), introducimos la variable dependiente (HTA) y lasvariables independientes: sexo, peso, altura, tabaquismo, diabetes ehipercolesterolemia, indicando cules de ellas son variables categricas. En esteejemplo, lo son todas exceptuando el peso y la talla. El programa SPSS crear lasvariables dummy necesarias para poder crear los modelos, de esta forma debe-remos indicarle a partir de qu categora de la variable debe empezar a crearlas.

    14-CAP 14 3/12/06, 12:25210

  • 211

    Los resultados obtenidos de aplicar este modelo se muestran en la figurasiguiente. En primer lugar, en la tabla de codificacin de variables categricas semuestra un resumen del formato de las variables dummy creadas para poderestimar el modelo de regresin, lo que nos dar la informacin necesaria parapoder posteriormente interpretar los resultados obtenidos. Se le ha asignadointernamente el valor 1 al hecho de que un paciente sea hipertenso, factor quetambin deberemos tener en cuenta al interpretar los resultados.

    Figura 66. Resultados obtenidos en la evaluacin de un modelo de regresin logsticaen SPSS. Correspondencia de las categoras de las variables codificadas con las variablesdummy

    Posteriormente se muestran los coeficientes de las variables introducidas enla ecuacin (Figura 67). En el segundo y ltimo modelo obtenido, se han introdu-cido la variable edad y el gnero (sex), ambas variables con coeficientesestadsticamente significativos (p

  • 212

    Cuando la variable es numrica, como es en este caso la edad, es una medidaque cuantifica el cambio en el riesgo cuando se pasa de un valor del factor aotro, permaneciendo constantes el resto de variables. As el odds ratio quesupone pasar de la edad X1 a la edad X2, siendo b el coeficiente correspondientea la edad en el modelo logstico es OR = exp[ b x (X2-X1)]. Se trata de unmodelo en el que el aumento o disminucin del riesgo al pasar de un valor aotro del factor es proporcional al cambio, es decir a la diferencia entre los dosvalores, pero no al punto de partida, esto quiere decir que el cambio en el riesgoes el mismo cuando pasamos de 40 a 50 aos que cuando pasamos de 80 a 90.

    Cuando el coeficiente b de la variable es positivo obtendremos un odds ratiomayor que 1 y corresponde por tanto a un factor de riesgo. Por el contrario, si bes negativo el odds ratio ser menor que 1 y se trata de un factor de proteccin.

    Figura 67. Resultados obtenidos en la evaluacin de un modelo de regresin linealen SPSS. Coeficientes de las variables introducidas en la ecuacin.

    El proceso de seleccin de las variables ha finalizado en 2 pasos. La primeravariable introducida en el modelo fue la edad, seguida del gnero (sex), finalizan-do en este momento el proceso de seleccin de las variables. La variable edad seintrodujo en el modelo como una variable continua, por lo que al interpretar losresultados podemos decir que conforme aumenta la edad aumenta el riesgo depadecer hipertensin arterial. Por otra parte, la variable sexo se introdujo comouna variable categrica. Al observar el tipo de codificacin realizada internamen-

    14-CAP 14 3/12/06, 12:25212

  • 213

    te (mostrada en la Figura 66), podemos concluir que el hecho de ser hombre(codificado como 1), aumenta aproximadamente 4 veces (OR=4,174) el riesgode padecer hipertensin arterial. En conclusin el hecho de ser hombre y/o demayor edad, aumenta el riesgo de padecer hipertensin arterial.

    14.10. Consideraciones importantes

    Se conoce como anlisis de regresin al mtodo estadstico que permiteestablecer una relacin matemtica entre un conjunto de variables X1, X2 .. Xk(covariantes o factores) y una variable dependiente Y. Se utiliza fundamentalmen-te en estudios en los que no se puede controlar por diseo los valores de lasvariables independientes con el fin de predecir su valor o bien, explicarlo.

    Un problema fundamental que se plantea a la hora de construir un modelomultivariante es qu factores X1, X2 .. Xk incluir en la ecuacin, de tal manera queestimemos el mejor modelo posible a partir de los datos de nuestro estudio. Sibuscamos un modelo predictivo ser aqul que nos proporcione prediccionesms fiables, ms acertadas; mientras que si nuestro objetivo es construir unmodelo explicativo, buscaremos que las estimaciones de los coeficientes de laecuacin sean precisas, ya que a partir de ellas vamos a efectuar nuestras deduc-ciones. Cumplidos esos objetivos, otra caracterstica deseable de nuestro mo-delo es que sea lo ms sencillo posible.

    La construccin de un modelo de regresin lineal es muy simple, puesto quela estimacin de los coeficientes para cada variable resulta muy intuitiva. Ade-ms, el hecho de modelizar una variable numrica, implica que podamos obte-ner distintos valores que correspondern a los valores estimados de la variablea predecir, siempre en funcin de nuestras variables dependientes.

    En cuanto a la regresin logstica, el objetivo primordial que resuelve estatcnica es el de cuantificar cmo influye en la probabilidad de aparicin de unsuceso, habitualmente dicotmico, la presencia o no de diversos factores y elvalor o nivel de los mismos. Tambin puede ser usada para estimar la probabili-dad de aparicin de cada una de las posibilidades de un suceso con ms de doscategoras.

    La eleccin de la tcnica estadstica apropiada debe hacerse en el momentode disear el estudio y en realidad debera ser el primer paso y la primera lneaque se escribiera en el borrador de un protocolo.

    14-CAP 14 3/12/06, 12:25213

  • 214

    14-CAP 14 3/12/06, 12:25214