El Problema de La Colinealidad

download El Problema de La Colinealidad

of 5

Transcript of El Problema de La Colinealidad

  • 8/16/2019 El Problema de La Colinealidad

    1/5

    El problema de la colinealidad

    Es uno de los problemas más desesperantes con que uno se puede encontrar en unanálisis de regresión. Como ya vimos al hablar de la estimación de los coeficientes, sien un modelo de RLM alguna variable independiente es combinación lineal de otras, elmodelo es irresoluble, debido a que, en ese caso, la matri X'X es singular, es decir, sudeterminante es cero y no se puede invertir.

    ! este fenómeno se le denomina colinealidad. "ue una variable X 1 sea combinaciónlineal de otra X 2, significa que ambas están relacionadas por la e#presión$% & β% ' β($(, siendoβ% y β( constantes, por lo tanto el coeficiente de correlación entre

    ambas variables será %.

    )el mismo modo, que una variable X 1 sea combinación lineal de otras X 2 , ...,

     X i  con i *(, significa que dichas variables están relacionadas por la e#presión $% & β% *

    ' β( $( ' ... 'βi $i, siendo β%,..., βi constantes y por tanto, el coeficiente de correlación

    m+ltiple R$%$(,...$i tambi-n será %.

    tro modo, por tanto, de definir la colinealidad es decir que e#iste colinealidad cuandoalguno de los coeficientes de correlación simple o m+ltiple entre algunas de lasvariables independientes es %, es decir, cuando algunas variables independientes estáncorrelacionadas entre s/.

    En la práctica, esta colinealidad e#acta raras veces ocurre, pero s/ surge con ciertafrecuencia la llamada casi-colinealidad , o por e#tensión, simplemente colinealidad enque alguna variable es 0casi0 combinación lineal de otra u otras, o dicho de otro modo,algunos coeficientes de correlación simple o m+ltiple entre las variables independientesestán cercanos a %, aunque no llegan a dicho valor.

    En este caso la matri X'X es casi1singular, es decir su determinante no es cero pero esmuy peque2o. Como para invertir una matri hay que dividir por su determinante, enesta situación surgen problemas de precisión en la estimación de los coeficientes, yaque los algoritmos de inversión de matrices pierden precisión al tener que dividir porun n+mero muy peque2o, siendo además inestables.

    !demás, como la matri de varianas de los estimadores es proporcional a X'X, resultaque en presencia de colinealidad los errores estándar de los coeficientes son grandes3hay imprecisión tambi-n en sentido estad/stico4.

    5or consiguiente, a la hora de plantear modelos de RLM conviene estudiar previamentela e#istencia de casi1colinealidad 3la colinealidad e#acta no es necesario estudiarla

    previamente, ya que todos los algoritmos la detectan, de hecho no pueden acabar laestimación4. Como medida de la misma hay varios estad/sticos propuestos, los mássencillos son los coeficientes de determinación de cada variable independiente contodas las demás, es decir

  • 8/16/2019 El Problema de La Colinealidad

    2/5

    y, relacionados con ellos, el factor de inflación de la variana 3FIV 4 y la tolerancia 3T 4,definidos como

    6na regla emp/rica, citada por 7leinbaum, consiste en considerar que e#istenproblemas de colinealidad si alg+n FIV es superior a %8, que corresponde a alg+nR(i 8,9 y :i ; 8,%.

    !unque puede e#istir colinealidad con ba?os, además puede haber colinealidadesque no impliquen a todas las variables independientes y que, por tanto, no son biendetectadas por el FIV .

    tra manera, más completa, de detectar colinealidad es realiar un análisis decomponentes principales de las variables independientes. Esta t-cnica esmatemáticamente comple?a y aqu/ se hace sólo un resumen de la misma necesario

    para entender el diagnóstico de la colinealidad.

    @e denominan componentes principales de un con?unto de variables a otras variables,combinación lineal de las originales y que tienen tres propiedades caracter/sticasA

    i4 son mutuamente independientes 3no están correlacionadas entre s/4.

    ii4 mantienen la misma información que las variables originales.

    iii4 tienen la má#ima variana posible con las limitaciones anteriores.

    )e hecho, para modelos predictivos los componentes principales son las variables

    independientes ideales.

    La variana de cada componente principal es un autovalor  3n+mero asociado a unamatri4 de la matri de varianas1covarianas de las variables originales.

    El n+mero de autovalores nulos indica el n+mero de variables que son combinaciónlineal de otras 3el n+mero de colinealidades e#actas4 y autovalores pró#imos a ceroindican problemas graves de colinealidad.

    El cálculo de los autovalores permite, por lo tanto, determinar no sólo la e#istencia decolinealidad, sino tambi-n el n+mero de colinealidades.

    5ara determinar cuándo un autovalor peque2o está suficientemente pró#imo a cero seusa su valor relativo con respecto al mayor, en este sentido, para cada autovalor sedefine elíndice de condición como la ra/ cuadrada del cociente entre el mayor de ellosy dicho autovalor y se denomina número de condición al mayor de los /ndices decondición.

    5ara Belsley /ndices de condición entre y %8 están asociados con una colinealidadd-bil, mientras que /ndices de condición entre D8 y %88 se2alan una colinealidadmoderada a fuerte.

    http://www.hrc.es/bioest/Reglin_15.html#kleinhttp://www.hrc.es/bioest/Reglin_15.html#Belshttp://www.hrc.es/bioest/Reglin_15.html#Belshttp://www.hrc.es/bioest/Reglin_15.html#klein

  • 8/16/2019 El Problema de La Colinealidad

    3/5

    6na ve determinada la presencia y el n+mero de colinealidades, es convenienteaveriguar qu- variables están implicadas en ellas. 6sando ciertas propiedades de lamatrices se puede calcular la proporción de la variana de las variables sobre cadacomponente.

    @i dos o más variables tienen una proporción de variana alta en un componente indica

    que esas variables están implicadas en la colinealidad y, por tanto, la estimación de suscoeficientes está degradada por la misma.

    Belsley propone usar con?untamente los /ndices de condición y la proporción dedescomposición de variana para realiar el diagnóstico de colinealidad, usando comoumbral de proporción alta 8, de modo que, finalmente, dicho diagnóstico se haráA

    Los /ndices de condición altos 3mayores que D84 indican el n+mero de colinealidades yla magnitud de los mismos mide su importancia relativa.

    @i un componente tiene un /ndice de condición mayor que D8 y dos o más variablestienen un proporción de variana alta en el mismo, esas variables son colineales.

    Como ya se indicó más arriba, la me?or solución a los problemas de colinealidadconsiste en plantear el modelo de regresión con los componentes principales en lugarde con las variables originales, si bien esta solución sólo está indicada en los modelospredictivos.

    En los modelos estimativos no tiene sentido, ya que el inter-s del modelo es, ?ustamente, estimar el efecto sobre la variable independiente de una variabledeterminada y no interesa, por lo tanto, usar otras variables distintas.

    tras soluciones alternativas planteables en ambos tipos de modelos pueden serAcambios de escala en las variables, incluyendo el centrado de las mismas 3restar a

    cada variable su media4 o, incluso, eliminar alguna de las variables colineales.

    En este mismo sentido hay que tener en cuenta que las variables producto introducidaspara estudiar la interacción pueden dan lugar a problemas de colinealidad y no serecomienda, por lo tanto, que un modelo contenga muchos t-rminos de interacción.

    @i una variable toma el mismo valor para todas las observaciones 3tiene variana cero4e#iste colinealidad e#acta con el t-rmino independiente, y si una variable tienevariana casi cero 3toma valores muy pró#imos para todas las observaciones4 e#istecasi1colinealidad.

    5uede ocurrir que una variana peque2a sea debida a una escala inapropiada para la

    variable, por e?emplo, si la edad de su?etos adultos se mide en d-cadas se obtiene unavariana %88 veces menor que si se midiera en a2os. En este caso un cambio de escalapuede evitar el problema de la colinealidad.

    :ambi-n se puede perder precisión en el cálculo de 3X'X41% por la e#istencia devariables con varianas e#cesivamente grandes, en cuyo caso el cambio de escalaaconse?able ser/a el contrario, por e?emplo, podr/a dar lugar a problemas de precisiónmedir la edad en d/as.

    http://www.hrc.es/bioest/Reglin_15.html#Belshttp://www.hrc.es/bioest/Reglin_15.html#Bels

  • 8/16/2019 El Problema de La Colinealidad

    4/5

    Ejemplo 10

    Realiar el estudio de colinealidad en los datos del e?emplo , usando los FIV , los/ndices de condición y la matri de proporción de descomposición de la variana de losestimadores.

    Realiando los análisis de regresión de cada una de las variables independientes contodas las demás, se obtienen los siguientes coeficientes de determinación, tolerancia yfactores de inflación de la variana

    que indican problemas graves de colinealidad.

    bs-rvese que el factor de inflación mayor corresponde a la variable R!@!@,resultado esperable debido a que se han creado tres variables más 3R!@!(, R!$E)y R!$EF4 a partir de ella.

    Los autovalores de la matri X'X y los /ndices de condición, as/ como la matri deproporción de descomposición de variana sonA

    http://www.hrc.es/bioest/Reglin_10.html#EJEM5http://www.hrc.es/bioest/Reglin_10.html#EJEM5

  • 8/16/2019 El Problema de La Colinealidad

    5/5

    Gay un /ndice de condición alto 38,HI%4 y asociado con el mismo hay cinco variables3el t-rmino constante, R!@!@, R!@!(, E)!) y R!$E)4 con proporción de varianaalta.

    Jos indica, por tanto, que R!@!@ es colineal con R!@!(, R!$E) 3no nossorprende4, E)!) y con la constante.

    !l e#istir esta +ltima colinealidad, el centrado de variables podr/a me?orar el problema,se podr/a tambi-n renunciar a estudiar los t-rminos no lineales R!@!( y R!$E).

    Empecemos por centrar las variables continuas.

    R!@!C & R!@!@ 1 D9,HE)!)C & E)!) 1 DK,(R!@C( & R!@!C # R!@!CR$E)C & R!@!C # E)!)CR$EFC & R!@!C # EFERC

    y, para ellas, el diagnóstico de colinealidad quedaA

    y tanto los /ndices de condición como la proporción de variana, indican que elcentrado ha resuelto los problemas de colinealidad.

    Referencias