Obtención simultánea de multicolinealidad y observaciones ...

16
r ESTADISTICA ESPANOLA Vol. 30, Núm. 1 17, i 98$, págs. 83 a 98 Obtención simultánea de multicolinealidad y observaciones influyentes SANTIAG O VELI LLA CER DAN Dpto. de Estadística e I nv. Operativa Facultad de CC. Matemáticas - Uníversidad Complutense Ciudad Universitaria - 28040-Madrid RESUMEN En este artículo se describe un método de obtención simultá- nea de multicolinealidad e influencia en regresión lineal. EI méto- do está basada en técnícas de análisis de condición aplicadas sobre determinadas perturbaciones de la matriz de diseño. EI comportamiento del método se ilustra con un ejemplo práctica, Palabras clave: Análisis de condición, diagnósticas, multi- ĉ olinealidad, observaciones influyentes. Clasificación A.M.S.: 62J05 INTRODUCCION Sea el modelo lineal de regresíón múltiple Y=X f^+^ en el que Y es un vector nx1 de respuestas, X es una matriz nxm de constantes conocidas, ^ es un vector mx 1 de parámetros y E es un vector nx 1 de errores para el que se supondrán las hipótesis usuales E(F) = 0 y

Transcript of Obtención simultánea de multicolinealidad y observaciones ...

Page 1: Obtención simultánea de multicolinealidad y observaciones ...

r

ESTADISTICA ESPANOLAVol. 30, Núm. 1 17, i 98$, págs. 83 a 98

Obtención simultánea de multicolinealidad yobservaciones influyentes

SANTIAG O VELI LLA CER DANDpto. de Estadística e I nv. Operativa

Facultad de CC. Matemáticas - Uníversidad ComplutenseCiudad Universitaria - 28040-Madrid

RESUMEN

En este artículo se describe un método de obtención simultá-nea de multicolinealidad e influencia en regresión lineal. EI méto-do está basada en técnícas de análisis de condición aplicadassobre determinadas perturbaciones de la matriz de diseño. EIcomportamiento del método se ilustra con un ejemplo práctica,

Palabras clave: Análisis de condición, diagnósticas, multi-ĉolinealidad, observaciones influyentes.

Clasificación A.M.S.: 62J05

INTRODUCCION

Sea el modelo lineal de regresíón múltiple

Y=X f^+^

en el que Y es un vector nx1 de respuestas, X es una matriz nxm deconstantes conocidas, ^ es un vector mx 1 de parámetros y E es un vectornx 1 de errores para el que se supondrán las hipótesis usuales E(F) = 0 y

Page 2: Obtención simultánea de multicolinealidad y observaciones ...

K -^ EST =^[)iS7 I( ^ ^1 EtiP> ^^Ol.. ^

V(F;) -= ^' I„ . La matriz X será siempre de rango completo y con términoindepe^,Jiente de modo que X=(1 ^, X,) donde 1 ^ es un vector nx 1 decoordenadas unitarias y X, es una matriz nxp. Por tanto, m=p+1, conveniode constante utilización en este trabajo. EI ajuste de (1,1) por el método demínimos cuadrados es una herramienta estadística de aplicación universalque, pese a su relativa sencillez, esté lastrada por varios incomenientes decarácter práctico.

En este sentido, dos de las principales fuentes de distorsión en losresultados de un anélisis mínimo-cuadrático de (1.1) son la mu/tico/ínea/i-dad entre las columnas de ia matriz X y la aparición de oóservacionesinfluyentes dentro de! conjunto de datos. Tradicionalmente, ambos proble-mas se tratan por separado debido a sus diferentes orígenes y característí-cas.

EI propósíto de este trabajo es proponer un método de abtención simul-tánea de ambos problemas. En la sección 2 se establece la notación y sepresenta la motivación subyacente al método. La sección 3 contiene losresultados teóricos que fundamentan el denominado método reducido aplí-cable, únicamente, a la detección de multicolinealidad y casos extremas. Enla secciór^ 4, esta teoria se aplica al estudio de un ejemplo numérico. Lasección 5 extiende el método reducido al método general y la sección 6contiene los comentarios finales.

2. MOTIVACION

Como es sabido, la multicolinealidad o, en palabras sinónimas, colinealidado mala condicion se refiere a la existencia de dependiencias lineales aproxi-madas entre las variables regresoras del modelo. Esta situación tiende aprovocar la aparición de problemas de ínestabilidad numérica y estadística^en el estimador mínimo-cuadrático usual ^ y, como consecuencía directa, ladisminución de la eficacia y fiabilidad de los mínimos cuadradas lineales. Lamulticolinealidad es un problema muy complejo que puede aparecer pardistíntas razones y, a su vez, puede producir diversos efectos perjudiciales.Interesantes referencias son los trabajos de Belsley, Hush y Welsch (1 982)y Gunst (1983).

Desde el punto de vista de esta exposición es interesante centrarse, bre-vemente, en la detección del problema mediante los Ilamados diagnóstícosque actúan como indicadores del grado de condición de fos datos. EI mode-lo (1.1) puede reescribirse en la forma

Y = 1„ ao+Z a+E (2.1)

Page 3: Obtención simultánea de multicolinealidad y observaciones ...

tJEiTEtiC'IOti SIM(;LTA^fEA DE Mt'L.TIC'(^LItiEALIDAD ó Ĵ

donde Z es la matrii nxp de datos tipificados. Por diversas razones se con-sidera más conveniente analizar !a multícolinealidad entre las columnas deZ que entre las columnas de la matriz original X. Dos clases de diagnósticointeresan fundamentalmente en este trabajo.

Sea Z'Z la matriz de correlaciones asociada al modelo (1.1). Los factoresde inflación de la varianza son los elementos diagonales de la inversa(Z'Z)^'

VIF^=z^^ (^ _ /, . . . , p) . (2.2 )

denotados VI F en virtud de sus iniciales en inglés (variance inflation factor).EI nornbre obedece a la representación var (rz^) _^ z^^ = a2 VI F^ . Los factores(2.2) se deben a 11l^arquard (1970).

Es reconocido que los diagnósticos más eficaces son los que proporcionala descomposición espectral de la matríz de correlación

Z'Z = G D C' ( 2. 3)

En {2.3), C=(;^, ,..., yP ) es una matriz ortogonal pxp de autovectores nor-malizados y D= diag ( a^, ,..., a.p ) contiene, en su diagonal, los autovaloresde Z'Z en sentido creciente (0 ^ ^., < ^2 <. . . < ^p ). Sean Z = (z, , . . . , zp ) y

, ). Puesto ue ^. ^ _ , ^ Z'Z , Z ^ ?, cuando a. ^ ^ 0 es '"Y; _ (^k; q , ^^ ^; = ^) i; ^^ ,

Z^;=,^,;z, +. . . . . . + ^^P;rP o (2.4)

Así, en virtud de 12.4), cuando a.^ es pequeño se tíene una multicolinealidaddescrita por las coordenadas altas del autovector norma^izado correspon-d'+ente y ►^ .

Fínafinente, otros diagnósticos relacionados con el autosistema son Iosíndices de condición r^k =(^p /,^.k )^ (k = 1,..., p) de los cuales el másimportante es el número de condición k(Z) = r^, . Estos indices, de carácteroriginalmente numérico, se deben a Belsley, Kuh y Welsch (1982).

Por otro lado, es conocido que los resultados de un análisis mínimo-cuadrático pueden depender fuertemente de una observación o reducidogrupo de observaciones. La palabra observación engloba la estructura cor^-junta (x; , Y; ) formada por la r-ésima fila de la matriz de diseño x; y lai-ésima respuesta Y;. Se juzga que una observación es influyente cuandosu eliminación del conjunto de datos altera sustancialmente los resultados.

La influencia de una observación puede proceder de cada una de suspartes cornponentes, Así la respuesta Y; puede tener un carácter aberran-te o«outlier» lo que tiende a provocar la aparición de un valor anómalo

w

del correspondiente residual mínimo-cuadrático e; = Y, -- x'; (3. SeaV= X(X'X)^' X' _(v,; ) la matriz de proyección sobre la variedad lineal en-

Page 4: Obtención simultánea de multicolinealidad y observaciones ...

ES^TAD[STIC'A ESPAÑULA

gendrada por las columnas de X. Puesto que, bajo el modelo {1.1), var{e;} _rr2 (1-v;; } es conveniente consíderar una adecuada tipificación de e; paraevitar problemas de varianza no constante y, asi, una herramienta impor-tante en la detección de c<outliers» es el residual estudentizado interno

r; _ (2.5}

Q (1_v„)^

donde Q es el estimador usual de la desviación típica.

De acuerdo con !a partición X= f 1 ^, X, ) es x; =(1,x;, ) donde x;, es de px 1.

Puede ocurrir que x;, esté alejado del centroide x de las variables regresoraslo que suele calíbrarse por !a magnítud del correspondiente elemento dia-gona! v;; de la matriz de proyeccíón V. Sean .Ĉ la matriz nxp de datos cen-trados asocíada a(1.1) y z; !a i--ésima fíla de la matriz Z de {2.1 }. Se pruebaque

1 _ ^ , _^ _v;; _-+ tx;, - x J rz Z} (x;^ - x l=

n

1-- - + z; ^Z'Z )"' z;

n

(2.6)

(2.7)

Por tanto, según {2.6), v-^ -- ^ es la distancía de x. a x relativa a la matriz. de„ ^ ,^

producto escalar {Z'Z)-'. Hoaglin y Welsch t 1978) recomiendan declarar lafiia extrema cuando v;; > 2m/n. Se hablará de v;; como del potencia/ de !aobservación i-ésima.

La investigación de! problema se ha centrado en la elaboracíón de medi-das de la influencia de una observación que combinan, en su mayoría, in-formación procedente del bloque básico (r, , v;; ^. E! libro de Cook y Weis-berg (19$2) es, en este contexto, un manual de referencia fundamental.

Tras este breve resumen de los dos problemas que componen el título deeste trabajo parece estar justificado que, tradicianalmente, los problemasde colinealidad y#ilas extremas se traten independientemente. Hablando entérminos informales la multicolinealidad haría referencia a una perturbaciónrelativa a!as columnas de la matriz de diseño mientras que la aparíción defilas extremas sería un problema referente a!a estructura de filas de dichamatriz. Ei objetivo de esta investigación es presentar un método de detec-ción simulténea de ambos problemas basado en !a aplicación de técnicasde análísis de condición a determinadas modificaciones de la matriz de di-seño tipificada Z.

Page 5: Obtención simultánea de multicolinealidad y observaciones ...

OBTENCION SIMCJLTANEA DE MULTICOLINEALtDAD $i

Considérese la familia de matrices nxm.

Z;=(Z.d;) (i=1,...,n)

(i)

(2.8^

donde d; _{O ,..., 1,..., 0} es el i--ésimo vector canónico de R". Dada laestructura del vector d; es raionable suponer que las cOlínealidades en Z; yZ estén relacionadas. Más remarcable aún es el hecho de la existencia deuna dependencia entre diagnósticos de Z; y el potencial de la observacidni-ésima. En efecto, sean Vz = Z(Z'Z1^' Z' la matriz de proyección ortogonalsobre la variedad lineal engendrada por las columnas de Z,C(Z),VZ d; = Zc; ,donde c; es de px 1, y v;; {z) ^ z,' (Z'Z)-' 2; . EI cuadrado de la distancia de d; aC{Z) es

^^ d;-Zc; ^^ 2= ^Í d;-Vz d; ^^ 2= 1--v;; (z) (2.9)

Según {2.9} una fila extrema provoca la aparición de una dependencia !i-neal aproximada entre las columnas de Z; . En resumen, cabe esperar que elanálisis de colinealidad en Z; proporcione información simultánea sobre lacolinealidad en Z y sobre los potenciales v;; {z). Una observación importantees que, por construcción, las matrices Z; tienen columnas de longítud unita-ria

.En la sección 5 se extiende esta motivación a la familia de matrices de

nx(r»+1)

Z*= {Z*,al; } {i = 1 , . . . , n) (2.^0)donde Z* es de forma (Z,y), siendo y el vector de respuestas tipificadas. Laidea es usar el análisis de colinealidad sobre ias matrices {2.10) con el finde detectar colinealidad en Z y observaciones influyentes bien por su ca-rácter extremo o bien por su carácter «outlier».

3. ANALISIS DE CO LI N EALI DAD EIV Z;

Esta sección se divide en dos partes claramente diferenciadas. En laprimera parte, se obtienen resultados teóricos que, en la segunda, se em-plean para desarrollar un método práctico esquemati2ado en etapas paraun análisis simultáneo de la colinealidad en Z y ios potenciales de lasobservaciones.

3.1 Resultados teáricos

Sean i^ {1 ,..., n} fijo. En virtud de (2.8) la matriz mxm de productoscruzados Z; Z; presenta la estructura

Page 6: Obtención simultánea de multicolinealidad y observaciones ...

$ i'Ŝ

(3.1 }

ESTA>JtSTlc^a ESPatiOLA

1

dande z; es la i-ésima fila de la matriz Z. Es f^cil probar que (3.1) esdefinida positiva. Los dos diagndsticos más importantes de la condición deZ: son los factores de inflación de la varianza y ei autosistema de (3.1 }.

3.1.1 Factores de inflación de la varianza

Se denatarén por VIF^, {j i 1,.,., p} los p primeros factores de (3.1 } y porVI F' el último. Sea a, _(Z'Z}^' z, . En virtud de expresiones (A.1 } y(A.2 } de!apéndice relativas a la inversa (Z; Z, }-' se tiene

1VIF^.; ^ VlF^ + (3.3)

1 - v„ (z)

donde a; _(a^;1. EI resultado de (3.3) es particularmente interesante porqueestablece una conexión dírecta entre un diagnóstica de colinealidad en Z; ye! potencial v,; (z^.

A partir de {3.2) pueden investígarse propiedades adicionales de los pprimeros factores de inflación de la varianza de Z, . Sea c^ el j-ésimo vectorcanónico de RP ( j= 1,..., p}. En virtud de la desigualdad de Cauchy-Schwartz es a?= (c^ (Z'Z)^'z; )^ ^ VI F^ v;, (z) ( j= 1,..., p). Sustituyendo enC3.2} se Ilega a la desigualdad.

VIF^VIF^<_VIF^;< (j=1 ,...,p}

1 - v„ (z)(3.4}

De {3.4} se deduce que los p prímeros factores de inflación de la varianzade Z; son superiores, uno a uno, a los correspondierites de Z. Además,cuando v;; (zJ -^ 0 es Vi F^,; ---^ VI F^ ( j= 1,..., p}. Esta última conclusiónpuede obtenerse también como corolario del siguiente

TEQREMA 3.1

Si v;; (z)-^ 0, la norma euclídea de la diferencia entre (Z; Z; )^' y la matrizmxm

(Z'Z)-' 00 1

tiende a 0.

(3.^}

Page 7: Obtención simultánea de multicolinealidad y observaciones ...

C)BTFZ(^!O^. SlMI LTA`E:•^ D^ Ml'LTJ( ()l_ItiE.ALli^AD

D EMOS TRA CION

89

SI (I . ^I E denota la norma euclídea de una matriz es fácil demostrar,usando (A.1), (A.2 ) y la desigu aldad a2^, < V I F^ v„ (z) (j = 1 ,..., p}, que

I) (Z; Z, }-^

< <

(Z'ZI-' 01

0 1

v„ (^} 2 ^„ (z)

1-- v„

v^ ( z)(^1/IF^ } +

(1--v„ (2 ► }^ ' ( ^ -v„ (z})2^viF2+^ viFJ ^ /=k

expresión que tíende a cero cuando v„ (z} tiende tarnbién a cero.

Finaimente, a la vista de (3.31 y(3.4) puede comentarse que, medida porlos factores de inflacíón de la varianza, la perturbación causada en lacoiinealidad de ia matriz de diseño al añadir la columna d, es tanto menorcuanto sea el potencial v;; {z).

3.1.2 Autosistema

Sean 0 < ^:, ;<^ 2;<...< ^^, ; los autovalores de la matríz Z; Z; yy^;; (j = 1,..., m) los correspondientes autovectores normalizados. Dos sonlos resultados que conforman este apartado. EI teorema 3.2 es un análogoal teorema 3.1 relativo a los factores de inflación de la varianza mientrasque el teorema 3.3 es un teorema de separacíón entre los autovalores de lamatriz ( 3.1) y ios de la matriz de correlación Z'Z. Supóngase que (x, ..., y)indica una ordenación de coordenadas en sentido creciente.

TEOREMA 3.2

S i v;; (z) --^. 0, ( ^ ^ ; . . . . , ^,r,. ^ ) --^ ► ( ^., , . . . , ,^^, 1 }

DEMOSTRA CION

En virtud del teorema 3.1 la inversa de Z,' Z; tiende a la matriz ( 3.5) ennorma euclídea cuando v;;(z) ---3 0. Como {3.5) es definida positiva, Z; Z;también tiende, en norma euclídea, a la matriz

) (3.6)

de autovalores (.^, ,..., í^a 1 }(Stewart (1973), cap. IV). Teniendo en cuentala continuidad de los autovalores considerados como funcionales de la ma-triz correspondiente (Kato, 1982} se tiene

Page 8: Obtención simultánea de multicolinealidad y observaciones ...

90 ESTADISTICA ESPAÑn1.A

Como consecuencia directa, se tiene ^,; --^^, ,^.m,; -^ ► ^,p y tambiénk(Z;) --^► k(Z}.Este teorema 3.2 tiene un inrnediato análogo para autovector en virtud, denuevo, de los resultados del libro de Kato 11982). Por consiguiente, cuandov;; tz) --^ o el autovector normalizado y,,; asociado a í^,,; está próximo a1autovector r»x1 ty', , 0)' de la rnatriz (3.6) correspondiente al autovalor ^,, .

EI siguiente resultado muestra cómo, salvo en situaciones de carácter pa-tológico, los autovalores de la matriz Z'Z separan, uno a uno, a ios autova-lores de la matriz (3.1).

TEOREMA 3.3

Sea C la matriz ortogonal pxp de la descomposición espectral de la ma-triz Z'Z. Si los autovalores de Z'Z son todos distintos entre sí yk; = Cí; es un vector px1 cuyas componentes son todas distintas de 0, setiene

CĴ ^ /^.1 i ^ /^.1 C /^,2 i ^ /^.2 ^ . . . . . . . . C 1^,p C ^ m, i

DEMOSTRA CIÓN

Consultar Vefilla (1987}

3,2 M^todo reducido

La teoría desarrollada en esta sección puede utilizarse para proponer unmétodo práctico de detección simultánea de colinealidad y observacionesextremas. EI procedimiento se ejecuta en etapas:

i} Calcular las n magnitudes VIFi (i= 1 , . . . , %%}.

En virtud de la identidad ^3.3) el análisis de VI Fi es equivalente a la de-tección de potencial en ^ 1.1). EI cálculo de VIFi puede efectuarse emplean-do, por ejemplo, subrutinas de! paquete de programas IMSL.

ii) Calcular i° tal que mín VIF' = VIFi°.i

Si VI F^° ^ 1 0, equivalentemente, v;o;o lz) ^ 0los diagnósticos de Z'Z se pueden aproxímar por los de Z;o Z;o en virtud delos teoremas 3.1 y 3.2.

EJEMPL^

En esta sección se discute un ejemplo ilustrativo de la aplicación de lateoría de la sección 3. Se trata de un conjunto de datos muy conocidorelativo a un modelo

Page 9: Obtención simultánea de multicolinealidad y observaciones ...

OBTENCION SIMLILTANEA DE MULTICOLINEAL[DAD 9I

Y- j^o + Q, x, +%32 x^ Q3 x3 +^ sobre n = 19 ratas y que ha sido analizado ante-riormente por Cook y Weisberg ( 1982), Weisberg (1985) y Cook (1986),entre otros. Los datos aparecen recogidos en la Tabla 4.1

TAF3LA DE DATOS

X, x2 x3 Y

176 6.5 0.88 0.42176 9.5 0.88 0.25190 9.0 1.00 0.56176 8.9 0.88 0,23200 7.2 1.00 .023167 8.9 0.83 0.32188 8.0 0.94 0.37195 10.0 0.98 0.41176 8.0 0.88 0.33165 7.9 0.84 0.38158 6.9 0.80 0.27148 7.3 0.74 0.3614 9 5.2 0. 7 5 0.21163 8.4 0.81 0.28170 7.2 0.85 C?.34186 6.8 0.94 0.28146 7.3 0.76 0.30181 9.0 0.90 0.3 7149 6.4 0.7 5 0.46

n=19,m=4,p=3.

EI significado de las variables es

Y= porcentaje retenido de una dosis de droga en el hígado dela rata. .

peso de la rata en gra mos.

x2= peso dei hígado en gramos.

x3 = dosis relativa de droga administrada.

Page 10: Obtención simultánea de multicolinealidad y observaciones ...

yZ ESTA[)ISTI( A ESPAti(.)LA

De análisis anteriores es sabido que la observación 3 es extrema con unpotencia! v33 = 0.85. Un aspecto hasta ahora no suficientemente exploradoes la existencia de una fuerte colinealidad estructural en los datos de la ta-bla 4.1. La regla de asignación de la droga en el experimento subyacentees la de administrar, aproximadamente, 40 mg. de droga por Kg. de pesocorporal y, por tanto,

( x, / 10 0 )

2t4.1 ►

La relación ( 4.1 ) establece, entonces, una dependencia lineal aproximad^entre las columnas 1 y 3 de la matriz X. En este ejemplo conviven, pues,los problemas de colinealidad y observaciones extremas. La detección si-multánea de ambos pueden efectuarse usa^^do e! método de la sección 3.

En la primera etapa se trata de examinar !os diagnósticos VIF'. La figura4.1 es un gráfico caso por caso en el que se detecta inmediatamente elcaso 3 c^mo extremo. EI caso íe= 9 resulta ser aquel cun el menor diag-nóstico VI F^

•^ • • • • * • • • ^ ♦ • • • • f • • • • + • • • • ♦. • • ^ * • • • • ♦ •

5.25 + +^Figura 4.1

• T •

••

••

• •

^ 3.50 ♦ +

vlF^

1.75 ♦ l 1 t. ^ ^ \ ^\ .• ^.---+Ic - r ---t 0^-- ^' --^f►-^- - - * ---i= •

^ O.oo ^ ^•f•••• ♦• • s•^••••F••••*•• ••+• •••♦•••• *•

3. 9. 156. 12 18.

I ndice de caso

Page 11: Obtención simultánea de multicolinealidad y observaciones ...

OBTENC(ON SIMULTANEA DE MULT!(^'OLINEAl.^IUAD 93

La tabla 4.2 contiene, en su primera columna, los diagnósticos VI F^ s^^ 1,2,3), ^., s y que detectan inmediatamente una situación de colinealidaddebida a la fuerte asociacián lineal entre las variables x, y x^ en corcondan-cia con la información de (4.1). ^a columna derecha de esta tabla muestralos correspondientes diagnósticos calculados para la matriz tipificada Z.Obsérvese que, en consonancia con las conclusiones de los teoremas 3.1 y3.2, la diferencia entre la colinealidad en Zs y Z es muy pequeña.

V I F^,s V I F^

x, 51.3 9 7 51.000x2 1.336 1.336x3 50.664 50.336

^ r,s = 0.009 8 ^,, = 0.0099

^ m/n, 9 -

0.7097 . 0.7095-0.0094 -0.0095--0.7 044 ^min = _0.7 047--0.010 7

TABLA 4.2

5. EXTENSfOIVES

Los resultados de la sección 3 tienen una extension natural a la detec-ción simultánea de multicolinalidad y observaciones influyentes usandotécnicas de análisis de condición en las matrices Z* de (2.10). La matrizZ* _(Z,y) es la versión tipificada de la matriz ampliada X* _(X,Yy asociada almodelo (1.1 }.

Sea V* ^(v;; )= X* (X* X* j-' X*' ia matriz de proyección sobre la variedac^lineal engrendrada por las columnas de X*. Puede demostrarse que

v;*= 1 ^ (1 - v;; ) (1 - ^/n-m) ( 5 .1)

de donde (5.1) crece con las coordenadas del bloque (v;;, r?). De hecho,

Andrews y Pregibon ( 1978) desarrollan una medida de influencia de coinci-

Page 12: Obtención simultánea de multicolinealidad y observaciones ...

y^i ^:s^^r ^^r^is-r^ic^.^^ E^.^P.^ti^^t ^^

de con 1-v;; , Sea z,*' (z; , y, ) la estructura formada por i--ésima fila de Z y lai--ésima respuesta tipificada y, . En analogía con (2.7) se tiene

v,^ _ ^ + z;" ( Z *' Z * ) ^' z *n

_ 1 + v,* (z)ndonde v;* (z) = z*(Z*' Z* )-' z*

{ 5.2 )

AI efectuar un desarrollo paralelo al de la seccián 3 aplicado, esta vez, aZ* se han de obtener, por fuerza, métodos de estudio simultáneo de poten-ciales ampliados v,^(z) y de la colinealidad en Z. En virtud de los resultadosexpuestos en Velilla (1 9$7, cap. II) ésta última está relacionada con lacolinealidad en Z,

5.1 Factores de inflación de la varianza.

No es el objetivo de esta sección entrar en el detalle de la exposiciónteórica correspondiente que puede encontrarse en Velilla ( 1987). Desde elpunta de vista práctico los resultados más importantes se obtienen con losfactores de inflación de la varianza de Z;`. Sean VI F^; ( j= 1,..., p) y VI Fm;los m primeros factores de inflación de la varianza asociados a Z* y seaVI F'' el úitimo. Sean también VI F^ ( j= 1 ,..., p) y VI Fm los factores asocia-dos a Z*. se demuestra que

e;VIF^,=VIF*+ (1-v,*(z))-' ( c,(Z'Z)-' (5.3)

(j = 1,..., p) donde c^ es el j--ésirYio vector canónico de RP, ^^ e1 j-ésímoestimador rnínimo-cuadrático en el modelo (2.1) y SCE ia suma de cuadra-dos de los errores en el modelo ( 1.1). Más importantés que (5.3) son lasexpresiones de V 1 Fm ; y V I F*'. Se tiene

V I F*,.; = V I F m (1- r^ (z) /n--mr' S. 4)

Y1

VIF*'= (5.5)1- v^* (z)

En (5.4), r; (z) es una modificación del resídual r; de (2.5) dada por

r; (z) _ (5.6))z1

Page 13: Obtención simultánea de multicolinealidad y observaciones ...

OHT^E^i('I(7ti SIMI'L_T^^!tiE.^^ f)E M['1.TIt^O1_!ti^•^(_^ll)^^f)

De acuerdo con (5.6) y 12.7) r; (z) ^ r, cuando n es grande. Un «outlier»tiende, pues, a provocar la aparíción de un diagnóstico anómalos VI F^„ . Porotro lado, en ( 5.51 VI F*' es función monótona de la medida de influenciav,*(z) de 15.2).

5.2 Método generat.

Tres son las etapas de este método general.

i} Estudiar los valores de VI F*' (i = 1,..., n).Las observaciones inf(uyentes se destacarán en un gráfico caso porcaso.

iij Distinguir si la observación z,* (z; , y; ) es extrema Iz, ) o«outlier» (y; ).

De (5.4) es ínmediato que un gráfico caso por caso de

*v m, i

_ (1-r^ (z) /n-mr' ( 5 .7 )1/ I Fm

es aproximadamente equivalente al gráfico de r?. Análogamente a(5.1) es v;*(z) = 1 -(1-v;; (z1} (1--r?(z)/n-m) y sustituyendo en (5.5) setiene

VIFm VIF*^VIF'= (5.$)

*V m, i

que, según (3.3), depende directamente del potencial de la observa-ción %-ésima.

iii) Calcular i° tal que mín V/F*'=VIF*^°.i

Aproximar los diagnósticos de Z*' Z* por los de Z ó Z o y analizar la colineali-dad en Z usando las técnicas de Velilla (1987), cap. II).

5.3 Ejemplo

Valviendo de nuevo al ejemplo de la sección 4, la figura 5.1 es un gráficocaso por caso de VIF*' que detecta inmediatamente la observación 3 comoinfiuyente. La figura 5.2 es el gráfico análogo deVIFm; /VIFm que, por lo que se refiere a los residuales, no indica nadaanormal. La pecu liaridad observación 3 se debe, entonces, a que x3 estáalejado del centro de los datos.

Page 14: Obtención simultánea de multicolinealidad y observaciones ...

96

V I F'

5.2 5

ESTADISTIC'A ESPAÑOLA

• t • • • • +• • • • f . • • • ♦ • • • . ♦ • • • . ♦ • . • . + • • • • + •

+ ^ Figura 5.1 }..

3.50 + I 1 +

.

.

1 . 75 ^

^ 1l\ ^•̂# ^ ^Y.^^.^_'•*

.

0.00 t

153. 9.

• ^ ^ .

.

.

.

.

+.•.

♦a ^ • • • • ^ • • • • t r • • • ^ • • • • T' • • • • ^ i ^ • • ^ • • • ^ + •

6. 12 18

Indice de caso

V^Fm

••♦•• ••♦• •••♦•••• ♦•••• *•• •• ♦•• ••♦••

1 •50 * Figura 5.2

1.25 ♦

: • ♦ ^

t

• •

^ ^ •

• i ^. ,^ / .

1.00 + ^" ^-# 1^ ^--^á ^t! ^

. ..750 f t

•t•^• •• t• • • •t•• •• t• • • • t • • •• *• • • •t • • •• t•

3. 9. 15fi• 1Z 18

Indice de caso

^^

Page 15: Obtención simultánea de multicolinealidad y observaciones ...

OBTENCION SIMULTANEA DE MULTICOLINEALIDAD 9%

6. DISCUSION Y SUMARIO

Este art%u1o describe un método de obtención simult^nea de colineaiidade influencia en regresión lineal. La idea es utilizar técnicas de análisis decondición como herramientas de obtención de información conjunta sobreambos problemas. EI método puede ejecutarse empleando paquetes deprogramas conocidos.

La idea de buscar una estructura de análisis combinado de multicolineali-dad e influencia se encuentra en Hocking y Dunn (1982), donde se propo-ne una técnica basada en los gráficos de componentes principaies. EImétodo de este trabajo incorpora diagnósticos gráficos y conclusionesdeducidas de importantes resultados teóricos.

Finalmente, una exposición más detaliada de los desarroiios y ei ejemplode este artículo puede encontrarse en Velilia (1987^.

APENDICE:

DED UCC/ON DE LA S ECUA CIONES ( 3.2 ) y ( 3. 3).

En virtud de la expresián ( 3. ^) es inmdiato ©btener usando, por ejempio,Draper y Smith (1985, p^g. 127)

a;

!^` Z' \-1 ^

(Z^^-Z^ 2^ ^-) `

^ -V;; (Z^

a;̂ 1

1-v;; (z) 1-v;; (z).

donde a;= (a^; )_(Z'Z)-' z; es un vector px1 y v;; (z) = z; (Z'Z)+' z; . Adem^s,

a; a;(Z'Z_Z^Z, )-^ - (Z'Z)-^ +

(A.1)

(A.2)1-v;; (z)

Page 16: Obtención simultánea de multicolinealidad y observaciones ...

E.^^T 1[)IS^^TI(^^•^ ESF'^>^it)I^.A

SUMMARY

SIMULTANEOUS OBTAINMENT OF MULTICOLLINEARITYAND INFLUENTIAL OBSERVATIONS

A new method for simultaneous obtainment of multicollineari-ty and influence in linear regression is described . The method isbased on certain techniques of condition analysis applied onspecific perturbations of the design matrix. The behaviour of themethod is illustrated by means of a practical example.

Key words.^ Condition analysis, diagnostics, influential observa-tions, multicollinearity.

REFERENCIAS

ANDREWS, D.F. Y PREGIB©N, D. (1978). Finding outliers that matter.Journal of the Royal Statistical Society, Serie B, 40, 85-93.

BELSLEY, D.A., KuH, E. y WELSCH, R.E. (1980). Regression Diagnostics. NewYork, Wiley.

CooK, R.D. (19861. Assesment of Local Influence. Journal of the RoyalStatistical Society. SerieB, 48, 133-189.

C oo K, R. D. y W E I S B E R G, S. (19 82 ). Residuals and lnfluence in Regression.New York, Wiley, 2.8 edicián.

GUNST, R.F. (1983). Regression Analysis with Milticollinear PredictorVariables. Communications in Statistícs, 12, 2217-2260. '

HOAGLIN, D.C. y WELSCH, R. (1978). The Mat matrix in Regression andANOVA. Ameriean Statistician, 32, 17-22.

HoCKING, R.R. y DuNN, M.R. (19$2). Collinearity, Influential Data and RidgeRegression. Simposio de la Universidad de Delaware sobre RegresiónRid9 e.

KATO, T. (1982). A short lntroduction to Perturbation Theory for LinearOperators. Springer Verlag.

MARQUARDT, D.W. (1 970). Generalized Inverses, Ridge Regression, BiasedLinear Estimation. Technometrics, 12, 591-612.

STEWART, G.W. (1973). lntroduction ta Matrix Computations. AcademicPress.

V ELI LLA, S. (1 98 7). Contríbuciones al ^4 nálisis de los problemas de lnfluenciay Multicolinealidad en Regresión Lineal. Tesis Doctoral. UniversidadComplutense.

WEISBERG, S. (1985). Applied Línear Regression. New York, Wiley,2.a edición.