Una perspectiva general con nuevos resultados de la ...

62
ESTADISTICA ESPAÑOLA Vol. 30, Núm. 1 18, 1 988, p^gs. 141 a 179 Una perspectiva general con nuevos resultados de la aplicación de la estimación no paramétrica a la regresión lineal . Por WENCESLAO GONZALEZ MANTEIGA Departamento de Estadística e Investigación Operativa Facultad de Matemáticas Universidad de Santiago de Compostela A Pili, Elena, Davicl y Javier. RESUMEN En este artículo se revisan las distintas aplicaciones, en el contexto de la regresión lineal, de la nueva metodología consis- tente en la estimación de los parámetros de los rnodelos a partir de estimaciones previas no paramétricas de la función de densi- dad y de regresión. Nuevos resultados en los modelos de corre- lación desde un punto de vista secuencial y de diseño experi- mental son a su veZ introducidos. Finalmente una discusión de la nueva metodología en los modelos de heterocedasticidad, de datos censurados y de Bootstrapping es también considerada. Palabras elave: Estimación no paramétrica, modelos de regresión. AMS. 1980. 62J05, 62G05. 1. INTRODUCCION EI estimador de mínimos cuadrados fué sin duda el más estudiado a lo largo de este siglo en el contexto de la teoría de la regresión lineal.

Transcript of Una perspectiva general con nuevos resultados de la ...

Page 1: Una perspectiva general con nuevos resultados de la ...

ESTADISTICA ESPAÑOLAVol. 30, Núm. 1 18, 1 988, p^gs. 141 a 179

Una perspectiva general con nuevosresultados de la aplicación de la estimación

no paramétrica a la regresión lineal .Por

WENCESLAO GONZALEZ MANTEIGADepartamento de Estadística e Investigación Operativa

Facultad de MatemáticasUniversidad de Santiago de Compostela

A Pili, Elena, Davicl y Javier.

RESUMEN

En este artículo se revisan las distintas aplicaciones, en elcontexto de la regresión lineal, de la nueva metodología consis-tente en la estimación de los parámetros de los rnodelos a partirde estimaciones previas no paramétricas de la función de densi-dad y de regresión. Nuevos resultados en los modelos de corre-lación desde un punto de vista secuencial y de diseño experi-mental son a su veZ introducidos. Finalmente una discusión dela nueva metodología en los modelos de heterocedasticidad, dedatos censurados y de Bootstrapping es también considerada.

Palabras elave: Estimación no paramétrica, modelos de regresión.

AMS. 1980. 62J05, 62G05.

1. INTRODUCCION

EI estimador de mínimos cuadrados fué sin duda el más estudiado a lolargo de este siglo en el contexto de la teoría de la regresión lineal.

Page 2: Una perspectiva general con nuevos resultados de la ...

1^? E tiT ^^[)I`^ i l( ^ E SF'•^ti()L ^^

Cuando para e1 vector aleatorio (X,Y), ^q+1 ) dimensional, se verifica elmodelo:

Y=A`(X)f1+F

donde F es el error de media cero y A: R° > Rp un funcionalarbitrario, disponiéndose de una muestra { IX, , Y,) ..(X„ , Y„) } relativa almisr^no, el estimador de mínimos cuadrados para el parárnetro f^ p-dimensional viene definido como aquel valor para el que se minimiza elfuncional:

n

^o (c^) ^ ^ (Y;- A`(x;) ^)2,^ ^resultando:

(1.2)

^ ^ A (X;) A` (X;) ^ ^' ^ ^ A (X;) Y; ^ (1.3)r=1 i=1

La estructura relativa al modelo (1.1) es ciertamente general, siendocasos especiales de la misma los distintos modelos de regresión linealutilizados en la práctica.

De esta forma la clasificacidn de los distintos modelos puede ser diseña-da en función del funcional A, de la procedencia del vector (X,Y) o inclusode la naturaleza del vector X(aleatoria o determinística).

!^a particularización del funcional A a casos específicas, da lugar a mode-los de especial interés. Por ejemplo A (x) _(1, x, .. x^') con x^ R,representa ei modelo de regresión poiinómica, A(x) = A( (x,, ..., xP)` )_(x,, ..., xP)`, al modelo de regresión múltiple, ... etc.

Por otro lado, la construcción del vector (X,Y) puede proceder de unmodelo de serie temporal. Así con X=(Z,,...,Zo,) e Y=Zp.,.,, donde { Z; };Ex esun modelo estacionario univariante, se obtiene: Z^, = A` (Z,,., Zp) 4+ E, unmodelo de autoregresión de orden p.

Finalmente, la clasificación de los mode{os según la naturaleza del vectorX es primordial. Cuando X es aleatorio, sus valores, obviamente, no puedenser controlados de anternano, conociéndose dichos modelos como modelosde diseño aleatorio ( random design) a con una terminología m^is general,modelos de correlación ( ver Freedman ( 1981), para més detalles a eserespecto). Cuando X es determinístico, y denotado por tanto coma x, dichosmodelos reciben el nombre de modelos de diseño fijo (fixed design) o dediseño experimental.

Un modelo de regresión para un vector (X,Y) que indicase peso y talla deun recién nacido sería un modelo de correlación; por e{ contrario, el creci-

Page 3: Una perspectiva general con nuevos resultados de la ...

l'ti,A PE^R^PE(. i-IVA C^E^^iE^RAL (()^+ tit'E^VI)S RESt^I.TAD(^S 143

miento Y de una determinada planta frente al nivel de concentración con-trolable x de un fertilizante es una típica situación de diseño experimental.

Todos los modelos difieren realmente en el mecanismo aleatorio quegenera los datos, y de forma común para todos ellcs el estimador demínimos cuadrados (1.3) minimiza la norma euclídea de los errores aleato-rios E; = Y; - A` (X;) ©, i=1, ..., n del modelo {1.1).

Cuando los errores { E,, ..., E„ } siguen una distribución normal, el estima-dor de mínimos cuadrados es el de máxima verosimilitud y sus propiedadesdistribucionales son conocidas de forrna exacta. EI texto de Seber (197 7 j oel de Peña (1987 ) son ejemplas de libros en los que un estudio de estosestimadores es desarrollado exhaustivamente bajo suposiciones de norma-lidad. Sus propiedades relativas a la consistencia, normalidad exacta (porejemplo en el modelo de diseño fijo, 8m^ N(o, 02 [^ A(x;1 At(x;) ]^' ) con a^ _Var(^) ) y eficiencia (propiedades relativas a la miñima varianza), serían lasmás importantes en este contexto.

Frecuentemente en la práctica los tests de normalidad sobre los residuos,errores estimados", ^; = Y; - A` (X;) ^m^ i=1, . .., n, nos indican la no

normalidad de los errores. Esto es atr^buíble, en muchas s^tuac^ones, a quelos errores no siguen una distribución normal o a la posibilidad de existen-cia de datos contaminantes.

^En este tipo de situaciones los estimadores mínimo cuadráticos Hm^ pier-

den propiedades de eficiencia, así como de consistencia. EI trabajo deRuppert-Carroll (1980), donde se comprueba con estudios de simulación,resultados de gran ineficiencia para dichos estimac^ores cuando el errorsigue una distribución con colas más pesadas que la normal, puede ser unejemplo ilustrativo entre otros muchos.

Consideraciones de este tipo fueron las que Ilevaron a la búsqueda deestimadores alternativos con objetivos fundamentales: el de la eficienciabajo otras suposiciones poblacionales sobre el error distinta a la Gaussianay el de la robustez (poca sensibilidad a la existencia de datos espúreos enla muestra).

Esencialmente, la construcción de nuevos estimadores en el contexto dela regresión tineal siguió caminos similares en su desarrollo al de fosestirnadores de parámetros de localización y escala, surgiendo:

^í) Los M estimadores (ver Huber (1981) ). EI M estimador ®M vendría

definido como aquel valor para el que:

^ yr (Y; - A` (X;) BM) A (X;) = 0 (1.4);^^

Page 4: Una perspectiva general con nuevos resultados de la ...

^ ^4 E.STA[)I^TI( A E:Sf'r1ti()l_A

donde ^r es una función de R en R, frecuentemente antisimétrica respectodel 0 1 yrlx) = x daría lugar a los estimadores mínimo cuadráticos y en cuyocaso la resolución de 11.4) sería equivalente a la minimiiación de (1.2) ).

iiJ Los L o R estimadores. Construídos a partir de los estadísticosordenados o los rangos correspondientes a los residuos { r; }, donde

^r; ={ Y; - A` (X;) ^m^ }. Así por ejemplo, Ruppert y Carroll (1980) construyenun estimador mínirno cuadrático entre los datos {(X; , Y;) } para los que susresiduos { r; } estén entre r,n y r2n, los residuos que ocupan la posición [na]

y[n(1-a) ] con a cornprendido entre 0 y 1(siendo [] la función parteentera). Es decir aquel valor de 4 para el que se minimiza:

^o (B) _ ^ (Y; - A` (X;) ^)2{ r; / ^naJv <fn(1-aJ }

y finalmente:

(1.5)

iiiJ Los estimadores en rnínima distancia. Están generalmente construídos con distancias del tipo Cramer-Von Mises. Los desarrollos principalesde los mismos fueron los Ilevados a cabo por Koul-De Wet (1983) para laregresión y por Kaul (1986) para los procesos AR (1). En líneas generalesse definen como aquellos para los que se minimiza una distancia del tipo:

^0 18) = J^^ (V d(z, 8) -(^ dn;) F(z) 12 dH (z) (1.6);= r

ndande Vs(z, 8) _^^ dn; 1{Y; - A`(X;) ^ <I} representa una distribución empírica

ponderada de los errores, F la distribución del error E supuestamente cono-cida y H una función de ponderación. Modificaciones de la distancia ante-rior podrían considerarse en el supuesto de F desconocida, por ejemplocuando F es simétrica.

De forma alternativa al modelo paramétrico lineal (1.1) en el que severifica E (Y / X= x) = A` (xl 8, el desconocimiento de la posible dependenciade Y sobre X da lugar a la consideración del modelo más general:

Y = a(X) + E 11.7)

donde ahora la función de regresión a(x) = E(Y/X=x) es de tipo no paramé-trico.

EI que la función de regresión poblacional a sea frecuentemente desco-nocida, incluso en lo relativo a su forma, dio lugar en los últimos 20 años auna inmensa investigación relativa a posibles estimadores no paramétricospara la función de regresión. En este contexto, a diferencia del paramétrico,

Page 5: Una perspectiva general con nuevos resultados de la ...

l'NA PERSPECTIVA C;ENERAL C'ON NIJE.VOS RESL;LT.ADC)S I4S

donde el objetivo era estimar 8, el estimador á„ es una curva construída apartir de la muestra inicial { IX,, Y,),...,(X,,, Y^) } y que ha de estar definidasobre todos los posibles valores del soporte asociado a la variable X.

EI gran desarrollo experimentado en la investigacián relativa a la estima-ción no paramétrica de la funcián de regresión, tanto en el contexto teórico.como en el aplicado, hace de dicho estimador una potente herra^nienta nosólo para estimar en sí misma a la función de regresión, sino que a su vezpermite utilizarla como un elemento fundarnental cara a un anélisis explo-ratorio de los datos. En el reciente texto de H^rdle ( 19$8) se da unadescripción exhaustiva de los distintos estimadores no paramétricos para lafunción de regresión asi como de sus aplicaciones en distintos problemasprácticos ^Predicción del precio del oro en el día Y a partir del anterior X,predicción del volúmen de agua en los ernbalses, etc.)

Un estimador no paramétrico de la función de regresián tiene la forrna:

na„ (x) _ ^ w,,; (X) Y; 11. $ )

^_ ^

donde { w,,; (xl } denota una sucesión de pesos que puede depender de lamuestra { X; }; . Intuitivamente para estimar a(x) = E(Y/X=x) en el modelo(1.7), lo que se establece es un promedio local en x de los datos Y; ,i=1,..., n, con una mayor influencia en dicho promedio de aquellos Y; paralos que w,,;(x) es mayor, frecuentemente coincidente con aquellos Y; cuya X;es mas cercana a x.

La formulación (1.8) cubre la práctica totalidad de los estimadores hastaahora tratados en la literatura al respecto. Desde el más antiguo conocidopor regresograma, donde w,,;(x) ;(1 ^;E,x}) / n(x) (con 1{} la funcián indicador,IX un intervalo al que pertenece x dentro de una particián en Rp porintervalos y n(x) el número de X; pertenecientes a Ix), en cuyo caso á„(x) esla media aritmética de los Y; cuyos X; están en Ix, hasta otras elecciones deinterés como por ejemplo:

w,,; (x) _ ^ K [ (x- X ;) / E„) ] / [ É K [ (x- X r) / ^„1 ] ] ( 0 s i 0 ,/o )^r-1

con K de Rp en R una función ponderación conocida con el nombre denúcleo lkernel) y^„ el Ilamado parámetro ventana.

Así por ejemplo, con K de soporte compacto [-1,1 ], la estimación de a1x)estaría considerando aquellos Y; cuyas X; distan de x menos que E„ para untamaño muestral igual a n. otras elecciones de w,,; producirían los Ilamadosestimadores en desarrollos ortogonales, interpolaciones, penalizaciones,...etc. (ver el texto de H^rdle (1988) para un desarrollo detallado de losmismos ► .

Page 6: Una perspectiva general con nuevos resultados de la ...

1^^ Fsr^^r^^S^r^c A ^:sP^^► tir>^_^

La estimación no paramétrica de la regresión representó también porotro lado en los últimos años un ejemplo de estimacián de curvas dentrode una familia r^ás amplia a considerar, como pueden ser la curva defunción de densidad, de función de distribución de ra2án de fallo, la curvafunción cuantil,...' etc. Sienda su conexión más importante, desde el puntode vista de la estimación, la que tiene con la función de densidad.

Es clara que si {X,Y) tiene funcidn de densidad conjunta f y X función dedensidad mérginal f, entonces: ^

a(x} = E(Y/X=x) - jy f(y/X=x} dy =[ jyf(x,y) dy/f, (x) ]

y por tanto, si utilizamos el método núcleo para estimar la regresión

á„ (x) = ^ ^ K [ (x- X;) / ^^ ] Y; ^ / ^ ^ K [ (x- X,) ^ En ] ^ _i_1 r-1

n % n %

^ ^ K [ (x- X;) / ^„ ] Y; 1 / ^ ^ K [ (x- X;) / E„ ] ^^^^ 17 E ^_^ ll En n

n % ,.

_ ^ ^ K [ (x- X;) / En ] Y; ^ / f, {x)^-1 /^ E^

aparece de forma natural en el denominador el estimador no paramétricotipo núcleo para la densidad f,. Lo propio con el regresograma daría lugaral estimador histograma de la densidad,.., etc.

Obviamente en un contexto de suposición paramétrica para el modelo deregresión como el (1.1), un estimador no paramétrico nunca sería competi-tivo con los estimadores ( 1.3), (1.4}, (1.5) o ( 1.6) antes introducidos, ya queestán elaborados bajo la suposición paramétrica del modelo.

Antoch-Collomb y Hassani { 1984) realizan un estudio comparativo desimulación entre los estimadores paramétricos antes mencionados y unono paramétrico de tipo núcleo para modelos paramétricos previamenteprefijados. Así por ejemplo, consideran el modelo de regresión polinómicaa(x}=E (Y/X=x) = 60 + 8,x +...+ ^^,x^', con x E R y donde el error E sigue unadistribución Gaussiana o Gaussiana contarninada. Estableciéndose cornomedidas comparativas:

sup ^ á„(x) - a(x} ^: f ^ á„{x) - a{x) ^ dx y f f á„ (x) - a(x) }2 dxX

donde án es un estimador no paramétrico tipo núcleo o á„(x) = f^o +^,x +...+.V M M M

H^., x^' con (^p, 8,,..., ©^.,) = 8t alguno de los estimadores paramétricos.

Se comprobó el funcionamiento prácticamente equivalente entre los esti-madores paramétricos, salvo en los casos de contaminación sobre el error

Page 7: Una perspectiva general con nuevos resultados de la ...

l.'!rA PERSPEC'TIVA GF.NFRAI. C()!^ til!EVnS RE^SI í_TACXiS 147

Gaussiano, donde se aprecia un mejor funcionamiento para los estimadoresrobustos ( 1.4) o el ( 1.5). EI funcionamiento del estimador no paramétricoes ciaramente peor que el de todos los paramétricos.

Lo que no se hace en este estudio de simulación es el uso del estimadorno paramétrico como fuente de información inicial para la estimación delos parámetros en el modelo paramétrico. Es decir, si por un lado dispone-mos del estimador no paramétrico á„ (como elemento sustituto de lamuestra inicial {(X,,Y,),...(X^,Y„) }) y por otro lado del modelo paramétricoE(Y/X=x) = A`(x) B, es posible utilizar ĉz,,, definiendo como estimador de 4,aquel valor para el que se minimiza alguna distancia funcional entre án y lafuncíón regresión paramétrica del modelo.

EI estimador á„ será una curva suavizada de la muestra que normalmenteperseguirá a la curva del modelo teórico paramétríco y por tanto una buenafuente de información inicial (ver figura i y figura 2). A su vez dichasuavización será función de la ventana a utilizar. Una ventana extremada-mente grande no daría información y por lo contrario una extremadamentepequeña sería equivalente a dar la muestra de partida. La solución decomprorniso entre ambas situaciones extremas se convierte de forma natu-ral en lo més correcto.

. • ..

.. .. . .

. ..

• •

.

!

M

:

• ^• • ' i^ ^,•.r

-^__ ,. ,_. ._. ,_•

^,.r..r ^r. ^^^. .^^^J

.

• f^^ r

.

../^

• .••

..•_••-r

-^J.

_,^-.^^-

..•..•.

r

.

• ^ (fig. 1)

.. . .

. . . .. .. ..._ . .^t • ..^

• f

. ^ • ^ • ^ ^ ^

r .r ^ w w w ^ ^ w ... , .w ^ r,.s ^ ^ rr.^;.^ w.. ^. ^..^.. ^^ ..^ w^.^.^.^ ^ +.^ w^ : w • ^ i w w^.^.i. w , a...r.iww. ^ ^...^^^^r

^...' • •

..

•. ^%.. ^

..r

• •1^. ..^• :^

. _.. .

.

••

••.

• •.

:

..

I^^

^ ^

• • ^•

^.

•. ... . . . .

.. ..

Figu^a 1

i ^ • •

. ..

1

.:

.

.

^^ .

Estimacián no paramétrica de a(x) = 1+x, en el modelo Y= 1+X+^ con X E U^0,1 ],Var(Y/X=x) = 1+x y E/X=x E N(0, ^ +x) del que se simuló una muestra de tamaño n=20o.

Page 8: Una perspectiva general con nuevos resultados de la ...

148 FS^TACaISTI('A ESPA^IC)LA

^I

.

r...

i^.

r •

.

.

.

^

t'! *

+i^ .^. ^.w r.^^ -^ ^- r^ ^ ^^^^• •• . ^ ^ ^r.. .

/

^

/

...

^ •i^

I^,!

i

C , , . . . . . . ^. . • _ •

.

.

. .

• •

.

••

^ ^ ^ ^ ^• * ^ ^ • ^

^• ♦

••

• • ^ M^

•^ • • ^^

• '• - ^ ^

^ ^ ^ I

^ ^r^

.

N

{ ^i • .• r. • V^ . .t+ ^1^ ^, ^„ ` ^ -^..^.,.

. y- ^-- .,,. • •.. . r •`^.►^,^..^ ^•^T

• • • ' • • .l^ ' '+ ^ • ^ .. ^ • ^ ^ .^ ^ •

. • . . •

(fig. 2 )

Estimación no paramétrica en un modelo de regresión polinámica con X exponencial de

parámetro 1 truncada en [0,1 ], Var(Yf ^C=xj=1 y E/X=x E N(0,1) del que se simuió una

muestra de tamaño n=200.

Dentro de las posibles distancias, la única hasta el momento abordada yque comentaremos a lo largo del trabajo es la definida como:

w ^ ( ©) =1 ( á„ 4x) - At (x) e) 2 dS2„ ( x) (1 . 9 )

donde S^„ es una función de ponderación construída a partir de la muestra^{X,, .,., X„}. EI estimador a resultante de la minimización del funcional (1.9)es un nuevo estimador general función del estimador piioto no paramétricoinicial y de la función ponderación.

Es interesante observar cómo en una situación extrema en la que á„fuese un estimador no paramétrico de fa regresión no suave, por ejemplo

ná„(x) =^ Y; 1 {X^=x} y^2„(x) =#{X; < x} / n la distribución empírica de lamuestrár{X,,..., X„}, el funcional (1,9} se convertiría en el (1.2) y los nuevosestimadores serían en este caso los mínimos cuadráticos.

.

. . . ^ ^ •a^ ^t•^...^^ ^^...i n.^^ ^ ^.^ ^ ^^^ w r^+^^^T^

Page 9: Una perspectiva general con nuevos resultados de la ...

l'NA PERSPE.('T[VA (:;EtiERAL C'O^l !^IJEVQS RE:SI'LT.A[^(7S 149

^En lo que sigue y a lo largo de este trabajo revisaremos los ^ estimado-

res hasta el momento estudiados, en funcián de tos modelos de regresión aconsiderar. Dicha revisión se ve prolongada con nuevos resultados en losmodelos de diseño experimental y de tipo secuencial. Incluímos finalmentealgunas consideraciones de 1a nueva metodología sobre otros modelos deregresión.

Como el estimador piloto no paramétrico que utiliiarernos será en gene-ral diseñado sin tener en cuenta cuestiones de robustez, nuestro estudio^comparativo entre H y los estimadores ya existentes tendrá corno rnedidafundamental de precisión el error cuadr^itico medio (M.S.E.). Ello daré lugara una elección natural dentro de las ya existentes, correspondiente al^mínimo cuadrático f^m^, ya que en las hipótesis en las que nos moveremoséste será optimal. Por supuesto con un estimador no paramétrico rabusto

A

(como por ejemplo el introducido por H^rdle (1984) ), el estirnador 8 resul-tante, sería previsiblemente competitivo con las versiones robustas para-métricas antes citadas y esto será objeto de estudio en próximos trabajos.

Atendiendo a ra2ones metodológicas, rnás que cronológicas respecto dela teoría expuesta (tanto de resultados conocidos como inéditosl estructu-ramos el resto del trabajo de !a siguiente forma:

2. LA RECTA DE REGRESION.

3. EL MODELO DE REGRESION MULTIPLE: PLANTEAMIENTO YNUEVOS RESULTADOS.

4. EL MODELO DE CORRELACION. NUEVOS APORTES PARA ELMODELO SECUENCIAL.

5. OTROS MODELOS DE INTERES EN TEORIA DE LA REGRESION.

A1 El modelo autoregresivo.

B) El mode% de heterocedasticidad.

C) El mode% con datos censurados.

D^ El mode% Bootstrapping.

6. APENDICE.

7. BI BLIOGRAFIA.

Page 10: Una perspectiva general con nuevos resultados de la ...

^ ^^Ĵ kS^T,AC^^^TIt^A F^^;^F'^tiOE..,A

2. LA RECfiA DE REGRESION

^uanda la muestra de partida {{X,, Y,), .., (X,,, Y„) ^ es bidimensional(q=1 ) y A (x) _( l,x), se obtiene el caso más sencillo de la regresión lineaf: elde la recta de regresión. EI modelo en este caso es del tipo:

Y=^,+f^2X+E (2.1)

del que supondremos que E es una variable aleatoria de media cero yvarianza o^ (situacián de homocedasticidad).

En este epígrafe desarrollaremos la recta de regresián con suposicián devariable regresora X aleatoria. Aquella situación de variable regresora de-terrninística quedar^ incluída en el c©ntexto del epígrafe siguiente.

Los funcionales (1.2) y( i.9) en este caso son respectivamente los si-guientes:

n{ Y; - e, - 82 X;) 2^a ^ 1©, , B^ ) ` ) ^ ^^

^1 { ^^l ^ ^2)` ) ` ^ (CXn^X) - ^, - ^2 i()2 C,^^ln ^x)

^2.2)

(2.3)

con { tf^,m^, ^2m^)` } y{(^,, 02>^ ) los estimadores de mínirr^os cuadracJas ylos construídos con la nueva metodología resultantes de la minímizaciórr delos correspondientes funcionales.

En general 1os estimadores { f^, , ^2 } definidos a partir de {2.3) vienendados por:

^ A ^f^, = rz„ {x) dS^„ {x) - H2 f x d S2„ (x)

^2.4)^42 = ^ x aR (x) ds2^ (x) - 1 ^^ (x) dS^„ lX) Jxd^^ (x) ] /

/[ jx^ ds2n 4x) -[ f xds2n (x) ] 2]

Una etección bastante general para el estimador piloto no paramétricoinícíal es la siguiente:

á„ {x) _ ^ vv»; {x) Y; = ^ [ ^5,^ ^x•X;) Y; ] ^ L ^ ^Sm {x-x^) ^►_ ^ ;_ ^ ^^ ^^2.5)

donde { rSm : R x R--^ R},,.^,,.,{„} ^^ es una sucesión de funcionesmedibles.

Page 11: Una perspectiva general con nuevos resultados de la ...

l'N,A PE-:RSF'E(^T1^'A (;EtiERAL (^O!V Nl E^'OS RE:SI l. T A[x)S I51

Así por ejemplo ^Sm(x,u) _(1 /E^) K[ {x-U)/F„ ] representa el métodom-1

núcleo, ^^,{x,u) = m ^^ 1 ^,^} {x) 1 ^,^; (ul con lo= [a,a+(b-a)/m] , I, _

[a+(b-a) /rn, a+2 {b-a) /m], . . . ., I m_, _ [a+(m-1) Ib-a1 /m,b], el método h isto-m

grama en el intervalo [a,b], dm(x,u) _.^ ^r^(x) yr^(u), donde { ^r^ } es un siste-^

ma ortonormal completo en SC R, el método de desarrollos ortogonales,

..., etc. Formalización también válida para la estimación de la densidad

donde:

f^ (xÍ = { 1 //7) ^ ó,,, ^x, iC,.^;-^ (2.6)

representaría un estimador no paramétrico de la densidad ( ver por ejemploWertz 11978), Susarla-Walter 11981) y Collomb ( 19$3) entre otros).

De hecho {^m } contiene dos factores de información: por un lado m=m (n),factor de suavización (m=1 /E„ es la ventana en el método núcleo, el

número de intervalos en ei método histograma, el número de eiementos dela base en el método de desarrollos ortogonales,... etc.) y por otro lado la

forma de ^ que realmente es función del método a considerar ( por ejemploen el método núcleo función del núcleo K).

Los primeros trabajos en los que se aborda un estudio inicia! de losestimadores (2.4) son i os de González Manteiga { 1982) y Faraldo Roca(1982) donde se realizan algunas simulaciones ilustrativas de 1os mismos.Faraldo Roca 11984) realiza un primer estudio teórico probando resultadosrelativos a su consistencia y normalidad asintótica cuando la secuencia depesos { w,,;(x) } es la utilizada en los estimadores pilotos no paramétricosdefinidos en 12.5) y 12.6); en cuyo caso !os nuevos estimadores f^, y f^2vienen definidos como aquellos valores que minimizan el funcional:

V/r ( (0^,02) ) = JS (rY„(x) - ©, - ^2x)2 f„(x) dx (2.7)

resultando:^

ZV-T W „ TD-Z W__ ^ y D _ _ _ (2.8)^ 22V D-W V D-W

^donde Z, V, W. T y Z son !as medias de las variables:

Z; = f S Y; ^Sm (x,X;) dx , V; = JS ^^m (x,X;) dx, W; = Js x cS,,, (x,X;) dx

T; -.^s Y; x bm (x,X;) dx y D; = JS c^m (x,X;) dx , í=1, ..., n.

Page 12: Una perspectiva general con nuevos resultados de la ...

15? ESTADISTIC°A ESP:^ti()LA

siendo S en el funcional 12.7 ) un conjunto soporte conteniendo al de ladensidad de la variable regresora X, f, que se supone existente.

Faraldo Roca y González Manteiga (1987) prolongan el estudio teóricoiniciado en el trabajo anterior probando propiedades asintóticas ba ĵo condi-ciones más generales para los estimadores ( 2.8), que podríamos resumircomo:

iJ e, --^°--^ B, 82 --P--^ H^ siempre que S sea compacto, E(Y2) <^y m=m(n) --^ ^ .

w w

ií) 8, -^-^ S^-^ 8, n2 -^ 5---^ H2 siempre que S sea compacto, Yacotada con probabilidad uno y m=m(n ► ---^ ^ . Y además:

iíi) y ñ [ Í8,,^2i` ' (Q,.^zf` ] -^ N [ ^^-0)`^ B ]con B = o^ [ E{(1,X?` f 1,X) }]^' , siempre que S sea compacto y

^E( ^ Y Í2+Y) <^ pa ra a I gú n y> 0 y v' n m---^ 0.

Sobre la sucesión {^m } se exigen las siguientes condiciones axiomáticasde tipo general:

a) s^ p^m (x, u) = ^{m) b x E R

b) c^^, íx, t) _^^, ( t,x) y 8m (x,t) > 0 b (x, t) E R2

c) J^m(x,u) du=1 bx E R con ^m(x,t)=0 si ^x-t ^> cE^, (^„=0(1 /m) )y ^„ -^ o Sl n -^ ^ .

EI histograma o el núcleo con soporte compacto son ejempios cuyas 8mverifican las condiciones anteriores.

La clase general de estimadores { 8,, 8,^ } presenta buenas propiedadesasintóticas (consistencias en probabilidad y de forma casi segura) a la vezque su varíanza asintótica es áptima, en el sentido de que es similar a la delos estimadores mínimo cuadráticos, en un contexto de optimalidad paraéstos como es el hecho de que E (( Y ^ 2+^) <«^ en el modelo ( 2.1). Por todoello, en ei mismo trabajo anterior se establece por primera vez un rigurosoestudio comparativo entre los nuevos estimadores resultantes y los míni-mos cuadráticos deducidos de (2.2) utilizando como criterio el error cua-drético medio.

A la luz de los resultados allí explicitados, se resalta la importancia de laeleccicín inicial de la ventana m=1 /E„ y del soporte S de ponderación. Unamala elección de E„ puede producir estimaciones ineficientes respecto a ia

Page 13: Una perspectiva general con nuevos resultados de la ...

[;NA Pf-.RSPEC^T[VA (^EtiERAL ('()^J til'EVf)S RESI LT.ACX)^ 1 S^

mínimo cuadrática. Un ejemplo de evolución del M.S.E. en funcián de E„puede ser el indicado en la figura 3.

^M.S.E. (8;)

^M. S. E. (f);mc)_______ _^.___._

Figura 3

^Por otro lado los estimadores 8; i=1,2, pueden heredar las malas propie-

dades que presentan los estimadares piloto no paramétricos iniciales enaquellas situaciones del tipo S=[a,b]. En efecto, en las colas [a,a+^„] y[b-E,,,b] es conocida la ineficiencia que presentan las estimaciones no para-métricas, tanto de la densidad como de la regresián. Dicha ineficiencia es

` A

también trasladada a los estimadores f^; i=1,2, respecto de los mínimocuadráticos.

Sin embargo en una gran generalidad de situaciones se producen estima-ciones más eficientes que la mínimo cuadrática. Así por ejemplo, siS=(-«^, ^ } ^m(x,^) - ^ 1 /E„) K [ (X-U)/^„ ] COn: ^

K E{ K* / K* es simétrico, positivo, acotado y con ,^^K Iz)dz=1 para algúnc}

/. A

entonces M.S.E.^B;) < M.S.E.(4;m,^) i=1,2 para ciertas elecciones de E,,.

Page 14: Una perspectiva general con nuevos resultados de la ...

E:STADISTI(`.^ ESf'Ati()LA

Como ejemplos ilustrativos de simulacián se toman los siguientes mode-los:

Y=1 +X+E con X E U(0, i}, E E N(O,a^;^ i=1,2 ; a?=1 y ^=2

para los que se usan como ventanas E;, = cr^^[ n J w^ k(w} dw ] i=1,2áptimas para estimar el parámetro H2 (en este caso 82 = 11 (ver FaraldoRoca - Gonzélez i^/lanteiga ( 1987) para más detalles relativos a la ventanaáptima} y donde el núcleo viene dado por:

K ( w) _(3/4^)(1 -v^/5) si ^ w ^< ^ 5

0 en el resto0 en el resto

el conocido núcleo de Epanechnikov. Se obtiene la siguiente tabla deerrores cuadrático medios construida para simulaciones de 100 muestrasde tamaño 50 y 100.

tamaño muestral = nvarianza = a2 MSE [^,J MSE [82J MSE [8,m^] MSE [82m^J

n= 50 ^= 1 0.08064 0.228592 0.094363 0.25246n= 100 a^ = 1 0.039096 0.109807 0.046646 0.128587n= 50 a^ = 2 0.14097 0.38771 0.188727 0.504919n= 100 a-2=2 0.072068 0.197106 0.093291 0.257174

Una mayor eficiencia de los estimadores { ^8,, 82 }, bajo el criterio delM.S.E., respecto de { é,m^, ^2m^ } es apreciada en un _ contexto de situaciónáptima para éstos.

Como ejemplo ilustrativo del efecto frontera reiativo al estimador no pa-ramétrico inicial y sus efectos proyectados a los estimadores paramétricos,consideraremos el siguiente relativo a un ejemplo biomédico basado en lacontrastada reiacián lineal existente entre la ceruloplasrnina en plasma y suactividad oxidásica. Lo cual, como es sabido en la literatura al respecto, nospermite predecir el valor de la concentracián, mucho más laboriosa de de-terminar y con un mayor costo, a partir de la actividad oxidásica, rápida demedir y barata.

Page 15: Una perspectiva general con nuevos resultados de la ...

l!^1A PERSPEC'71VA C^ENERAL CC>^J !^I^EVOS RE:SI'LT^A[^OS

Se toma como estimador no paramétrico para la regresión:

ISS

«„(x) _ (1 /(^En) ) ^ Y;K [ (F^(x) - F^(X,) } / ^n ] (2.9}^-^

estimador introducido por Yang (1981) y estudiado por Stute (1984}, yque en líneas generales es una modificación del estimador núc^eo basadaen el hecho de que:

a(x) = E (Y/X=x) = E (Y/F (X)=F (x) )

con S1„ (x) la distribución empírica de la muestra { X,, ..., X^ } en el funcional^(2.31. Con la optimización de dicho funcional se obtiene f^.

En la gr^fica 4 se representa una muestra de tamaño 50 obtenidaexperimentalmente a partir de las dos variables anteriores; en la 5 elestimador no paramétrico ( 2.9^ con E„=0.1 y K(u)=(1 /2) 1 ^_, ,^ (u}. En la 6,una estimación no paramétrica corregida de la anterior con:

«^(x► _ [ ^ Y; K [ c F^(x) - F^(x;) ) i ^^ ] ] / [ ^ K [ ( F^(x) - F^(x; ► ) / ^^ ] ]^_ ^ ^- ^

es presentada. Es claramente visible la eliminación del efecto frontera res-pecto del estimador anterior. Finalmente en la gráfica 7 se presentan tresrectas resultantes de la estimación mínimo cuadrática M.C., la proyectadadel primer estimador no paramétrico N y del corregido N.C.

Se deduce de la gráfica un mejor funcionamiento de M.C. respecto de N(la herencia del efecto frontera} con una situación mejor de las tres paraN.C. ^

Page 16: Una perspectiva general con nuevos resultados de la ...

Cerulop la5nina[ng/IOOnIl

75 r

E:ST,^[)IST It^ ^ E=SP:^tiOLA

. . .. . .

.

^-------- f -^D,Q Ĵ

$^

. .. ..,

» ... _... .... ... .

.

,

Z1^Act i U i dad 4x i d3s i ca [!1/ i]

Figura 4

^Carulo lasni^aE ng/ 1 Dn I]

7S -r

.. ^^-

.. j- . .

.^!_ ^ .r^. ." T-. . y- . .

L----+---^a,o)

^^ ^1QAct i U i dad 4x i das i ca [ ^/ I l

Figura 5

Page 17: Una perspectiva general con nuevos resultados de la ...

l'ti.A PFRSPE('TIVA C;E^+ER.AL. (.'O^+ tiI:E.VC)S RE:S[ L.TAfX:)S

Ceruloe lasnina[ng/ 17^n IT

. . .^^+-r--» ..

. ,^.+ _ . .. . ^^- . .. ..

t-^^_,..i ^^•-

^- ^

L----lQ^ol

^ct i u i dad ax i da5 i ca [ U! f lFigu=a 6

Ceru I oe I asn i naIng/ 100n I ]

T5 N = Estinador PropuestoT NC= Estinador Propuesto CorregidoI NC= Est i nador N i n i nos Cuadrados

L̂ ^--^-^^^^^

^^

_•^^-^-^-*^^

2?U

• I^lC.^- .__ - NC

^ ^ J"-+ N^.-^.z11-'r^^. • ^`G^^ ..r'`^

Actiuidad Oxidasica [ U/I ]

157

Fiqura 7

Page 18: Una perspectiva general con nuevos resultados de la ...

f ^il ^^()ItiT IC :^ E fiF':^ti()L_:^

3. EL MODELO DE REGRESION MULTIPLE: PLANTEAMIENTO YNUEVOS RESULTADOS.

Como ya se indicó en la introduccián, el vector de variables regresoras Xpuede ser controlado por el experimentador en este caso, perdiendo portanto X su naturaleza de tipo aleatorio para dar paso a una de tipo determi-nístico ( el model0 de diseño fijo o experimental antes aludid0).

La muestra inicial es ahora de! tipo {{x;, Y; ) }; i, „ resumida en el mo-delo:

Y,=A`{x,)f^+E,Y^ = A` {x2) f^ + E2. . . . . . . . . . . . . . . donde x,, . . ., x„ E C C Rp (3.1)Y„ = A ` (x„) F^ + E^

con C generalmente un conjunto de tipo compacto (así con q=1 es frecuen-te C=[a,b] ).

Como generaimente en (3.1) !os datos x; controfadas por el investigadortienden a estar uniformemente distribuidos en C, parece razonable elegir através de la nueva metodologia como estirnadores para f^, a aquéllos queminimizan el funcional:

S^,(f^) = J^ {á„(x) - A`(x) f^)2 dx (3.2)

donde á„ es un estimador no paramétrico de la función de regresión adap-^tada a los diseños fijos y f„ es ahora la densidad uniforme en C.

La formulación general más v^lida de á„ para este tipo de situaciones esla definida por:

(X^(X) _ ^ W,,;(X) Y; (3.3)i=1

a la que ya aludimos en la introducción. Sin embargo los pesos w,,;(x) sondistintos a los utilizados en un contexto de variable regresora aieatoria.

Recientemente Georgiev ( 1985, 1986) investiga las propiedades asintó-ticas del estimador ( 3.3), mostrando que éste contiene a los estimadoresmés importantes de la función de regresión en los modelos de diseño fijo.Así por ejempl0:

a) w,,;(x) _ ( (x; - x;-,j / E„) K [ (x-x;) / E„ 1 {Priestley-Chao (1972) YBenedetti (1977) ).

S.b1 ^^'„;(x) _(1 /^„) S;.-, K[(x-s) / E„ ] ds con so-1, s;_, < x^ < s; j=1, ..., n

s„=1 y C=[0,1 ] ^Gasser-Muller (1979) ).

Page 19: Una perspectiva general con nuevos resultados de la ...

1;,1A PE:RSPF('TIVA C;ENFR.4L C`()*^ til'E^VC)S RE:SI'LTAU()S ^ 59

c) wn;(x) _((x; - x;_,) / rn) K[(x-x;) / rn ], donde r„ es la k-ésíma dístanciadel punto más próximo de x entre los { x; }.

Tanto para a1, b) como para c), K es una función núcleo.

Una posible motivación intuitiva de estos estimadores aplicada al caso a),pues b) y c^ serían generalizaciones de a), podría ser, tomando esperanzas,la siguiente:

n n n X-X ^ X-X ^E ( ĉzn (x} } = E ( ^ wn; (x) Y;) _ ^ wn; (x) a (x;) _ ^ , ,- ^ K ( , ) a (x^)

;^ ^ ^^ ^ ,- ^^n ^n

siendo el último término aproximadamente igual a:

J a!u) K [ Ix-u) / E„) ] 11 /e„) du -^ alx)

ya que, se supone un diseño que en función de n va distribuyendo los x uni-formemente, al tiempo que la función núcieo K por su forma normalmentepondera más a los u cercanos a x, comprobándase la última convergencia.

De ésta forma, bajo la suposición de existencia de la inversa abajo utiliza-^d a, e I e st i m a d o r g e n e ra I ^ cons truído a partir de (3. 2^, viene definido por:

^_[ 1^ A(x) Atlx) dx ]-^ J ^n(x) A(x) dx (3.4)

verificándose los siguientes resultados inéditos (cuyas demostraciones sedesarroilan en el apéndice).

TEOREMA 1. Bajo las condiciones:

na) E ^ wn; (x) ^< b, para algún b y d n> 1

;-^n^ Wn; (X ) ---^.> 1^_ ^

^ ^ w,,; (x) ^ 1^_^ {IIx,XII>s} ^ 0 cuando n---^ ^, da > 0

SU/7 I Wni ^Xi I = O (n^s), s > a

sobre los pesos { wn; }, x E C y

b^ E( ^^ ^^^^ ^s1) ,^ ^ s> o

c^ A continua y C compactosobre el modelo ( 3.1), se verifica: Q ^^s -^ p

Page 20: Una perspectiva general con nuevos resultados de la ...

I6^) E-.ST,AC)ISTI( A ESPAtiOLA

TEDREMA 2. Denotando por A`(x) _(A, (x), ..., AP(x) ), x E C y bajo lascondiciones:

a) yñ[ ^ w,,,(x)- 1 ]-^ 0;^ ^ •

n^ñ ^^ w,,; (x) ^ 1{ ^^ ^ X; ii ,,^ ^---^ 0 cu a nd o n-^--^ ^, d a> 0

/S ^

^

n^ [ Je w^; (x1 A, (xf dx ][ f^;^ ^

(x) A; (x) dx j^ A, (x) A; . (x) dx

para todo j,r=1, . . ., ^v.

n

^[ N j^ w^k (x) A; (x) dx ^ 2+^ ] n'^Yj^^ _--^, 0, co n j=1, ..., P Y Y> ok=1

sobre los pesos { w^; (x) }, x E C y

b) E ( ( E ^♦yi < ^ , y > 0

c/ A continua y C compactosobre el modelo ( 3.1), se verifica:

=--^ Np (o, cr^ B) con B=[ j A(x) At (x) dx ]

Las condiciones a), b) y c1 no son restrictivas en el Teorema 1, a)representa las hipótesis exigidas ya por Georgiev 11985, 1986) para !aconsistencia de los estimadores piloto no paramétricos. La b) es m^s débilque la existencia de varianza para el error E y c) es verificado por iapráctica totalidad de los diseños más frecuentes.

Respecto al Teorerna 2, a^ es cierto para numerosas clases de pesos w,,;.Por ejemplo si C=[o,1 ](o cualquier intervalo compactoy y los x; son equidis-tantes con w,,; (x) _((x - x; y / E„) K[(x -x;) / E^ ] y K función de densidadcon soporte compacto ( Priestley-Chao (19 72 }) se verifica a).

Llamando:

X(n) _

una medida comparativa entre 4 y 8m^ se establecería entre las matrices decovarianzas asíntóticas respectivas:

(a2/n 1 [ f A (X) A ` (x) dx ]-' y ^ [ X^ ln ) X (n) ]^'

Page 21: Una perspectiva general con nuevos resultados de la ...

l'tiA PERSPE.( TIVA C;ENERAL C(^iti Nl'EV()S RESI'LT.A[7(^S I f^ I

Como ejemplo ilustratrivo consideramos el siguiente modelo:

Y,=4,+f^2(í/n)+^, con E(^;)--0 y E1^--a^, i=1,...,n

A

Se verifica que la cov18) es aproximadamente igual a:

(a^^n) [ jo ( ^.x)` ( 1.x) alX ]-' ^ 12 (a^^n) [ 1131 /2

A

y la cov(8^,^) es aproximadamente igual a:

1 2 (^2/^) [ (1 /61(2n+3+(1 /nJ1/(n-(1 /nll -(l+nl/(2(n-(1 /n))J ]-(1+n1/(2(n-(1 /nJll n/(n-(1 /n)^

-1 /21f ,1

siendo obvio que:

Var (6,m^)/Var(8,) > 1 y Var (8^m^) / Var (é21 > 1

A A

apreciándose por tant0 una mayor precisión de 8 sobre ^m^.

4. EL MODELO DE CORRELACION. NUEVOS APORTES PARA ELMODELO SECUENCIAL

En el modelo de correlación (situación de variable regresora aleatoria) loque realmente se tiene es ia muestra de partida {(X,,Y,), ..., (Xn,Yn) } delvector IX,Y) (p+1) dimensional, siendo de interés frecuentemente, encontrarel hiperplano de regresión:

y=l^t (X) eo = Xt eo = X, ©; + . . . + Xp ap

que mejor se ajusta a la distribución poblaciona! de (X,Y). EI criterio quemás se usa para diseñar tal hiperplano es el mínimo cuadrático, bajo el cualBo es el parámetro para el que se rninimiza:

^^ (e) = E ( lY-xt©)2 )= f 1y-^ 8)2 dF (x, y) 14. ^)

donde F es la función de distribución del vector (X,Y).

EI criterio más utilizado para la estimación de ^o es también en formalógica, el mínimo cuadr^tico, definido a partir de la estimación en (4.1) de Fpor la empírica:

Fn(x,y) _ [ #{(X;,Y;) /X;< x Y;< y}] /n

Page 22: Una perspectiva general con nuevos resultados de la ...

EST.4[)15^T1( A ^.SP4^iC)l_,A

y consistente en la minimización de:

yro ( f^i = n J( y-xt f^) 2 d F„ (^ y

es decir ( 1.2 ) cori A (x)=x.

, , (4.2 )

Lágicamente sí e1 modelo que sigue el vector (X,Y) es lineal, es decir,Y=X`eo+^e con E (^)=o y E 1^)=0^, el hiperplano de regresián es la mejorexplicación de Y sobre X y yr2 viene dado camo: ^

^r2 (©) _ ^2 + j (xreo-x^^)2 dF, (x) (4.3)

donde F, es la distribución marginal de X.

Por tanto es claramente intuitivo sustituir en (4.3) la función xr 8o por unestirnador no paramétrico de E(Y/X=x)=a(x), á,,, que siempre perseguiría adicha función, y F, por un estimador S^„ y aplicar !a minimización delfunciona! (1.9).

En esta línea y suponiendo que F, es absolutamente continua, CristóbalCristóbal, Farald© Roca y Gonz^lez Manteiga (1987) proponen minimizartal funcional considerando como estimaciones para a y F,:

(X„ (X) = [ ^ Y; óm (x, X;) ] / [ ^ ^m (x, X;) ] con 0/0 = 0i^ ^ i_ 1

S2„ (x) = Jx^, f„ ( t) dt = (1 /n) ^ JX ^ ^m ( t, X ;) dt;^ ^

A

donde f„ es un estimador no paramétrico para la densidad de X y lasucesión {^^, : Rpx Rp ---^ R}m-mr„^--^ ^ es ahara una generalizacián de laantes mencionada en el caso p=1.

Bajo condiciones más débiles (E (Y4) <^ por Y acotada con probabilidaduno) en una situación más general (p > 1) y con una sucesión { bm } adapta-da a la situación muitidimensional:

a^ sup ^m (x, u) = O(r»°) , dx E Ru

b^ óm (x,u) > 0 y c^m (x,u) = óm (u,x) d(x,u) E R 2p

c/ J^m (x,u) du = 1 y Sm (x,u) = 0 si II x-u IÍ > c E„ (^„=0 (1 /m) )---^ 0 si n ---^ «^

en el trabajo anterior se prueba:

i) Si E(Y4) <^ entonces 8 c.s.^ ^

^ (Y -Xt ©)2

(4.4)

con

Page 23: Una perspectiva general con nuevos resultados de la ...

l;!ti,A PEFiSP^:C'TI^'A GENER,AL C'Oti til_'EVC)ti RfSI'L..T^A[X)S 1 C^^

íi) Si E( II (X,Y) O ^) < ^ y con y> 0 se tiene E( ^ Y(^+%') <^entonces:

^ (á - ©o) -.---^ Np (o, ^ ( E (x`x) ) -')

En consonancia con lo expuesto en la recta de regresión los estimadoresw

e son asintóticamente eficientes, presentando error cuadrático medio másw

pequeño que el de 8m^ definido a partir de (4.2).

EI estudio del M.S.E. es muy importante sobre todo en lo relativo alproblema de la multicolinealidad en la regresión lineal. Estadísticamenteello quiere decir que las variables regresoras p-dimensionales están cerca-nas a la dependencia lineal, con una posibilidad de reducción de dimensióndel espacio correspondiente. Por otro lado, desde el punto de vista numé-rico significa que las matrices de covarianzas son obtenidas a partir deinversas de matrices con autovalores próximos a 0 produciéndose varian-

A

zas muy grandes para los estimadores Bm^.

Una de las mayores aportaciones para la corrección del M.S.E. en losestimadores anteriores es la introducida por Hoerl y Kennard ( ^ 970) defi-niendo fos Ilamados estimadores riscal:

9k = [ X ` (n) X (n) + k I P ] ^' X ` (n) Y (n} (4.5)

donde X(n) es !a matriz formada por las filas X; e Y(n) _(Y,, ..., Yn1t. Estosestimadores producen un sesgo sobre los mínimo cuadráticos pero unasensible reducción de la varianza.

^Es curioso observar cómo los estimadores 8k definidos en (4.5), que

siempre tuvieron fundamentalmente una interpretación Bayesiana (ver Vi-nod y Ullah (1981) para más detallesl, son ahora un caso particular de lanueva metodología.

En efecto, tomando ^Sm(x, u) _(1 /^) [^ K[(x; - u;) / E„ ]] donde K es,^un núcleo simétrico monodimensional positivo, y verificando:

J K1z)dz = 1 J zK(z)dz = 0 y J ^K(z)dz < ^

se tiene que:

e= 8k con k= nE^ j z2 K(z} dz ^

(ver el artículo de Cristóbal-Faraldo-Gonzálei Manteiga (1987) para unestudio relativo a estos estimadores y sus posibles generalizaciones).

Page 24: Una perspectiva general con nuevos resultados de la ...

164 Fsr:^nisric^ ^ ^:sp.atic^t ,^

Una propiedad de notable interés en la práctica es la recursividad de lasestimacianes, siendo i mportante que los estimadores puedan ser computa-dos de forma secuencial en función de !a entrada de datos {(X,,Y,), ...,.

En la literatura relativa a la estimacidn mínimo cuadrática de fI, puedenencontrarse numerosos artículos concernientes a versiones recursivas delos estimadores minima cuadráticos, destacando, por ser recientes, entreotros, los artículos de Hasiett ( 1985) y Sidalhartha-Rao y Tiwari ( 1987}.

Si se pretende la obtención de estimadares recursivos con la nuevametodofogía, necesariamente también lo han de ser los estimadores pilotono paramétricos que se utilicen inicialmente para estimar a y la densidadde X si se supone existente.

En el contexto de la estimación no paramétrica, podríamos destacar losestirnadores recursivos tratados por Yamato ( 1971 }, Wolverton-Wagner(1969), Deheuvels ( 1974, 1979) y Devroye ( 1979) para la función dedensidad y Greblicki (1974), Ahmad--Lin (1976), Buldakov (1977) yDevroye-Wagner ( 1980} para la regresión. Recientemente Singh-Ullah(1986) tratan ambos casos.

Una formulación general de todos ellos utilizando el lenguaje de lassucesiones { c^m ^ podría ser la siguiente:

ĉrn (x) _ [ ^ Cim(iJ (x,i^`;) Y; ] ! [ ^ l^m^i1 (x,X;) ] (o si 0/0)i=1 i=1

fn `x) ^` [ ^ Um(il `x. X f) ] ^ iÍ^=1

w

Se observa que los estimadores 8 minímiZantes del funeional

^^ (8i -- J (an (x) - xt 8)2 fn (x} dx

t4.6)

(4.7)

^con án y fn definidos en (4.6), heredan la recursividad. De hecho aplicandoresultados relativos a inversas de matrices es posible obtener que:

Q =^ ^.©n = [ ^ f X Xt (Sm^(il {x, i^i} dX + ,^ X Xt ^m ^n^ (x, X n) dX ^ -

i=1

•[^^J^ (xX.)xdxY,+JcS (xX}xdxYm(i) ^ i r mtn) ^ n n^=1

- L An-1 + Dn J r[ brr-1 + Cn ]

es decir:

f^n = [ Ip - A^,' , Dn(Ip + A^ f ^ Dn)-r ] ^n-^ ' A^ ^ ^

1

(Ip+An1l Dn^ ^ An^ l ^ Cn

(4.8}

Page 25: Una perspectiva general con nuevos resultados de la ...

l'N;1 PE:RSPEC'TIVA t^Fti^RAL C'Oti til.'FVC)S RE^.SI'L-TACX)S I6S

A

obteniéndose una formulación recursiva para f^,,.

Finalmente presentamos como resultado inédito, el siguiente relativo a laclase recursiva (4.8), cuya demostración puede verse en el apéndice.

TEOREMA 3. Bajo las condiciones definidas en 14.4) se verifican también^los resultados sobre consistencia y normalidad asintótica para 8„ definido apartir del funcional (4.7).

i^ Si E(Y4) <^ entonces ŝ„ c.s.^ ^o

íi) Si E( ^^ (X,Y) ^^ 2) < ^ y existe y> 0 con E( ^ Y^2+^) <^ entonces:

1^ Íon - ^o) d--^ Np (0, ^ (E ( X` X) )^').

Es decir, asintóticamente las versiones recursivas y no recursivas secomportan de forma similar. Es de notable interés y puede ser objeto defuturos trabajos, la comparacidn entre ambos estimadores en base alM.S.E. con muestras de tamaño n. Como punto de referencia puede indicar-se el buen funcionamiento que presentan ios estimadores recursivos res-pecto a los no recursivos en la estimación no pararnétrica de curvas (verpor ejemplo el artículo de Singh-Ullah (1986) ).

5. OTROS MODELOS DE INTERES EN LA TEORIA DE LAREGRESION.

Como ya se comentó anteriormente, el modelo (1.11, en función de que Xsea aleatoria o determinística, da lugar a distintas derivaciones del mismo.En este apartado, y de forma más breve, comentaremos esencialmentealgunas otras derivaciones de interés distintas a las tratadas anteriormente,que reflejaremos en los siguientes casos:

A) El mode% autoregresivo.

B 1 El mode% de heterocedasticidad.

^ C) El mode% con datos censurados.

D) El mode% Bootstrapping.

A) El mode% A utoregresivo

Este modelo viene a representar un caso particular de modelo de correla-ción, construído a partir de una serie temporal, normalmente de tipo esta-cionaria. Si { Xt }tE Z+ es dicha serie y A (x) = x, para que se tenga una

Page 26: Una perspectiva general con nuevos resultados de la ...

^ fib I`STAC^ISTIC',a E.^ ►PA`^CII^.A

dependencia en autoregresión de orden p, se ha de verificar: Y= Xr y Xt=(X:_,, ..., Xt_p) con un modelo definido por:

= ^ f^°X + EXt%i Í

I t-I / (5.i )

donde, el error que verifica frecuentemente E(^r) = 0 E(E^ = a2 recibe elnombre de ruido blanco para indicar una independencia entre sus variablesa lo largo del tiernpo. Por otro lado por comodidad a!as variables X^ delmodelo 15.1) se las supone centradas, es decir E(Xt) = 0.

La fiiosofia de la nueva metod©logia es !a misma que la desarrollada enel apartado 4. En este caso, a partir de !a muestra_ { X,, ..., X„ } con_n > p,de { Xr }, se construye la muestra transforrnada {{X,, Y, ► , ..., (X„_^,, Y„_P) }con:

X, - (X,, . . ., XP)

(XZ,..,,X^,)

Y, = Xp+r

Y2-Xp+2

• • • • Y • • • • • • • • • • Y • • • • • • • • • • • •

Xn_p -- ^Xn_p, . . ., Xn-1) Yn-p' Xn

y a continuación se procede a la estimacián no paramétrica de 1a funciónde predicción a(x) = E(X p+, i(X,, ..., XPj = x) y de la distribución estacionariade (X,, . . ., Xp).

Dichas consíderaciones nos Ilevan al uso de estimadores no paramétricoscon datos dependientes, cuyos estudios son fundamentalmente recientes,pudiéndose citar entre otros los articulos de Collomb { 1982), Masry (1983,1986j, Bíerens (1983 ), Co(lomb y Doukhan (1983), Bosq (1983), Hart(1984), Yakowitz (1985), Collomb y H^rdle (i 986), Gydrfi (1987), Gy^rfi yMasry { 198?), Robinson (19$6, 1987) y Vilar Fernández (1987).

La adaptación de ias estimaciones no paramétricas introducidas en 4 aeste contexto, da lugar, fundamentalmente, a los estimadores no paramé-tricos de a y de la distribución estacionaria respectivamente:

L^P Y; ^n^ ^X• x;) 1/ L ^P am (X^ %^;) J^_ ^ ^_ ^

JX^ f„ (t) dt =(1 /(n'p) ) Ep J a,,, (t, X^) c^t^= r

y0sio/0

^EI estimador ^ resultante, verífica resultados similares a los correspon-

dientes del modelo de correlación, si bien, la herramienta probabilistica

Page 27: Una perspectiva general con nuevos resultados de la ...

l'ti,A YE::EttiPE=..('^TI^'A ( ► E^:^+f:EZAI_ C^t^^ til E-.^'OS FtESt l.T ^^[k)S Í6^

necesaria para la obtención de dichos resultados es sensiblemente distinta(ver Gonz^lez Manteiga y Vilar Fernández (1987a, 1987b) ).

B) El mode% de heterocedasticidad.

A lo largo de la introducción se hizo mención de situaciones, en las que,el estimador de mínimos cuadrados dejaba de ser eficiente.

Colas pesadas para el error E q una posible contaminación del mismoeran señaladas como algunas de las causas més significativas.

Otra posible causa no considerada anteriormente, es la existencia deheterocedasticidad en los errores, es decir, errores de varianza no homogé-nea. En cuyo caso, Var(Y /X=x) _^(x) en el modelo (1.1).

La estimación mínimo cuadrática, definida a partir de la optimización deffuncional ( 1.2), ha de ser corregida por una estimación mínimo cuadráticaponderada, resultante de la optimización del funcional:

^o ( f^) _ ^ [ ( Y;- A ( x;) ©> / Q ( x;) ] 2,- ^

con el consiguiente estimador:

(5.2)

©mGP = [ ^ A (X;1 At^X;) /^(X,) ] ^' / [ ^ A (X;) Y;/^(X;) ] ( 5.3)i=1 i^ 1

EI claro desconocimiento de la función o-^(x) hace que en el funcional(5.2), c^(x) sea estimada previamente, para utilizar dicha estimación poste-riormente en la optimización del funcional. Los estimadores así obtenidos,reciben en la literatura el nombre de adaptados, siendo el artículo de Carroll(1982) un buen estudio ilustrativo de los mismos. Realmente son estima-dores construídos en dos etapas por no ser el estimador ( 5.3) obtenible enla práctica.

^La versión heterocedéstica de los estimadores fI en la nueva metodología

es todavía un problema abierto de investigación. No esté todavía clarodónde debe reflejarse ^ la heterocedasticidad. A nuestro juicio, son dos, lasposibles vías de estudio:

a) Como la varianza condicional Var(Y/X=x) = cr2(x) es realmente unafunción construída a través de funciones de regresión:

Va r (Y /X=x ► = E (Y2/X=x) - ( E (Y /X=x) )2

n n

una estimación no paramétrica de la misma, ĉr^ (x), nos permitiría construirun nuevo funcional:

Page 28: Una perspectiva general con nuevos resultados de la ...

E ^T 1F)I!^T[t -l E^4F'-1tiC)1.A

^,cf^y _^^ c ^^(x} - Ar{x^ f^) f^{x> ^2 ds^„ (x^^

cuya optimización daria lugar a una nueva clase (^ de estimadores adapta-dos a la heterocedasticidad.

b) De forma alternativa, se puede hacer una estimación no paramétricade la función de regresión x(xy teniendo en cuenta la heterocedasticidad y a

w

continuación definir el estimador f^ c©mo el optimizante del funcional (1.9}.EI uso y estudio de estimadores no paramétricos de este tipo es muyreciente siendo el único artículo que conocemos el de H^rdle-Tsybakov{ 1 988).

C} E/ modelo de datos eensurados.

En teoría de Fiabilidad es muy frecuente el estudio de la variableT= tiempo de vida (tiempo de duración de una pieza en un sistema mecá-nico, tiempo de metástasis dei cáncer,... etc.}. Dicha variab^e va acompaña-da muy ar menudo de covariables de interés. Así por ejemplo, ante eltiempo de vida de un enfermo desde que se le diagnostica una enfermedadgrave, se pueden considerar las covariables edad, peso, indices específicosde la enfermedad,... etc.

En varias ocasiones la variable T puede estar censurada por otra C,independiente o no de la anterior, dando lugar a la realmente observableY=min {T,C}. Miller--Halpern { 1 982) presentan un estudio relativo a estasituación: Sobre un banco de datos inicializado en 1967 y cuyo estudio seprolongó hasta 1980, se aborda el tiempo de vida T de 1 $^ pacientesdesde que reciben un transplante de corazón. La variable C que censura,indica que ^a variable T no pudo ser observada, bien sea porque en 1980todavia vivia el enfermo, bien por la pérdida del historial en un determinadoinstante,... etc., siendo el tiempo C precisamente el registrado.

EI planteamiento del modelo de regresión entre la variable T y las consi-guientes covariables determinadas por el vector X, da iugar al modelo (1 .1 }con T=Y.

Para que tenga sentido un modeio de regresión lineal con la variable T,ya que ésta sólo toma valores positivos, es necesario una transformaciónde la misma a otra escala, por ejemplo la log-escala.

La estimación de f^ en este contexto es relativamente reciente, siendo dedestacar los métodos propuestos por: Cox (1 972}, Miller { 1 976), Buckley yJames (1 979) y Koul-Susaria y Van Ryzin { 1 981 }. Ei factor común a todosellos es el alto costo computacionaf.

Page 29: Una perspectiva general con nuevos resultados de la ...

l'ti.A PERSPE^.(^^T^IVA ( ;E:^+F:R.4L ('Oti til:f_V(ri F^E^SE 1_T^.^[x)S ^^iy

Alternativamente a todos elfos, aquí la nueva metod©logía puede teneruna especial cabida. La muestra inicial, ahora para este contexto, es deltipo {(Y,,X,,^,), ..., (Y,,,Xn,d„) } donde Y,= min { T,,C, } y ^5,= 1 T^ , ^^; , es decir,^; codifica los valores 0 0 1 según haya o no censura. E! éstimador noparamétrico para a(x) = E(T/X=x) = f tdF(t/x), donde F(./X=x) representa ladistribución condicional de T a X=x, es del tipo:

án(x) = f t dFn(t/X=x) _ ^ [ Y, cS, B,,; (x) / 11-F^ (Y;/X=x) ) ] (5.4);_ ^

donde F„(./X=x) representa un estimador de Kaplan-Meier generalizadocon covariab^es para la distribución de la variable T/X=x. Y F^(./X=x) seríael anélogo para la variable C, siendo:

B n^ (ii) _[ Um (X, x^) / C^ ^m (x^ X r) J Jr=1

es decir:n

1 - ^n

1- F ( t/ X= X) II

^

„ -;_^ [ n

^ -r̂_^

1 {Yr<

^ { Y< Y^} Bnr (X) -i- gn^ (X)r_ 1 /

_ t•dj-^}

(5.5)

y 1-Fñ (t/X=x) definido de forma análoga pero sustituyendo 1{,,^,_ r^,^_, j por

1 ` 1 {r^< r,a^=^}^

Ctaramente, en situaciones de no censuraje ^^-1 e Y^-T^ b j los estimado-res no paramétricos se convierten en los cl^sicos previamente indicados. Esdecir, el estimador (5.5) cuando no hay censuraje ni covariables da lugar alempírico. Cuando hay censuraje y no hay covariables da lugar al estimadorde Kaplan-Meier ( Kaplan-Meier ( 19 58) )(en estos dos casos Bn,--1 /n) ycuando no hay censura y sí covariables se tiene el estirnador no paramétri-co de la función de distribución condicionada:

F(t/X=x) = P{T < t/X=x} -= E(1 {T< r}^x=X^

Con las estimaciones (5.4), la optimización del funcional (1.9) da lugar a^una nueva clase de estimadores f^, definidos para este contexto. Los proble-mas computacionales aquí desaparecen, si bien permanece como objeto deinvestigación futura, su funcionamiento cornparativo respecto de los yaexistentes con el criterio del error cuadrático medio.

Page 30: Una perspectiva general con nuevos resultados de la ...

^ ^o F ST 1[^ltiF!( A F4PAti()L_A

D) E/ modelo Bootstrapp.

Cuando en el modelo (1.1 ), considerando X como variable aleatoria o de-terminística, se dan resultados relativos a!a normalidad asintótica de losestimadores de mínimos cuadrados:

v' n( f^m^ - E^ } d----^. N P{ CJ, a3 ( E( X X^} )^' }

^^ ( ^rnc - ^ ) d---, ÍU P ! o, ^ B ^ t }

con B=lim X`(n} X(n) /n con X(n} defínida como en el apartado 4 paran -^ ^

^os modelos respectivos, es indudable, que la inferencia que se haga para f^,por ejemplo intervalos de confianza, ha de estar basada en estas aproxima-ciones de tipo asintótico. Por otro lado, los parámetros desconocidos perte-necientes a la matriz de covarianzas asintótica también han de ser estima-das.

Como afternativa a este tipo de inferencia clásica para ^ surge ei Boots-trapping. .

Para el modelo de correlación, sí f^=f^o es e^ parámetro dei modelo, es de-^cir, e^ que minimiza el funcional (4.1 }, f^^,^ es el valor para el que se minimi-za el funcional (4.^) y por tanto f^o es a F en et mode^o teórico como dm^ esa F„ en e^ modelo empírico. De esta forma el Bootstrapping o simulaciónartificial del modelo, se ha de desarroflar en base a la distribución empírica^n '

Si { (^C;,Y;}. .

mc

.,(X^,Y^} } es la muestra artífícial simulada,

C ^ X # x*r ^ -^ ^ ^ X,^Y;` ^i=1 i= t

( 5.6 }

es el estimador minimo cuadrático Baotstrapping. Si a su vez se estabie-cen N répticas correspondientes a las muestras artificiales {(X;;, Y;;}, ...,^(X*;, Yñ;} ;^,, .., N, es posible la obtención de {©m^; };_, . ^; estimadores artificia-les mínimo cuadráticos. Dichos estimadores pueden ser utilizad©s para^ Aaproximar la distribución de n(f^m^ - t"^m^}, de la cual, ya probá Freedman(1_981 ), cuando n ^^, su aproximación de forma casí segura a la deY n ( ^mc - ^o) '

En conversaciones personales con el Profesor Stute, éste nos adelanttí elmejor funcionamiento, deducido de estudíos de simulación para este mode-lo dei Bootstrapp sobre los métodos clásicos.

Para la situacíón de variable X determinística, la muestra inicial es:

{ (x,,Y,}, . ., (x,,,Y„} } y la artifícia^ { (x,,Y; }. . -, (x,,,Y^} } donde

Page 31: Una perspectiva general con nuevos resultados de la ...

l'NA PE:RSPE:('TIVA C;EtiER.AI_ C`Oti tiI:E^VOS RF:^I l TAC

^* • 1 X1

Y (n1 = • _ ^Y^ X„

^^ c ] = X (n) f^m^ +

donde E* es simulado de la distribución ernpírica de !os residuos centrados:

{^,-^,...,^„-^},w

X; B,n^ , . ., nn

y^=(^ ^;/n).;= r

EI estimador mínimo cuadrático bootstrapping es ahora:

em^ _[ X(n)t X( n) ^^' Xln)` Y* In) (5.7)

marcándose una diferencia respecto de (5.6) ya que ahora X no debe sersimulada por ser determinística.

Dado que los estimadores diseñados por la nueva metodología presentanproblernas análogos a los de mínimos cuadrados, parece razonable plan-tearse e! Bootstrapping en la nueva metodología.

En e! modelo de correlacíán, en base a la muestra artificial {(X;,Y; ), ...,^(Xñ,Y^) }, es posible construir el estimador f^* que minimiza

^l/, (8) =1(an(x) - xx o)2 dSZn íx)

donde:

a^ (x) _ [ ^ Y;' í^m (x, X ;^ ] / [ ^ ^Sm (x, X;i ] ( © s i 0/0 )i=1 r=1

y S1^(x) son los estimadores no paramétricos Bootstrapp. .

En el modelo de correlación, en base a la muestra artificial {(X;,Y; ), ...,^(X,*,Y^) } es posible construir el estimador ^ que minimiza:

yr; (H) = f ^(áñ{x) - x^ ©j2 dx

ndonde ĉx^(x) _ ^ w,,; (x) Y*, con los Y*i=1, .., n construídos de forma artificiala partir de loŝ-r'esiduos centrados de É; = Y; - x; f^ i=1, .., n.

Es objetivo claro de investigación el comportamiento asintótico de los es-timadores Bootstrapp para la nueva metodología. Pareciendo razonable^plantearse si los nuevos estimadores f^* serán de una utilidad símilar a!a^que ya tenían los Om^ definidos por (5.6) y(5.7) respecto de los mínimocuadráticos.

Page 32: Una perspectiva general con nuevos resultados de la ...

17?

6. APEfVDICE

Demvstración de/ Teorema 1

E ^ T ^>[)ISI !( ^> E SF'->^+()!.. ^

^Teniendo en cuenta la expresión (3.4} para ^ y la (3.3,! para án se verífica:

B = [ ,^^A (xi At (x) dx ] - r ^^ J^ Wn,^{x) A {x) dx Y; ] _,_ ^

n_ ^ j^Q {x) q^ (X) dx ] - r ^ ^ J ^ wn^ (x) A {x) dx { At {x;} © + E;} ] _,=^

n_ ^ [ ^ l^w^; (x) A (x) dx (A^(x;) ^ + E;) ] _

i- 1

= B[^ .^^wn, (x) A(x) At tx;) dx ] f^ + B(^ J^wn; (x} A(x) d'x E; ] = d, + 1^2 .,= f ^=1

para ^, se verifica:

n n

^ w^; (x} R {x) At (x;} _ ^ w,,; (x) A (x) (Ar,_ ^

^A x) 1{liX;-xf^^a}+

n

^ w,,, (x) A{x? (A` {x;1 - At (x) ) 1 { ^^ X; _ X ^^ ^ a ^ +;_ ^

+ A{xj At(x)=(1}+{2)+(3}+(4i .

n

L^1 wní (x) 1] A (x) Ar (X) +

Como A es continua definida en un compacto {c} del Teorema), es portanto uniformernente continua, verific^ndose b^ ^> O que cuando: a--^ o,^(1 )^_̂ bE. Por otro lado corno A es acotada ap^icando la hipótesis a^ delteorerna, {2)--^ O y(3)--^ O cuando a^ O. Por tanto:

^ w,,; (x) A (x) At (x;} ---^ A (x) Ar (x)^- ^

con lo que, una aplicación del teorema de convergencia dominada nospermite deducir que L1, --^,,> B B► "' f.^ = f^.

Por lo que respecta a d2, aplicando el teorema de Pruitt { 196f ) en ^amisma linea que Georgiev 41 985), con las hipótesis a) y b) se verifica que:

nt12 = B[,^ E W,,; (X) ^; A(x) dx ]

,_^c. s. ., O

ya que ^ wn; (x) E; -----^ O(por Pruitt { 1966) ) y A es acotada.;^^

Page 33: Una perspectiva general con nuevos resultados de la ...

l;tiA PE^RSPE(^i l^'A t;ENER^AL tOti til;E^"OS RE ^l l^T,^^[)OS

Demostración del Teorema 2.

Teniendo en cuenta que:

^In (^-8 ► =1^ñ [B [^ ,^^w,,;(x) A(x)A`(x;) dx] f^--H +,, ^

+ B[ É j w,,; (x) A(x) dx^; ) ]= y' n 0, + ^rñ n2,- ^

173

y aplicando las hipótesis del teorema, ^ ñ 0, --^ 0, quedando por ver la^distribución límite de y n 02 .

^Ahora bien, Ilamando Zn; = ti n w,,; (x) A(x) dx ^; i=1, ..., n y teniendo en

cuenta las hipótesis a), b) y c^ es posible, desarrollando cálculos matemá-ticos, probar que:

n[^ E(Z^,; Z;,; ) ]-^ a,^ , donde, a,^ es el elemento general de la matriz

,- ^02 B -' y:

{Ilz ^^^^^;_^ ni I I Lni I I 2 d P^^ -"'^j o

Los desarrollos para estos últirnos cálculos, son similares a los ya utiliza-dos por González Manteiga (1982, pág. 243).

Finalmente aplicando el criterio de Liapunov generalizado se deduce:

n

^ n E J w,,; (x) A(x) dx E; d---^ Np ( o, c^ B^' )i-1

y por consiguiente ^ñ A2 d--^ Np (o, cr^ B-') lo cual conc^uye la demos-tración del teorema.

D emos tración del Teorema 3.

^Teniendo en cuenta las expresiones (4.6) para án y fn y el funcional (4.7),^

es claro que fI„ puede expresarse como:

8n =[ J X x` dFn (x, y) ) J x` dFn (x, yi

A

donde F„ es la distribución:

Fn (x^ Y) _ ^ ( 1 /n) ^X ^ ^m(il (^;,t) dt =

{(X;. Y; l i Y; < y;

^

_ ^ ( 1 /n) J _aY,-^ [ JX^, (^m; (u,t) dt ] dG ^ (u,v);_1 ( , l (1 ^

Page 34: Una perspectiva general con nuevos resultados de la ...

1 7-^ f^ 1" ^^f}[ti-T It •^ f 4P Ati()1. ^^

donde G, es ia distribución degenerada asociada a 1 ; rX ,, ,^.^ ,

Para la deducci©n de a1 (usando razonamientos similares, mediante mé-tricas de Mallows, a los uti^izados en Cristóbal-Faraldo y Gonz^lez IVlantei-ga (1 987} ) ser^ suficiente con comprobar que:

F„tx, y} ^.s---^. F(x, Y} v j I I {x- ^i I I a ^n(^, y}

donde F es la distribución de (X,Y}.

G. S. J II (^- y) II 4 d^ {,^j y}

Para demostrar que se verifica ia primera de las anteriores convergenciastendremos en cuenta que:

.. .^ n f ^ , y)

F^ {x- y) - F {x. y> = F^ (X- r) - ^ { ^ /^} 1,_ ^.i=1

Y+ ^ { 1 /r^) ,^^ ^

r= ^

^mCil {[t, t} dt ] d^ ( u, Y) +

^,T,(;^(u,t} dt] dF(u,v)- F(x,y}^n (1^,y1 fx

= ^L (i= ^

^ ,fl^^ ^ J r_ ^,, _ ^^^ 1 _ a, ^m^il

+^ (1//1)^i=1

a , ^/J rX

, - ^ ) ^ Jj - ^ ^m(i)

(u, t) +dt ] d(G; (u, v) -- F (u, vÍ ) ]

( u, t) dt ] d F( u, v} ]+

n (X- Y^ X+ ^ (1 /n ) [ ,^r- ^ , - ^ ^[ J- ^ cS,F,r;^ { u, t) dt - 1 ] dF ( u, v) ] = I . + I I . + I I I .

i-1

Considerando la función:

x9n ( u, v} _ ^_ ^ c^^, ( u, t} dt - 1

por la hipótesis del te+urema, si u> x, g►n(u,v) + 1 ----^ O y si u< x, gn(u,v}---^ Q. Por consiguiente, una aplicacicín conjunta del teorema de conver-gencia dominada en conjunción con el lema de Toeplitz implica: (^I) y(III)

O

Por lo que respecta a( I):

!7 éX-C^i, YJ

{^) _ ^ { ^ ^^) [ Jr-^, -^^1= Í

d(G;(U, v) - F (u, v) } ]

n ( ^ , YI x+ ^ (1 /n) 1 rX-^E;. - ^^ ^ ^- ^. ^.^,r^ {u- t) dt ] d(G;(r,,►, v} - F {u, v) ) ] = IA + I B

,_ ^

Tomando !as variables:

(^. Yí x

^; ^ -^rx-C^:;. - ^^1 ^ -^- ^ ^mri^ (u, t) ] d{G;{u, v) - F {u, v) ), i^ 1, . . ., n

Page 35: Una perspectiva general con nuevos resultados de la ...

l!^IA PF:RSPE^.C'TIVA (;FtiERAL C'O^1 tit'EVOS RE^SI'LTALaOS 17S

y aplicando la desigualdad de Bennett (1962) ,

P {^ IB ^>e}= 01exp {- neZ} )

y por tanto por el lema de Borel Cantelli IB -^5^-^ 0 .

Razonamientos similares con la apficacián de la desiguafdad de Bennett(1962 ► y !a continuidad de F nos permiten deducir IA ^^5^--^ 0, lo cualconcluye la demostración de que F„(x, y ► c.s.^ F(^ y ►

Para la demostración de la otra convergencia es suficiente con ver que:

A

^I (X•y^ ^^ 4^^ (x,Y^ " J i^ (^Y ► j^ 4 dF(x,y ► _n

'( 1/n^ ^ J( I^ x I I^ I I Xi ( I 4^ um(i1 (^ i^i^ C^X ^-i=1

+(2 ^n ► ^ Y?J ( I I x ^ I 2 I I Xi (^ 2^ ^m(il (X, i^i► CiX +i=1

+ (1 ^^ ► ^ ( ^^ x ^^2 + Y?) - E( (^ (X-Y1 ^^^1 = 0, + d2 + 0^i-1

verificándose que ^3 c.s.--^ 0 por la ley fuerte de los grandes números y0,, d2 ^^5^-^ 0 sin mas que aplicar razonamientos relativos a la desigual-dad de Bennett.

La demostración de b^ puede obtenerse de forma similar a ias demostra-ciones correspondientes a las situaciones no recursivas (ver por ejemploFaraldo - González Manteiga (1987) o Cristóbal i Faraldo - GonzálezManteiga (1987) ► .

Agradecimientos: Deseo expresar mi agradecimiento al Profesor Daniel Peña y a uneditor asociado por el interés que rnostraron por este artículo. Así misrno agradezco alos Profesores: Jose Manuel Prada Sánchez, M. Angeles Fernández Sotelo y PedroFaraldo Roca por sus críticas, las cuales, reportaron una mejor presentación del traba-jo. Los comentarios de dos referees anónimos también fueron de utilidad.

BIBLIOGRAFIA

AHMAD, I.A. y LIN, P. (1976). «IVonparametric sequential estimation of amultiple regression function ». Bull. Stat., 17, 63-7 5.

ANTOCH, A. COLLOMB, G. y HASSANI, S . (1984) «Robustness in Parametricand Non Parametric Regression Estimation: An Investigation by Compu-ter Simulations». Compstat. Physica-Verlag. 49-54.

BENEDETTI, J. (1977). «On the nonparametric estimation of regression func-tion». J. Roy Stat. Soc. B., 39, 248-253.

BENNETT, G. (1962 ► . «Probability inequaiities for the sum of independentrandom variables». J.A.S.A., 57, 34-45.

Page 36: Una perspectiva general con nuevos resultados de la ...

1^6 E::^T^^f)I!ii 1C 4 E_SP;^tit)L.:4

BEERENS, H, J. ^1983^. «Uniforms consistency of Kernel estimators of aregression function under generalized conditions». J.A.S.A., 78,699-707.

BosQ, D. ^ 1 983). «Nonparametric prediction in stationary processes». Lectu-re Notes in Staiistics 16, 69-84.

BU^KLEY, y JAMES, I. (1 979j. «Linear regression with censored data». Bio-metrika 66, 429-436.

BU^DAKOV, V.M. y KosHiN, G. M. (1977). <tRecursive estimators of a prob.density and regression line». Problems of lnformatron Transmission. 13,41-48.

CARROLL., R. J. (1982). «Adapting for heteroscedastic in linear models».Ann. Stat. 10, 1224-1233.

CO^^.oMB, G. { 1982) «Prédiction non paramétrique étude de I'erreur quadra-tique du prédictogramme». C.R. Acad. Sc. París, t. 294, 59-62.

Co^^oMB, G. (1983}. t< Nonparametric regression on up-to data bibliogra-phy». Sixth /nternationa/ Summer an prob/ems of mode/ choice and para-meter es timation ín regression analysis, S e I I i n/R u ge n.

COL^OMB, G. y DOUKHAN, P. (1983). c<Estimation non parametrique de lafonction d"autorégression d'un processus stationaire et s^-mélangeant:risques quadratiques pour le méthode du noyau». C. R. Acad. Sc. París, t.296, 859-862.

COLLOMB, G. y HARDLE, W. { 1 986). «Strong uniform convergence rates inrobust nonparametric time series analysis and prediction: Kernel regre-ssion estimation from dependent observations». Sthocastic Processes andits .q► pp/ícatíons.

Cox, D.R. (1 972}. «Regression modeis and life -- tables» (with discussionj.J. R. Statíst. Soc., B 34, 187-202.

CRISTOBAL, J. ,A., FARALDO ROCA, P. y GON2ALEZ MANTEIGA, W . (1987}. ttAclass of linear regression parameter estimators constructed by nonpara-metric estimation». Ann. Stat. 1 5.2, 603-609.

DEHEUVELS, P. (1974}. «Estimation séquentielle de ia densité». Tesis docto-ra/, Pa rís.

DEHEUVELS, P. t 1979}. «Estimation séquentielle de la densité». ^ontribucio-nes en Prob. y Est. Matemática, 1 56-16 9. G ranada.

DEVROYE, L. P. (1 979). «on the pointwise and the integral convergence orrecursive kernel estimators of probability densities». Uti/itas /l/lathematica,

. 15, 1 13-128.

DEVROYE, L. P. y WAGNER, T. J. (1 980i. tcThe strong uniform consistency ofkernel density estimators». l1/lultivarr'ate Ana/ysrs. Ed. por Krisnaiah.North-Holland, 59-7 7.

DRYGAS, H. { 1 976). «Weak and strong consistency of the least squaresestimators in regression models». ^. 1N: und verm. Gebiete 34, 1 1 9-127.

FARALDO RoCA, P. (1 982). «Una generalización del método de mínimoscuadrados utilizando procedimientos no paramétricos3>. /X J©rnadas Ma-temátr'cas Hispano-Lusas, Salamanca.

Page 37: Una perspectiva general con nuevos resultados de la ...

I;NA PF:RSPE^('TIVA (;EtiERAL ('O^i !til'E^'OS RE^:SI^LT.A^DOS

FARALDO RocA, P. (1984). «Nuevos aportes de métodos no paramétricos ala teoría de regresión paramétrica». Tesis Doctoral. Universidad de San-tiago de Compostela.

FARALDO ROCA, P. y GONZALEZ MANTEIGA, W. (1 987). «On efficiency of anew class of linear regression estimators obtained by preliminary non-parametric estimation». New P'erpespectives rn Theoretical and AppliedStatistics. Puri-Vilaplana y Wertz•(editores), John Wiley.

FREEDMAN, D. A. 11981). «Bootstrapping Regression Models». Ann. Stat.,Vol 9.6, 1218-12 2 8.

GASSER, T. y MULLER, H. G. (1979). «Kernel estinnation of regression func-tion». Smoothing Techniques for Curve Estimation. L.N.M. 757, Gasser yRosenblatt, {editores^. Springer, 23-68.

GEORGIEV, A. (1983). c<Local properties of function fitting estimates withapplication to system identification ». Proc. of the fourth Pannonian Symp.on Math. Stat. Bad Tatzamansdorf, Austria. Grossman, Pflug, Vincze yWertz, (editores), 141-1 51.

GEORGIEV, A. (1985). «Propietés asymptotiques d'un estimateur fonctionnelnon paramétrique». C.R. Acad. Sc. París, t. 300, serie I, 12, 407-410.

GYORFI, L. (1987). «Density estimation from dependent sample». Preprint.

GONZALEZ MANTEIGA, W. (19$2). «Construcción axiomática, consistencias ydistribuciones asintóticas de estimadores no parámetricos para funcio-nes de densidad y de regresián». Tesis Doctoral. Universidad de Santiagode Compostela.

GONZALEZ MANTEIGA, W. y VILAR FERNANDEZ, J. M. (1 987). «Una clase deestimadores para ios parémetros de un proceso A.R(1), obtenidos a partirde estimaciones no paramétricas previas». (Trabajos de Estadrstica Vo% 2,2, 55- 70).

GONZALEZ MANTEIGA, W. y VILAR FERNANDEZ, J. M. (1 987). «A class ofnon-parametrically constructed parameter estimators for a stationaryautorregressive model». Procedings of the sixth pannonian Syr»p. on Math.Stat. Bad Tatzmansdorf. Revesz y Wertz, Ieditores). Reidel Holland.

G REBLICKI, W. (1974). «Asymptotically optimal probabilistic algorithms forPattern Recognition and identification». Monografie 3 Prece Neukowe.Instytutu Cybernetyki Technicznej Politechniki Wroclawsjiej, 18. Wro-claw. Poland.

HARDLE, W(1984). «Robust Regression function estimation». J. Multiv.Analysis, 14, 169-180.

HARDLE, W(1988). «Applied Nonparametric Regression». (Aparecerá en laSpringer Verlag).

HARDLE, W y TSYBAKOV, A. B. (19$$). «Robust nanparametric regressionwith simultaneous scale curve estimation». Ann. Stat. (Vo% 16, 12D-135).

HART, J. D. (1984). «Efficiency of a kernel density estimator under anautorregresive dependence model». J.A.S.A. 9, 1 1 1-1 1 7.

HART, J. D. y WEHR^Y, T. E. (1986). «Kernel regression estimation usíngrepeated measurements». J.A.S.A. 81, 1080-1088.

Page 38: Una perspectiva general con nuevos resultados de la ...

^ 7^ EST 4C^15TJC' 4 E SPA`'vC)1.A

HASLETT, S. (1985). «Recursive Estimation of the Generai Linear Modelwith Dependent Errors and Multiple Additional Observations». Austra/ianJourna/ of Statistics, 2 7.2, 183-188.

HOERL, A. E. y KENNARD, R. W. (1970}. «Ridge regression: Biased estimationfor non orthogonal problems». Technometrics, 12, 55-67.

H usER, P. J. (1981). «Robust Statistics». Wi/ey.

KAPi.AN, E. L. y MEIER, P. (1958}. ccNanparametric estimation from incopleteobservations». J.,r4.S..4., 53, 457-481.

KouLr H. L. ^ 1 986). «Ntinimun distance estimation and goodness-of-fit testin First - order Autoregression». Ann. Stat, 14.3, 1 i 94-121 3.

Kou^, H. L. y DE WET, T. ^ 19831. «#1/linimun distance estimation in a linearregression model». Ann. Stat., i 1.3, 921-932.

Kou^, H. SuSARLA ►, V. y VAN RYZ^N, J. (1 981 }. <c Regression analysis withrandomly right censored data}>. Ann. Stat. 9, 1276-1288.

MASRY, E. ^ i 9831 «Probability density estimation from sampled data». /,EEETrans. lnform. Theary, I T-2 9, 6 9 6- 7 0 9.

MASRY, E. ^ 1986}. «Recursive probability density estimation for wekly de-pendent stationary processes». /^EEE Trans. /nform. Theory, IT-32,254-267.

MASRY, E. y GYaRFt, L. ^ 198?}. «Strong consistency and rates for recursiveprobability density estimators of stationary processes». Journa/ of Mu/ti-variate .4na/ysis, 22.1, 79-83.

MILLER, R. G. ^ 1976). «Least squares regression with censored data». Bia-metrika, 63, 4^49-464.

MILLER , R. G. y HALPERfti , J. (1982}. «Regression with censored data».Biornetrika, ^i9.3, 521-531.

P E Ñ A, D. (19 8 7). ^rEstadística, mode%s y métv^dos. 2 Mode/as /inea/es yseries temparalesa^. Alianza Editorial.

PRIESTLEY, M. B. y cHAO, M. T. (^ 972) . «Nonparametric function fitting». ;./.Roy. Stat. Soc. B., 34, 385-392.

PRUtTT, W. E. (1 966}. «Summability of independent random variables». J.Math. Mech. 1 5, 7 6 9- 7 7 6.

RoBtNSON, P. M. (1 9$fy. «On the consistency ► and limite-sample propertiesof nonparametric kernel time series regression, autoregression and den-sity estirnators». Ann. /nst. Stat. lVlath., 3$, Parte A, 539- 549.

ROB^NSON, P. M. ^ 1987}. «Time series residuals with application to probabi-lity density estimation». Journa/ of Time Series Ana/ysis. 3, 329-344.

RUPPERT, D. y CARROL^, R. J. (1 980}. c<Trimmed Least Squares Estimation inthe Linear Model». J.A.S.A. 75,372, 828- 838.

SEBER, G. A. F. (1 977}. r^Linear Reg►ressian Ana/ysis^^. John Wiley. Rtew York.

SIDHARTA, C. RAO, S. y TlWARI, R. (1979}. c<Another look at some resuttson the recursive estimation ín the General Linear Model». The AmericanStatis tician, 41,1.

Page 39: Una perspectiva general con nuevos resultados de la ...

l;tiA f'E;R^PEC`Tf^'r^ (iE1iF.k^f_ (.'Oti til E^'OS RF:SI'1.^1^AfX)S ^ 7y

SINGH, R. S. y ULLAH, A. 11986). «Nonparametric recursive estimation of amultivariate, marginal and conditional DG P with application to specifica-tion of econometric models». Commun. Statist. Theor. Meth. 1 5(12),3489-3513.

STUTE, W. ^ 1984). «Asymptotic norrnality of nearest neigh bor regressionfunction estimates». Ann. Stat. 12,917-926.

SusAR^A, V. y WA^TER, G. (1981). «Estimation of a multivariate densityfunction using delta sequences». Ann. Stat. 9,2, 347-355.

Vi^.AR FERNANDEZ, J. M. (1987). «Estimación no paramétrica de la funciánde densidad y predicción en series de tiempo». Tesis Doctoral. Universi-dad de Santiago de Compostela.

VINOD , H. D . y UL^AH , A. (1891). «Recent advances in regression methods».Marcel Dekker.

WERTZ, W. 11978). «Statistical density estimation. A survey». Vanden-choeck & Ruprecht, G^ttingen.

WOLVERTON, C. T. y WAGNER, T. J. ( 1986). «Recursive estimates of probabi-lity densities». /EEE Trans. on Systems Science and Cybernetic, ^ 5, pág.307.

YAKOWITZ, S. J. (1985). «Nonparametric Density Estimation, Prediction andRegression for Markov Sequences». J.A.S.A. 80, 215- 221.

YAMATO, H. (1971). «Sequential estimation of a continuos probability den-sity function and the mode». Bull. Math. Stat. 14, 1- 12.

YANG. (1981). «Linear functions of concomitants of order statistiocs withapplications to nonparametric estimation of a regression function».J.A.S.A. 76, 658-662.

SUMMARY

In this paper different applications in the linear regression ofthe new methodology consisting of the parameter estimation inthe model using nonpararnetric estimation of the density andregression are reviewed. New results in the fixed design modeisand sequential modets are íntroduced. Finally a discussion onthe new methodology in the models with heterocedasticity, cen-soring data and Bootstrapping is also included.

Key words and phrases: Nonparametric estímatíon, regression mo-de%

AMS. 1980.

Subject Classifica tion: 6 2 J 0 5, 6 2 G 0 5.

Page 40: Una perspectiva general con nuevos resultados de la ...

ESTADISTICA ESPAÑC?LAVol. 30, Núm, 1 1$, 198$, p^gs. 1 80 a 202

CO M E NTA R IOS

ViCENTE QUESADA PALOMAUniversidad Complutense de Madrid

EI artículo invitado del Profesor Gonz^lez Manteiga, presenta, dentro dela línea habitual de sus trabajos sobre estimacián na paramétrica de curvas,una sobrevisián de ^as aplicaciones de la misma a la Regresián Lineai.

Considero que es un buen artículo, y algunos de mis comentarios partende una perspectíva un poco distinta sobre ef tema.

Como sabemos, muchos procedimientos estadísticos estan basados enhipátesis específicas sobre la forma de las distribuciones muestrales de lasobservaciones. Podríamos pregunta^-nos, si las conclusiones del análisis sansensibles a!as hipátesis hechas. Este grado de preacupación, que podría-mos denorninar como análisis de la "r-obustez" del pracedimiento, puedeconsiderarse como punto de partida del métado no paramétrico aplicado aiproblema estadístico.

En la Regresián Lineal, como indica el Profesor González Manteiga, apa-recen estos problemas, que han empezado a ser estudiados por diferentesmétodos, los M-L-R estimadores, los estimadores de mínima distancia, etc.La novedad metodológica planteada por el Profesor González Manteigaradica en la estimacián en dos etapas de los parémetros en el Modelo deRegresión.

Comentaremos los aspectos que nas parecen de mayor interés en estaestimacián en dos etapas. En primer lugar la utilización directa del estima-dor no paramétrico puede producir malos resultados, esto es así, sin em-bargo hay que hacer notar que el empleo del estimador no paramétrico dela línea de regresián en algunos casos, véase van Ryzin (1 970) en losMétodos Ernpíricos Bayes, puede ser satisfactorio, obteniéndose inciuso

Page 41: Una perspectiva general con nuevos resultados de la ...

(^'(IMEtiTAFtI(^5 181

tasas de convergencia para los estimadores. Creo que la bondad de lautitización directa dependeré en cierto mado de la "suavidad" con la que sepresenten los datos.

Otro punto que me parece importante comentar, es la fórmula (1.9)

^^^ (e) _ (a^ {x) - A` (xj 8 )2 d S2„ (x)

en la que S2„ {x) es una función de ponderación, construida a partir de lamuestra. Hay aquí dos elementos de carácter subjetivo en prircipio.

11 En la estimación de á„ (x) la ventana y la función núcleo (en su caso).

2) La función de ponderación S2„ que a su vez en el Modelo de Regre-sión, vuelve a depender de la ventana y la función núcleo.

Aunque admitiendo la utilización de criterios objetívos en la elección delos mismos, ia consideración de estos elementos como subjetivos, meparece podría dar lugar a una concepción más arnplia del Modelo, en la queel estadístico pudiera presentar su información a priori y que englobase aeste como caso particular. Obsérvese que esta apreciación es sugerida porel autar cuando comenta la fórmula (3.1).

Respecto al Teorema 3, en el que se comprueban los comportamientosasintóticos de las versiones recursivas y no recursivas, creo que seríainteresante además calcular la tasa de convergencia, como método decomparación.

En el Modelo con datos censurados, es interesante considerar el caso enque la variable de Censura C y la variable en estudio T, sean independien-tes, lo cual nos Ileva al estudio de ios Modelos de azar proporcional en losque la supervivencia de la variable T: P(T > t) = S, (t) y la supervivencia dela variable de censura C: P(C > t) = S2(t) vienen ligadas por el parámetro decensura f3 > 0, S, (t) _(S2(t) ) ^. Si consideramos covariables determinadaspor el vector X, esta información adicional seria necesaria introducirla en elmodeto de estimación de la regresión, después de los consabidos cambiosde escala. Por último dei Modelo Bootstrapp, creo que es donde más futuro

' se presenta dentro de la posible aplicación práctica de todos estos mé-todos, incluso si se utiliza la metodología de gootstrapp Bayesiano (Rubin(1981) ), ya que su comportamiento asintótico es equivalente en muchoscasos según ha demostrado A. Lo (1987).

Felicito al Profesor Conzález Manteiga y espero que sig^a en esta línea deinvestigación en la que como refleja este artículo existen muchos camposabiertos en los que obtener importantes logros científicos.

Page 42: Una perspectiva general con nuevos resultados de la ...

1 ^? E^^^t^•1r^itirrc .^ F.^w^ti«t. ^

^iB^^oGRAFiA

A. Lo, A Large Sample Study of the Bayesian Bootstrapp. Ann. Stat. 1 987,vol. 1 5.

V. QUESADA, A. VIVAR, Modelo de supervivencia con azar proporcional.Estadística Española 99, 1983.

D. RuB^N, The Bayesian Bootstrapp. Ann. Stat. 1981. vol. 9.

VAN RYZ^N, ^n some nonparametric Bayes multiple decision problems.Nonparametric Techiniques in Statistical Influence. Cambrige U. P.1970.

J. DE LA HQR RA NAVAR ROUniversidad Autónoma de Madrid

Et trabajo del Profesor Gonzélez Manteiga aborda el estudio de! modelolineal

Y = At(x) f^ + ^

de una manera novedosa e interesante. Resultados inéditos se unen a otrosanteriormente obtenidos por él y sus colaboradores. Algunos de estosresultados han sido pubiicados en revistas de prestigio y, obviamente, suinterés es grande. Uno de !os principales atractivos de este artículo (y no e!único} es presentarnos todo este material de manera unificada.

El estimador de mínimos cuadrados de! parametro ^ ha sido el estimadorpor antanomasia en este tipo de situaciones. Este estimador es muy ade-cuado siempre que ef modelo sea correcto y los errares sean normates,pero empieza a perder buenas propiedades cuando esas hipótesis dejan deser ciertas. Los estirnadores no paramétricos de la función de regresiónsurgíeron precisamente como una alternativa que se debería emplear cuan-do #uera dudoso que el modelo Y = At(x} f^ + F fuera adecuado, y tuviérarnosque considerar un modelo más general Y= rz{X) +^e = E[Y/X^ +^. En estecaso, en vez de construir un estimador f^, debemos construir un estimadora„ tx y

La idea básica que desarrolla el Profesor Gonzélez Manteiga cambinaestos métodos y creo que se puede resumir de !a siguiente manera: acep-tando que el modelo es de la forma Y= At(x}f^ + E, propone como estimadorf^ aquel que verifique que y = Ar(x) f^ se ajuste io mejor posible ( en e! sentidode mínimos cuadrados} a la curva y = a„(x). Esto supone una generalizacián

Page 43: Una perspectiva general con nuevos resultados de la ...

c^c^ti^F^.ti r :^Ki<^^

de la idea que conducía al estimador clásico de minimos cuadrados el cua!trataba de ajustarse lo mejor posíble a la nube de puntos. En este enfoque

a„(x) reemplazará a la nube de puntos.

EI trabajo me ha sugerido algunas reflexíones que p(anteo a continuacióncon la esperanza de que al menos alguna pueda ser de interés:

a) Los principaies resultados obtenidos prueban que los estimadorespropuestos tienen buenas propiedades asintóticas. Para tamaños muestra-les pequeños el comportamiento parece ser satisfactorio, al menos enejemplos como el que sirve para ilustrar la Sección 2(recta de regresión).Naturalmente, en este ejemplo, los parámetros toman valores concretos(f^, _ ^2 = 11. zSe dispone de resultados de buen comportamiento de losestimadores propuestos, para valores cualesquiera de los parámetros cuan-do la muestra está formada por pocos elementas?

b) EI funcional minimizado es el cuadrado de la distancia L2. Hay unalarga tradición en el empleo de este funcional (en gran parte, por sufaciiidad de manejo). Devroye y Gyórfi (1985; capítulo 1) argumentan quela distancia L' es la más natura! para medir distancias entre densidades.Aunque el contexto no es exactamente el mismo, posiblemente valdría lapena investigar esta distancia, ya que como el propio autor señala hay unafuerte conexión con la estimación de funciones de densidad.

c^ zSe ha aplicado la metodología descrita en este trabajo a la estima-ción del parámetro de una familia de densidades, utilizando estimadores noparamétricos de la función de densidad? Si no se ha aplicado, creo quesería interesante hacerlo, ya que cabe esperar la obtención de buenosresultados, similares a los obtenidos en regresión lineal.

Para terminar, quiero felicitar al Profesor González Manteiga por estetrabajo que viene a resumír su labor investigadora de los últimos años.

REFERENCIAS

DEVROYE , L . y GY^RFI , L. (1985): "Nonparametric Density Estimation.• The L'View" Wiley, New York.

Page 44: Una perspectiva general con nuevos resultados de la ...

I`,^ 1,fJd^1f( ^f^f'\`l^E t

MANUEL DEL R!ODepartamento de Estadist^ca e I. U.

Un^vers^dad Complutense de Madr^d,

Me complace felicitar a! Profesor González Manteiga por este nuevotrabajo sobre el uso de estimaciones no paramétricas en modelos deregresión lineal. EI interés del artr'culo radica no sólo en la presentación denuevos resultados sino también en la completa revisión del buen aprove-chamiento que del tema están obteniendo el autor y sus colegas. Esperoque mis comentarios, esencialmente de carácter general (quizás los másctímodos en este tipo de discusiones}, sean de algún valor y que de habersido ya considerados por el autor no hayan sido desechados por falta deinterés.

La aceptación de un modelo lineal de regresión bajo normalidad supone,inicialmente, una dable simplificación: í) hipótesis específicas sobre la dis-tribución de errores, y ii1 restricción a priori de la clase de posibles funcio-nes de regresión. Para solventar, al menos parcialmente, estas limitacionesexisten soluciones que podemos denominar "clásicas": a) utilización detécnicas de regresión ^-obusta (una excelente revisión puede verse en Li,1 985}, y b) extensión de la familia de respuestas considerando modelos deregresión no pararnétricos, situación en que los datos conducen a elegir unelemento de cierto espacio funcional (una referencia muy interesante eneste sentido, complementaria a las indicadas en el trabajo, es Eubank,1 988}. Surge naturaimente una primera cuestión: comparar bajo el mayornúmero cie criterios la nueva metodología con las soluciones arriba indica-das. Por ejemplo, es bien sabido que para la mayor parte de los estimado-res paramétricos usuales el error cuadrático esperado es a(n-') mientrasque para las no pararnétricas es o(n-''), ^^ ^; (0,1 }, z qué puede decirse en estesentido, al variar la ventana, de los nuevos estimadores? o bien, ^cuál essu comportamiento, no sólo asintótico, en función de la distribución o susperturbaciones de las variables y de los errores? Obviamente, este tipo decomparaciones teóricas son difíciles y puede recurrirse a simulaciones.Algunas se presentan en el trabajo pero pecan de una excesiva ""prepara-ción'"; a mi juicio, sólo prueban un buen comportamiento en circunstancíasmuy particulares y no siempre reales. En este sentido, uno de ios factoresque debería tenerse en cuenta en las posibles comparaciones es la ampli-tud de la ventana.

Asimismo, los resu^tados de carácter comparativo permitirian proporcio-nar alguna respuesta a la pregunta: z bajo qué circunstancias es preferiblerecurrir al proceso bietápico descrito en el artículo suavización de losdatos y posterior obtención del modefo más próximo que el ajuste direc-to de un modelo no paramétrico? (Sin olvidar que un método no paramétri-

Page 45: Una perspectiva general con nuevos resultados de la ...

c ^ati^f ^ r iFl^r,^

co puede representar el punto final del análisis de los datos o simplementeuna etapa exploratoria en el proceso de modelización).

Otra cuestián de interés es la definición de residuos bajo la nueva meto-dología. Previa a posteriores normalizaciones o transformaciones, z cuál^sería una definición más adecuada, la usual Y, - Ar(x,) (1 o alguna otra quecontemple en forma directa el estirnador " piloto" ? Ello permitiría abordarotros aspectos de interés, por ejemplo, la comparación de ajustes (paramé-tricos) diferentes a un mismo conjunto de datos o la selección de modelos.

Muy relacionado con la cuestión anterior está el análisis de influencia y eldiagnóstico bajo el método en cuestión. Las posibles técnicas deberíancumplir requisitos generales ya admitidos en los contextos "clásicos"; ver,por ejemplo, Weisberg ( 1983). Ahora bien, incluso bajo el enfoque sencillousual de eliminación de casos, parece que en el nuevo contexto se tendráuna considerable dificultad de cómputo. Quizás en el método recursivo seamás inmediato el estudio del cambio en el estimador tras la supresián deun caso; la inversión del procedimiento indicado en el trabajo permite^ ^ ^expresar f^„_, (o en general f)^;^, con una notación usual) en términos de 0„ .Concretamente, se tiene

f^n_, _ { I + A;,' D„ ( I + A^', D„ )-' } ^„ -

A;,' { I+ D„ ll + A;,' D„)..' Añ' } c„ .

También, de acuerdo con Carroll y Ruppert 11985), podría dar buen resulta-do tener en cuenta los pesos w^,; (x,) del estimador "piloto" como unarnedida parcial de la influencia de los casos.

Por último, y muy brevemente, dos últimas sugerencias: i) comparar lastasas de convergencia de los estimadores propuestos tras (4.3) y de losestimadores recursivos de (4.4), y ii) estudiar la utilización de estimadoresnúcleo con ventana variable es decir, dependiendo de la variable Xcomo estimadores "piloto'" y analizar, en la línea de los resultados expues-tos, el comportamiento asintótico de los estimadores resultantes.

BlBLIOGRAFIA

CARROLL, R. J. y RUPPERT, D . (1985). Transformations in regression: Arobust analysis. Technometrics 27, 1-12.

EUBANK, R. ^. (1988). Spline Smoothing and Nonparametric Regression, NewYork: Marcel Dekker.

Page 46: Una perspectiva general con nuevos resultados de la ...

E til 1,l)itiT tt 1 E`+E' 1tit^l •^,

L^, G. (1 985^. Robust Regression. En Exp/oring► Data Tables, Trends andShapes, Ed. Hoaglin, D. C., Mosteller, F., y Tukey, J. W. pp: 281-343.New York: Wiley.

WEfsBERG, S. ( 1983). Principles for regression diagnostics and influenceanalysis. Technometrics 2 5, 240-244.

ANTONIO CUEVAS(Universidad Complutense de Madrid)

EI presente artículo es una exceiente recapitu^ación de trabajos anterioresde W. González Manteiga ( individuales y en colaboración} en los que sepropone y analiza una nueva clase de estimadores para los parámetros deregresión. EI autor ofrece una gran cantidad de información útil y de ideassugestivas, a lo que contribuyen en buena medida ias propuestas sobreproblemas abiertos que se esbozan en la parte final.

Los comentarios que síguen están influídos, sin duda, por mi interés en taestimación de densidades que, como e! autor señala, es uno de los camposmás afines a la ^stimación no paramétrica de la regresión.

1) i Sería factibie utilizar "estimadores piioto" cz„(x) en los que el "pará-metra ventana" E„ sea en función de la muestra?, Hablando en términosgenerales, !a elecció ► n subjetiva de una sucesián de canstantes {E„} essuficiente cuando la estimación se realiza con fines descriptivos o para unanálisis exploratorio de datos. Sin embargo, en el caso que nos ocupa, laestimacián de E(Y ^ X=x) se plantea como paso intermedio para obtener un..estimador fi y padria ser interesante asignar E„ de acuerdo con algún criterioobjetivo que Ilevarra, de forma casi abligada, a elegir un ^„-^„(Xr, ... X^,)aleatorio (función de la muestra^. EI criterio más estudiado en la literaturareciente es el de «validación cruzada» de Rudemo-Bowman [ver, por ejem-plo, Silverman { 198fi), p. 48]. Los intentos de determinar un ^° constante(no aleatorio) que sea óptimo con respecto a algún criterio prefijado condu-cen usualmente a valores que dependen de elementos desconocidos defmodelo bajo estudio y que, por tanta, deben ser estimados a partir de lamuestra.

En este sentida, creo que !as comparaciones por simulación (c©rrespon-dientes a! modelo Y=1 +^G+E^ que se realizan en el Apartado 2 están un pocodesvirtuadas por el hecho de que en el cálculo de 4, y ^2 se utiliza el valorexacto de una ventana óptima E° que depende de parámetros poblaciones yque, en consecuencia, sólo podrá considerarse conocida cuando las datosprovengan, como en este caso, de una simulación de un modelo prefijado.

Page 47: Una perspectiva general con nuevos resultados de la ...

('OMf=.ti^1 •^RIO^

En las situaciones reales será necesario utilizar un valor estimado de F° locual puede producir una cierta pérdida de eficiencia en f^, y f^2.

En definitiva, el uso de estimadores "automáticos" ( i.e., con E„ en funciónde la muestra) parece, en principia, una prolongación natural de la metodo-logía expuesta por el autor que se podría tantear a pesar de las previsiblescomplicaciones en el cáilculo de los estimadores y en la obtención de suspropiedades asintóticas.

2) EI planteamiento básico del trabajo, consistente en realizar una estima-ción paramétrica a partir de un estimador previo no paramétrico, tiene unaatractiva simplicidad y una apariencia natural que son, a mi juicio, caracte-rísticas comunes a muchas de las mejores ideas en Estadística. Por estarazón intuyo que dicho planteamiento podría tal vez generalizarse a otrosmodelos distintos del de regresión.

A continuación propongo, a título de sugerencia sin elaborar, un posibleenfoque general. Sea un modelo estadístico (paramétrico) caracterizado porun funcional S=S(4), que puede representar una familia paramétrica defunciones de densidad, de distribución o de regresión [S(^)=f^, , S(^)=F^, oS(^)=AtB, respectivamente]. Sea Ŝ„ un estimador no paramétrico de S y duna cierta medida de discrepancia. Se define un estimador ^ mediante

d(S,, , S(4) ) = min^,d( Ŝ „ , S(0)).

obviamente, el caso S(f^)=AtB es el considerado por W. González Mantei-ga en este trabajo, con una discrepancia de tipo cuadrático [definida en(1.9)]. EI caso S(f^)=ff, corresponde a un problema clásico de estimaciónpuntual paramétrica, con distribución básica absolutamente contínua, en el^que el estimador F^ se construiría minimizando la distancia entre un estima-dor no paramétrico de la densidad y las funciones de densidad de la familia{ff,}. Análogo comentario puede hacerse para S(f^1=F„ . Los estimadoresresultantes en este último caso ya han sido considerados en la literaturacon el nombre de "estimadores de mínima distancia" [Parr y Schucany(1982)], si bien el único "estimador piloto" Ŝ „ utilizado en este contextopara S(f^)=F^, ha sido, que yo sepa, la función de distribución empírica.

Este enfoque podría ofrecer las siguientes ventajas:

(a) Proporciona un punto de vista unificado que podría facilitar la obten-ción de resultados generales (de consistencia y de normalidad asintótica,por ejemplo) válidos para las tres situaciones antes mencionadas.

(b^ Establece una relación entre el método propuesto por GonzálezManteiga y los estimadores de mínima distancia, sugiriendo además nue-vas modalidades de estos últimos.

Page 48: Una perspectiva general con nuevos resultados de la ...

I^^K # ^ 1 i!)!^ 1 It^ > f`^1'^> ^i ^E -\

Por supuesto, una de los primeros problemas que habrr'a que resolversería !a eleccián de medidas de discrepancia adecuadas. En e! casoS(f1)=f((^) hay importantes motivaciones conceptuales [ver Devroye y

Gyárfi ( 1985), cap. 1] a favor de la métrica L, , d(f,g} - J ^ f-g ^, aunque habríaque analizar también hasta qué punto esta distancia es adecuada a efectoscomputacionales. EI reciente traba ĵo de Hall y Wand (1988) podría ser útil aeste respecto.

Una observación final: soy consciente de que es más fácil plantear pro-blemas que resolverlos. De hecho, es probabie que alguna de las anterioressugerencias haya sido considerada ya (y quizá desechada) por el autor.Confío en que, al menos, estas iíneas contribuyan a aportar atguna perspec-tiva complementaria a los lectores de este interesante traba ĵ o.

REFEREtVC1AS

DEVROYE, L.; GY^RF^, L. (1 985). Nonparametric Densíty Estimati©n.• The

L,--View. Wiley. Nueva York.

HALL, P.; WAND, M. P. (1988). Minimizing L, d'+stance in nonparametricdensity estimation. J. Multiv. Ana/. 26, 59-88.

PARR, W. C.; SCNUCANY , W. R. (1982^. Minimum distance estimatfon andcomponents of goodness-of-fit statistics. J. Roy. 5tat. Soc. B 44, 2,

178-189.

SILVERMAN, B. W. (19$6}. Density Estimatian for Statistics and Data Analy-

sis. Chapman and Hall. Londres. ^

JOSE A. CRISTOBA,L CRlSTOBALUniversidad de Zaragoza

EI trabajo de González es una magnifica exposición de cómo empleartécnicas usuales en estimación no paramétrica de curvas en modelos deregresión paramétrica, sacando partido a la sugestiva idea de utilizar elprincipio de mínimos cuadrados, en donde se han sustituido las observacio-nes Y; por sus correspondientes estimaciones suavizadas á„(X;} ( estimadorpiloto no paramétrico de la regresión). Se obtiene así un estimador del vec-tor paramétrico t^ que, bajo condiciones poco restríctivas ( ver Cristóbal --Faraldo - González. 1987), es fuertemente consistente y asintóticamentenormal con velocidad de convergencia de arden n-'^2, típica de las situacio-nes paramétricas, y que puede ser más eficiente ( según el tamaño de laventana elegido para á„) que el estimador usual de mínimos cuadrados (Fa-raldo - González, i 987)

Page 49: Una perspectiva general con nuevos resultados de la ...

( ^Oti1f ^ 1 1ft1(a^

Precisamente, por esta última razón, creo que el análisis del tamaño de laventana para x„ merece un tratamiento mucho más amplio que el que sededica en el artículo de González, y mis comentarios se centrarán funda-mentalmente en este tema.

Cuando lo que se pretende es, tan solo, encontrar un buen estimador noparamétrico de la función de regresión (sin ningún tipo de hipótesis para-métrica), suele tomarse como óptimo del tamaño de la ventana del estima-dor (entre otros criterios) aquél que minimiza el error cuadrático ponderado(ASE) definido por

dA(h)_1n

n

^^ [ a„(X;) - :z(X,) ]^ w(X,) (1 )

con la anotación utilizada en el artr"culo de González, siendo h el tamaño dela ventana y w una función de pesos introducida para evitar la incorpora-ción ai error del efecto frontera (ver G asser y Mi^ller, 19 7 9)

También son muy utilizados criterios de optimalidad basados en la mini-mizacián de otras medidas del error, como el error cuadrático ponderadointegrado (IASE):

d,(h) ^ JS [á^(x) - a(x)]2 w(x) f(x) dx (2)

o el error cuadrático ponderado medio ( MASE) ( condicional o no):

d^(h) = E [ dA (h) ^ X,, . . ., X„] (3 )

dM(h) = E [dA(h)]

De todos ellos se han investigado leyes de los grandes núrneros y teore-mas centrales de límite ( ver, por ejemplo, Hall, 1 984)

Sin embargo, dentro del contexto que nos ocupa, en donde la regresiónse supone lineal:

a(x) = A`{x) fl (4)A

el estimador de f) se toma como aquel vector fI que minimiza el funcíonal:

JS[ ^„(x)-At(x)l1]2f,.,(x)dx (5)

por lo cual, la función de regresión alx), en realidad, la estamos estimandopor

^ ^á (x) = At (x) . ^I ( 6 )

Page 50: Una perspectiva general con nuevos resultados de la ...

! y[) ( ti i-^1>I^ 1 Ic ^ E.^F^.^+ ► tic ^l. ^^►

Por lo tanto, 1a generalización ló+gica del criterio de m^nimo ASE vendráahora determinada por ia construcción del tamaño de ventana que minimi-za la expresián:

^^ 1 (h) = ñ ^ [ ^n(x,) - a(X,) ^,_^1

z

^ (4 - f^yt A (X ) Ar (X } (fI - 4),;n ;^,

(7)

y de forma anélaga para las otras medidas del error. La función de pesos se..ha suprimido, puesto, que, af ser á„ de tipo lineal, ya no tiene sentido 1aaminoración del efecto frontera.

Como apuntan H^rdle, Hall y Marron (1 988}, parece m^is lógico el crite-rio de minímízar dA que su media d^,, ya que el estimador de ta regresión á^debe estar io más a ĵ ustado posible a los datos particulares que tenemos, yno a la media de todos !os posibles conjuntos de datos. Ahora bien, hayque tener también en cuenta que, en la situación anéloga para el problemade estimación de densidades (utilizando errores integrados), ambos crite-rios han dado muy pocas diferencias en gran número de simulaciones(pues los errores no son observabies) (ver Scott, 198$).

Por otra parte, bajo ciertas restricciones analiticas, Marron y H^rdle(1986) probaron que la diferencia relativa entre dA y d^, (y también entre d,y dM) converge casi seguro a cero. Par todo ello, consideramos ambos crite-rios.

Observemos que en el caso más simple que se trata en el trabajo deGonzález, correspondiente al modelo de una recta de regresión:

a(x}-f^,+f^2x ($)

la expresión (7) puede descomponerse en:

drP^(h) _ {© - f^ )2 + 2 X (f^ - f,^ ) ( ĝ _ ^ ) + ^ X? ( ^ - 8 )2 (g}A 1 1 1 1 2 2 2 2/^

J. A

donde f^, y f^^ vienen dados en la expresión ( 2.8) del articulo de Gonzá^ez.

Por lo tanto, tomando esperanzas condicíonadas en (9^, queda:

_ z^Xd^P^ (h} = MSE, (X,, . . ., X„^ + 2 X MCE (X,, . . ., X„} + ' MSE2 (X,, . . ., X„)

n(10y

Page 51: Una perspectiva general con nuevos resultados de la ...

C'C)ME=NT;AR1()S

na2

siendo MSE, (X,, ..., X„) el error cuadrático medio condicional del estima-dor (), (i = 1, 2}, y M C E(X,, ..., X^} el error cuadrático cruzado medio con-dicional:

MCE (X,,...,X„1=E [18,-e,} (e2-^2} ^X,,...,X^] (11}

Este criterio de minimizacián de d^P^ (h} tiene una base teórica más con-sistente que el utilizado en la simulacián del p^irrafo 2 del trabajo de Gon-zález, el cual sólo está basado en la minirnizacián de MSE^ (X,, ..., X„ ► .

No obstante, en algunas situaciones, ambos criterios dan soluciones muypróximas. Así, en las condiciones supuestas en el Ejemplo 3.1 del artículode Faraldo y González (19$7}, puede hallarse una aproximación al h ópti-mo, ya que, partiendo de las expresiones de f^, y ^2 dadas en ( 2.8) y tras al-gunos cálculos, se obtiene que:

., ,. ^ X X o(h2)Cov (e,, 82 ^X,,..., X„}= [- 2+2 4a2h2]+ (12}

n S S n

q, _

a2 =

q ^2 ^ Q3M C E(^C,, ..., X„} ^- q, h+

n

J`^ ^ k ( w) dw

82 ^ X a^ 2 X crZS4 4z ^ a^

X Q2

lo que da, para h, un valor óptimo del orden:

1 ^ ^ X? ^[ P,^ - 2X9'2 + P22 Ĵ

2n n

^X?2 2

P^o+ Pzo -2 X4'^n

191

t 13)

(14)

(15)

(16^

siendo P;^ las definidas en el mencionado Ejemplo 3.1. de Faraldo-González.Por lo tanto, esta solucián se halla muy próxima a la que se obtiene mini-m izando sólo uno de los M S E; .

Page 52: Una perspectiva general con nuevos resultados de la ...

f`^ I^\l)I^ 1 i^ ^i F til'^^^tit ^l 1

^,X ^Para el caso de error no condicional, habría que sustituir X, S`', en

{ 1 5) y(1 ói por EX, Var(X) y EX2, respectivamente. n

Es de notar que todas estas medidas de error son algo diferentes a lamás utilizada en teoria de regresión paramétrica, que es el error cuadrático,.medio dei vector fI (esto es, en el caso de una recta (8), valdrá MSE, +^MSE^), el cual es rnenor en ios correspondientes estimadores risca^ f.^ (k ► ,para ciertos Ualores de la constante k(o constantes K;, en su caso). Parauna conexión entre los estimadores riscal y los utílizados en el trabajo deGonzá^ez, ver cristóbaE - Faraldo - González (1 987).

Respecto a la estirnación de haP (observemos que la expresióndÁ ^ (h), asícomo la de los dernás errores consíderados, dependen del vector paramé-trico (1, que es desconocido), lo más natura! parece ser utilizar en ella elprincipio de resustitución, que será equivalente a c;onsiderar el error depredicción.

p (h} ^ - ^ ^ Y^ - q^ (X^} ^, ^ 2 (1 7}

Esta medida, corno sabemos, da una estimación sesgada de dArP^ (note-mos que cualquíer Y; se emplea para predecirse a sí rnisma). Este problemapuede atacarse utilizando todos fos Y; (i ^ f^ cuando se predice Y;, lo cualIleva a considerar la función de Cross-Validation.

También existen otras técnicas, como ias basadas en penalizar el error depredicción, multiplicando esta función por un factor corrector " {n-' h^'} paracorregir e^ sesgo de p(h); puede ser de tipo cross-Validation generalizada,criterio de información de Akaike, error de predicción finito, modelo deShibata, o modela de Rice, entre los más conocidos. Todos etlos bienestudiados en la elección óptima de h dentro de la teoría de la regresión noparamétrica (ver, por ejemplo H^rdle, 19881, y que se extienden de maneranatural a nuestro caso.

Queda abierto el problema de estudíar el comportamiento de todos estasestimadores de dA^P^, así como el de los obtenidos por método F'I (plug-in},e^ cual utiliza el desarrallo asintótico del error. De hecho, seria interesanteprobar si estos estirnadores son asintóticamente óptimos, en el sentido deShibata (1981 ){esto es, que el caciente entre error estimado y errormínimo converja casi seguro a 1), bajo condiciones análogas a las exigidasen H^rdle y Marron {1985).

Finalmente, hay que destacar que otros enfoques totalmente diferentes,como la posibilidad de bootstrapear los residuales (convenientemente cen-tralizados) para obtener una aproximación del error cuadrático medio en un

1 n

Page 53: Una perspectiva general con nuevos resultados de la ...

c ^^^1E ti ^ -1FtIc» ly?

punto concreto, no quedan reflejadas aquí, pero son también susceptibiesde un estudio para atacar el problema de la elección del tamañc ► óptimo dela ventana, dentro de nuestro contexto.

BIBLIOGRAFIA ADICIONAL

HALL, P. (1984): "/ntegrated Square Error Properties of Kerne/ Estimators ofRegressron Functions" Annals of Statistics, 12, 1, 241-260.

HARDLE, W., HALL, P. y MARRON, J. S. (19$8): "How for are automatícallychosen Regression Smoothing Parameters from their Dptimum?". J.A.S.A.,83, 401, 86-95.

H A R D L E, W. y M A R R O N, J. S.(19 8 51: "Bandwidth choice in Nonparame tricKernel Regressi©n': Statistics and Decisions, Suppl. lssue 2, 1 73-77.

H A R J LE, W. y M A R R O N, J. S.(19 8 5): "Optimal Bandwrdth Selection in Nonpa-rametric Regressíon Function Estimation". Annals of Statistics, 13,1465-1481.

M A R R O N, .1. S. y H A R D LE, W.(19 8 6): "Random A pproxirnatíons to an ErrorCriterion of Nonparametric Statís,tics ". J©u rna I of M u Itiva riate Analysis,20, 91-1 13.

ScoTT, D. W. (1988): "Camment" in "How far are automatically chosenRegression Smoothing Parameters from their Qptimum?' : J. A. S. A., 83,401, 96-98.

S H I B ATA, R.(19 81) : "A n Optimal Se%ction of Regressron Variables' : B i o m e-trika, 68, 45-54.

ROSAR IC1 RON! ERAUniversidad Politécnica de Macirid

EI análisis de regresión es una técnica de análisis de datos ampliamenteutilizada. ^os resultados e^ ideas contenidos en el artículo respecto a lametOdología de estimación no paramétrica previa a la estimación paramé-trica en la regresión lineal presentan, adernás de rigor científico, un aspectode importancia práctica.

Como apunte margina! y en el contexto de estimación paramétrica demodelos lineales, quiza se echa en falta algún comentario sobre estimado-res bayesianos. Sin embargo, y dadas las dificultades del tratamiento baye-siana para e^ caso de estimación no paramétrica, sería un argumento más afavor de la metodología propuesta por el autor.

Page 54: Una perspectiva general con nuevos resultados de la ...

j^j.^ f ST ^^[)IS1 1( A f-.SP^1tiOl ^^

EI comentario que la lectura del artículo me suscita, no se va a centrartanto en los resultados presentados cuanto en la aplicacián de las ideascontenidas en él.

R EX es el desencadenante de las siguientes reflexiones.

EI uso de poderosas herramientas para el análisis estadístico de datosalcanza actualmente el campo de acción de diversos profesionales noestadísticos. Los procesos computaciones de análisis de datos, han Ilegadoa ser asequibles sin la acción experta del estadístico que guíe el análisis,con el consiguiente riesgo de mala utilización de dichas herramientas. Unaposible solución para cierto tipo de problemas no sofisticados (aquellós queno requieren determinaciones por parte del computador de propiedadesrelevantes del contexto objeto de la accián), se propone como la incorpora-ción de "experiencia estadística" en los programas de ordenador.

Los paquetes de programas estadísticos de que se dispone habitualmen-te, consisten en una serie de subrutinas, que, de forma interactiva, permitenlargos cálculos, exhibiciones gráficas en pantalla y sobre todo un entornopara la gestión y manipulación de datos; sin embargo, tales sistemas in-cluyen escasa ayuda para el usuario no versado en estrategias del análisisde datos.

Desde los cornienzos de esta década, han sido numerosos los intentospara sistematizar " los razonamientos empleados por estadísticos expertosen el curso del análisis de algún aspecto de problemas estadísticos sustan-tivos", esto es, las "estrategias estadísticas", (ver { 1), (2} ).

Surge así, el problema de capturar éste conocimiento estratégico quereside en el estadístico experto e incorporarlo al sistema. Esta experiencia oentrenamiento estadístico, se compone de dos aspectos: uno riguroso yotro heurístico. EI análisis exploratorio de datos (EDA, John Tukey 1977}es una clara muestra de sistematización dentro de heuríst^cas.

La inclusión de éste conocimiento en los programas de ordenador, re-quiere técnicas que mecanicen tareas de procesamiento de informaciónsi^-nbólica. Los investigadores en el campo de la Inteligencia Artificial, handado respuesta en la última década a éstas cuestiones. EI razonamientosimbólico, unido a la capacidad de justificar su línea de razonamientoresultan señaladas características del más reciente producto de la investi-gación en los Sistemas Expertos. {FOX J., {3} } resulta una buena introduc-ción a ellos.

No resulta casual que en 1982, William A, Gale y Daryl Pregibon ^4^presentaran como pionero su Sistema Experto, seleccionando como objeti-vo el Análisis de Regresión: REX (Regresión EXpert).

Page 55: Una perspectiva general con nuevos resultados de la ...

CO ti1 E^. ^+ T-^ R I(^S 195

De una forma somera ia "estrategia estadística" que utiliza REX comien-za por aceptar los datos tal y como se le facilitan, suponiendo un modelolineal y método de ajuste de mínimos cuadrados ordinario. Inicialmentebusca posibles problemas en cada una de las variables, estudia cada varia-ble explicativa para la linealidad y finalmente, se centra en los residuos.Ante cada pasible problema (hipótesis no verificadas) REX considera posi-bles transformaciones de los datos, del modeio o del método de ajuste parasolventar el problema; si alguna transformación fuera conveniente R EX lasugiere al usuario. R EX finaliza bien resolviendo los problemas, o bienlocalizando un problema para el cual no puede encontrar ninguna soluciónefectiva y aceptable.

Bajo éste esquema, aparentemente simple, y a partir de éste primerintento de aplicación de técnicas de Inteligencia Artificial al análisis deregresión, se desarrollaron otros sistemas 1STU DENT concretamente, semarca en un objetivo más didáctico}.

La reflexión aparece de forma natural. Un nuevo impulso ha surgido paradeterminar la importancia de ciertas líneas en la investigación estadísticaactual. EI análisis exploratorio de datos y la rnodelización se perfilan comolos dos campos en los que la Inteligencia Artificial presta mayor apoyo a laCiencia Estadística actual. Por otra parte, la Inteligencia Artificial contemplala Ciencia Estadística como solución a sus problemas de tratamiento de laincertidumbre.

Contribuciones de la línea de estimación no paramétrica de la función deregresión, se revalorizan por su utilización en el análisis exploratorio dedatos. Las aplicaciones a distintos contextos (econométricos, fiabilidad...) dela estimación no paramétrica de funciones de densidad, de distribución, ode tasa de fallos, que reduzcan el costo computacional como las conteni-das en el artículo, tienen un interés más que evidente.

He querido con este comentario apuntar una motivación más a la líneade investigación a la que el autor del artículo contribuye tan brillantemente.

REFERENCIAS^ 1) `"Implementación of Statistical Strategy". OLDFORD R. W., PETERS S. C.,

Artificial Intelligence & Statistics. Ed. Wil/iam A. Gale (A ddison-Wes/ey^.. (1986).

(2^ "Environements for Supporting Statistical Strategy" HuBER P. J. ARTIFIC/AL.lntelligence & Statistics. Ed. William A. Gale (Addison-Wesley} ( 19$6}.

(3) "A short account of knowledge engineering". Fox J. The KnowledgeEngineering Review (19 8 5). 1, 4-14. ^

(4) "'An expert system for regression analysis"' GA^E, W. A. and PREGYBOND. Proceedings of the 14th Symposium on the interface, 1 10-1 1 7.11982).

Page 56: Una perspectiva general con nuevos resultados de la ...

tti1 ^I)I`^1It \ ^^f'^^ti,t)t ^

Contesta ción

Inicialmente dese© expresar mi satisfación por el notable enriquecimientoque experimentó este artículo gracias a fas valiosas opiniones y nuevasideas aportadas sobre el mismo por ios Profesores José ^4ntonio CristóbalCristcíbal, Vicente Quesada, Antonio Cuevas, Manuel del Río, Rosario Ro-mera y Julién de la Horra.

Debido a la variedad de los comentarios, muchos de ellos comunes avarios autores, mi respuesta estará dirigida a contestar cada uno de ellosfinalizanda con una opinián general sobre algunas de las nuevas ideas quese desprenden de las discusiones.

Esencialmente son fundamentales ios siguientes puntos:

aj t Qué sucede con el parámetro ventana cuando se quiere hacer uso dela nueva metodología en la práctica ?.

b1 Extensión de la nueva metodoiogía a una generalidad de situaciones.

c1 Posibilidades de introducción del Bayesianismo.

d/ EI enfoque de la nueva metodología. Interaccián con el REX.

e1 EI uso de 1a distancia L'.

f,l Nuevas vías de investigación.

A) Sin duda el problema relativo a la ventana es uno de los de mayorimportancia y a el aluden directa o indirectamente los Profesores Cristóbal,Quesada, Cuevas y del Río. Una de las cuestiones que plantea el ProfesorCuevas es la de la prolangación de la teoría aquí desarrollada a un contextoen el que las ventanas {^^„ }, determinísticas a fo largo de todo el trabajo,puedan reflejar la información muestral y convertirse en ventanas aleato-rias: F„ = E(n, (}C,,Y^)..., (X,,,Y„) ). Similares resultados asintóticos a los de

Page 57: Una perspectiva general con nuevos resultados de la ...

c ^i):^ I E:^S 1^ -^( ^!(a^^ ly7

este trabajo pueden obtenerse bajo !as condiciones ^;,, c.s.> 0 y n F„_c.s.^ ,^ para la consistencia casi segura y^n f;,, v ^ 0 para la norma-lidad asintótica ( como se puede ver en González Manteiga ( 1 988) ).

^Con todo, una ventana ^„ estimada de la que podríamos llamar óptima

teórica, aunque con buenas propiedades asintóticas, podría Ilevar consigouna pérdida de eficiencia en algunos casos como se refleja en la siguientesimulación:

Para el modelo Y=f^; +^2X + ^ con E[E]=o y Var (E)^a2 siendo X E U[0,1 ],E E N(O,a^) y f^; = f^2= 1 (para otros valores cualesquiera de f^°, i=1,2 sepresenta una situación similar) se hace uso de la librería IMSL con lasubrutina G G U B FS para generar N=1.000 muestras de tamaño n=25,50 0100 i(X,, Y; ), ..., (}C,,, Y^ )};;,, . , N. Centréndonos en la esti mación de f)2 por^ejemplo, y considerando como criterio comparativo el MS E [f^2 ,/ X,, ..., X„],una aproximac^ón del mismo puede ser obtenida a través de

,.

M ŜE [ ^2/X,,..., Xn] _(^ ^2;/N -H2)2+(^ (^2-- (^ f^2i/N) )2)/Ni=1 j=1 ^ i=1

^siendo 82i el estimador de f^2 usando la muestra {(X,,Y; ), ..., (X,,,Y^) .

Teniendo en cuenta que la ventana óptima teóríca cuando se utiliza el^método núcleo ( la que minimiza MSE(f^1/X,, ..., X„) ) viene dada por

QZ

n(f^2)^ J cv^ K(c^^) dc^

y que una estimada directamente de la misma podría ser

n f)2r,,^ f cv2 k( cv ) dcv

^ (Y;- ^1 rr,c- ^2mc X;)2^_r

(n- 2)

, donde

y ^i^^^, i = 1, 2,

son estimadores clásicos de la varianza y de los parámetros en el contextode mínimos cuadrados, es posible construir tres estimadores competitivos^para v2 , el de mínimos cuadrados f^^m^, el diseñado por la nueva rnetodolo-^ ^gía con ventana óptima f^2ap y el diseñado con ventana estimada f^2es. Los

h I^

resultados obtenidos para el MSE(f^2/X,, ..., X„) con distintos n y a^ vienenreflejados en la siguiente tabla

N

Page 58: Una perspectiva general con nuevos resultados de la ...

^yf^ E ^T ^i^)ItiT!( A E-tiP^tti()!.:•^

TABLA DE D► ISTINTC^S ERRt)RES CUADRATICC^ MEDIC^C+ONDICIOIVALES

^ ^Est^madores 82^ r„^ 82 pp

n -- 25

Q= 0,3

n= 2 5

a= O, 5

n= 2 5

Q= 1,4

n= 2 5a^ = 2,0

n= 25a- = 3,0

n = 5 t^

cr = O, 3

n= 50Ú, 5

2 ss

O,C3259 t?,0255 CJ,0282

0,02 7 2 O,C^2 69 4,a2 9 7c^,c^28o o,a267 0,0296

C3,12 9 4 0,1 1 3 9 O,1 6 O 5Q,1 2 5 9 Q,1 1 1$ 0,1 6 O O0,1 3 2 3 0,1 1 5 5 0,1 61 1

C1,5847 U,3914 0,5563Q,61 51 0,391 7 t^,58t38t^,5962 tJ,3949 0,56Q4

2,1 926 0,6986 1,3$202,2994 0,7065 1,451 52,+0► 300 0,6987 1,27^3

3,9427 0,7969 2,14854,3996 Q,8081 2,45224,5490 C),8282 2,6357

tJ,01 3 2 O, O 1 31 4, C^ 1 3 8

fJ, O 1 2 8 C}, O► 1 2 5 O, O 1 31O, O 1 2 3 0►, O 1 21 CJ, t^ 1 2 8

O,C.3656 0,4612 ti,0780Q, O 6 6 4 O, O 61 8 t), U 7 8 4O,t'J681 0,064^ 0,0820

Page 59: Una perspectiva general con nuevos resultados de la ...

t'()tiTESTA('1()ti ^ y9

TABLA DE DISTtNTOS ERRORES CUADRATICO^ MED10CONDICtO ► NALES

Estimadores 2, m c

Ae2 oPw

f^2 es

n= 50 0,3056 0,2383 0,3492

Q' 1,0 0,3055 0,231 5 0,3454

0,3124 0,2357 0,3569

n= 50 1,043 7 0,5066 0,82 53

^ = 2,0 1,0203 0,5191 0,7995

1,0191 0,5190 0,7967

n= 50 1,9442 0,637 3 1,2429

Q= 3,0 1,9648 0,6507 1,2329

1,9863 0,6592 1,2807

n= 100 0,007 5 0,007 5 0,007 7

Q= 0,3 0,0064 0,0063 0,0065

0,0064 0,0064 0,006 5

n= 100 0,0295 0,0284 0,0318

Q= 0,5 0,0317 0,0307 0,0344

0,0303 0,0295 0,0331

n= 100 0,1005 0,0943 0,1291

Q= 1,0 0,1025 0,0905 0,1239

0,1 14 5 0,102 9 0,142 2

n= 100 0,5020 0,3273 0,4955

^ = 2,0 0,4977 0,3312 0,4855

0,4878 0,3274 0,4696

A la vista de los resultados puede deducirse el buen funcionami,ento quepresentan los nuevos estimadores cuando se utilizan las ventanas áptimasteóricas. La eficiencia de estas respecto de los mínimos cuadrados seacrecienta a medida que aumenta la varianza siendo precisamente paravalores grandes de la varianza cuando los nuevos estimadores con ventana

Page 60: Una perspectiva general con nuevos resultados de la ...

_'O( F ^1 ^it)I^t I( ^^ i^^F'^ti(1[ -^

estimada presentan también eficiencia. Dando esto en cierta medida res-puesta a algunas de las cuestíones def Profesor del Rio, eE proceso bietá-pico parece ser preferible al clésico de mínimos cuadrados en situacionescrecientes de !a varianza. Es sin duda en estos casos cuando la suavizacióninicial aporta efíciencia.

Por atro lado los nuevos estimadores con ventana estimada usados en lasimulación son únicamente un primer paso cara a la construccián de mejo-res estimadores de la ventana. En esta línea son muy vafiosos ios comenta-rios del Profesor Cristóbal sobre la adaptación de los criterios de error depredicción utilizados en estimacíón no paramétríca de curvas, e! ASE y eiMASE, a nuestro contexto. Sin embargo aunque para e! caso f^; = f^2 = 1 !as..ventanas óptimas teóricas del MASE y por ejemplo de! MSE [f^2 / X,, ...,X^] son las mismas es todavía rnuy dudosa la proximidad que existir^i entreambas ventanas óptimas teóricas en un contexto general y por tantopermanece como problema abierto el funcionamiento de la ventana obteni-da de la minimización del ASE.

Cualquiera que sean !os métodos a utilizar para la estimación de !aventana, objeto de investigación futura, han de pasar por algún mecanismode valización cruzada. Obsérvese que si utilizamos el criterio directo deminimización de

1 ^ {Y^_At{X`^ ^h^,^n ;_,

^siendo f^,, el nuevo estimador dependiente de h, e! mínimo se aicanza para^ ^ ,.h=4, es decir f^h =^a = f^^C .

B) Son sin duda muy ilustrativas !as ideas expuestas por el profesorCuevas sobre la posibilidad de extender la nueva metodología a una gene-ralidad de situaciones. Precisamente una de eflas, !a estimación de unparámetro de una función de densidad a partir de un estimador piloto noparamétrico de fa densidad ya ha sido elaborada en algunos casos toman-do un estimador no paramétrico tipo Kernel de la densidad y una medidade g-divergencias de tipo general entre este y!a densidad de tipo paramé-trica. ver Beran { 1 9^7Í y Cano-Lasala (1984a, 1 984b) para más detalles.Espero que estas consideraciones sirvan también para responder al Profe-sor de !a Horra.

Cy Aigunos comentarios de fos Profesores Rosario Romera y VicenteQuesada apuntan a la posibilidad de uti^izar mecanismos Bayes en la nuevametodología basándonos en alguna posible información a priori que sepuede tomar del modelo. Un estímador píloto Bayes no paramétrico podríaconsiderarse como estimador inicial á„ en el funcional { 1 9) del trabajocomo elemento reflejo de la informacián a posteriori para su uso en la

Page 61: Una perspectiva general con nuevos resultados de la ...

t c^tirttir^^t ^c^ti

estimación de (>. Quizá una buena elección inicial sería el estimador Bayesno paramétrico propuesto por Barry (1 9$6).

D) Los comentarios de Rosario Romera van enfocados a resaltar laimportancia del R EX y de la valiosa ayuda que puedan representar cara aun análisis exploratorio de datos las estimaciones previas no paramétricasde las curvas de regresión en la práctica. Desde esta perspectiva es intere-sante mencionar el paquete "X plore - a computing enviroment for explora-tory regression and density smoothing" que se encuentra actualmente enfase de elaboración por el profesor H^rdle de la Universidad de Bonn.

E) Los profesores Cuevas y de la Horra consideran la posibilidad deluso de la distancia L' alternativamente a la L2 usada a lo largo del artículo.A parte de los problemas computacionales que ello conlleva para su uso enla práctica, no debemos de olvidarnos que Devroye-Gidrfi (1985) motivanprofundamente esta distancia para la estimación de la densidad. Sin dudanuestro contexto es distinto aunque se usen estimaciones de la densidad.Basta con ver el escaso uso de la distancia L' en la estimación no paramé-trica de curvas de la regresión.

F^ Finalmente comentar las valiosas ideas y problemas propuestos,sugeridos en la discusión corno: el uso de la nueva metodología para laselección de modelos, el manejo de la versión recursiva para el análisis dela influencia y el diagnóstico, la comparación entre las tasas de convergen-cia entre las versiones sin y con recursividad, e! uso de los modelos de azarproporcional en la situación de datos censurados que serán sin duda objetode futura investigación.

BI BLIOGRAFIA

BARRY, D. (1986): "Nonparametric Bayesian Regressión". Ann of Stat. Vol.14, 3, 934-9 53.

BERAN, R. (1977): "Minimun Hellinger Distance Estimators for ParametricModels" Ann. Stat 5, 445-463.

CANO, F. .J. - LASALA ^CALLEJA, M. P . (19841: "Funcionales de mínima g-divergencia y sus estimadores asociados 11)". Trabajos de Estadística e l.0. Vol. 35, 2. 125-138.

CANO, F. .J. - LASALA CALLEJA , M. P. (1984): ""Funcionales de mínima g-divergencia y sus estimadores asociados (II)". Trabajos de Estadística e l.0. Vol. 35, 2. 125-138.

GONZA^EZ MANTE^GA, W. (1988): "" Properties of smooth linear regressionparameter estimators constructed using non-parametric pilot estirnatorswith sample-determined bandwidth" (Preprint).

Page 62: Una perspectiva general con nuevos resultados de la ...