Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en...

66
Modelo de regresi´ on lineal m´ ultiple con errores distribuidos secante hiperb´ olica generalizada Alvaro Alexander Burbano Moreno Matem´ atico odigo: 2626190 Universidad Nacional de Colombia Facultad de Ciencias Departamento de Estad ´ ıstica Bogot ´ a, D.C. Agosto de 2016

Transcript of Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en...

Page 1: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Modelo de regresion lineal multiple con errores

distribuidos secante hiperbolica generalizada

Alvaro Alexander Burbano MorenoMatematico

Codigo: 2626190

Universidad Nacional de ColombiaFacultad de Ciencias

Departamento de EstadısticaBogota, D.C.

Agosto de 2016

Page 2: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Modelo de regresion lineal multiple con errores

distribuidos secante hiperbolica generalizada

Alvaro Alexander Burbano MorenoMatematico

Codigo: 2626190

Disertacion presentada para optar al tıtulo deMagister en Ciencias Estadıstica

DirectorOscar Orlando Melo Martınez, Ph.D.

Doctor en Estadıstica

Lınea de investigacionModelos lineales

Grupo de investigacionEstadıstica aplicada en investigacion experimental, industria y

biotecnologıa

Universidad Nacional de ColombiaFacultad de Ciencias

Departamento de EstadısticaBogota, D.C.

Agosto de 2016

Page 3: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Tıtulo en espanol

Modelo de regresion lineal multiple con errores distribuidos secante hiperbolica generali-zada.

Title in English

Multiple linear regression with secant hyperbolic generalized errors.

Resumen: En este trabajo se presenta un estudio del modelo de regresion linealmultiple, donde el error tiene distribucion secante hiperbolica generalizada. Para estimarlos parametros del modelo, se utiliza la Maxima Verosimilitud Modificada (MVM), quepermite linealizar las formas funcionales que no son lineales y obtener soluciones explici-tas cerradas. Ademas, se realiza todo el estudio formal de las propiedades asintoticas einferencia de los estimadores obtenidos, mediante el uso de la simulacion de Monte Carlo,que permite comprobar aspectos como: los estimadores de MVM son mas eficientes yrobustos que los de estimadores de Mınimos Cuadrados (MC).

Mediante varios ejemplos de la literatura estadıstica, se valida la metodologia desarrolladay descripta en este trabajo.

Abstract: In this work, a study of multiple linear regression is presented, where the errorhas a distribution secant hyperbolic generalized. Furthermore, to estimate the parametersof this model, is used the Modified Maximum Likelihood (MML), which enables linearizethe functional forms because it is not linear, and obtains solutions in a closed form. Inaddition, the formal studies of asymptotic properties and inference of these estimatorsobtained, using the Monte Carlo simulation, which allows to check aspects such as:MML estimators are more efficient and robust than those of least squares estimators(LS). Through several examples of statistical literature, the methodology developed anddescribed in this work is validated.

Palabras clave: Eficiencia Relativa, Maxima Verosimilitud Modificada, Mınimos Cua-drados, Prueba de Hipotesis, Robustez, Regresion Lineal multiple.

Keywords: Relative Efficiency, Modified Maximum Likelihood, Least Squares, Hypothe-sis Test, Robustness, Multiple Linear Regression.

Page 4: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Nota de aceptacion

Trabajo de tesis

Aprobado

Jurado

Jurado

Jurado

DirectorOscar Orlando Melo Martınez

Codirector

Bogota, D.C., Diciembre 31 de 2016

Page 5: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Dedicado a

A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quiena pesar de su partida hace unos anos, me enseno junto con ellas, a nunca desfallecer ysiempre luchar por los suenos. Te amo abuelo.

Page 6: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Agradecimientos

A mi director de tesis por sus consejos y comentarios permanentes.

A mi madre por su apoyo constante, por cada aliento y consejos que me da. A mi abuela yabuelo, quienes desde pequeno me ayudaron economicamente y mas que eso me educaronpara ser un joven luchador y sonador. Gracias a ustedes por ser mis pilares, la motivacionque cada dıa de mi vida tiene y aunque tu, abuelo, estes ya mirandome y cuidandomedesde el cielo. Siempre, estas ahı conmigo presente en cada paso que doy.

A la Universidad Nacional de Colombia, por darme la oportunidad de realizar mis estudiosy darme la oportunidad para salir del paıs a participar en varios eventos y congresos parala complementacion academica.

Page 7: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Indice general

Indice general I

Indice de tablas III

Indice de figuras IV

Introduccion V

1. Conceptos Basicos 1

1.1. Teorema del lımite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Teorıa asintotica para los estimadores de MV . . . . . . . . . . . . . . . . . . . . . . 1

1.3. Maxima Verosimilitud modificada (MVM) . . . . . . . . . . . . . . . . . . . . . . . . 2

1.4. Estimador de Mınima Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.5. Distribuciones Asintoticas de los Estimadores de MVM . . . . . . . . . . . . . . . 5

1.6. Metodo de Mınimos Cuadrados (MC) . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.7. Metodo de Mınimos Cuadrados Ponderados (MCP) . . . . . . . . . . . . . . . . . 7

2. Modelo de Regresion Lineal Simple. 8

2.1. Distribucion SHG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.1. Estimacion de Maxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.2. Estimacion de Maxima Verosimilitud Modificada (EMVM) . . . . . . . 11

2.1.3. Propiedades Asintoticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.2. Resultados de la Simulacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.1. Propiedades de Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.2. Eficiencia Relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.3. Pruebas de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.4. Robustez de los Estimadores y Pruebas . . . . . . . . . . . . . . . . . . . . . 23

I

Page 8: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

INDICE GENERAL II

3. Regresion Multiple 26

3.1. El Modelo Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.1.1. Estimacion de Maxima Verosimilitud Modificada (EMVM) . . . . . . . 27

3.1.2. Matriz de Covarianza Asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.1.3. Prueba de Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1.4. Robustez de los Estimadores y Pruebas . . . . . . . . . . . . . . . . . . . . . 32

4. Aplicaciones 36

5. Conclusiones 41

A. Determinacion del parametro de forma 42

B. Programa en R: modelo de regresion lineal multiple 43

C. Programa en Matlab 48

D. Bibliografıa 52

Page 9: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Indice de tablas

2.1. Valores de MVA y varianzas de los estimadores de MVM, θ0 = 0, θ1 = 1 y σ = 1 . . 19

2.2. Valores simulados de las medias, θ0 = 0, θ1 = 1 y σ = 1 . . . . . . . . . . . . . . . . . . 20

2.3. Varianzas de los estimadores MC, MVM y eficiencia relativa E1 =[V (θ0)/V (θ0)

]100, E2 =

[V (θ1)/V (θ1)

]100, E3 = [V (σ)/V (σ)] 100 . . . . . . . . . . 21

2.4. Potencia de las pruebas de G y T, θ0 = 0 σ = 1 . . . . . . . . . . . . . . . . . . . . . . . 23

2.5. Robustez: potencia de las pruebas de G y T, θ0 = 0 σ = 1 . . . . . . . . . . . . . . . . 24

2.6. Potencia de las pruebas de G y T. Modelo verdadero SHG(0, σ;−π/2), θ0 = 0 σ = 1 24

3.1. Media, varianza y eficiencia relativa de los estimadores de MVM y MC, θ0 = 0,

θj = 1 (1 ≤ j ≤ k) y σ = 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2. Potencia de las pruebas de F ∗ y F , θ2 = θ3 = 0, σ = 1 . . . . . . . . . . . . . . . . . . . 32

3.3. Robustez, valores simulados de las medias, varianzas y la eficiencia relativa de los

estimadores de MC; θ0 = 0, θj = 1 (1 ≤ j ≤ k), k = 3, σ = 1. . . . . . . . . . . . . . . 34

3.4. Potencia de las pruebas F ∗ y F , error de tipo I es de 0.05. . . . . . . . . . . . . . . . . 35

4.1. Estimacion de parametros para los datos del ejemplo 4.1. . . . . . . . . . . . . . . . . . 37

4.2. Estimacion de parametros para el ejemplo 4.2 . . . . . . . . . . . . . . . . . . . . . . . . 38

4.3. Estimacion de parametros para el ejemplo 4.3. . . . . . . . . . . . . . . . . . . . . . . . . 40

III

Page 10: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Indice de figuras

4.1. Residuos normales y SHG para el ejemplo 4.1. . . . . . . . . . . . . . . . . . . . . . 37

4.2. Grafico de residuos normal y SHG para el ejemplo 4.2. . . . . . . . . . . . . . . . 39

4.3. Grafico cuantil-cuantil de residuos normal y SHG para el ejemplo 4.3. . . . . 40

IV

Page 11: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

Introduccion

La mayorıa de las aplicaciones practicas de analisis de regresion utilizan modelos queasumen que los errores son distribuidos normalmente, sin embargo, no siempre es lo masapropiado debido a que existen distribuciones no normales que son mas adecuadas y efica-ces en la practica, vease por ejemplo Pearson (1932), Huber (1981), Tiku, Aysen & Akkaya(2004).

Comunmente los Mınimos Cuadrados (MC) se usa como herramienta para estimar losparametros de una regresion lineal multiple, aunque se conoce que los estimadores y lasestadısticas de prueba en base a ellos pierden su eficiencia cuando el supuesto de normali-dad no se cumple, vease Tukey (1960). Otro metodo llamado Maxima Verosimilitud (MV),proporciona estimadores que poseen propiedades deseadas y atractivas, no obstante, conesta tecnica no siempre es posible obtener soluciones explıcitas para los parametros, yaque algunos terminos o expresiones que se involucran en las formas funcionales de ciertasdistribuciones no son lineales; de manera que la unica forma de resolverlas es mediantemetodos numericos, los cuales pueden acarrear algunos problemas bajo ciertas situacionesque se mencionaran en el Capıtulo 2. En este trabajo se emplea el metodo de MaximaVerosimilitud Modificada (MVM) que fue introducido y desarrollado por Tiku (1967a). Elmetodo expresa las ecuaciones de verosimilitud en funcion de estadısticas de orden y luegolinealiza los terminos intratables.

En este camino, algunos de los recientes aportes sobre analisis de regresion y temas rela-cionados, son el trabajo desarrollado por Islam & Tiku (2004), donde consideraron tresfamilias de distribuciones no normales: (a) simetrica de cola larga (SCL), (b) de sesgo y (c)simetrica de cola corta (SCC). Posteriormente, Yildiz & Aysen (2008) presentaron algunosresultados del modelo de una vıa de clasificacion en el diseno de experimentos cuando loserrores se distribuyen Secante Hiperbolica Generalizada (SHG). Tambien, definieron unaprueba estadıstica para probar contrates lineales y extendieron la metodologıa a disenosdesbalanceados.

Dichos resultados mencionados motivan la idea de completar los estudios, trabajando elmodelo de regresion lineal multiple con errores que tienen una distribucion de la familia dela SHG, ya que es una excelente alternativa porque se compone de distribuciones simetri-cas, con curtosis que van desde el 1.8 hasta el infinito, es decir, tanto de cola corta comolarga Vaughan (2002). Por lo tanto, se puede considerar como una mas general y flexibledentro de las familias de distribuciones simetricas.

Los objetivos de esta tesis son estimar los parametros del modelo de regresion lineal multi-ple cuando los errores se distribuyen SHG, mediante la metodologıa de MVM. Luego, exa-minar las propiedades estadısticas de los estimadores junto con el desarrollo de la prueba

V

Page 12: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

INTRODUCCION VI

de hipotesis para la existencia de la relacion lineal entre la variable respuesta y las va-riables regresoras. La distribucion de estas pruebas estadısticas se analizan junto con larobustez. Despues de estos desarrollos y analisis, se consideran tres conjuntos de datos condiferentes contextos para realizar las aplicaciones. Es de resaltar, que todos los procesosde analisis presentados en esta tesis son realizados y expresados mediante las simulaciones(N= 100000/n ejecuciones de Monte Carlo) desarrolladas en el programa estadıstico R yMatlab.

El esquema de esta tesis es el siguiente: En el Capıtulo 1 se presentan brevemente concep-tos basicos sobre teorıa asintotica para los estimadores de MV. Luego se define la MınimaVarianza Acotada (MVA) junto con las distribuciones asintoticas de los estimadores deMVM. El capıtulo termina con una corta exposicion de los Metodos de Mınimos Cua-drados Ordinarios (MCO) y Mınimos Cuadrados Ponderados (MCP). En el Capıtulo 2,se exhibe el modelo de regresion lineal simple con errores distribuidos SHG. Se empleala metodologıa de MVM para estimar los parametros desconocidos del modelo propuestoy se presenta las principales propiedades de estos estimadores. Ademas, se proporcionanlos resultados para realizar la inferencia estadıstica sobre los parametros y se analiza larobustez de los estimadores y pruebas. La eficiencia de los estimadores de MV y MVMes comparada mediante el estudio de simulacion de Monte Carlo. El modelo de regresionlineal multiple con errores distribuidos SHG se desarolla en el Capıtulo 3. Se presentan enel Capıtulo 4, algunas aplicaciones con datos reales y en ultimo Capıtulo 5 se suministranlas conclusiones de la tesis.

Page 13: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 1

Conceptos Basicos

En este capıtulo se presenta algunos conceptos basicos que son tomados de Tiku et al.(2004), Knight (2000) y Michael (2005), sobre teorıa asintotica de los estimadores de MVy MVM que son utiles para desarrollo de la metodologıa propuestas en cada uno de lossiguientes capıtulos.

1.1. Teorema del lımite central

En teorıa de la probabilidad, por medio del Teorema del Lımite Central (TLC) se es-tablecen las condiciones bajo las cuales la distribucion de una suma de variables aleatoriaspuede aproximarse a una distribucion normal

Teorema. 1. Suponga que X1, X2, . . . , Xn son variables aleatorias independientes e identi-camente distribuidas (iid) con media µ y varianza σ2 < ∞ y definida

Sn =1

σ√n

n∑

i=1

(Xi − µ) =

√n(Xn − µ)

σ.

Entonces Snd→ Z ∼ N(0, 1) cuando n −→ ∞.

En terminos practicos, el TLC implica que para n grande, la distribucion de Xn esaproximadamente normal con media µ y varianza σ2/n. La prueba de este teorema puedeser vista en Knight (2000).

1.2. Teorıa asintotica para los estimadores de MV

Bajo condiciones de regularidad leves, es posible demostrar consistencia y normalidadasintotica de los estimadores de MV de un parametro de valor real con base en observa-ciones iid, como se muestra a continuacion.

Se asume que X1, X2, . . . , Xn son variables aleatorias iid con densidad comun o funcionde frecuencia f(x; θ) donde θ es un parametro de valor real.

1

Page 14: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 1. CONCEPTOS BASICOS 2

Se define l(x; θ) = ln f(x; θ) y sean l′

(x; θ), l′′

(x; θ), l′′′

(x; θ) las primeras tres derivadasparciales con respecto a θ. Se hacen las siguientes suposiciones acerca de f(x; θ) (verKnight (2000))

(A1) El espacio de parametros Θ es un subconjunto abierto de la recta real.

(A2) El conjunto A = {x : f(x; θ) > 0} no depende de θ.

(A3) f(x; θ) es tres veces continuamente diferenciable con respecto a θ para todo x en A.

(A4) Eθ

[l′

(Xi; θ)]= 0 para todo θ y V arθ

[l′

(Xi; θ)]= I(θ) donde 0 < I(θ) < ∞ para

todo θ.

(A5) Eθ

[l′′

(Xi, θ)]= −I(θ) para todo θ.

(A6) Para cada θ ∈ Θ, existe una constante δ > 0 y una funcion M(x) tal que

|l′′′(x; t)| ≤ M(x),

para |θ − t| ≤ δ donde Eθ = [M(Xi)] < ∞.

I(θ) se denomina informacion de Fisher.

Teorema. 2. (Normalidad asintotica de los estimadores de MV ). Sean X1, X2, . . . , Xn

variables aleatorias iid con funcion de densidad f(x; θ) que satisface las condiciones (A1)−(A6) y supongase que los estimadores de MV satisfacen θn

p→ θ donde

n∑

i=1

l′

(Xi; θn) = 0.

Entonces

√n(θn − θ)

d→ N(0, 1/I(θ)),

ver Knight (2000).

1.3. Maxima Verosimilitud modificada (MVM)

Se necesita un metodo de estimacion que capture la bondades de maxima verosimi-litud, pero que alivie sus dificultades de calculo. Uno de estos metodos, y quizas el masviable, es el metodo de estimacion de Maxima Verosimilitud Modificada que se originocon Tiku (1967a) y Tiku & Suresh (1992). Una propiedad notable de este metodo es queproporcionan estimadores que son altamente eficientes y tienen exactamente las mismasformas, independientemente de la distribucion subyacente. El metodo procede como sigue:

Se considera la ecuacion de verosimilitud para estimar un parametro desconocido θ delocalizacion θ

d ln(L)

dθ=

1

σ

n∑

i=1

g(zi) = 0, zi = (xi − θ)/σ (1.1)

Page 15: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 1. CONCEPTOS BASICOS 3

donde L es la funcion de verosimilitud y σ es un parametro de escala. En primer lugar, sesupone que σ es conocida. Organizando los xi (1 ≤ i ≤ n) en orden ascendente de magnitudx(1) ≤ x(2) . . . ≤ x(n), se tienen las estadısticas de orden. Como las sumas completas soninvariantes al ordenamiento, se puede reescribir la ecuacion (1.1) como

d ln(L)

dθ=

1

σ

n∑

i=1

g(z(i)) = 0, z(i) = (x(i) − θ)/σ. (1.2)

Sea t(i) = E(z(i)) el valor esperado de la i-esima variable ordenada estandarizada z(i). Seexpande g(z(i)) a los dos primeros terminos de una serie de Taylor alrededor de t(i) paralinealizar la funcion.

g(z(i)) = αi + βiz(i), 1 ≤ i ≤ n, (1.3)

donde βi =

{d

dzg(z)

}

z=t(i)

y αi = g(t(i))− βit(i). Incorporando la ecuacion (1.3) en (1.2)

se obtiene la ecuacion de verosimilitud modificada

d ln(L)

dθ∼= d ln(L)∗

dθ=

1

σ

n∑

i=1

(αi + βiz(i)) = 0, (1.4)

puesto que (1.4) es lineal en θ, tiene una solucion explıcita y unica llamado el estimadorde MVM, dado por,

θ =1

m

n∑

i=1

αi +n∑

i=1

βix(i)

}, m =

n∑

i=1

βi. (1.5)

1.4. Estimador de Mınima Varianza

Ahora se pasa a un enfoque mas general para encontrar un estimador insesgado efi-ciente o de mınima varianza. La busqueda de tal estimador se facilita mediante la idea deencontrar una cota inferior de Cramer-Rao, CR(θ, n), para la varianza, es decir, si T escualquier estimador insesgado de θ, entonces

V (T ) ≥ CR(θ, n).

Esta cota inferior permite determinar si un determinado estimador insesgado tiene la va-rianza mas pequena posible (teoricamente) en el sentido de que, si V (T ) = CR(θ, n),entonces T representa el estimador mas eficiente de θ, el cual es realmente un estimadorde Mınima Varianza Acotada (MVA).

Para sentar las bases para la determinacion de la varianza mınima acotada para un esti-mador de θ, se pasa a un concepto estadıstico llamado funcion de densidad de probabilidadconjunta de una muestra aleatoria. Si f(x; θ) representa la funcion de densidad de proba-bilidad de la distribucion de la poblacion de una caracterıstica medible X, entonces, bajomuestreo aleatorio, los resultados generados Xi, i = 1, . . . , n, representan una coleccion de

Page 16: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 1. CONCEPTOS BASICOS 4

variables aleatorias de n muestras independientes

L(x1, x2, . . . , xn; θ) =n∏

i=1

f(xi; θ).

Ası, que esta ecuacion, se denomina la funcion de verosimilitud de la muestra. Para mayorcomodidad, se suele trabajar con el logaritmo de L

lnL =n∑

i=1

ln f(xi; θ).

Si T es un estimador insesgado de θ, entonces bajo algunas condiciones generales deregularidad, la varianza de T debe satisfacer la desigualdad de Cramer-Rao (ver Michael(2005) )

V (T ) ≥ 1

−E

(∂2 lnL

∂θ2

) = CR(θ, n). (1.6)

Por lo tanto, la varianza de T nunca es menor que CR(θ, n), que es constante para un nfijo. Ademas, la igualdad en (1.6) se tiene si y solo si existe una funcion α(θ, n) tal que

∂ logL

∂θ= α(θ, n)(t(x1, . . . , xn, n)− θ) (1.7)

Ejemplo. 1.1. Sea un conjunto {X1, . . . , Xn} de variables aleatorias independientes eidenticamente distribuidas tomadas de una poblacion que sigue una distribucion con fun-

cion de probabilidad de Poisson p(x;λ) =e−λλx

x!, x = 0, 1, . . ., λ > 0, con E(X) = V (X) =

λ. Se establece

L(λ;x, n) =n∏

i=1

e−λλxi

xi!=

e−nλλ

n∑

i=1

xi

n∏

i=1

xi!

,

luego

logL = −nλ+n∑

i=1

xi log λ−n∑

i=1

log (xi!) ,

se tiene

∂ logL

∂λ= −n+

n∑

i=1

xi

λ,

∂2 logL

∂λ2= −

n∑

i=1

xi

λ2.

Entonces

−E

(∂2 logL

∂λ2

)=

1

λ2

n∑

i=1

E(xi) =1

λ2nλ =

n

λ.

Page 17: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 1. CONCEPTOS BASICOS 5

Por lo tanto, de (1.6) se tiene que

V (T ) ≥ 1

−E

(∂2 logL

∂λ2

) =λ

n=

σ2

n= CR(λ, n).

Por ende, cualquier estimador insesgado de λ debe satisfacer V (T ) ≥ σ2

n. Dado que

la media de la muestra X es un estimador insesgado de E(X) = λ y la varianza de la

media de la muestra esσ2

n, se sigue que V (T ) = V (X) y ası X es un estimador de mınima

varianza acotada de λ.

De la ecuacion (1.7), se tiene que

∂ logL

∂λ=

n

λ(x− λ) ,

donde α(θ, n) = nλ. Por lo tanto, X es un estimador de mınima varianza acotada de λ.

1.5. Distribuciones Asintoticas de los Estimadores de MVM

Se asume que el rango de la variable aleatoria X no depende del parametro que se estaestimando. Para obtener las distribuciones de

√n(µ − µ)/σ y (n − 1)σ2/σ2, se tienen en

primer lugar los siguientes resultados:

Sea x1, x2, . . . , xn una muestra aleatoria de tamano n de una poblacion normal N(µ, σ2).Aquı,

∂ lnL

∂µ=

n

σ2(x− µ) y

∂ lnL

∂σ=

n

σ3(S2 − σ2), S2 =

n∑

i=1

(xi − µ)2/n. (1.8)

Bartlett (1953) mostro que: (i) los cumulantes de ∂ lnL/∂µ estan determinados porE(∂r lnL/∂µr) que son cero para todo r ≥ 3 y la distribucion de

√n(x− µ)/σ es normal

N(0, 1), (ii) los cumulantes de ∂ lnL/∂σ estan determinados por E(∂r lnL/∂σr) (r ≥1), cuya distribucion de nS2/σ2 es Chi-Cuadrado con n grados de libertad, y (iii) loscumulantes mixtos de las variables aleatorias ∂ lnL/∂µ y ∂ lnL/∂σ son determinados porE(∂r+w lnL/∂µr∂σw) que son cero para todo r ≥ 1 y w ≥ 1, junto con la identidadCochran

nS2 ≡ n(x− µ)2 + (n− 1)s2, s2 =

n∑

i=1

(xi − x)2/(n− 1), (1.9)

por lo cual, x y s2 (o s) estan distribuidos de manera independiente, y la distribucion de(n− 1)s2/σ2 es Chi-Cuadrado con n− 1 grados de libertad. Para una prueba geometricade estos resultados, ver Patnaik (1949).

Ahora, considerando la situacion en que la distribucion subyacente es simetrica, las ecua-

Page 18: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 1. CONCEPTOS BASICOS 6

ciones de verosimilitud modificada son

∂ lnL

∂µ∼= ∂ lnL∗

∂µ=m

σ2(µ− µ) (1.10)

∂ lnL

∂σ∼= ∂ lnL∗

∂σ=− n

σ3

(σ − B0 +

√B2

0 + 4nC0

n

)(σ − B0 −

√B2

0 + 4nC0

n

)(1.11)

∼= n

σ3

(C0

n− σ2

)

como B0/√nC0

∼= 0, αi y βi estan acotados;

B0 =n∑

i=1

αi(x(i) − µ) y C0 =n∑

i=1

βi(x(i) − µ)2 (βi > 0)

por otra parte,

n∑

i=1

βi(x(i) − µ)2 ≡ m(µ− µ)2 +n∑

i=1

βi(x(i) − µ)2, m =n∑

i=1

βi

donde µ es lineal y tiene una distribucion normal (asintoticamente). Como las relacionesestructurales son exactamente las mismas que en (1.8)-(1.9), y las ecuaciones de vero-similitud modificada son asintoticamente equivalentes a las correspondientes ecuacionesde verosimilitud, y satisfacen todas las condiciones de Bartlett presentadas, se tienen lossiguientes resultados para distribuciones simetricas.

Lema. 1.1. La distribucion asintotica de√m(µ− µ)/σ es normal N(0, 1);

σ2/m ∼= 1/(−E(∂2 lnL∗/∂µ2)).

Lema. 1.2. Para n grande, la distribucion de (n − 1)σ2/σ2 es Chi-Cuadrado con n − 1grados de libertad;

E(σ) ∼= σ y σ2/2n ∼= 1/(−E(∂2 lnL∗/∂σ2)).

Lema. 1.3. Asintoticamente, los estimadores de MVM de µ y σ2 se distribuyen de formaindependiente, dado que

E(∂r+w lnL∗/∂µr∂σw) = 0 para r ≥ 1 y w ≥ 1.

Para una prueba alternativa desarrollada por la solucion de las ecuaciones diferenciales∂ lnL∗/∂µ = 0 y ∂ lnL∗/∂σ = 0, ver Tiku et al. (2004, Pag 53).

1.6. Metodo de Mınimos Cuadrados (MC)

No hay supuestos de distribucion como tal, en la aplicacion de la metodologıa demınimos cuadrados. Bajo el supuesto de que ei (1 ≤ i ≤ n) son iid, los estimadores MC

Page 19: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 1. CONCEPTOS BASICOS 7

se obtienen mediante la minimizacion de la suma de cuadrados del error (SCE)

n∑

i=1

e2i =n∑

i=1

(yi − θ0 − θ1xi)2.

Los estimadores θ0 y θ1 resultantes, bajo el supuesto de normalidad N(0, σ2) son exac-tamente los mismos que los estimadores de MV. El estimador de MC de σ2 es definidocomo:

σ2 = mın

{n∑

i=1

e2i /(n− r)

}

=n∑

i=1

(yi − y − θ1(xi − x))2/(n− 2)

donde r es el numero de parametros estimados, ademas de σ.

Bajo el supuesto de normalidad, los estimadores de MC poseen todas las propieda-des deseables (insesgados, mınima varianza), sin embargo, tienen bajas eficiencias paradistribuciones no normales.

1.7. Metodo de Mınimos Cuadrados Ponderados (MCP)

Se supone que los errores aleatorios ei (1 ≤ i ≤ n) en el modelo de regresion linealsimple, se distribuyen de forma independiente con una media comun E(ei) = aσ y varianzaV ar(ei) = Viσ

2. Sea wi = 1/Vi (1 ≤ i ≤ n). Los estimadores de MCP de θ0 y θ1 se obtienenmediante la minimizacion de

n∑

i=1

wie2i =

n∑

i=1

wi(yi − θ0 − θ1xi)2.

Esto da

θ1 =n∑

i=1

wi(xi − x)yi/n∑

i=1

wi(xi − x)2, θ0 = y − θ1x (1.12)

y

σ2 =n∑

i=1

wi(yi − y − θ1(xi − x))2/(n− 2), (1.13)

donde y =∑n

i=1wiyi/(∑n

i=1wi) y x =∑n

i=1wixi/(∑n

i=1wi).

Page 20: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2

Modelo de Regresion Lineal Simple.

En un modelo de regresion lineal del tipo

y = θXXX + e,

donde y representa una respuesta, XXX es una matriz de variables regresoras y θ es unvector de parametros desconocidos, a menudo se asume que los errores ei, 1 ≤ i ≤ nson idd con distribucion normal N(0, σ2), sin embargo, hay muchas situaciones de lavida real en las cuales es evidente que la respuesta y los errores no son normales. Porejemplo, existen aplicaciones donde la respuesta es binaria (0 o 1) y, por ello, su naturalezaes Bernoulli. Otras veces, cuando la respuesta mide los tiempos de vida o los tiemposde reaccion, los errores normalmente tienen una distribucion sesgada, por lo tanto, esimportante desarrollar los procedimientos estadısticos que sean adecuados y eficientespara distribuciones no normales.

En este capıtulo se toma un modelo regresion lineal simple y se asume que los erroresse distribuyen SHG. Se obtienen las estimaciones de los parametros bajo el metodo demaxima verosimilitud modificada (MVM), permitiendo encontrar soluciones explıcitas ycerradas. Se estudian las propiedades estadısticas de los estimadores, junto con las pruebasestadısticas para juzgar la linealidad de las variables y la robustez de los estimadores.

2.1. Distribucion SHG.

Las propiedades de una familia de distribuciones SHG fueron desarrolladas por Vaug-han (2002). Esta familia consta de distribuciones simetricas, con curtosis desde 1,8 hastael infinito e incluye la logıstica como un caso especial, la uniforme como un caso lımite yse aproxima a las distribuciones normal y t de Student con curtosis correspondiente. Unadiferencia significativa entre esta familia y la t de Student es que para cualquier miembrode la familia SHG, todos los momentos son finitos. Por lo tanto, las dificultades tecnicasasociadas a la evaluacion de los momentos de la t de Student no estan presentes con es-ta familia. Ademas, la t de Student representa distribuciones simetricas de cola larga, esdecir, su curtosis β2 = µ4/µ

22 es mayor que 3. Sin embargo, las distribuciones simetricas

de cola corta con β2 < 3 tambien ocurren en la practica. Por ejemplo, Vaughan (2002)mostro que un conjunto de datos de edades de 100 pacientes elegidos al azar en un estudio

8

Page 21: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 9

de la enfermedad cardıaca coronaria, es modelado por una distribucion simetrica de colacorta con curtosis β2 = 2.

Para tener un enfoque unificado de distribuciones no normales simetricas, se necesita unafamilia que represente las dos distribuciones de cola corta y larga. Por consiguiente, ladistribucion SHG se considera como una familia con esas caracterısticas.

2.1.1. Estimacion de Maxima Verosimilitud

Sea un modelo de regresion lineal simple con un solo regresor x que tiene una relacioncon una respuesta y

yi = θ0 + θ1xi + ei, 1 ≤ i ≤ n.

Suponga que ei son variables aleatorias idd con distribucion

SHG(0, σ; t) : f(ei) =c1σ

exp (c2(ei/σ))

exp(2c2(ei/σ)) + 2a exp(c2(ei/σ)) + 1(−∞ < ei < ∞) (2.1)

donde

(i) para −π < t < 0

a = cos(t), c2 =

√π2 − t2

3y c1 =

sin t

tc2,

(ii) para t = 0

a = 1, c1 = c2 =π√3,

(iii) para t > 0

a = cosh t, c2 =

√π2 + t2

3y c1 =

sinh t

tc2.

La media y varianza son E(ei) = 0 y V ar(ei) = 1.

La funcion de verosimilitud es

L =cn1σn

n∏

i=1

exp (c2zi)

exp(2c2zi) + 2a exp(c2zi) + 1

donde zi = ei/σ = (yi − θ0 − θ1xi)/σ, (1 ≤ i ≤ n)

Las ecuaciones de verosimilitud para estimar θ0, θ1 y σ son

∂ lnL

∂θ0= −c2n

σ+

2c2σ

n∑

i=1

g(zi) = 0 (2.2)

∂ lnL

∂θ1= −c2

σ

n∑

i=1

xi +2c2σ

n∑

i=1

xig(zi) = 0 (2.3)

Page 22: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 10

∂ lnL

∂σ= −n

σ− c2

σ

n∑

i=1

zi +2c2σ

n∑

i=1

zig(zi) = 0, (2.4)

dondeg(zi) = (exp(2c2zi) + a exp(c2zi))/ (exp(2c2zi) + 2a exp(c2zi) + 1) .

La matriz de informacion de Fisher es

I(θ0, θ1, σ) =

−E

(∂2 lnL

∂θ20

)−E

(∂2 lnL

∂θ0 ∂θ1

)−E

(∂2 lnL

∂θ0 ∂σ

)

−E

(∂2 lnL

∂θ1 ∂θ0

)−E

(∂2 lnL

∂θ21

)−E

(∂2 lnL

∂θ1 ∂σ

)

−E

(∂2 lnL

∂σ ∂θ0

)−E

(∂2 lnL

∂σ ∂θ1

)−E

(∂2 lnL

∂σ2

)

donde

E

(∂2 lnL

∂θ0 ∂σ

)= E

(∂2 lnL

∂σ ∂θ0

)= 0

y

E

(∂2 lnL

∂θ1 ∂σ

)= E

(∂2 lnL

∂σ ∂θ1

)= 0,

Se debe tener en cuenta que las derivadas mixtas o cruzadas, si existen son iguales.

Para −π < t < 0,

E

(∂2 lnL

∂θ20

)=

−c22n (t− sin t cos t)

2σ2t sin2 t

E

(∂2 lnL

∂θ21

)=

−c22n (t− sin t cos t)

2σ2t sin2 t

n∑

i=1

x2i /n

E

(∂2 lnL

∂σ2

)= − n

6σ2

(π2 − t2

sin2 t− (π2 − 3t2) cos t

t sin t

)

E

(∂2 lnL

∂θ0 ∂θ1

)=E

(∂2 lnL

∂θ1 ∂θ0

)=

−c22n (t− sin t cos t)

2σ2t sin2 t

n∑

i=1

xi/n.

Page 23: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 11

Si t = 0 entonces

E

(∂2 lnL

∂θ20

)= − nc22

3σ2

E

(∂2 lnL

∂θ21

)= − nc22

3σ2

n∑

i=1

x2i /n

E

(∂2 lnL

∂σ2

)= − n(3 + π2)

9σ2

E

(∂2 lnL

∂θ0 ∂θ1

)=E

(∂2 lnL

∂θ1 ∂θ0

)= −nc2

3σ2

n∑

i=1

xi/n

y para t > 0,

E

(∂2 lnL

∂θ20

)=

−c22n (sinh t cosh t− t)

2σ2t sinh2 t

E

(∂2 lnL

∂θ21

)=

−c22n (sinh t cosh t− t)

2σ2t sinh2 t

n∑

i=1

x2i /n

E

(∂2 lnL

∂σ2

)= − n

6σ2

((π2 + 3t2) cosh t

t sinh t− π2 + t2

sinh2 t

)

E

(∂2 lnL

∂θ0 ∂θ1

)=E

(∂2 lnL

∂θ1 ∂θ0

)=

−c22n (sinh t cosh t− t)

2σ2t sinh2 t

n∑

i=1

xi/n

La matriz de varianza-covarianza es V = I−1 = (Vij), donde

V11 = − 1

E

(∂2 lnL

∂θ20

) , V22 = − 1

E

(∂2 lnL

∂θ21

) ,

V33 = − 1

E

(∂2 lnL

∂σ2

) , V12 = V21 = − 1

E

(∂2 lnL

∂θ0 ∂θ1

) ,

V13 = V23 = V31 = V32 = 0 (escalar).

Las ecuaciones (2.2), (2.3) y (2.4) no admiten soluciones explıcitas debido a los terminosrelacionados con la funcion no lineal g(zi).

2.1.2. Estimacion de Maxima Verosimilitud Modificada (EMVM)

Sea zi = ei/σ = (yi − θ0 − θ1xi)/σ, 1 ≤ i ≤ n, las ecuaciones de verosimilitud∂ lnL/∂θ0 = 0, ∂ lnL/∂θ1 = 0 y ∂ lnL/∂σ = 0 son funciones no lineales. Para derivarlas ecuaciones de verosimilitud modificadas que tienen soluciones explıcitas, y en condi-ciones de regularidad son asintoticamente equivalentes a las ecuaciones de verosimilitud,

Page 24: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 12

ver Smith (1985), primero se ordena wi = yi − θ1xi (para un determinado θ1)

w(1) ≤ w(2) ≤ . . . ≤ w(n); w(i) = y[i] − θ1x[i].

Definiendo las variables aleatorias ordenadas como z(i) = (w(i) − θ0)/σ, y denotando por(y[i], x[i]) la pareja ordenada que determina el valor de w(i); (y[i], x[i]) puede ser llamadoel concomitante de z(i). El hecho de que las sumas completas son invariantes al orden,implica que las ecuaciones de verosimilitud se pueden escribir en terminos de z(i) como:

∂ lnL

∂θ0= −c2n

σ+

2c2σ

n∑

i=1

g(z(i)) = 0 (2.5)

∂ lnL

∂θ1= −c2

σ

n∑

i=1

x[i] +2c2σ

n∑

i=1

x[i]g(z(i)) = 0 (2.6)

∂ lnL

∂σ= −n

σ− c2

σ

n∑

i=1

z(i) +2c2σ

n∑

i=1

z(i)g(z(i)) = 0. (2.7)

Las ecuaciones de verosimilitud para la SHG son insolubles y resolverlas por iteracionpuede ser problematico (Barnett (1996a), Vaughan (1992) y Tiku et al. (2004)). Si losdatos contienen valores atıpicos, las iteraciones con las ecuaciones de verosimilitud son amenudo no convergentes, ver Puthenpura & Sinha (1986). Para mitigar estas dificultades,se puede utilizar el metodo de MVM (Tiku & Suresh (1992) y Tiku (1967a)), donde losestimadores obtenidos, tienen formas algebraicas explıcitas y son, por lo tanto, faciles paracalcular y se sabe que tienen las siguientes propiedades bajo las condiciones de regularidadhabituales para la existencia de los estimadores de MV:

(a) Asintoticamente, los estimadores de MVM son totalmente eficientes, es decir, soninsesgados y sus varianzas son iguales a los lımites de varianza mınima (LVM), (verTiku (1970), Bhattacharyya (1970), Tiku et al. (2004))

(b) para muestras pequenas, los estimadores de MVM son casi totalmente eficientes encuanto a los LVM, ver Vaughan (1992);

(c) las estimaciones tienen sesgos pequenos o ninguno y

(d) son robustas.

Sea t(i) = E(z(i)) el valor esperado de la i-esima estadıstica de orden z(i), (1 ≤ i ≤ n).Las expresiones para encontrar los valores exactos de las esperanzas t(i) estan disponiblesen Vaughan (2002), pero son difıciles de implementar, por lo tanto, se utilizan valoresaproximados para los t(i) presentados en Tiku et al. (2004) y que permiten minimizar lasoperaciones realizadas en la programacion del metodo:

t(i) =

1

c2ln

(sin(tqi)

sin(t(1− qi))

), si −π < t < 0;

√3

πln

(qi

1− qi

), si t = 0;

1

c2ln

(sinh(tqi)

sinh(t(1− qi))

), si t > 0,

(2.8)

Page 25: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 13

donde qi = i/(n+ 1), son las soluciones de

∫ t(i)

−∞

f(z) = qi.

Para obtener las ecuaciones de verosimilitud modificada, se tiene que linealizar g(z(i)),mediante el uso de los dos primeros terminos de una expansion de la serie de Tayloralrededor de t(i) (Tiku (1967a), Tiku & Suresh (1992)).

g(z(i)) ∼= g(t(i)) + g′(t(i))(z(i) − t(i))

= αi + βiz(i), 1 ≤ i ≤ n , (2.9)

donde αi = g(t(i))−βit(i) y βi = g′(t(i)). Cuando βi < 0, se establece que βi = 0 (Vaughan(2002)). Por lo tanto, σ siempre es real y positiva. Ademas note que,

∑ni=1 αi = n/2 y∑n

i=1 βit(i) = 0.

De la incorporacion de la expresion (2.9) en (2.2)-(2.4), se obtienen las ecuaciones deverosimilitud modificada

∂ lnL

∂θ0∼= ∂ lnL∗

∂θ0= −c2n

σ+

2c2σ

n∑

i=1

(αi + βiz(i)

)= 0, (2.10)

∂ lnL

∂θ1∼= ∂ lnL∗

∂θ1= −c2

σ

n∑

i=1

x[i] +2c2σ

n∑

i=1

x[i](αi + βiz(i)

)= 0 (2.11)

y

∂ lnL

∂σ∼= ∂ lnL∗

∂σ= −n

σ− c2

σ

n∑

i=1

z(i) +2c2σ

n∑

i=1

z(i)(αi + βiz(i)

)= 0. (2.12)

Las soluciones de estas ecuaciones son los estimadores de MVM:

θ0 = y[.] − θ1x[.], (2.13)

θ1 = K − σD, (2.14)

y

σ =−c2B +

√(c2B)2 + 2nc2C

n(2.15)

Page 26: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 14

donde

m =n∑

i=1

βi, ∆i = 1/2− αi, x[.] = (1/m)n∑

i=1

βix[i], y[.] = (1/m)n∑

i=1

βiy[i],

K =

n∑

i=1

βi(x[i] − x[.])(y[i] − y[.])

n∑

i=1

βi(x[i] − x[.]

)2, D =

n∑

i=1

∆i(x[i] − x[.])

n∑

i=1

βi(x[i] − x[.]

)2

B =n∑

i=1

∆i(y[i] − y[.])−Kn∑

i=1

∆i(x[i] − x[.])

C =

n∑

i=1

βi(y[i] − y[.])2 −K

n∑

i=1

βi(x[i] − x[.]

)y[i]. (2.16)

Se calculan los estimadores de la MVM en dos iteraciones. En primer lugar, se calculan lasestadısticas de orden w(i) de wi = yi − θ1xi en orden ascendente, donde θ1 =

∑ni=1(xi −

x)yi/∑n

i=1(xi − x)2 es el estimador de MC de θ1. Entonces, θ1 se calcula a partir (2.14) -

(2.15). En la segunda iteracion, las estadısticas w(i) se obtiene ordenando wi = yi − θ1xi.Los concomitantes resultantes se utilizan para calcular los estimadores de MVM de (2.13) -(2.15). En todos los calculos, solo dos iteraciones son necesarias para que las estimacionesse estabilicen lo suficiente, ver Islam, Tiku & Yildirim (2001) y Tiku, Islam & Selcuk(2001).

2.1.3. Propiedades Asintoticas

De la equivalencia asintotica de las ecuaciones de verosimilitud modificada ∂ lnL∗/∂θ =0 y las correspondientes ecuaciones de verosimilitud ∂ lnL/dθ = 0, se desprende el resul-tado de Hoeffding (1953, Teorema 1) y Vaughan (2002, Pag 229).

lımn→∞

1

n

{∂ lnL∗

∂θ0− ∂ lnL

∂θ0

}= 0, (2.17)

lımn→∞

1

n

{∂ lnL∗

∂θ1− ∂ lnL

∂θ1

}= 0, (2.18)

lımn→∞

1

n

{∂ lnL∗

∂σ− ∂ lnL

∂σ

}= 0. (2.19)

Lema. 2.1. Asintoticamente, el EMVM θ0 es un estimador de Mınima Varianza Acotada(MVA) de θ0 y se distribuye normalmente con una varianza

V (θ0) ∼=σ2

2mc2,

donde m =

n∑

i=1

βi.

Page 27: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 15

Prueba: Como ∂ lnL∗/∂θ0 es asintoticamente equivalente a ∂ lnL/∂θ0 y la ecuacion(2.10) puede ser reorganizada para asumir la forma

∂ lnL∗

∂θ0= − c2n

σ+

2c2σ

n∑

i=1

(αi + βiz(i)

)

= − nc2σ

+2c2σ

n∑

i=1

αi +2c2σ2

[n∑

i=1

βiy[i] − θ0

n∑

i=1

βi − θ1

n∑

i=1

βix[i]

]

=2mc2σ2

(θ0 − θ0

), (2.20)

entonces θ0 es un estimador de MVA de θ0, con varianza σ2/2mc2. Dividiendo ambos lados

de (2.20) por n, se puede aplicar el teorema del lımite central y como E

(∂r lnL∗

∂θr0

)= 0

para todo r ≥ 3 (Bartlett (1953)), θ0 tiende asintoticamente a una distribucion normal. �

Lema. 2.2. El EMVM θ1 (σ conocido), es asintoticamente el estimador de MVA de θ1 yse distribuye normalmente con una varianza

V (θ1) ∼=σ2

2c2

n∑

i=1

βi(x[i] − x[.])2

.

Prueba: Como ∂ lnL∗/∂θ1 es asintoticamente equivalente a ∂ lnL/∂θ1 y la ecuacion (A.2)puede ser reorganizada, asumiendo la forma

∂ lnL∗

∂θ1= − c2

σ

n∑

i=1

x[i] +2c2σ

n∑

i=1

x[i](αi + βiz(i)

)

= − 2c2σ

[n∑

i=1

x[i]

2−

n∑

i=1

αix[i]

]+

2c2σ2

[n∑

i=1

βiy[i]x[i] − θ0

n∑

i=1

βix[i] − θ1

n∑

i=1

βix2[i]

]

=2c2σ2

[n∑

i=1

βi(y[i] − y[.])x[i] − σn∑

i=1

(1/2− αi) (x[i] − x[.])− θ1

n∑

i=1

βi(x[i] − x[.])2

]

=

2c2

n∑

i=1

βi(x[i] − x[.])2

σ2

(θ1 − θ1

), (2.21)

entonces θ1 es un estimador de MVA de θ1, con varianza σ2/2c2∑n

i=1 βi(x[i] − x[.])2 y

como E

(∂r lnL∗

∂θr1

)= 0 para todo r ≥ 3, θ1 se distribuye asintoticamente normal. �

Lema. 2.3. Condicionalmente (θ1 conocido), σ(θ1) es asintoticamente el estimador deMVA de σ y (n − 2)σ2(θ1)/σ

2 se distribuye como una chi-cuadrado con n − 2 grados delibertad.

Page 28: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 16

Prueba: En vista de (2.12), ∂ lnL∗/∂σ puede ser reorganizada para asumir la forma

∂ lnL∗

∂σ= − n

σ3

(−c2B0 +

√(c2B0)2 + 2nc2C0

n− σ

)(−c2B0 −

√(c2B0)2 + 2nc2C0

n− σ

)

(2.22)donde B0 y C0 son exactamente los mismos que B y C en (2.16), respectivamente, con Kreemplazado por θ1. Dado que la unica raiz admisible en la ecuacion (2.22) es

σ(θ1) =

(−c2B0 +

√(c2B0)2 + 2nc2C0

n

),

el resultado se sigue de Bartlett (1953) y Tiku et al. (2004, seccion 2.9).

Puesto que para n grande, B0 es muy pequena en comparacion con√nC0, B0/

√nC0 es in-

significantemente pequeno, ver corolario Vaughan & Tiku (2000). Por lo tanto, ∂ lnL∗/∂σasume la forma

∂ lnL∗

∂σ= − n

σ3

√nC0

n

−c2

(B0√nC0

)+

2c2 + c22

(B0√nC0

)2− σ

×

√nC0

n

−c2

(B0√nC0

)−

2c2 + c22

(B0√nC0

)2− σ

,

como B0/√nC0

∼= 0 para n grande. Por consiguiente

∂ lnL∗

∂σ∼=− n

σ3

((√2nc2C0

n− σ

)(−√2nc2C0

n− σ

)), (2.23)

∂ lnL∗

∂σ∼= n

σ3

(2c2C0

n− σ2

). (2.24)

Ası, 2c2C0/n es el estimador de MVA de σ2 (asintoticamente). La evaluacion de los cu-mulantes de ∂ lnL∗/∂σ en terminos de los valores esperados de las derivadas de ∂ lnL∗/∂σinmediatamente conduce al resultado de que (n− 2)σ2(θ1)/σ

2 se distribuye como una chi-cuadrado con n− 2 grados de libertad (Bartlett (1953)). �

Page 29: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 17

2.2. Resultados de la Simulacion

A continuacion, se presenta un estudio de simulacion, donde se muestra que los esti-madores de MVM desarrollados en la seccion 2.1 son mas eficientes que los estimadoresde MC. Tambien se prueba que los estimadores de MVM son mas robustos a desviacionesde la distribucion supuesta y a otras anomalıas en los datos. En el estudio, se asume ladistribucion secante hiperbolica generalizada al igual que se consideran distintos valoresde tamano de la muestra n (10, 20, 30, 50 y 100). Las simulaciones que se realizan sebasan en N = 100000/n ejecuciones de Monte Carlo. Igualmente, sin perdida de generali-dad, se lleva a cabo el estudio suponiendo que los valores reales de los parametros son lossiguientes:

θ0 = 0, θ1 = 1 y σ = 1

2.2.1. Propiedades de Eficiencia

Los estimadores de MVM θ0 y θ1 son asintoticamente eficientes, esto se sigue del hechode que los estimadores son de MVA de θ0 y θ1, ademas se distribuyen normalmente. Porlo tanto, θ0 y θ1 son los mejores estimadores asintoticamente normales (MEAN).Las estimaciones de θ0 y θ1 para la MVA son las siguientes:

(i) para −π < t < 0,

MVA(θ0) =2σ2t sin2 t

nc22 (t− sin t cos t),

MV A(θ1) =2σ2t sin2 t

c22 (t− sin t cos t)∑n

i=1 x2i

, (2.25)

(ii) para t = 0

MVA(θ0) =3σ2

nc22,

MV A(θ1) =3σ2

c22∑n

i=1 x2i

, (2.26)

(iii) para t > 0

MVA(θ0) =2σ2t sinh2 t

nc22 (sinh t cosh t− t),

MV A(θ1) =2σ2t sinh2 t

c22 (sinh t cosh t− t)∑n

i=1 x2i

. (2.27)

Page 30: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 18

El estimador σ2 es asintoticamente el estimador de MVA de σ2 y se distribuye como unade chi-cuadrado. La MVA para estimar σ2 es la siguiente

MVA(σ) =

(6σ2

n

)/(π2 − t2

sin2 t− (π2 − 3t2) cos t

t sin t

),

MV A(σ) =

(6σ2

n

)/((π2 + 3t2) cosh t

t sinh t− π2 + t2

sinh2 t

). (2.28)

Para tener una idea acerca de la eficiencia de los estimadores, se realiza la simulacion paramuestras grandes y pequenas con diferentes parametros de forma con el motivo de calcularla MVA y la varianza. Sus resultados son recopilados en la tabla (2.1), donde se observaque los estimadores de MVM son eficientes para tamanos de muestras grades n.

Cabe hacer la siguiente aclaracion, que al igual que la simulacion anterior y del resto deldocumento, los puntos de diseno xi (1 ≤ i ≤ n) se generan de una distribucion normalN(0, 1) solo una vez (por cada n) y se mantienen en comun para todas las N muestrasaleatorias generadas (y1, y2, . . . , yn) a partir de la SHG(0, σ; t). El codigo de programacionpara hacer las simulaciones esta escrito en R y Matlab, se puede ver en el apendice (B) y(C).

2.2.2. Eficiencia Relativa

Para tener una idea acerca de su eficiencia en relacion con algunos de los estimadoresde uso comun, se emplean los estimadores de MC, que son

θ0 = y − θ1x, θ1 =n∑

i=1

(xi − x)yi/n∑

i=1

(xi − x)2

y

σ2 =n∑

i=1

(yi − y − θ1(xi − x))2/(n− 2), (2.29)

donde y =∑n

i=1 yi/n y x =∑n

i=1 xi/n. Es facil demostrar que E(θ1) = θ1 y

V (θ1) =σ2

∑ni=1 (xi − x)2

. (2.30)

Para evaluar la eficiencia relativa (ER) de los estimadores de MC, es necesario realizarprimero que todo, la simulacion de las medias de cada uno de los estimadores descritos enlas metodologıas de estimacion que se trabajan en esta tesis que son los metodos de MCy MVM. Los resultados obtenidos son organizados en la tabla (2.2), en la cual se apreciaque los sesgos de cada uno de los estimadores para muestras de tamanos n = 10, 50 y 100,son valores insignificantes.

A partir de los resultados de la tabla (2.3), una de las caracterısticas de los estimadoresde MVM, es que son mas eficientes que los estimadores de MC. Para comprobar, primerose utilizan los valores positivos y negativos del parametro de forma para conseguir conlos diferentes tamanos de muestra los valores simulados de las respectivas varianzas de

Page 31: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 19

los estimadores de ambos metodos. En seguida, se calcula la eficiencia relativa a de losestimadores de MC, donde se constata que la mayorıa de los casos se obtienen porcentajesmenores que el 100%. De hecho, E1, E2 y E3 disminuyen a medida que n aumenta.

Tabla 2.1. Valores de MVA y varianzas de los estimadores de MVM, θ0 = 0, θ1 = 1 y σ = 1

MVA Varianza MVA Varianza

n θ0 θ1 σ θ0 θ1 σ θ0 θ1 σ θ0 θ1 σ

t = −π√

2/3 t = −π/2

20 0.023 0.028 0.032 0.031 0.049 0.069 0.041 0.049 0.041 0.046 0.056 0.0450 0.009 0.013 0.013 0.01 0.017 0.025 0.016 0.024 0.016 0.017 0.026 0.016100 0.005 0.006 0.006 0.005 0.006 0.012 0.008 0.01 0.008 0.008 0.011 0.008

t = −π/4 t = −π/8

20 0.045 0.054 0.022 0.049 0.059 0.037 0.045 0.055 0.005 0.049 0.059 0.03650 0.018 0.026 0.009 0.018 0.027 0.014 0.018 0.026 0.002 0.018 0.028 0.014100 0.009 0.011 0.004 0.009 0.012 0.007 0.009 0.011 0.001 0.009 0.012 0.007

t = 0 t = π

20 0.046 0.055 0.035 0.049 0.06 0.035 0.049 0.059 0 0.052 0.064 0.02550 0.018 0.027 0.014 0.018 0.028 0.014 0.019 0.028 0 0.02 0.029 0.01100 0.009 0.011 0.007 0.009 0.012 0.007 0.01 0.012 0 0.01 0.012 0.005

t = π√11 t = 10π

20 0.026 0.032 0 0.041 0.058 0.014 0.009 0.011 0 0.227 0.371 0.02350 0.011 0.015 0 0.013 0.019 0.004 0.004 0.006 0 0.016 0.041 0.012100 0.005 0.007 0 0.006 0.007 0.002 0.002 0.002 0 0.003 0.004 0.001

aEl rendimiento de los EMVM se compara con los EMC mediante la evaluacion de la eficiencia relativa(ER) de la siguiente manera

ER(EMC) = 100×

(

Varianza de los EMVM

Varianza de los EMC

)

(2.31)

Page 32: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 20

Tabla 2.2. Valores simulados de las medias, θ0 = 0, θ1 = 1 y σ = 1

MC MVM MC MVM

n θ0 θ1 σ θ0 θ1 σ θ0 θ1 σ θ0 θ1 σ

t = −π√

2/3 t = −π/2

10 -0.002 0.998 0.926 -0.001 0.997 1.038 -0.001 0.998 0.955 -0.001 0.996 0.92850 -0.003 1.007 0.986 -0.001 0.998 1.023 -0.003 1.007 0.995 -0.002 1.001 0.99100 -0.002 0.999 0.995 -0.001 0.998 1.015 -0.002 0.999 0.999 -0.001 0.998 0.998

t = −π/4 t = −π/8

10 -0.001 0.998 0.961 -0.001 0.996 0.925 -0.001 0.998 0.962 -0.001 0.996 0.92450 -0.003 1.006 0.996 -0.002 1.003 0.992 -0.003 1.006 0.996 -0.002 1.003 0.992100 -0.002 0.999 1 -0.001 0.999 0.998 -0.002 0.999 1 -0.001 0.999 0.998

t = 0 t = π

10 -0.001 0.998 0.962 -0.001 0.996 0.923 -0.001 0.997 0.973 -0.002 0.998 0.89150 -0.003 1.006 0.996 -0.002 1.003 0.992 -0.002 1.006 0.999 -0.002 1.007 0.99100 -0.002 0.999 1 -0.001 0.999 0.998 -0.002 0.999 1.001 -0.002 1 0.997

t = π√11 t = 10π

10 -0.001 0.997 0.983 0 0.998 0.602 -0.001 0.997 0.985 0.007 0.99 0.02850 -0.002 1.005 1.001 -0.001 1.008 0.978 -0.002 1.004 1.001 0.001 1.006 0.887100 -0.002 0.999 1.002 -0.002 1.001 0.992 -0.002 1 1.002 -0.001 0.998 0.978

Page 33: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 21

Tabla 2.3. Varianzas de los estimadores MC, MVM y eficiencia relativa E1 =[V (θ0)/V (θ0)

]100,

E2 =[V (θ1)/V (θ1)

]100, E3 = [V (σ)/V (σ)] 100

Variance ER

n θ0 θ1 σ θ0 θ1 σ E1 E2 E3

t = −π√2/3

10 0.103 0.188 0.148 0.07 0.189 0.152 67.867 100.437 102.49620 0.052 0.063 0.082 0.031 0.049 0.069 60.601 76.873 84.00230 0.034 0.042 0.057 0.019 0.026 0.043 54.813 62.342 76.59450 0.02 0.03 0.035 0.01 0.017 0.025 49.591 56.124 70.059100 0.01 0.013 0.017 0.005 0.006 0.012 48.177 50.692 66.809

t = −π/210 0.103 0.188 0.093 0.093 0.175 0.082 90.047 93.147 88.07120 0.052 0.063 0.047 0.046 0.056 0.04 87.935 87.965 85.71530 0.034 0.042 0.031 0.029 0.036 0.027 85.111 85.786 84.51350 0.02 0.03 0.019 0.017 0.026 0.016 82.109 86.341 83.543100 0.01 0.013 0.009 0.008 0.011 0.008 81.298 84.666 84.117

t = −π/410 0.103 0.188 0.083 0.098 0.18 0.074 94.793 96.066 89.04620 0.052 0.063 0.041 0.049 0.059 0.037 93.651 92.902 89.40630 0.034 0.042 0.027 0.031 0.039 0.024 91.796 91.882 88.6850 0.02 0.03 0.016 0.018 0.027 0.014 89.492 92.194 87.996100 0.01 0.013 0.008 0.009 0.012 0.007 88.888 91.855 88.714

t = −π/810 0.103 0.188 0.081 0.099 0.181 0.072 95.68 96.665 89.08920 0.052 0.063 0.04 0.049 0.059 0.036 94.676 93.889 90.09330 0.034 0.042 0.026 0.031 0.039 0.023 93.012 93.014 89.48550 0.02 0.03 0.016 0.018 0.028 0.014 90.876 93.245 88.864100 0.01 0.013 0.008 0.009 0.012 0.007 90.295 93.126 89.616

t = 010 0.103 0.187 0.08 0.099 0.182 0.071 95.95 96.839 89.08920 0.052 0.063 0.039 0.049 0.06 0.035 94.989 94.183 90.30430 0.034 0.042 0.026 0.032 0.039 0.023 93.386 93.37 89.73750 0.02 0.03 0.015 0.018 0.028 0.014 91.302 93.548 89.136100 0.01 0.013 0.007 0.009 0.012 0.007 90.728 93.512 89.899

t = π10 0.103 0.187 0.058 0.104 0.192 0.05 100.944 102.63 84.82820 0.052 0.063 0.027 0.052 0.064 0.025 99.328 101.739 94.51530 0.034 0.042 0.017 0.033 0.042 0.016 98.955 100.416 96.15550 0.02 0.03 0.01 0.02 0.029 0.01 99.226 98.173 96.437100 0.01 0.013 0.005 0.01 0.012 0.005 98.118 98 97.872

t = π√11

10 0.103 0.186 0.038 0.149 0.425 0.042 144.067 228.366 112.24220 0.052 0.063 0.015 0.041 0.058 0.014 79.74 92.444 90.91430 0.034 0.042 0.009 0.022 0.032 0.008 66.602 76.043 82.4850 0.02 0.03 0.005 0.013 0.019 0.004 63.656 64.446 77.916100 0.01 0.013 0.002 0.006 0.007 0.002 60.848 56.244 77.855

Page 34: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 22

2.2.3. Pruebas de Hipotesis

Por lo general, las hipotesis sobre θ1 son de mas interes que la hipotesis sobre θ0. Enesta seccion, se considera la hipotesis H0 : θ1 = 0 que establece que no existe una relacionlineal entre y y x en el modelo yi = θ0 + θ1xi + ǫi.

Prueba: Para la hipotesis H0 : θ1 = 0 frente a la alternativa H1 : θ1 > 0, se define elestadıstico

T =

√√√√2c2

n∑

i=1

βi(x[i] − x[.])2(θ1/σ

)(2.32)

Valores grandes de T conducen al rechazo de H0 en favor de H1. La distribucion nula b deT es asintoticamente normal N(0, 1). Esto se deduce del Lema 2.2 y del hecho de que σconverge a σ cuando n se hace grande. Para n pequeno, la distribucion nula de T es la t deStudent con n− 2 grados de libertad, lo cual esencialmente se trata de una consecuenciade los Lemas 2.2 y 2.3.

Funcion de potencia: La potencia asintotica de la prueba T , cuando la hipotesis alter-nativa es verdadera, con error de tipo I c y con un nivel de significancia de α = 0.05, estadada por

P

Z ≥ zα − (θ1/σ)

√√√√2c2

n∑

i=1

βi(x[i] − x[.])2

, (2.33)

donde Z se distribuye como una normal N(0, 1) y zα es su punto porcentual 100(1−α)%.

El correspondiente estadıstico basado en los estimadores de MC es

G =

√√√√n∑

i=1

(xi − x)2(θ1/σ

). (2.34)

La distribucion nula de G es asintoticamente normal N(0, 1) (cuando n se hace grande).Para n pequeno, la distribucion nula de G es la t de Student con n− 2 grados de libertad.

La funcion de la potencia asintotica de G es

P

Z ≥ zα − (θ1/σ)

√√√√n∑

i=1

(xi − x)2

. (2.35)

Ahora se muestra que la prueba T es mas potente que la prueba G. Para ello se efectua lasimulacion, teniendo en cuenta diferentes valores del parametro de forma y estableciendoθ0 = 0, σ = 1. Asimismo, se toman varios valores para el parametro de θ1. Por ejemplo, enla tabla (2.4) se observa que, para n = 20, t = −π

√2/3 y π, se tiene que la probabilidad

de rechazar la hipotesis nula cuando el parametro de θ1 = 0.4 es T = 0.741, G = 0.528 yT = 0.507, G = 0.48, respectivamente.

bEs simplemente la distribucion de muestreo del estadıstico de prueba bajo el supuesto que H0 esverdadera

cSi rechaza la hipotesis nula cuando esta es verdadera, se esta cometiendo un error de tipo I.

Page 35: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 23

Tabla 2.4. Potencia de las pruebas de G y T, θ0 = 0 σ = 1

t = −π√

2/3 t = −π/2 t = 0 t = π t = π√11

θ1 T G T G T G T G T G

n = 200 0.089 0.063 0.075 0.062 0.072 0.061 0.069 0.062 0.098 0.0610.2 0.371 0.233 0.271 0.22 0.255 0.21 0.236 0.21 0.309 0.2090.4 0.741 0.528 0.599 0.497 0.555 0.491 0.507 0.48 0.613 0.4690.6 0.919 0.795 0.852 0.781 0.825 0.778 0.797 0.774 0.84 0.770.8 0.976 0.924 0.96 0.932 0.955 0.933 0.942 0.937 0.948 0.9411 0.991 0.978 0.992 0.984 0.991 0.985 0.991 0.99 0.987 0.9931.2 0.997 0.993 0.999 0.997 0.999 0.998 0.999 0.999 0.995 1

n = 500 0.07 0.064 0.058 0.06 0.061 0.06 0.062 0.059 0.074 0.060.2 0.543 0.352 0.39 0.339 0.362 0.335 0.349 0.332 0.48 0.3360.4 0.937 0.764 0.824 0.754 0.788 0.752 0.77 0.752 0.904 0.7480.6 0.994 0.963 0.98 0.964 0.977 0.965 0.976 0.968 0.992 0.9730.8 0.999 0.997 0.998 0.998 0.998 0.998 0.999 0.999 1 0.998

n = 1000 0.063 0.049 0.06 0.05 0.061 0.051 0.057 0.051 0.055 0.0620.2 0.814 0.55 0.635 0.548 0.6 0.546 0.569 0.549 0.784 0.5540.4 0.999 0.964 0.984 0.971 0.977 0.971 0.977 0.974 0.995 0.976

2.2.4. Robustez de los Estimadores y Pruebas

Otra caracterıstica que se desea de los estimadores es la robustez. Esto significa quemantiene sus buenas propiedades bajo las desviaciones de la distribucion asumida y tam-bien en situaciones donde estan presentes valores atıpicos y otras anomalıas. Para estudiarlas propiedades de robustez de los estimadores de MVM se proponen algunas desviacionesde la distribucion asumida para ver como se comportan los estimadores en cada caso.

Se asume, que la distribucion verdadera es la (2.1) con parametro de forma t = −π/2 yla cual se conoce como modelo de poblacion; sin perdida de generalidad se toma σ = 1.Como alternativas posibles, se estudian las siguientes distribuciones para el error aleatorioe.

(a) Modelo mixto: 0.90SHG(0, σ;−π/2) + 0.10SHG(0, 4σ;−π/2)

(b) Modelo contaminado: 0.90SHG(0, σ;−π/2) + 0.10U(−1/2, 1/2)

En la tabla (2.5), se dan los valores simulados de E(σ), E(σ), las varianzas de los estima-dores de MC y MVM respectivamente, y las eficiencias relativas E1,E2 y E3. Las mediasde los estimadores de MC y MVM de θ0 y θ1 no se representan, ya que su sesgo fue encon-trado insignificante. En cuanto a los resultados obtenidos de la simulacion, se observa quelos estimadores de MC tienen eficiencias pequenas. De hecho, disminuyen a medida que naumenta de tamano. En cuanto al desempeno de los estimadores de MC para el modelomixto es ciertamente decepcionante porque para tamanos de muestra como 20, 30 y 100se obtiene valores de eficiencia de 36.9, 32.6 y 22.6, algo bastante bajo.

Debido al ordenamiento paraguas de los valores βi, es decir, βi (1 ≤ i ≤ n) es una secuen-cia de numeros positivos que aumentan hasta el valor medio y luego disminuye de forma

Page 36: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 24

simetrica, ver Tiku et al. (2004). Para n = 20, t = −π/2, por ejemplo, los primeros veintevalores de βi son;

βi : 0.0174, 0.0682, 0.1479, 0.2492, 0.3634, 0.4801, 0.5890, 0.6806, 0.7465, 0.7810,

0.7810, 0.7465, 0.6806, 0.5890, 0.4801, 0.3634, 0.2492, 0.1479, 0.0682, 0.0174

De este modo, los extremos de estadısticas de orden reciben poco peso sobre el orde-namiento paraguas de los βi. Esto le da a los estimadores de MVM las propiedades derobustez inherentes que tienen.

Tabla 2.5. Robustez: potencia de las pruebas de G y T, θ0 = 0 σ = 1

Media Varianza Eficiencia

n σ σ θ0 θ1 σ θ0 θ1 σ E1 E2 E3

Modelo (a)

20 1.477 1.286 0.132 0.156 0.316 0.061 0.087 0.117 46.546 56.072 36.92430 1.494 1.285 0.082 0.1 0.223 0.038 0.052 0.073 45.947 52.199 32.6950 1.535 1.294 0.052 0.073 0.16 0.021 0.036 0.042 40.865 48.82 26.211100 1.559 1.3 0.025 0.033 0.09 0.01 0.013 0.02 39.735 39.619 22.66

Modelo (b)

20 0.933 0.907 0.047 0.057 0.047 0.037 0.048 0.038 79.73 83.703 81.24730 0.939 0.916 0.031 0.037 0.031 0.023 0.03 0.024 75.362 81.708 79.74250 0.945 0.924 0.019 0.025 0.019 0.014 0.02 0.015 75.157 81.832 78.881100 0.952 0.932 0.009 0.012 0.009 0.006 0.009 0.007 73.534 72.088 77.717

Se utilizan las siguientes definiciones de robustez formuladas por Box (1953):

1. Una prueba se dice que tiene criterio de robustez si su error tipo I de las alternativasplausibles no es sustancialmente mayor que la alcanzada bajo un modelo asumido.

2. Si la potencia de una prueba es la mas alta posible (o casi ası) bajo un modeloasumido, pero permanece alta para todos los modelos plausibles, la prueba se diceque tiene eficiencia robusta.

Los valores simulados del error de tipo I y de potencia se dan en la Tabla 2.6.

Tabla 2.6. Potencia de las pruebas de G y T. Modelo verdadero SHG(0, σ;−π/2), θ0 = 0 σ = 1

Modelo (a) Poblacion (b)

θ1 T G T G T G

n = 30

0 0.046 0.056 0.067 0.057 0.061 0.0530.2 0.221 0.189 0.339 0.281 0.359 0.2960.4 0.572 0.418 0.725 0.647 0.78 0.6920.6 0.839 0.664 0.941 0.899 0.959 0.9270.8 0.953 0.83 0.993 0.984 0.997 0.991

Page 37: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 2. MODELO DE REGRESION LINEAL SIMPLE. 25

Es evidente que la potencia de las pruebas T es mucho mas grande que la de las pruebas Gpara los dos modelos. Para θ1 = 0, los valores representan los errores de tipo I. Entonces sedice que las pruebas T propuestas tienen criterio de robustez, ası como eficiencia robusta.

Page 38: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3

Regresion Multiple

3.1. El Modelo Propuesto

En la mayorıa de problemas de investigacion donde se aplica el analisis de regresion,la respuesta Y es influenciada por mas de una variable independiente. Por ejemplo, elrendimiento de un cultivo dependera de la cantidad de nitrogeno, potasio y fertilizantesde fosfato utilizados.

Un modelo lineal que relaciona la respuesta Y con varias variables explicativas tiene laforma

Y = θ0 + θ1x1 + . . .+ θkxk + e

y se dispone de n observaciones, y1, y2, . . . , yn, en Y . Se puede escribir la observacion yicomo

yi = θ0 + θ1xi1 + θ2xi2 + . . .+ θkxik + ei

= θ0 +k∑

j=1

θjxij + ei, i = 1, 2, . . . , n

donde xij es el ajuste de la j-esima variable independiente para la i-esima observacion.Ahora se definen las siguientes matrices

YYY =

y1y2...yn

, 111 =

11...1

, XXX =

x11 x12 . . . x1kx22 x22 . . . x2k...

.... . .

...xn1 xn2 . . . xnk

, θθθ =

θ1θ2...θk

, eee =

e1e2...en

Entonces, las n ecuaciones que representan yi como funcion de las xik, las θk y las ei sepueden escribir simultaneamente como

YYY = 111θ0 +XθXθXθ + eee. (3.1)

26

Page 39: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3. REGRESION MULTIPLE 27

Los estimadores de MC de θ0 y θθθ son

θ0 = y −k∑

j=1

θjxj y θθθ = (XXX ′XXX )−1XXX ′YYY, (3.2)

donde XXX es una matriz de tamano n× k con elementos (xij − xj). Similarmente, YYY es unvector con elementos (yi − y), (1 ≤ i ≤ n, 1 ≤ j ≤ k).

El estimador de MC de la desviacion estandar σ de e es

se =

√√√√√

n∑

i=1

yi − y −

k∑

j=1

θj(xij − xj)

2/(n− k − 1)

. (3.3)

3.1.1. Estimacion de Maxima Verosimilitud Modificada (EMVM)

Suponga que los ei son ruidos aleatorios iid y tienen distribucion SHG.

Los estimadores de MV son las soluciones de las ecuaciones

∂ lnL/∂θ0 = 0, ∂ lnL/∂θj = 0, y ∂ lnL/∂σ = 0 (3.4)

Las ecuaciones no tienen soluciones explıcitas. La unica manera de resolverlas es poriteracion, pero eso es problematico, como se explico en la subseccion 2.1.2.

Para obtener las ecuaciones de MVM que son asintoticamente equivalente a las ecuacionesde MV, en primer lugar se expresa la ecuacion (3.4) en terminos de las variables aleatoriasordenadas,

e(i) = y[i] − θ0 −k∑

j=1

θjx[i]j , (1 ≤ i ≤ n), (3.5)

donde el vector concomitante(x[i]1, . . . , x[i]k, y[i]

)es el vector (xi1, . . . , xik, yi) de obser-

vaciones asociado con el i-esimo orden residual e(i). Las ecuaciones de verosimilitud sonexpresiones en terminos de las funciones

g(z(i)) = (exp(2c2z(i)) + a exp(c2z(i)))/(exp(2c2z(i)) + 2a exp(c2z(i)) + 1

), z(i) = e(i)/σ.

El estimador de MVM de θ0 es

θ0 = y[.] −k∑

j=1

θj x[.]j . (3.6)

Sea Y[i] = y[i] − y[.], X[i]1 = x[i]1 − x[.]1, . . . , X[i]k = x[i]k − x[.]k, los estimadores de MVMde θj (1 ≤ j ≤ k) y σ son, respectivamente,

θθθ = (XXX′

βββXXX)−1[(XXX

βββYYY )− σ(XXX′

∆∆∆111)]

(3.7)

Page 40: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3. REGRESION MULTIPLE 28

y

σ ={−c2B +

√(c2B)2 + 2nc2C

}/n. (3.8)

aquı

YYY (n×1) =

Y[1]Y[2]...

Y[n]

, 111(n×1) =

11...1

, XXX(n×k) =

X[1]1 X[1]2 . . . X[1]k

X[2]1 X[2]2 . . . X[2]k...

.... . .

...X[n]1 X[n]2 . . . X[n]k

βββ(n×n) =

β1 0 . . . 00 β2 . . . 0...

.... . .

...0 0 . . . βn

, ∆∆∆(n×n) =

∆1 0 . . . 00 ∆2 . . . 0...

.... . .

...0 0 . . . ∆n

, (3.9)

y

x[.]j =

n∑

i=1

βix[i]j

n∑

i=1

βi

, y[.] =

n∑

i=1

βiy[i]

n∑

i=1

βi

, ∆i = 1/2− αi

KKK =(XXX′

βββXXX)−1(XXX′

βββYYY ) = (Kj), 1 ≤ j ≤ k,

B =n∑

i=1

∆i

y[i] − y[.] −

k∑

j=1

Kj(x[i]j − x[.]j)

,

C =n∑

i=1

βi

y[i] − y[.] −

k∑

j=1

Kj(x[i]j − x[.]j)

2

.

Los calculos. Para inicializar el ordenamiento de ei, (1 ≤ i ≤ n), primero se calculan losestimadores de MC de θ0 y θ. Luego se obtienen los residuos estimados

eee = YYY − 111θ0 −XXXθθθ, (3.10)

El i-esimo vector concomitante(y[i], x[i]1, . . . , x[i]k

)corresponde al i-esimo valor ordenado

e(i). Los estimadores de MVM se calculan a partir de (3.6) y (3.7). Las estimaciones sonsustituidas en (3.10) y se obtiene un nuevo vector concomitante. Los estimadores de MVMson entonces calculados a partir de los nuevos concomitantes, es decir, los estimadores deMVM se obtienen en dos iteraciones.

3.1.2. Matriz de Covarianza Asintotica

Los estimadores de MVM son asintoticamente equivalentes a los estimadores de MV(para una prueba rigurosa ver apendice A, (Vaughan & Tiku 2000). Las varianzas y

Page 41: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3. REGRESION MULTIPLE 29

covarianzas asintoticas estan dadas por I−1, donde I es la matriz de informacion de Fisher:

I = P

1 x.1 x.2 · · · x.k 0

x.1 (1/n)

n∑

i=1

x2

i1 (1/n)

n∑

i=1

xi2xi1 · · · (1/n)

n∑

i=1

xikxi1 0

x.2 (1/n)n∑

i=1

xi1xi2 (1/n)n∑

i=1

x2

i2 · · · (1/n)n∑

i=1

xikxi2 0

......

.... . .

......

x.k (1/n)n∑

i=1

xi1xik (1/n)n∑

i=1

xi2xik · · · (1/n)n∑

i=1

x2

ik 0

0 0 0 · · · 01

P

{−E

(∂2 lnL

∂σ2

)}

,

(3.11)

donde:

(i) para −π ≤ t < 0

P = −c22n (t− sin t cos t)

2σ2t sin2 t, E

(∂2 lnL

∂σ2

)= − n

6σ2

(π2 − t2

sin2 t− (π2 − 3t2) cos t

t sin t

),

(ii) para t = 0

P = −nc223σ2

, E

(∂2 lnL

∂σ2

)= − n(3 + π2)

9σ2,

(iii) para t > 0

P = −c22n (sinh t cosh t− t)

2σ2t sinh2 t, E

(∂2 lnL

∂σ2

)= − n

6σ2

((π2 + 3t2) cosh t

t sinh t− π2 + t2

sinh2 t

).

Se realiza la simulacion de las medias y varianzas de los estimadores de MVM y MC,al igual que, las obtenciones de las ER de los estimadores de MC. Los resultados sonorganizados en la tabla (3.1); en el cual se deduce primero que todo, que los sesgos decada uno de los estimadores, para muestras de tamanos n=30, 50, 70 y 100, son valoresinsignificantes y, en segundo lugar, se aprecia que los estimadores de MVM son en generalmas eficientes que los de MC, a medida que el tamano de la muestra crece.

3.1.3. Prueba de Hipotesis

La hipotesis de mayor interes es que Y es independiente de las variables x1, x2, . . . , xk,es decir

H0 : θ1 = θ2 = . . . = θk = 0

contra la hipotesis alternativa

H1 : θj 6= 0 para al menos una j = 1, 2, . . . , k,

Page 42: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3. REGRESION MULTIPLE 30

Tabla 3.1. Media, varianza y eficiencia relativa de los estimadores de MVM y MC, θ0 = 0, θj = 1(1 ≤ j ≤ k) y σ = 1.

Media Varianza ER Media Varianza ER

MVM MC MVM MC MVM MC MVM MC

n = 30, t = −π/2 n = 30, t = π√11

θ0 -0.001 -0.002 0.03 0.035 86.915 -0.002 -0.001 0.031 0.035 89.939θ1 1.000 1.002 0.038 0.042 88.488 1.001 1.001 0.038 0.042 89.952θ2 1.000 1.001 0.060 0.067 89.927 1.001 0.998 0.059 0.068 86.257θ3 0.998 0.997 0.044 0.049 90.101 0.998 0.999 0.043 0.048 88.727σ 0.94 0.987 0.026 0.033 78.95 0.881 0.997 0.011 0.011 99.514

n = 50 n = 50

θ0 -0.001 -0.002 0.018 0.021 82.773 -0.001 -0.001 0.015 0.021 70.142θ1 1.001 1.006 0.026 0.030 88.200 1.006 1.004 0.021 0.030 70.100θ2 0.996 0.996 0.019 0.022 87.421 0.998 0.996 0.015 0.022 68.963θ3 1.001 0.999 0.022 0.026 86.682 0.998 1.001 0.017 0.026 66.953σ 0.967 0.994 0.016 0.019 80.648 0.953 1.000 0.004 0.006 77.686

n = 70 n = 70

θ0 -0.001 -0.002 0.012 0.015 82.186 -0.003 -0.002 0.009 0.014 64.471θ1 1.003 1.003 0.015 0.018 84.196 1.001 1.004 0.011 0.018 63.682θ2 0.999 1.000 0.019 0.023 84.366 0.999 1.000 0.015 0.022 66.385θ3 0.997 0.996 0.010 0.012 83.504 0.996 0.996 0.008 0.012 66.403σ 0.979 0.997 0.011 0.014 81.661 0.971 1.002 0.003 0.004 79.335

n = 100 n = 100

θ0 0 -0.002 0.008 0.01 81.291 -0.003 -0.001 0.006 0.01 64.216θ1 0.998 0.999 0.011 0.013 85.056 1.002 0.999 0.008 0.013 60.489θ2 1.005 1.004 0.010 0.012 83.344 1.001 1.004 0.007 0.012 59.961θ3 0.997 0.997 0.008 0.010 82.177 0.999 0.996 0.006 0.010 57.868σ 0.986 0.999 0.008 0.009 83.545 0.981 1.001 0.002 0.003 75.368

se obtiene la siguiente descomposicion de la suma de cuadrados que es estructuralmenteigual que el basado en las muestras normales.

Sobre H0, el estimador de MVM de σ es

σ0 =−c2B0 +

√(c2B0)2 + 2nc2C0

n,

donde B0 =n∑

i=1

∆i

{y[i] − y[.]

}=∆∆∆YYY y C0 =

n∑

i=1

βi

{y[i] − y[.]

}2= YYY

βββYYY .

Dado que σ0 puede reescribirse de la siguiente forma

σ0 =

√nC0

n

−c2

(B0√nC0

)+

2c2 + c22

(B0√nC0

)2 ,

Page 43: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3. REGRESION MULTIPLE 31

y para n grande,B0√nC0

∼= 0, por lo que se tiene

nσ20∼= 2c2C0 = 2c2YYY

βββYYY . (3.12)

Sobre H1, el estimador de MVM de σ es

σ =−c2B +

√(c2B)2 + 2nc2C

n,

donde

B =n∑

i=1

∆i

y[i] − y[.] −

k∑

j=1

θj(x[i]j − x[.]j)

=∆∆∆(YYY −XXXθθθ)

y

C =n∑

i=1

βi

y[i] − y[.] −

k∑

j=1

θj(x[i]j − x[.]j)

2

= YYY ′βββYYY − θθθ′

XXX′

βββYYY

y para n grande,B√nC

∼= 0, se tiene

nσ2 ∼= 2c2C = 2c2

(YYY ′βββYYY − θθθ

XXX′

βββYYY). (3.13)

Por lo tanto, la descomposicion de la suma de cuadrados de las observaciones se expresaen dos terminos independientes: el primer termino que contiene la variabilidad explicadao eliminada por la regresion que puede interpretarse como la parte determinista de lavariabilidad de la respuesta, y el segundo termino, refleja la variabilidad no explicada porla regresion, que es debida al azar.

Se puede definir

Variabilidad total = 2c2YYY′

βββ YYY = SCT (3.14)

Variabilidad explicada = 2c2θθθ′

XXX′

βββ YYY = SCR (3.15)

Variabilidad no explicada = 2c2YYY′βββ YYY − 2c2θθθ

XXX′

βββ YYY = SCE (3.16)

de forma que

SCT = SCR+ SCE. (3.17)

Asintoticamente, SCT/σ2, SCR/σ2 y SCE/σ2 se distribuyen Chi-cuadrado con n− 1, ky n− k− 1 grados de libertad. Por consiguiente, los grados de libertad para SCR y SCEsuman n−1 el numero total de grados de libertad. Ademas, por el teorema de Cochran setiene que SCR/σ2 y SCE/σ2 son variables aleatorias independientes que se distribuyenChi-cuadrado. Por lo tanto, si la hipotesis nula es cierta, la estadıstica de prueba es

F ∗ =2c2

(θθθ

XXX′

βββ YYY)

kσ2, (3.18)

donde θ y σ son los correspondientes estimadores de MVM.

La distribucion nula de F ∗ es una F central con (k, n− k − 1) grados libertad.

Page 44: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3. REGRESION MULTIPLE 32

La estadıstica F basada en los estimadores de MC esta dada por

F =θθθ

XXX′

YYY

kS2e

. (3.19)

Para estudiar los valores de las dos pruebas F ∗ y F , se efectua la simulacion con untamano de muestra de n = 30. Sin perdida de generalidad, se establece el valor de σ = 1,ademas, se toma diferentes valores para el parametro θ1. Cabe decir, que para θ1 = 0,la potencia se reduce al error de tipo I con un nivel de significancia de α = 0.05. Losresultados conseguidos se presentan en la tabla (3.2), en la que se puede apreciar que F ∗

es claramente mas potente que la prueba F clasica, tanto para la familia de distribucionesSHG de cola corta y larga. Por ejemplo, para el valor de θ1 = 0.5 con parametros de format = −π

√2/3 y π

√11, se obtienen las estadısticas de prueba con valores de F ∗ = 0.8,

F = 0.6 y F ∗ = 0.5, F = 0.4, lo cual evidencia que el test F ∗ es mas potente que el testF .

Tabla 3.2. Potencia de las pruebas de F ∗ y F , θ2 = θ3 = 0, σ = 1

t = −π√2/3 t = −π/2 t = 0 t = π t = π

√11

β2 9 5 4.2 3 2

θ1 F ∗ F F ∗ F F ∗ F F ∗ F F ∗ F

n = 300 0.136 0.051 0.104 0.054 0.097 0.054 0.08 0.053 0.257 0.051

0.25 0.368 0.167 0.244 0.152 0.212 0.149 0.193 0.146 0.391 0.1420.5 0.804 0.515 0.648 0.479 0.591 0.475 0.547 0.471 0.664 0.4650.75 0.961 0.836 0.922 0.832 0.897 0.835 0.874 0.836 0.868 0.8371 0.991 0.959 0.989 0.973 0.988 0.977 0.987 0.979 0.958 0.984

3.1.4. Robustez de los Estimadores y Pruebas

Para mostrar la robustez de los estimadores y de la prueba, se consideran los siguientesmodelos alternativos provenientes de la familia (2.1) con t = −π/2. Se asume como elmodelo de poblacion, la distribucion SHG(0, σ;−π/2):

(a) Mala especificacion de la distribucion: SHG(0, σ;−π/4)

(b) Modelo mixto: 0.90SHG(0, σ;−π/2) + 0.10SHG(0, 2σ;−π/2)

(c) Modelo mixto: 0.90SHG(0, σ;−π/2) + 0.10SHG(0, 4σ;−π/2)

(d) Modelo contaminado: 0.90SHG(0, σ;−π/2) + 0.10U(−1/2, 1/2)

(e) Modelo contaminado: 0.90SHG(0, σ;−π/2) + 0.10N(0, 1)

Teniendo en cuenta, los cinco modelos descritos anteriormente, se realiza la simulacionde las medias y varianzas de los estimadores de MVM y MC. Igualmente, se calculanlas ER de los MC. Para desarrollar esta actividad, es necesario tener tres parametros θj(j = 1, 2, 3) y σ igual a uno. Sin perdida de generalidad, θ0 = 0. Ademas, se utilizan

Page 45: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3. REGRESION MULTIPLE 33

muestras de tamano n=20 y 60, al igual que diferentes valores de parametros de forma. Deahı que, los resultados obtenidos, son agrupados en la tabla (3.3); donde se puede observarque los estimadores de MVM son notablemente mas eficientes y robustos en comparacioncon los de MC. De hecho, el estimador de MC de σ tiene sesgo substancialmente alto, porejemplo, el modelo (b) y (c).

La robustez de los estimadores de MVM, se debe a que los valores de βi (1 ≤ i ≤ n) enlos extremos son pequenos. En consecuencia, los residuales extremos e(i) reciben pequenospesos y su influencia se elimina automaticamente. Una caracterıstica desconcertante delos estimadores de MC es que sus eficacias relativas disminuyen a medida que aumentatamano de la muestra n.

Por otro lado, se realiza el estudio de las potencias para las dos pruebas F ∗ y F basadassobre los estimadores de MVM y MC respectivamente. Para esto se efectua 100000/nejecuciones de Monte Carlo con tamanos de muestra de 30 y 70 sobre el modelo de regresionlineal multiple con tres variables predictoras, donde se utiliza el modelo poblacional, a,c y d, referidos en la subseccion 3.1.4. Ası mismo, se asume que θ2 = θ3 = 0 y σ = 1,sin perdida de generalidad. Luego, los resultados que se obtuvieron en la simulacion (vertabla (3.4)), se establece que la prueba F ∗ es mas potente que la prueba F , es decir, quese tiene mayor probabilidad de rechazar una hipotesis nula falsa.

Page 46: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3. REGRESION MULTIPLE 34

Tabla 3.3. Robustez, valores simulados de las medias, varianzas y la eficiencia relativa de losestimadores de MC; θ0 = 0, θj = 1 (1 ≤ j ≤ k), k = 3, σ = 1.

Media Varianza ER Media Varianza ER

MVM MC MVM MC MVM MC MVM MC

n = 20, Modelo verdadero n = 20, Modelo (a)

θ0 -0.003 -0.002 0.048 0.053 90.659 -0.003 -0.002 0.05 0.053 94.827θ1 1.000 1.000 0.065 0.070 92.353 1.000 1.000 0.067 0.070 95.138θ2 0.996 0.995 0.072 0.078 91.859 0.996 0.996 0.075 0.078 95.267θ3 1.001 1.004 0.082 0.091 90.066 1.002 1.004 0.085 0.091 94.014σ 0.906 0.98 0.04 0.051 77.393 0.911 0.983 0.036 0.045 80.546

n = 60 n = 60

θ0 -0.001 -0.002 0.014 0.017 82.914 -0.002 -0.002 0.015 0.017 89.981θ1 0.999 1.001 0.020 0.022 90.281 0.999 1.001 0.021 0.023 95.409θ2 1.003 1.002 0.019 0.022 87.799 1.003 1.002 0.020 0.022 93.491θ3 1.002 1.002 0.015 0.017 87.273 1.002 1.002 0.016 0.017 93.295σ 0.973 0.996 0.013 0.016 81.643 0.975 0.997 0.012 0.013 85.819

n = 20, Modelo (b) n = 20, Modelo (c)

θ0 -0.004 -0.004 0.057 0.07 81.492 -0.005 -0.005 0.071 0.133 53.231θ1 0.999 1.000 0.077 0.090 85.030 1.002 1.001 0.140 0.177 79.189θ2 0.997 0.995 0.087 0.103 83.899 0.996 0.992 0.138 0.197 70.215θ3 0.999 0.996 0.103 0.123 84.302 0.999 0.995 0.154 0.230 66.712σ 1.001 1.105 0.052 0.081 64.361 1.219 1.472 0.118 0.321 36.707

n = 60 n = 60

θ0 0 -0.002 0.017 0.022 74.253 0.001 -0.003 0.019 0.042 44.033θ1 0.991 0.992 0.023 0.029 78.436 0.991 0.990 0.026 0.054 48.261θ2 0.997 0.999 0.020 0.027 74.649 0.997 0.999 0.023 0.051 44.939θ3 1.002 1.003 0.017 0.023 74.1501 1.001 1.005 0.020 0.044 45.796σ 1.072 1.132 0.017 0.03 56.356 1.276 1.547 0.035 0.143 24.284

n = 20, Modelo (d) n = 20, Modelo (e)

θ0 -0.003 -0.003 0.04 0.048 84.066 -0.003 -0.004 0.048 0.053 91.57θ1 1.000 0.998 0.058 0.064 90.386 1.003 1.005 0.066 0.070 94.198θ2 0.996 0.995 0.059 0.068 86.380 1.000 1.002 0.074 0.079 93.709θ3 1.001 0.999 0.073 0.083 87.677 1.002 1.006 0.088 0.095 92.185σ 0.851 0.931 0.037 0.051 72.968 0.91 0.979 0.038 0.047 79.846

n = 60 n = 60

θ0 -0.003 -0.004 0.012 0.016 76.033 -0.001 -0.002 0.015 0.017 84.975θ1 1.004 1.004 0.019 0.023 80.802 0.994 0.997 0.021 0.024 89.214θ2 1.003 1.001 0.016 0.020 78.388 0.994 0.994 0.018 0.020 90.534θ3 0.995 0.995 0.012 0.015 79.825 0.998 0.996 0.014 0.016 89.004σ 0.908 0.946 0.012 0.016 74.559 0.976 0.992 0.013 0.015 85.322

Page 47: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 3. REGRESION MULTIPLE 35

Tabla 3.4. Potencia de las pruebas F ∗ y F , error de tipo I es de 0.05.

θ2 = θ3 = 0 Modelo Poblacional Modelo (a) Modelo (c) Modelo (d)

θ1 F ∗ F F ∗ F F ∗ F F ∗ F

n = 30

0 0.103 0.047 0.097 0.053 0.049 0.054 0.092 0.0530.25 0.244 0.152 0.221 0.15 0.122 0.095 0.254 0.1610.5 0.648 0.479 0.605 0.476 0.384 0.266 0.691 0.5380.75 0.922 0.832 0.903 0.836 0.717 0.513 0.95 0.8671 0.989 0.973 0.988 0.976 0.914 0.732 0.994 0.979

n = 70

0 0.066 0.046 0.057 0.043 0.032 0.05 0.057 0.050.15 0.185 0.144 0.164 0.139 0.077 0.094 0.197 0.1650.3 0.581 0.463 0.532 0.463 0.282 0.221 0.624 0.5060.45 0.9 0.827 0.861 0.823 0.654 0.454 0.931 0.8550.6 0.987 0.968 0.981 0.968 0.906 0.698 0.993 0.988

Page 48: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 4

Aplicaciones

En esta seccion se presenta tres aplicaciones de diferentes contextos, donde algunas deellas han sido ya analizadas por ciertos autores con metodos diferentes a la que se planteaen esta tesis.

Empleando, la metodologıa desarrollada en los capıtulos anteriores, se presenta el modelolineal SHG recomendado para cada uno de los conjuntos de datos. Ası mismo, se efectua laestimacion de sus parametros mediante la tecnica de MVM y se compara con la estimacionrealizada por MC, con el fin de comparar cual de las dos tiene un mejor ajuste, se utilizael error estandar y AIC .

Ejemplo. 4.1. Se toma el clasico conjunto de datos de Fisher (1936). El conjunto tienela informacion sobre 150 flores de iris, donde se observaron las siguientes cinco variables:especies (tres categorıas), longitud del sepalo, ancho del sepalo, longitud del petalo y anchodel petalo.

Ese conjunto de datos fue analizado por Alexander & Christof (1998), quien utilizoel modelo de regresion lineal multiple. Para ilustrar el modelo con variables continuas,se establecio como Y la longitud del petalo, X1 ancho del petalo y X2 ancho del sepalo.Ademas, se toma todos los casos, es decir, no se estima los parametros por especies. Porconsiguiente, se tiene la ecuacion de regresion :

y = θ0 + θ1xi1 + θ2xi2 + ei (1 ≤ i ≤ 150). (4.1)

El valor del coeficiente de determinacion multiple R2 es de 0.9338, es decir, 93.3% de lavariabilidad de Y .

Un grafico cuantil-cuantil de los residuos estimados

ei = yi − θ0 −2∑

j=1

θixij (1 ≤ i ≤ 150), (4.2)

indica que el comportamiento puede ser ajustado aproximadamente por una distribucionsimetrica de cola larga, debido a lo cual, se propone utilizar el modelo de la SHG comoun modelo plausible, ver figura 4.1 (a).

36

Page 49: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 4. APLICACIONES 37

−3 −2 −1 0 1 2 3−1.5

−1

−0.5

0

0.5

1

1.5

Cuantiles Normal estándar

Res

idua

les

Gráfico (a)

−3 −2 −1 0 1 2 3−1.5

−1

−0.5

0

0.5

1

1.5

Cuantiles SHG

Res

idua

les

Gráfico (b)

Figura 4.1. Residuos normales y SHG para el ejemplo 4.1.

Una vez dado el modelo, se debe encontrar el valor mas adecuado para el parametrode forma t; el cual se obtiene mediante el procedimiento explicado en el apendice A. Seestablece que la distribucion SHG con t = −π/2, da un buen ajuste, como se aprecia enla figura 4.1 (b).

Se estima los parametros mediante la metodologıa de MVM y MC. Igualmente, se calculansus errores estandar (ES) respectivamente, obteniendo los valores que se presentan en latabla (4.1). Cabe senalar, que el valor de la desviacion σ, es obtenido utilizando la expresion

V (σ) ∼= S2e

2n

(1 +

λ4

2

), (4.3)

donde λ4 = (µ4/µ22)− 3. La ecuacion (4.3) esta de acuerdo con la formula dada explıcita-

mente en Roy & Tiku (1962).

Tabla 4.1. Estimacion de parametros para los datos del ejemplo 4.1.

Parametros MVM MC

Estimacion ES Estimacion ES

θ0 2.3138 0.0341 2.2582 0.31352θ1 2.1366 0.0448 2.1556 0.05283θ2 -0.3747 0.0784 -0.3550 0.09239σ 0.4633 0.0341 0.4574 0.0373 a

Como se puede observar en la anterior tabla (4.1), los errores estandar de los estimado-res de MVM son mas pequenos que los de MC, lo que significa un mejor ajuste del modelode regresion multiple con errores SHG frente al modelo clasico. Para el estudio completo,

aEs el valor de (Se/√2n)

1 + λ4/2, λ4 = 2

Page 50: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 4. APLICACIONES 38

se utiliza AIC para los modelos de regresion lineal multiple con errores distribuidos normaly SHG, los valores obtenidos son 192.0244 y 187.3542, respectivamente. Por consiguiente,se tiene que el modelo de la SHG presenta mejor ajuste.

Ejemplo. 4.2. Cuando la gasolina se bombea a un tanque, los vapores de hidrocarburosson forzados a salir del tanque y en la atmosfera. Para reducir esta fuente importante decontaminacion del aire, los dispositivos estan instalados para capturar el vapor. En losestudios con estos sistemas de recuperacion de vapores, un sniffer mide la cantidad recu-perada. Para estimar la eficacia del sistema, se debe utilizar algun metodo de estimacionde la cantidad total emitida. Con este fin, un experimento de laboratorio se llevo a cabo enel que se midio la cantidad de vapor que se desprende en condiciones controladas. Cuatropredictores son relevantes para el modelo (ver Weisberg (2014, pag. 164)):

X1= temperatura del deposito inicial (◦F)X2= temperatura del suministro de gasolina (◦F)X3= presion de vapor inicial en el tanque (psi)X4= presion de vapor del suministro de gasolina (psi)La respuesta es los hidrocarburos Y (gramos).

Weisberg realiza un completo estudio al conjunto de datos. Dentro del analisis plantea,el modelo clasico

y = θ0 + θ1xi1 + θ2xi2 + θ3xi3 + θ4xi4 + ei (1 ≤ i ≤ 125). (4.4)

El valor de R2 es 0.8933. Un grafico cuantil-cuantil de los residuos estimados

ei = yi − θ0 −4∑

j=1

θixij (1 ≤ i ≤ 125), (4.5)

revela que el proceder adecuado consiste en ajustar un modelo cuya distribucion seasimetrica de cola larga, de manera que, se presenta el modelo de la SHG con parametrode forma t = −2.6 (valor apropiado, obtenido al realizar el procedimiento del apendice A)como un modelo alternativo para el conjunto de datos, ver figura (4.2) (a). Como se puedeapreciar en la tabla (4.2), se tiene las estimaciones de los parametros de modelo SHGmediante el metodo de MVM frente a las estimaciones del modelo clasico; igualmente secalculan sus respectivos ES. De aquı el interes es considerar los ES mas pequenos, ya quepermiten saber cual de los modelos posee un mejor ajuste de los datos y cuales de losmetodos son mas eficientes.

Tabla 4.2. Estimacion de parametros para el ejemplo 4.2 .

Parametros MVM MC

Estimacion ES Estimacion ES

θ0 -0.3906 0.1835 0.1539 1.0349θ1 -0.1610 0.0105 -0.0827 0.0486θ2 0.2065 0.0129 0.1897 1.4213θ3 0.4984 0.1451 -4.0596 1.5800θ4 6.2095 0.1552 9.8574 1.6252σ 3.0984 0.30221 2.7576 0.3577b

Page 51: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 4. APLICACIONES 39

Para el estudio completo, se utiliza AIC para los modelos de regresion lineal multiplecon errores distribuidos normal y SHG. los valores obtenidos son 611.3226 y 606.4134,respectivamente. Por consiguiente, se tiene que el modelo de la SHG presenta mejor ajuste.

−3 −2 −1 0 1 2 3−8

−6

−4

−2

0

2

4

6

8

Cuantiles Normal estándar

Res

idua

les

Gráfico (a)

−4 −2 0 2 4−10

−8

−6

−4

−2

0

2

4

6

8

10

Cuantiles SHGR

esid

uale

s

Gráfico (b)

Figura 4.2. Grafico de residuos normal y SHG para el ejemplo 4.2.

Ejemplo. 4.3. Bowerman, Connell & Murphree (2013) presentan 30 observaciones sobreY que representa el precio de venta de una casa (miles de dolares) y los valores corres-pondientes de X1 =tamano de la casa (pies cuadrados), X2 =tamano del lote (mil piescuadrados) y X3 =cantidad de banos.

Ese conjunto de datos es analizado completamente y expresado mediante el modeloclasico

y = θ0 + θ1xi1 + θ2xi2 + θ3xi3 + ei (1 ≤ i ≤ 30). (4.6)

El valor de R2 = 0.9559 dice que el modelo con tres variables independientes explica el95.6% de la variabilidad total de las 30 observaciones sobre los precios de ventas de casas.Un grafico cuantil-cuantil de los residuos estimados, ver figura (4.3), senala que una buenaeleccion para modelar aquel conjunto de datos, es mediante un modelo de regresion linealmultiple con errores simetricos; de manera que, se propone el modelo de la SHG comouna excelente alternativa. Para ello, primero se debe emplear la metodologıa descrita enel Apendice A, con el fin de establecer que valor es mas apto para el parametro de forma(t = 8π/7). Una vez obtenido el valor optimo de t, se estima los parametros del modeloa traves del metodo de MVM. Igualmente, se realiza el desarrollo del modelo clasicoutilizando esta vez los MC, con el proposito de comparar las estimaciones de cada modelojunto con sus respectivos errores estandar. En este caso, se observa que los valores de loserrores estandar obtenidos de las estimaciones efectuadas por MVM son mas pequenosque los calculados por MC. Por consiguiente, los estimadores de MVM son mas eficientes,

bλ4 = 6.4174

Page 52: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 4. APLICACIONES 40

como se puede apreciar en la tabla (4.3).

Para terminar el respectivo estudio, se emplea la tecnica de AIC para los modelos clasicoy SHG. Los valores obtenidos son 267.7901 y 267.4586, respectivamente. Por consiguiente,se tiene que el modelo de la SHG presenta mejor ajuste.

−3 −2 −1 0 1 2 3−50

−40

−30

−20

−10

0

10

20

30

40

50

Cuantiles Normal estándar

Res

idua

les

Gráfico (a)

−2 −1 0 1 2−50

−40

−30

−20

−10

0

10

20

30

40

Cuantiles SHG

Res

idua

les

Gráfico (b)

Figura 4.3. Grafico cuantil-cuantil de residuos normal y SHG para el ejemplo 4.3.

Tabla 4.3. Estimacion de parametros para el ejemplo 4.3.

Parametros MVM MC

Estimacion ES Estimacion ES

θ0 -31.6876 3.4348 -28.8478 29.7115θ1 0.1677 0.0088 0.1709 0.0155θ2 7.3759 1.0353 6.7777 1.4213θ3 15.3497 6.1885 15.5347 9.2083σ 19.2464 2.3451 20.3056 2.5149c

cλ4 = −0.1593

Page 53: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

CAPITULO 5

Conclusiones

Bajo el contexto del modelo de regresion lineal multiple junto con el supuesto de quelos errores se distribuyen SHG, se empleo el metodo de MVM para la estimacion de losparametros del modelo; siendo teoricamente y computacionalmente sencillos de implemen-tar. Ademas, proporciona soluciones explıcitas para las ecuaciones de verosimilitud cuandoel metodo de MV se vuelve intratable.

Por otro lado, se obtiene que los estimadores de MVM son mas eficientes que los estimado-res de MC. Cabe senalar, que este ultimo metodo de estimacion, tiene una caracterısticadesconcertante, es decir, su eficiencia relativa disminuye a medida que el tamano de lamuestra aumenta. Aparte de eso, en los capıtulos dos y tres se demostro que los estimado-res de MVM son robustos y en cuanto a las pruebas T y F ∗ se puede destacar el hecho detener mayor potencia considerablemente cuando la familia SHG representa distribucionesde cola corta y larga, en comparacion con las pruebas G y F tradicionales. En segundolugar, las pruebas T y F ∗ poseen criterio de robustez e inferencia robusta, tal como severifico en las simulaciones de la tabla (2.6) y (4.3).

En cuanto a las aplicaciones presentadas en el capıtulo 4, se ilustra claramente la meto-dologıa planteada en este trabajo para el modelo de regresion lineal multiple con erroresdistribuidos SHG, donde se comprueba claramente la mayor eficiencia de los estimadoresde MVM frente a los estimadores de MC. Ademas, se muestra un mejor ajuste del modelopropuesto en este trabajo que el de un modelo clasico. Por consiguiente, se puede consi-derar este modelo no normal de familias simetricas, como una buena opcion para modelardiferentes tipos de datos.

41

Page 54: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE A

Determinacion del parametro de forma

Se procede a calcular los valores de θ0, θ1 y σ de las ecuaciones (3.6), (3.7) y (3.8) paraun t dado. Ahora, se obtienen los valores de (1/n) lnL utilizando alguna de las siguientesexpresiones de acuerdo al t elegido,para −π < t < 0

1

nlnL = ln

(sin t

σmt

√π2 − t2

3

)+

1

n

√π2 − t2

3

n∑

i=1

zi

− 1

n

n∑

i=1

ln

[exp

(2

√π2 − t2

3zi

)+ 2 cos t exp

(√π2 − t2

3zi

)+ 1

], (A.1)

y t > 0

1

nlnL = ln

(sinh t

σmt

√π2 + t2

3

)+

1

n

√π2 + t2

3

n∑

i=1

zi

− 1

n

n∑

i=1

ln

[exp

(2

√π2 + t2

3zi

)+ 2 cosh t exp

(√π2 + t2

3zi

)+ 1

], (A.2)

donde

zi =

yi − θ0 −k∑

j=1

θxij

σ1 ≤ i ≤ n

Se realiza este procedimiento para una serie de valores de t. El valor de t que maximizalnL es la estimacion requerida.

42

Page 55: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE B

Programa en R: modelo de regresion lineal

multiple

rm(list=ls(all=TRUE))

#Paquetes requeridos.

library(BioPhysConnectoR)

library(pracma)

#Establecer la semilla.

set.seed(1)

n=30

pa=3

N=100000/n

th0=0

th=matrix(c(1,1,1),nrow=pa,ncol=1)

sg=1

qf=qnorm(0.95,0,1)

qff=qf(0.95,pa,n-pa-1)

t=pi*sqrt(11)

PowerMML=0

PowerLS=0

#Estructura de la SHG

if(-pi<t && t<0){

a=cos(t)

cc=sqrt((pi^(2)-t^(2))/3)

c=(sin(t)/t)*cc

}else if(t==0){

a=1

cc=pi/sqrt(3)

c=cc

43

Page 56: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE B. PROGRAMA EN R: MODELO DE REGRESION LINEAL MULTIPLE 44

}else if(t>0){

a=cosh(t)

cc=sqrt((pi^(2)+t^(2))/3)

c=(sinh(t)/t)*cc

}

ti=matrix(0,nrow=n,ncol=1)

al=matrix(0,nrow=n,ncol=1)

bt=matrix(0,nrow=n,ncol=1)

ones=matrix(1,nrow=n,ncol=1)

for(i in 1:n){

q=i/(n+1)

if(-pi<t && t<0){

ti[i]=(1/cc)*log(sin(t*q)/sin(t*(1-q)))

}else if(t==0){

ti[i]=(sqrt(3)/pi)*log(q/(1-q))

}else if(t>0){

ti[i]=(1/cc)*log(sinh(t*q)/sinh(t*(1-q)))

}

bt[i]=((a*cc*exp(3*cc*ti[i])+2*cc*exp(2*cc*ti[i])+a*cc*exp(cc*ti[i]))

/(exp(2*cc*ti[i])+2*a*exp(cc*ti[i])+1)^(2))

al[i]=((exp(2*cc*ti[i])+a*exp(cc*ti[i]))

/(exp(2*cc*ti[i])+2*a*exp(cc*ti[i])+1))-(bt[i]*ti[i])

if(bt[i]<0){

bt[i]=0

al[i]=(((exp(2*cc*ti[i])+a*exp(cc*ti[i]))

/(exp(2*cc*ti[i])+2*a*exp(cc*ti[i])+1))-(bt[i]*ti[i]))

}

}

dl=(0.5-al)

th0lm=0

sglm=0

th0lv=0

sglv=0

th0mm=0

sgmm=0

th0mv=0

sgmv=0

thlm=matrix(0,nrow=pa,ncol=1)

thlv=matrix(0,nrow=pa,ncol=1)

thmm=matrix(0,nrow=pa,ncol=1)

thmv=matrix(0,nrow=pa,ncol=1)

#Generando datos aleatorios de una normal

data=rnorm(n*pa,mean=0,sd=1)

Page 57: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE B. PROGRAMA EN R: MODELO DE REGRESION LINEAL MULTIPLE 45

#Definiendo variables

X=matrix(data,nrow=n,ncol=pa)

Y=matrix(0,nrow=n,ncol=1)

ee=matrix(0,nrow=n,ncol=1)

#Simulando N = 10000/n muestras aleatorias

for(l in 1:N){

u=runif(n)

if(-pi<t && t<0){

for(ii in 1:n){

ee[ii]=(1/cc)*log(sin(t*u[ii])/sin(t*(1-u[ii])))

}}else if(t==0){

for(ii in 1:n){

ee[ii]=(sqrt(3)/pi)*log(u[ii]/(1-u[ii]))

}}else if(t>0){

for(ii in 1:n){

ee[ii]=(1/cc)*log(sinh(t*u[ii])/sinh(t*(1-u[ii])))

}}

#####################################

#####################################

#Modelo mixto para ee

#ra=randsample(n, n/10)

#for(ii in 1:(n/10)){

#ee[ra[ii]]= 2*ee[ra[ii]]

#}

#####################################

#####################################

#Modelo mixto para ee

# ra=randsample(n, n/10)

#for(ii in 1:(n/10)){

#ee[ra[ii]]= 4*ee[ra[ii]]

#}

#####################################

#####################################

#Modelo contaminado para ee

#ra=randsample(n, n/10)

#for(ii in 1:(n/10)){

#ee[ra[ii]]=runif(1, -0.5,0.5)

#}

#####################################

#####################################

#Modelo contaminado para ee

#ra=randsample(n, n/10)

#for(ii in 1:(n/10)){

#ee[ra[ii]]=rnorm(1,0,1)

#}

Page 58: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE B. PROGRAMA EN R: MODELO DE REGRESION LINEAL MULTIPLE 46

Y=th0*ones+(X%*%th)+ee

#Hallando Los estimadores de MC

meanX=apply(X,2,mean)

meanY=sum(Y)/n

Xmx=matrix(0,nrow=n,ncol=pa )

Ymy=matrix(0,nrow=n,ncol=1 )

for(jj in 1:n){

Xmx[jj,]=X[jj,]-meanX

Ymy[jj,]=Y[jj,]-meanY

}

thl= solve(t(Xmx)%*%Xmx)%*%(t(Xmx)%*%Ymy)

th0l=meanY-sum(t(thl)*meanX)

sgl=sqrt(sum((Ymy-(Xmx%*%thl))^2)/(n-pa-1))

Fl=0

Fl=Fl+(t(thl)%*%t(X)%*%Y)/(pa*sgl^2)

if(Fl>qff){

PowerLS=PowerLS+1

}

th0lm=th0lm+th0l

thlm=thlm+thl

sglm=sglm+sgl

th0lv=th0lv+th0l^2

thlv=thlv+thl^2

sglv=sglv+sgl^2

Ximm=matrix(0,nrow=n,ncol=pa)

Yimm=matrix(0,nrow=n,ncol=1)

#Hallando Los estimadores de MVM

for(r in 1:2){

if(r==1){

e=Y-ones*th0l-(X%*%thl)

}else{

e=(Y-ones*th0m-(X%*%thm))

}

xy=cbind(e,Y,X)

xy=mat.sort(xy, 1)

xc=xy[,3:(pa+2), drop = FALSE]

yc=xy[,2, drop = FALSE]

m=sum(bt)

diagbt=diag(c(bt),n,n)

diagdelta=diag(c(dl),n,n)

btx=diagbt%*%xc

bty=diagbt%*%yc

sumbtx=apply(btx,2,sum)

xmm=sumbtx/m

Page 59: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE B. PROGRAMA EN R: MODELO DE REGRESION LINEAL MULTIPLE 47

ymm=sum(bty)/m

for(z in 1:n){

Ximm[z,]=xc[z,]-xmm

Yimm[z,]=yc[z,]-ymm

}

K=solve(t(Ximm)%*%diagbt%*%Ximm)%*%(t(Ximm)%*%diagbt%*%Yimm)

B=sum(diagdelta%*%(Yimm-(Ximm%*%K)))

C=sum(diagbt%*%(Yimm-(Ximm%*%K))^2)

sgm=(-cc*B+sqrt((cc*B)^2+2*n*cc*C))/n

thm=solve(t(Ximm)%*%diagbt%*%Ximm)%*%((t(Ximm)%*%diagbt%*%Yimm)

-sgm*(t(Ximm)%*%diagdelta%*%ones))

th0m=ymm-sum(t(thm)*xmm)

}

Fm=0

Fm=Fm+(2*cc)*(t(thm)%*%t(Ximm)%*%diagbt%*%Yimm)/(pa*sgm^2)

if(Fm>qff){

PowerMML=PowerMML+1

}

th0mm=th0mm+th0m

thmm=thmm+thm

sgmm=sgmm+sgm

th0mv=th0mv+th0m^2

thmv=thmv+thm^2

sgmv=sgmv+sgm^2

}

th0lv=(th0lv/N)-(th0lm/N)^2

thlv=(thlv/N)-(thlm/N)^2

sglv=(sglv/N)-(sglm/N)^2

th0mv=(th0mv/N)-(th0mm/N)^2

thmv=(thmv/N)-(thmm/N)^2

sgmv=(sgmv/N)-(sgmm/N)^2

th0lm=th0lm/N

thlm=thlm/N

sglm=sglm/N

th0mm=th0mm/N

thmm=thmm/N

sgmm=sgmm/N

Eth0l=100*(th0mv/th0lv)

Ethl=100*(thmv/thlv)

Esgl=100*(sgmv/sglv)

PowerMML=PowerMML/N

PowerLS=PowerLS/N

pm=cbind(th0mm,th0lm,th0mv, th0lv,Eth0l,thmm,

thlm,thmv,thlv,Ethl,sgmm,sglm,sgmv,sglv,Esgl)

print(round(pm,3))

Page 60: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE C

Programa en Matlab

%clear;clc;

rng(’default’);rng(1);

th0=0;th1=0.4;sg=1;

n=30;ns=100000/n;

qf=norminv(0.95,0,1);

h=-pi/2;

if (-pi<h && h<0)

a=cos(h);c2=sqrt((pi^2-h^2)/3);c1=c2*sin(h)/h;

elseif (h==0)

a=1;c2=pi/sqrt(3);c1=c2;

elseif (h>0)

a=cosh(h);c2=sqrt((pi^2+h^2)/3);c1=c2*sinh(h)/h;

end

t=zeros(n,1);al=zeros(n,1);bt=zeros(n,1);

for i=1:n

q=i/(n+1);

if (-pi<h && h<0)

t(i)=log(sin(h*q)/(sin(h*(1-q))))/c2;

elseif (h==0)

t(i)=sqrt(3)*log(q/(1-q))/pi;

elseif (h>0)

t(i)=log(sinh(h*q)/(sinh(h*(1-q))))/c2;

end

bt(i)=(a*c2*exp(3*c2*t(i))+2*c2*exp(2*c2*t(i))

+a*c2*exp(c2*t(i)))/(exp(2*c2*t(i))+2*a*exp(c2*t(i))+1)^2;

al(i)=((exp(2*c2*t(i))+a*exp(c2*t(i)))/(exp(2*c2*t(i))

+2*a*exp(c2*t(i))+1))-bt(i)*t(i);

if (bt(i)<0)

bt(i)=0;

al(i)=((exp(2*c2*t(i))+a*exp(c2*t(i)))

/(exp(2*c2*t(i))+2*a*exp(c2*t(i))+1));

end

end

48

Page 61: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE C. PROGRAMA EN MATLAB 49

dl=0.5-al;

mth0l=0;mth1l=0;msgl=0;vth0l=0;vth1l=0;vsgl=0;

mth0m=0;mth1m=0;msgm=0;vth0m=0;vth1m=0;vsgm=0;

x=randn(n,1);y=zeros(n,1);e=zeros(n,1);

powerl=0;powerm=0;

for l=1:ns

u=rand(n,1);

for i=1:n

if (-pi<h && h<0)

e(i)=log(sin(h*u(i))/(sin(h*(1-u(i)))))/c2;

elseif (h==0)

e(i)=sqrt(3)*log(u(i)/(1-u(i)))/pi;

elseif (h>0)

e(i)=log(sinh(h*u(i))/(sinh(h*(1-u(i)))))/c2;

end

end

%*** 10% of errors (e’s with sg=1) selected (randomly)

%and replaced by errors having 4*sg ******************

%r=randsample(n,n/10);

%for i=1:n/10

% e(r(i))=4*e(r(i));

%end

%******** 10% errors (e) selected (randomly) and replaced

%by erros generated from U(-0.5,0.5) ********************

% r=randsample(n,n/10);

%for i=1:n/10

% e(r(i))=random(’Uniform’,-0.5,0.5);

%end

%********************************************************

y=th0+th1*x+e;

% **************** LSE **********************************

my=mean(y);mx=mean(x);

sxy=sum((x-mx).*(y-my));sxx=sum((x-mx).*(x-mx));

th1l=sxy/sxx;

th0l=my-th1l*mx;

sgl=sqrt(sum(((y-my)-th1l*(x-mx)).*((y-my)-th1l*(x-mx)))/(n-2));

Gl=0;

Gl=Gl+(th1l/sgl)*sqrt(sum((x-mx).^2));

if (Gl>qf)

powerl=powerl+1;

end

mth0l=mth0l+th0l;mth1l=mth1l+th1l;msgl=msgl+sgl;

vth0l=vth0l+th0l^2;vth1l=vth1l+th1l^2;vsgl=vsgl+sgl^2;

for r=1:2

Page 62: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE C. PROGRAMA EN MATLAB 50

if r == 1

es=y-th1l*x;

else

es=y-th1m*x;

end

xy=[es y x];xy=sortrows(xy,1);

xc=xy(:,3);yc=xy(:,2);

m=sum(bt);xmm=sum(bt.*xc)/m;ymm=sum(bt.*yc)/m;

K=sum(bt.*(yc-ymm).*(xc-xmm))/sum(bt.*(xc-xmm).^2);

D=sum(dl.*(xc-xmm))/sum(bt.*(xc-xmm).^2);

B=sum(dl.*(yc-ymm-K*(xc-xmm)));C=sum(bt.*(yc-ymm-K*(xc-xmm)).^2);

sgm=(-c2*B+sqrt((c2*B)^2+2*n*c2*C))/n;

th1m=K-sgm*D;

th0m=ymm-th1m*xmm;

end

Tm=0;

Tm=Tm+(th1m/sgm)*sqrt(2*c2*sum(bt.*(xc-xmm).^2));

if (Tm>qf)

powerm=powerm+1;

end

mth0m=mth0m+th0m;mth1m=mth1m+th1m;msgm=msgm+sgm;

vth0m=vth0m+th0m^2;vth1m=vth1m+th1m^2;vsgm=vsgm+sgm^2;

end

vth0l=(vth0l-mth0l^2/ns)/ns;vth1l=(vth1l-mth1l^2/ns)/ns;

vsgl=(vsgl-msgl^2/ns)/ns;

vth0m=(vth0m-mth0m^2/ns)/ns;vth1m=(vth1m-mth1m^2/ns)/ns;

vsgm=(vsgm-msgm^2/ns)/ns;

mth0l=mth0l/ns;mth1l=mth1l/ns;msgl=msgl/ns;

mth0m=mth0m/ns;mth1m=mth1m/ns;msgm=msgm/ns;

eth0l=100*(vth0m/vth0l);eth1l=100*(vth1m/vth1l);

esgl=100*(vsgm/vsgl);

powerm=powerm/ns;

powerl=powerl/ns;

if (-pi<h && h<0)

I11=(-c2^2*n*(h-sin(h)*cos(h)))/(2*sg^2*h*sin(h)^2);

I22=((-c2^2*n*(h-sin(h)*cos(h)))/(2*sg^2*h*sin(h)^2))*(sum(x.^2)/n);

I33=(-n/(6*sg^2))*(((pi^2-h^2)/sin(h)^2)-((pi^2-3*h^2)*cos(h)/h*sin(h)));

elseif (h==0)

I11=(-n*c2^2)/(3*sg^2);

I22=(-n*c2^2)/(3*sg^2)*(sum(x.^2)/n);

I33=(-n*(3+pi^2))/(9*sg^2);

elseif (h>0)

I11=(-c2^2*n*(sinh(h)*cosh(h)-h))/(2*sg^2*h*sinh(h)^2);

I22=((-c2^2*n*(sinh(h)*cosh(h)-h))/(2*sg^2*h*sinh(h)^2))*(sum(x.^2)/n);

I33=(-n/(6*sg^2))*(((pi^2+3*h^2)*cosh(h)

/(h*(sinh(h))^2))-((pi^2+h^2)/sinh(h)^2));

end

MVBth0=(-1/I11);

Page 63: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

APENDICE C. PROGRAMA EN MATLAB 51

MVBth1=(-1/I22);

MVBsg=(-1/I33);

pm=[mth1m mth1l vth1m vth1l eth0l eth1l];

fprintf(’%6.3f %6.3f %6.3f %6.3f %6.2f %6.2f \n’,pm’);

return

Page 64: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

D

Bibliografıa

Alejandro, M. & Alexander, B. (2013), ‘Secante hiperbolica generalizada y un metodode estimacion de sus parametros: maxima verosimilitud modificada’, Ingenierıa yCiencia 9(18), 93–106.

Alexander, V. E. & Christof, S. (1998), Regression Analysis for Social Sciences, California,Academic Press.

Andrews, D. F. (1974), ‘A robust method for multiple linear regression’, Technometrics16(4), 523–531.

Atkinson, A. & Riani, M. (2000), Robust Diagnostic Regression Analysis, New York, Sprin-ger.

Barnett, V. D. (1996a), ‘Evaluation of the maximum likelihood estimator when the like-lihood equation has multiple roots’, Biometrika 53(1/2), 151–165.

Bartlett, V. D. (1953), ‘Approximate confidence intervals’, Biometrika 40(1/2), 12–19.

Baten, W. D. (1934), ‘Probability law for the sum of n independent variables, each sub-ject to the law (1/2h)Sech(πx/2h)’, Bulletin of the American Mathematical Society40(1), 284–290.

Bhattacharyya, G. K. (1970), ‘The Asymptotics of Maximum Likelihood and RelatedEstimators Based on Type II Censored data’, Journal of the American StatisticalAssociation, 80(390), 398–404.

Bowerman, B. L., Connell, R. T. & Murphree, E. S. (2013), Business Statistics in Practice,7 edn, New York, McGraw-Hill/Irwin.

Fernandez, C., Osiewalski, M. F. J. & Steel (1995), ‘Modelling and inference with ν-spherical distributions’, Journal of American Statistical Association 90, 1331–1340.

Fisher, R. A. (1936), ‘The use of multiple measurements in taxonomic problems’, Annalsof Eugenics 7(2), 179–188.

Fisher, R. A. (1971), The Design of Experimets, 9 edn, Hafner Publishing company.

Hamilton, L. C. (1992), Regression With Graphics, 1 edn, Brooks/Cole Publishing Com-pany.

Hand, D., Daly, F., Lunn, A., McConway, K. & Ostrowski, E. (1994), Small Data Sets, 1edn, Springer-Science Business.

52

Page 65: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

BIBLIOGRAFIA 53

Hoeffding, W. (1953), ‘On the Distribution of the Expected Values of the Order Statistics’,The Annals of Mathematical Statistics 24(1), 93–100.

Huber, P. (1981), Robust Statistics, 2 edn, New York, Jonh Wiley.

Islam, M. Q. & Tiku, M. L. (2004), ‘Multiple linear regression model under non-normality’,Journal Communications in Statistics. Theory and Methods 33(10), 2443–2467.

Islam, M. Q., Tiku, M. L. & Yildirim, F. (2001), ‘Nonnormal regression, Part I: Skew dis-tributions’, Journal Communications in Statistics. Theory and Methods 30(6), 993–1020.

Knight, K. (2000), Mathematical statistics, Chapman Hall/CRC.

Michael, J. P. (2005), Advanced Statistics from an Elementary Point of View, 7 edn, NewYork, Elsevier Academic Press.

Morris, C. N. (1982), ‘Natural exponential families with quadratic variance functions’, TheAnnals of Statistics 10(1), 65–80.

Patnaik, P. B. (1949), ‘The noncentral χ2 and F distributions and their applications.’,Biometrika 36(1/2), 202–232.

Pearson, E. (1932), ‘The analysis of variance in cases of nonnormal variation’, Biometrika23(1/2), 114–133.

Puthenpura, S. & Sinha, N. K. (1986), ‘Modified maximum likelihood method for therobust estimation of system parametrs from very noisy data’, Automatica 22(2), 231–235.

Roy, J. & Tiku, M. L. (1962), ‘A Leguerre series approximation to the sampling distributionof the variance’, Sankhya 24(2), 181–184.

Smith, R. L. (1985), ‘Maximum likelihood estimation in a class of nonregular cases’, Bio-metrika 72(1), 67–90.

Talacko, J. (1956), ‘Perks’ Distributions and Their Role in the Theory of Wiener’s Sto-chastic Variables’, Trabajos de Estadıstica y de Investigacion Operativa 7(2), 159–174.

Tiku, M. L. (1967a), ‘Estimating the mean and Standard Deviation from a censored Nor-mal Sample’, Biometrika 54(1), 155–165.

Tiku, M. L. (1967b), ‘A note on estimating the location and scale parameters of the ex-ponential distribution from a censored sample’, Australian and New Zealand Journalof Statistics 9(1), 49–54.

Tiku, M. L. (1970), ‘Monte Carlo Study of Some Simple Estimators in Censored NormalSamples’, Biometrika 57(1), 207–211.

Tiku, M. L., Aysen, D. & Akkaya, K. (2004), Robust Estimation and Hypothesis Testing,2 edn, New Age, New York.

Tiku, M. L., Islam, M. Q. & Selcuk, S. A. (2001), ‘Non-normal regression, part II: Sym-metric distributions’, Journal Communications in Statistics. Theory and Methods30(6), 1021–1045.

Page 66: Modelo de regresion lineal mu´ltiple con errores ... · A mi familia: hermano, a mi novia y en especial a mi madre, abuela y abuelo quien ... Valores de MVA y varianzas de los estimadores

BIBLIOGRAFIA 54

Tiku, M. L. & Suresh, R. P. (1992), ‘A new method of estimation for location and scaleparameters’, Journal of Statistical Planning and Inference 30(2), 281–292.

Tiku, M. L., Wong, W. K., Vaughan, D. C. & Bian, G. (2000), ‘Time series modelsin non-normal situations: symmetric innovations’, Journal of Time Series Analysis21(5), 571–596.

Tukey, J. (1960), A survey of sampling from contaminated distributions, Contributions toProbability and Statistics, Stanford University Press, Stanford.

Vaughan, D. C. (1992), ‘On the Tiku-Suresh method of estimation’, Journal Communica-tions in Statistics. Theory and Methods 21(2), 451–469.

Vaughan, D. C. (2002), ‘The Generalized Secant Hyperbolic Distribution And Its Proper-ties’, Journal Communications in Statistics - Theory and Methods 31(2), 219–238.

Vaughan, D. C. & Tiku, M. L. (2000), ‘Estimation and Hypothesis Testing for a Nonnor-mal Bivariate Distribution with Applications’,Mathematical and Computer Modelling32(1/2), 53–67.

Weisberg, S. (2014), Applied Linear Regression, 4 edn, New Jersey, John Wiley.

Yildiz, E. Y. & Aysen, D. A. (2008), ‘Analysis of variance and linear contrasts in expe-rimental design with generalized secant hyperbolic distribution’, Journal of Compu-tational and Applied Mathematics 216(2), 545–553.