Download - Texto_regresión

CAPITULO 1 CORRELACIÓN

Antes de plantear cualquier modelo de regresión, pronosticar o predecir el valor de y conociendo los valores de la variable X1, X2, ..., Xn, se debe realizar un análisis de la relación existente entre la variable dependiente y y las variables independientes Xi. COVARIANZA Se define la covarianza, entre dos variables X, Y como la asociación que existe entre las variables. Sea (X1, Y1); (X2, Y2); .....; (Xn, Yn) una muestra aleatoria de tamaño n a la cual se le mide las características X, Y. La covarianza de dicha muestra se calcula de la siguiente manera:

________

__

1

__

1

),( YXnn

nY

XnX

Yn

YXn

YYXXYXCOV iiii +−−=

⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

= ∑∑∑∑

−

−=+−−= ∑∑ ________________

),( XYn

YXYXYXXY

nYX

YXCOV iiii

También se interpreta la covarianza como un estadístico que resume la variabilidad simultanea de las variables, un estimador insesgado de la

varianza poblacional es la covarianza muestral. co

∑ ⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

−=

____

11),( YYXX

nYXCOV ii

Algunos textos de estadística aplicada a los ingenieros como Sheldon, M.

oss, Douglas C. Mongomomery y George, Paul Newbol (Estadística plicada a los negocios), definen la expresión:

Ra

∑ ∑ ∑∑ −=⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −=

nYX

YXYYXX iiiiiiXY

____

S

CARTESIANO

YY ⟩

INTERPRETACIÓN GRÁFICA DEL PLANO

__

__

XX ⟩n

YYXX ii∑ ⎟⎞

⎜⎛

⎟⎞

⎜⎛ ____

mm⎠⎝⎠⎝

__

Y Relación positiva __

⟨

__

Y⟨Y

XX

__

X

⟨

__

__

YY ⟩

XX n

__

YYXX ii∑ ⎟⎠⎞

⎜⎝⎛

⎟⎠⎞

⎜⎝⎛ ±

____m

Y __

Relación negativa

X

⟨

⟩

__

X YY

__

X Ejem: Se efectuó un estudio que relaciona los puntajes de aptitud de un examen (X), con productividad (Y una empr e to n a sei ersonas y e son los resultad

Aptitud (X) Productividad (Y) XY X2 Y2

la ), a esa s maro l azars p stos os:

9 23 207 81 529 17 35 595 289 1225 20 29 580 400 841 19 33 627 361 1089

20 43 860 400 1849

23 32 736 529 1024 Σ 108 195 3605 2060 6557

( ) ( ) 83.155.32*186

3605),(____

=−=−= ∑ YXnXY

YXCOV

olo diremos que la covarianza es positiva pero no sabemos si esta es

tomar esta decisión debe estandarizarse la e no dependa de las unidades de medidas de las

aracterísticas X, Y.

Sgrande o pequeña, paraovarianza con el fin de quc

c

2

2__2______

n

YYXX

n

YYXX iiii ∑ ∑∑ ⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

≤⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

YX SSYXCOV ≤),(

YXYX SSYXCOVSS ≤≤− ),( Dividimos entre SXSY

1),(1 ≤≤−

YX SSYXCOV Sea

YX SSYXCOVr ),(

=

11 ≤≤− r

Donde el estadístico r se llama Coeficiente de Correlación lineal y este

ide la asociación lineal entre las variables X, Y.

Una vez calculada la covarianza, para poder hallar el coeficiente de correlación lineal se hace necesario calcular la desviación estándar de (X) y (Y), para ello aplicamos un conjunto de formulas reducidas.

m

2

2__2

2__

2

XX

ii

X

SS

XnX

n

XX

=

⎟⎠⎞

⎜⎝⎛−=

⎟⎠⎞

⎜⎝⎛ −

= ∑∑ S

Para nuestro problema de la productividad, la desviación estándar de X, Y son respectivamente:

4.433.19

33.19186

2060 22__2

2 =−=⎟⎠⎞

⎜⎝⎛−=

⎟⎠

⎜⎝

−= ∑∑

ii

X XnX

n

XXS

2__

==

⎞⎛

X

S

05.658.36

58.365.326

6557 22__2

2 ⎞⎛=⎟⎠⎞

⎜⎝⎛ −

= ∑∑i

i

Y nY

n

YYS

2__

==

=−=⎟⎠

⎜⎝

−

Y

Y

S

6.04.4*05.6

83.15),(===

YX SSYXCOVr

rmalmente se considera que un coeficiente de correlación es alto cuando e es mayor a 0.8.

Noest

COEFICIEN MINACIÓN Este coeficiente mide la cantidad de variabilidad de la característica Y que es explicada por la variable X (o el modelo). El coeficiente de determinación se calcula de la siguiente manera:

TE DE DETER

2

36.06.0

),(

2

2

==

⎟⎟⎠

⎞⎜⎜⎝

⎛==

SSYXCOVrR

YX

sto significa que el 36% de la variabilidad de la productividad es explicada

R Epor el puntaje de aptitud.

TALLER No 1 1. Un individuo asegura que el consumo de combustible de su automóvil

no depende de la velocidad, con el fin de probar la anterior afirmación se probo el automóvil a diferentes millas y se midió el consumo de gasolina. Los datos aparecen a continuación:

Velocidad (X) Consumo (Y)

45 24.2 50 25.0 55 23.3 60 22.0 65 21.5 70 20.6 75 19.8

Hallar el coeficiente de determ tar. 2. Para los problemas del libro guía 11.6 – 11.11, hallar el coeficiente de

s variables X1, X2, ..., Xn se debe o se desea predecir o pronosticar l comportamiento de Y para unos valores determinados de X , X , ..., X .

sos (X1) y la capacidad de ahorro (X2). El bjetivo seria crear una ecuación de predicción o un modelo que exprese los

gastos (Y) variable dependiente como una función de las variables independientes (X1) ingresos, (X2) ahorro. Los modelos que se emplean para relacionar una variable dependiente (Y) con las variables independientes X1, X2, ..., Xn se denominan m elos de regresión o modelos estadísticos lineales.

inación e interpre

determinación e interpretar.

ANÁLISIS DE REGRESIÓN Una vez que se sospeche que una variable aleatoria Y esta relacionada con una o máe 1 2 n Como por ejemplo un economista quiere relacionar los gastos de una comunidad (Y) con los ingreo

od

CAPITULO 2

regresión simple es la de poder predecir el valor e (Y) variable dependiente en términos de una variable independiente (X).

Los valore gadas cuadradas) y las

resión resultantes Y (en unidades 0.1 de pulgada). Se resentan a continuación:

REGRESIÓN LINEAL SIMPLE

La finalidad del modelo ded Ejem: Supongamos que el inventor de un nuevo material aislante quiere determinar la magnitud de la compresión que se producirá en un espécimen de dos pulgadas de espesor cuando se somete a diferentes cantidades de presión.

s de X (en unidades de libras por pulmagnitudes de compp

GRAFICA PRESION Vs COMPRE ION

2,53

3,54

4,5

ESIO

N

S

00,5

11,5

2

0 1 2 3 4 5

PRESION

CO

MPR

El estado ideal será el de trazar una línea y que todos los puntos quedaran sobre dicha línea, pero esto en la realidad no ocurre, ya que algunos puntos se desviarán de esta línea. La solución a este problemas es el de construir un modelo probabilístico (modelo de regresión lineal simple), supone que el valor medio de Y para un valor dado de X se grafica como una línea recta y que los puntos se desvían de esta recta a una cantidad aleatoria (positiva o negativa) igual a ε es decir:

Presión (X) Compresión (Y)1 1 2 1 3 2 4 2 5 4

εββ ++= 110 XY

110 Xββ + → Valor medio de Y para un valor de X ε → Error aleatorio

Es lógico pensar que el E(ε) = 0 ya que las desviaciones ocurren por debajo o por encima y por tanto ( ) XEXEYE 1010 )()( ββεββ +=++= donde 0β y 1β son parámetros de la parte deterministica que se estimaron y su distribución

dad de hacer inferencias sobre dicho parámetro depende de la distribución de probabilidad de la variable aleatoria ε.

de probabilidad con la finali

Un modelo de regresión lineal simple εββ ++= 110 XY

Y = variable dependiente X = variable independiente

XYE 10)( ββ += es el componente determinístico ε (epsilon) = componente aleatorio

= Pendiente 1β

0β = Corte con la ordenada Y Si queremos ajustar un modelo de regresión lineal simple se debe estimar

0β , 1β de la línea de regresión Y. Con el fin de hacer algunas inferencias obre estos parámetros, daremos algunos supuestos: s

1. E(ε) = 0 2. V(ε) = σσ constante para todo valor de X

n valor en particular Y no tiene efecto alguno sobre los errores asociados a otros valores de Y.

EROS

== 22yε

3. ε ≈ N(µ1, σε) = N(0, σε) 4. Los errores son independientes, esto quiere decir que los errores asociados a u

INTERPRETACIÓN GRÁFICA DE LOS TRES PRIMSUPUESTOS

ESTIMACIÓN DE LOS PARÁMETROS PARA β0, β1 Si queremos tomar la mejor recta será aquella que minimice la distancia de los puntos (errores) a la recta. Como aparece en la siguiente gráfica:

Si queremos encontrar la línea de mínimos cuadrados para un conjunto de os que tenemos una muestra n, (X1, Y1); (X2, Y2),...,(Xn, Yn),

or ejemplo, los n = 5 puntos de datos del ejercicio anterior son (1,1), (2,1), s la recta que minimice los

e os estimadores de β0 y β1 se llaman y respectivamente y representamos el modelo estimado como

. Toda observación se obtiene al reemplazar x en la anterior ecuación, toda observación Y se obtiene al sumar el error εi al modelo estimado

∧∧

Se aplicara el método de los mínimos cuadrados para estimar β0 y β1 tal que haga mínima la sumatoria al cuadrado de los errores.

⎠⎝

∧∧2

10 xyiii ββ derivando con respecto a

y e igualando a cero se tiene:

datos suponemp(3, 2), (4, 2), (5, 4) para estimar β0, β1 tomamorrores al cuadrado Σεi

2 es la más pequeña, l∧

0β∧

1β

( )ii xy∧∧∧

+= 10 ββ

∧

iy

( ) iii xy εββ ++= 10

∑ ∑ ∑ ⎥⎦

⎤⎢⎣

⎡⎟⎠⎞

⎜⎝⎛ +−=⎟

⎠⎞

⎜⎝⎛ −=⇒−=

∧∧∧∧2

101

2

12

11 xyyyyy ii ββεε

∑ ∑ ∑=⎟⎞

⎜⎛ −==

∧ 22 yySSE ε ⎥⎦

⎤⎢⎣

⎡⎟⎠⎞

⎜⎝⎛ +−

∧

0β

∧

1β

∑ ⎟⎠⎞

⎜⎝⎛ −−−=

∂∂ ∧∧

ii xySSE10

0

2 βββ

∑ ⎟⎠⎞

⎜⎝⎛ −−−=

∂∂ ∧∧

xyxSSEii 10

1

2 βββ

las dos ecuaciones igualadas a cero se tiene

02

02

210

10

=⎟⎠⎞

⎜⎝⎛ −−−

=⎟⎠⎞

⎜⎝⎛ −−−

∑ ∑ ∑

∑ ∑∧∧

∧∧

iiii

ii

xxyx

xny

ββ

ββ

∑∑ =−−∧∧

010 ii xny ββ ∑ ∑−=−−∧∧

ii yxn 10 ββ

⎜⎛ 02

10 =⎟⎠⎞

⎝−−∑ ∑ ∑

∧∧

iiii xxyx ββ ∧∧

iiii

ii

yxxx

yx

210

10

ββ

ββ despejamos β0 ecuaciones normales

∑ ∑ ∑∧∧

−=−− iiii yxxx 210 ββ

∑ ∑ ∑∑ ∑

=+

=+∧∧

n

∑= iii

0β ∑ ∑

∑∑

∧∧

∧∧

−

−=

i

ii

xxyx

nx

ny

21

1

β

ββ

∑

∑ ∑∑ ∑∧

∧ −=⎟

⎠⎞

⎜⎝⎛ −⇒

i

iiiii x

xyxxy

n

21

11 β

β 0

Igualando términos se tiene:

∑ ∑ ∑ ∑ ∑∑ ∑ ∑ ∑∑

−=

−=−

−=−∧∧

∧∧

iiii

iiiiii

yxxyn

yxxynxx

xnyxnxyx

22

21

21

)(

)(

ββ

ββ

( )( )∑ ∑−∧

ii

iiiiii

xxn 221

11

β

n

∑ ∑ ∑

( )∑ ∑∑ ∑ ∑− ii yx

Dividimos entre n−

=∧

221

ii

i

xn

xynβ

i

x2

( )2

2

2

2x

22

1

nx

nn

nyx

nyn

ii

iii

∑∑

∑x i ∑∑

−

−∧

β =

222

____

),(

xii

ii

i SyxCOV

nx

nx

yxn

xy

=

⎟⎟⎠

⎞⎜⎜⎝

⎛−

−=

∑∑

∑∧

β

( ) ( )∑ ∑

∑ ∑ ∑

∑∑

∑ ∑∑

−

−= nn ii

22 −

−=

∧

nx

x

yxxy

nx

nxn

yxn

xyn

ii

ii

ii

iiii

i

22

βO

∑

∑

⎟⎠⎞

⎜⎝⎛ −

⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

= 2__

____

xx

yyxx

SS

i

ii

xx

xy

Despejando en la primera ecuación se tiene que

∧

0β

∑ ∑∑∑∧

∧∧∧

−=⇒=+n

xny

yxn iiii

1010

ββββ

__

1

__

0 xy∧∧

−= ββ Calcular o estimar por mínimos cuadrados para y con los datos de nuestro ejemplo

Presión (Xi) Compresión (Yi) XiYi Xi2 Yi

2

∧

0β∧

1β

1 1 1 1 1 2 1 2 4 1 3 2 6 9 4 4 2 8 16 4

5 4 20 25 16 Σ 15 10 37 55 26

COV (x,y) =

4.1

57

==n

Sxy

41.1;25

105

2 ==== SxSxxxS

( )2.1

52026

55

5

22

12 =

−=

−==

∑∑ iyySyyyS

1.12.1 ==Sy

90.041.1*1.1

4.1),(===

SxSyyxCOVr

81.02 =R

( )∑ ∑

∑ =−=−= 7510*1537

2

nyxS ii

iixy∑ ∑

=−=−= 105

1555

*

22 x

x

yx

i

Snixx

7.0101 ==7∧

β 1β es la dependiente de la recta estimada ∧

1.05

157.05

101

__

1

__

0 −=−=−=−= ∑∑ ∧∧∧

nx

ny

xy ii βββ

∧

Interpretación de

o anterior significa que la compresión aumenta 0.7 por cada valor de umento de la presión.

nterpretación de

1 este resultado es absurdo puesto ue no hay compresión negativa, la razón es que x no puede tomar valores

s a cero o negativos. La compresión puede expresarse en términos de .

observ e timados con el mismo que todas las desviaciones al cuadrado de

los valores observados y estimados − yy la suma de estas observaciones de a viaciones SSE y este

alor es el menor que se obtiene ajustando cualquier otra recta.

− yyi

1β La

∧

0βI

uando x = 0 la compresión es de –0.Cqigualela presión si esta toma valores positivos En la siguiente tabla se presenta los valores ados y smodelo xy 7.01.0 +−= lo

2∧

∧

)( i

al cuadrado se llama suma de cuadrados l s desv

x y ∧ ∧

xy 7.01.0 +−= )( 2)(∧

− yyi 1 1 0.6 0.4 0.16 2 1 1.3 -0.3 0.09 3 2 0 0.00 2.0 4 2 -0.7 0.49 2.7 5 4 3.4 0.6 0.36

0 1.10 A ÁL Z RA E LO EAL SI LE

Se llamara suma de cuadrados total a la desviación de y con respecto a

su media −=2__

yySS iyy .

Llamaremos sum e cuadra s de la re sión a l iación

N ISIS DE VARIAN A PA L MODE LIN MP

∑ ⎟⎠⎞

⎜⎝⎛

a d do gre a desv de

∧

+ xβ∧∧

= 10y β a la media de las bservada = ySS iR .

las observaciones ⎥⎦⎢⎣⎟⎠

⎜⎝

+−=− ββyyy

⎛ ∧

i

_

⎜⎛ ∧

2__

∑ ⎟⎠⎞

⎜⎝⎛ −

∧

yy o s

Llamamos suma de cuadrados del error a las desviaciones del modelo a

( )22 ⎤⎡ ⎞⎛ ∧∧∧

10 ∑ ⎟⎠⎞

⎜⎝⎛ −=

∧ 2

yySSE i

INTERPRETACIÓN GRÁFICA

yi

⎟⎠⎞ xy 10

∧∧∧

+= ββ ⎜⎝

− yy

⎟⎜⎝

− yy ⎠⎞⎛

−

y ⎟⎞−

_

y⎠

y⎝

0β x

En la gráfica anterior se

⎜⎝

−

⎞⎛⎞ ∧∧ ____

yyi

En el siguiente cuadro se presentan los resultados de la SSyy, SSR, SSE para los datos de la compresión (y) y la presión (x).

i

puede observar que

⎟⎠⎞⎛−⎟

⎠⎞

⎜⎝⎛ −=⎟

⎠⎞

⎜⎛ −

=⎟⎠⎞

⎜⎝⎛ −+⎟

⎠⎜⎝

−=⎟⎠

⎜⎝

−

∧∧ ____

0

yyyy

yyyyyy

iii

iiii

⎛

⎝

Presión

x Compresión

y SSyy

∑ − 2__

)( yyi

∧

y estimado -0.1+0.7x

SSE

∑∧

− 2)( ii yy SSR

∑ −∧

2__

)( ii yy

1 1 1 0.6 0.16 1.96 2 1 1 1.3 0.09 0.49

3 2 0 2 0.00 0.0 04 2 0 2.7 0.49 0.49

5 4 4 3.4 0.36 1.96 ∑ 15 10 6 1.1 4.9

n la estadística aplicada, cobra mE ucha importancia la tabla de análisis de arianza la cual presenta las siguientes columnas.

uente de Suma de Grados de F Significa

v

Fvariación cuadrados libertad cuadrática ncia

Media

Regresión SSR P – 1 SSR/(P – 1) SSR/(P–1)/ SSE/(N–P) Residual SSE N – P SSE/(N – P) Total SSyy N – 1 SSyy/(N – 1)

n la tabla anterior P es el número de parámetros en el modelo y la razón E

)

)1(PSSR

− se distribuye F con P – 1 y N –

(Nrespectivamente y la última colum

PSSE

−

P grados de libertad

na corresponde a la probabilidad o e la cola superior de encontrar un valor mayor que el F ara el modelo l ple de nuestro ejemplo.

a tabla de análisis de varianza será la siguiente:

e Suma de cuadrados

Grados de libertad

Media cuadrática

F Significancia

porcentaje dcalculado p linea sim L Fu nte de variación Regresión 4.9 (2-1) = 1 4.9 13.364 0.035 Residual 1.1 (5-2) = 3 0.367 Total 6.0 (5-1) = 4 CALCULO DEL COEFICIENTE DE DETERMINACIÓN CON LA

SUMA DE CUADRADOS

l coeficiente de determinación se define como el porcentaje de la Evariación total que es explicada por el modelo, esto puede representarse de la siguiente manera:

82.06

1.16=

−=

−=

yy

yy

SSSSESS

R

AREA: Calcular R para el ejemplo de la compresión (y) y la presión (x)

diante la siguiente fórmula

T2

2 ),(⎟⎟⎠

⎞⎜⎜⎝

⎛==

yxSSyxCOVrRme y observar su similitud

o igualdad con el resultado anterior si existe una pequeña diferencia esta es por el redondeo.

tra manera de calcular la SSR = en nuestro ejemplo y Sxy = 7, entonces SSR = 0.7*7 = 4.9

Taller: Páginas 570 – 571

PROPIEDADES DE LOS ESTIMADORES DE MÍNIMOS

CUADRADOS

En la teoría de estimación se espera que este cumpla algunas propiedades como insesgado, de varianza mínima (eficiente), etc. Demostramos que el

s insesgado calculemos la varianza, la cual será útil en las intervalos de dichos estimadores.

Antes de realizar dichas demostraciones recordaremos algunas expresiones que son importantes para dichas demostraciones.

⎟⎠⎞

⎜⎝⎛ ____

yxxS

ya que

SSxx =

=

1) es un estimados insesgado

Demostración:

xySS∧

1β 7.01 =∧

β OS

estimador β1 e ypruebas de hipótesis y estimación por

⎥⎦

⎤ ∑ ∑ ⎢⎣

⎡⎜⎝⎛ −−⎟

⎠⎞−=⎟

⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −=

______

xyxyyxxS iiiiixy

∑ ∑ ∑ ⎟⎠⎞

⎜⎝⎛ −=⎟

⎠⎞

⎜⎝⎛ −−⎟

⎠⎞

⎜⎝⎛ − iiiii yxxxxyyxx

________

=

( )∑ =− 0__

xxi ∑ =−=− 0______

xnxnxnxi

=⎟⎠⎞

⎜⎝⎛ −−⎟

⎠⎞

⎜⎝⎛ −=⎟

⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −=⎟

⎠⎞

⎜⎝⎛ −∑ ∑ ∑

__________2__

xxxxxxxxxxxx iiiiii

∑ ∑ ∑ ⎟⎠⎞

⎜⎝⎛ −=⎟

⎠⎞

⎜⎝⎛ −−⎟

⎠⎞

⎜⎝⎛ − iiiii xxxxxxxxx

________

∧

1β 11 ββ =⎟⎠⎞

⎜⎝⎛Ε

∧

∧∧

=⎟⎠⎞

⎜⎝⎛ −

++⎟⎠⎞

⎜⎝⎛ −

+⎟⎠⎞

⎜⎝⎛ −

=⎟⎠⎞

⎜⎝⎛ −== ∑ 1

__

2

__

2

1

__

__

1 .....1 ββ nxx

n

xxxx

i

iixxxx

xy ySS

xxy

SS

xxy

SS

xxyxx

SSSSSS

En la expresión anterior puede observarse como β1 se representa como una combinación lineal de los yi.

⎟⎟⎟

⎠

⎞

⎜⎜⎜⎛ −

+−

Ε=⎟⎞

⎜⎛ ∧ xyxx ()( 21β

⎝

−++

⎠⎝Ε n

xx

n

xxxx

ySS

xxySS

xSS

)(....)__

2

__

1

__

1

( ) 1101 xy ββ +=Ε ; ( ) 2102 xy ββ +=Ε ; .....; ( ) nn xy 10 ββ +=Ε

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛Ε

−++Ε

−+Ε

−=⎟

⎠⎞⎛ ∧ (

⎜Ε )()(....)()()()__

2

__

21

__

11 n

xx

n

xxxx

ySS

xxySS

xxySS

xxβ

⎝

⎟⎟⎟

⎠

⎞

⎜⎜⎜⎛

⎞⎛ ∧ ( 1x

⎝

+−

+++−

++−

Ε=⎟⎠

⎜⎝

Ε )()(

....)()(

)()

10

__

210

__

2110

__

1 nxx

n

xxxx

xSS

xxx

SSxx

xSS

xβββββββ

= ∑ ∑∑ ⎟

⎠⎞

⎜⎝⎛ −

=⎟⎠⎞

⎜⎝⎛ −+⎟

⎠⎞

⎜⎝⎛ −

xx

ii

iixx

ixx SS

xxxxxx

SSxx

SS

__

1

__1

__0 βββ

1111 ββββ =⎟⎠⎞

⎜⎝⎛Ε⇒=

∧

xx

xx

SSSS

( )( )

( )( )

( )n

yVxx

yVxx

yVxx

V2

2__

1 ⎟⎠

⎜⎝

−++

⎟⎠

⎜⎝

−+

⎟⎠⎞

⎜⎝⎛ −

=⎞⎛ ∧

β

Vy == 22 σσε

2__2__ ⎞⎛⎞⎛

nxxxxxx SSSSSS 222121 )(

⎟⎠

⎜⎝

....

( )y

2

2__

222

2__

2221 )()( xxxx SSSS

V +=⎟⎠

⎜⎝

σσβ

2__

22

2__

1

)()(....

xx

i

xx

n

SS

xx

SS

xxxxxx ∑ ⎟⎠⎞

⎜⎝⎛ −

=⎟⎠⎞

⎜⎝⎛ −

++⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

⎞⎛ ∧

σσ

= xxxx

xx

SSSS 22

)(σ =

SS 2σ

xxSS

2

1σβ =⎟

⎠⎜⎝

=⎞⎛ ∧2

ˆ1βσ V

xxxx SSSS⎠⎝V β ==⎟⎜

2

1

2)

σσ⎞⎛ ∧

0β es un estimador insesgado, de 0β se tiene que:

0 xy−= ββ pero ____ ∧∧

1xx

iixySS∧

xxSS SS

yxx∑ ⎟⎠⎞

⎜⎝⎛ −

==

__

1β

∑∑∑∑

⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛⎟⎠⎞

⎜⎝⎛ −

−=⎟⎠⎞

⎜⎝⎛ −

−=⎟⎠⎞

⎜⎝⎛ −

−=∧

xx

iii

xx

iii

xx

ii

SS

yxxx

ny

SS

yxxx

ny

SS

yxxxy

______

__

__

____

0β

∑⎟⎞

⎜⎜⎜⎛

⎟⎞

⎜⎝⎛ −

−=∧ i

SS

xxx

n

____

01β

⎟⎟⎟

⎠⎜

⎠i

xx

y

⎝

( )∑∑ Ε⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛⎟⎠⎞

⎜⎝⎛ −

−=

⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛⎟⎠⎞

⎜⎝⎛ −

−Ε=⎟⎠⎞

⎜⎝⎛Ε

∧

ixx

i

ixx

i

ySS

xxx

ny

SS

xxx

n

________

011β

( ) ∑∑∑⎟⎟⎟

⎜⎜

−+

⎟⎟⎟

⎜⎜⎜ −=+

⎟⎟⎟

⎜⎜⎜ −=⎟

⎠⎜⎝ xxxx

ixx SSnSSn

xSSn 0100 ββββ ⎟

⎟⎟

⎠

⎞

⎜

⎜⎜⎜

⎝

⎛⎟⎠⎞

⎜⎝⎛ −

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛⎟⎠⎞

⎜⎝⎛ −

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛⎟⎠⎞

⎜⎝⎛ −

⎞⎛Ε∧

i

iii

xxxxxxxxxx

1

____________

111 β

∑ ∑∑ ⎜⎛−+⎟

⎞− ii

i xxxxxx

_1

1

__ ββ ⎟⎠⎞

⎝−

⎠⎜⎝⎛−=⎟

⎠⎞

⎜⎝⎛Ε

∧

iixxxx

xSSnSS

xnn _

____

000

βββ

⎟⎠⎞

⎜⎝⎛Ε==−+=⎟

⎞⎜⎛Ε

−+−=⎟⎠⎞

⎜⎝⎛Ε

∧∧

∧

01

__

100

1

__

100 0

βββββ

ββββ

xx

SSSS

xxxx

xx

⎠⎝

⎟⎠⎞−−=⎟

⎠⎞

⎜⎝⎛Ε

∧

0

____

000

β

βββ x

SS ixxxx

⎜⎝⎛−+⎟

⎠⎞

⎜⎝⎛ −∑ ∑∑ __

11

__ ββ xx

SSx

nx

xxx

ii

i

∧

0β es un estimador insesgado

∑ ∑∑⎟⎟⎟⎟⎟⎟⎞

⎜⎜⎛

⎟⎞

⎜⎛ −⎥

⎤⎢⎡

⎟⎟⎞

⎜⎜⎛

⎟⎞

⎜⎛ −⎟

⎞⎜⎛

⎟⎞

⎜⎛

⎟⎞

⎜⎛ −

=⎟⎞

⎜⎛ ∧

__________

βxxxxxxxxx

V

⎠⎜⎜⎜⎜

⎝

⎠⎝−=

⎥⎥⎥⎥⎥

⎦⎢⎢⎢⎢⎢

⎣⎟⎟⎟⎟

⎠⎜⎜⎜⎜

⎝

⎠⎝−=

⎟⎟⎟⎟

⎠

⎜⎜

⎟⎟⎟

⎠⎜⎜⎜

⎝

⎠⎝−⎠⎝

20

111 σxx

i

ixx

i

ixx

i

SSny

SSnVy

SSnV

⎜⎜⎝

= ( )∑ ⎥

⎥⎥

⎢⎢⎢ ⎟

⎠⎜⎝

−+

⎟⎠

⎜⎝

−−⎟

⎠⎞

⎜⎛ 2

2

2 21 σ

xx

i

xx

i

SS

xxx

nSS

xxx

n

⎥⎥⎦⎢

⎢⎣

⎤⎡ ⎞⎛⎞⎛

⎝

2__2______

= ( ) ⎥

⎥⎦

⎟⎠

⎠⎝⎠⎝ 2SSSS ixx

ixx

⎥

⎢⎢⎢

⎣

⎟⎟

⎜⎜⎜

⎝

⎟⎞

⎜⎛ −+⎟

⎞⎜⎛ −−∑ ∑∑

____

22 21 xxxxx

nx

nσ

⎤⎡ ⎞⎛ 22____

= ( )

⎥⎥⎥

⎦

⎤

⎢⎣

⎡+

⎥⎦

⎤

⎢⎣

⎡

⎥⎦

⎤

⎢⎣

⎡

⎥⎥⎥

⎦

⎤

⎢⎣

⎡

xxxx Sxn

2__2__2__22

2__

=

⎢⎢=⎥

⎥⎢⎢ +=⎥

⎥⎢⎢ +=⎢

⎢ +− xx

xxxx

xx

nSSS

SSx

nSSx

nSSSSx

n222

22 101* σσσσσσ

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡+⎟

⎟⎠

⎞⎜⎜⎝

⎛+−

=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡+⎟

⎠⎞

⎜⎝⎛ − ∑∑

xx

ii

xx

i

nSS

xnxxxx

nSS

xnxx2__2____

2

2

2__2__

2

2σσ

= ⎥⎥⎦

⎤

⎢⎢⎣

⎡=

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡+−

=⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡++− ∑∑∑∑

xx

i

xx

i

xx

ii

nSSx

nSSxnnxx

nSSxnxnxxx 2

2

2__2__2

2

2__2____2

2 222σσσ

S σ

edio de la suma de las desviaciones al cuadrado entre los y observados y la línea de regresión

ESTIMADOR INSE GADO 2

La varianza de los errores o lo que es lo mismo el prom

x debe calcularse de la siguiente manera: y 10 ββ +=⎟⎠⎞

⎜⎝⎛Ε

∧

( )( )n

yy

nn

ii

∑∑∑2⎟⎠⎞

⎜⎝⎛ −

==Ε−

=

∧ 2

2211 εεε

σε

( ) ( ) ( ) 210

2yVxVyV

n

Un estimador insesgado de

SSE σεεββσ ==++===

22222

−====

nSSEsy εσσσ

La explicación anterior se deriva del echo que se debe estimar los

arámetros β0 y β1. para demostrar lo anterior enunciaremos el siguiente orema:

l estadístico

pte E 2σ

SSE se distribuye χ2

2

22 )2(

σχ sn −

= ⇒= 22

σχ SSE como SSE = (n – 2)s2 se tiene que

2) = σ2

iene que

Demostración de E(s

el teorema anterior se tD

( )22

2

)2(χσ

Ε−

=⎟⎟⎠

⎞

⎝ n ( )

22

222

)2(2χσχσ

⎜⎜⎛

−Ε=Ε⇒

−=

ns

ns

) ( ) 22

2(2

2Ε s)2(

)2(2

σσχσ=

−−

=Ε−

=n

nn

alor esperado de una χ2 son sus grados de libertad

E(χ2) = n – 2

onde

Recordamos que el v

∑∧∧

−=⎟⎠⎞

⎜⎝⎛ −= xyyyi SSSSyySSE 1

2

β D

( )

xx

xy

iiiiiixy

iiiyy n

yyyySS −=⎟

⎠⎞

⎜⎝⎛ −= ∑ ∑∑

22

2__

SSSS

=

nyx

yxyyxx −=⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

∧

∑ ∑ ∑ ∑

1

____

β

erci presión.

SSSSSS β

SS =

Ej plo la varianza del ej cio de la presión y comem : Estime

1.17*7.00.61 =−=−=∧

E xxyy

367.031.12 ===

SSEs y la 2−n

desviación estándar 61.02 == ss

INFERENCIA RESPECTO A LOS Para nuestro ejemplo supóngase que la presión no tiene relación con la ompresión, que podría decirse de los valores β0, β1 del modelo robabilístico y = β0 + β1x +ε.

fecta el valor medio de y, y = β0 + β1x ; es decir y independiente del valor de x, entonces se podría

afirmar que β1 = 0. Cobra importancia probar la siguiente hipótesis nula y alterna. Ho β1 = 0 Ha β1 ≠ 0 Para probar esta hipótesis se hace necesario conocer la distribución del

estadístico

∧

β

cp Si los cambios de x no atomara cualquier valor

xx

xy

SSSS

=∧

1β Bajo el supuesto de que los errores se distribuye

N(0, σ), entonces y = β0 + β1x +ε. Se distribuye N(β0 + β1x; σ), como β1 puede expresarse como una combinación lineal de los yi ya que

( )nx

x

nyx

yx

ii

iiii

22

1∑∑

∑ ∑∑

−

−=

∧

β t el estimador ∧

1β iene una distribución N(β 1,xxSS

σ )

por lo tanto el estadístico

xxSSσ

ββ −∧

1 tiene una distribución normal estándar.

El 95% de las mu ⎯ se hallan entre =1β ∧±∧

1

2β

σβSSxxσβ 2

1 ±estras

Como 2σ es desconocido y se estima con el estadístico

22 =

SSEs el −n

estadìstico

SSxxS

11β

tβ −∧

iene una distribución t estuden y la hipótesis nula

o 01 =β H

Ha 01 ≠β

αβ

,2011 −≥

−∧

Puede rechazarse si α,2−≥ ntT o ntS

SSXX Prueba de una cola inferior Ho 01 =β

0<Ha β

Estadística de prueba

SSxxs

∧

β1

Pru Ho

Región de rechazo t < tα

eba de una cola superior

01 =β 01 >Ha β

∧

Estadística de prueba

SSxxs

1

Región de rechazo t > t

β

α

Ejemplo Para nuestro ejemplo de compresión del aislante probamos la siguiente hipótesis en los siguientes pasos: a. Ho 01 =β

01 ≠β Ha

b. Nivel de significancia α=0.05 n = 5 n-2=3 t0.025, 3 = 3.182 -t0.025, 3 = -3.182

c. Estadístico de prueba

1

1

β

β

ST = =

∧

SSxxS

1

∧

β= 7.3

19.061.7.0 −

=7

=

. Decisión estadística

Como T=3.7 es mayor que el t de la tabla t0.023, 3 = 3.182 se rechazara la hipótesis nula. Esto significa que

10 d

1β es diferente se cero, la inferencia sobre le parámetro 0β no tiene mucho significado en el análisis de la regresión.

i se tomo la decisión de hacer pruebas de hipótesis sobre este intercepto se ebe utilizar el siguiente estadístico.

Sd

∧

−=

∧

00 ββT =

0βS

⎟⎟⎠

⎞⎜⎜⎝

⎛

−∧

00 ββ =

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛−

−−

∧

∑nSSxx

xi2

2δSSxx

xx12

00

δ

ββ

INTERVALO DE CONFIANZA PARA 1β

Otra manera de hacer inferencia acerca de la pendiente del modelo es a través de la estimación por intervalo. Un intervalo de confianza esta dado por la siguiente expresión

∧±∧

121

βαβ St donde

SSxxSS =∧

1β

Ejemplo: Determine un intervalo de confianza para nuestro ejemplo con un 95% de confianza

SSxxSt 3,025.01±

∧

β = 61.07.01061.0185.37.0 ±=⎟

⎠

⎞⎜⎝

⎛±

45.031.109.0 1 =⎟⎠⎞

⎜⎝⎛ ≤≤

∧

βp

Un intervalo de confianza para 0β será el siguiente

2,2

0−

∧

± tαβ , S 0β nSSxx

xt

∧

±2

β αn

i

n

∑−2,

20 σ

Pag , 55 56 en cio

R Y PREDECIR

Un e l modelo es el mas adecuado a través del oeficiente de determinación o pruebas de hipótesis a los parámetros. Este

a e creado, que es la de valor de y para unos valores particulares de x, los usos

ás comunes de los modelos probabilísticas son: 1. Estimar el valor medio de y, E(y/xp) para un valor especifico de x. Para

nuestro ejemplo queremos estimar el valor medio de la compresión para una presión de 40 lb. (x = 4) por lo tanto, E(y / x = 4)= =

Taller: inas 557 8, 559, 0, 561 m os los op nales

EMPLEO DEL MODELO PARA ESTIMA

a vez que se det rmina si ecdeberá utilizarse para la finalid d por la cual fuestimar o predecir elm

)4(10

∧∧

+ ββ

-0.1+0.7(4)=2.7 E(y / x = 4)=2.7 se espera una compresión de 2.7 cm / lb.

ara un x dado. = -0.1+0.7(4)=2.7=

esto quiere decir que para una presión de 40 lbs se pronostica una compresión de 2.7 cm / lbs.

omo puede observarse tanto para estimar el valor medio como para redecir un valor en particular para y para un valor dado de x se aplica el ismo modelo, la diferencia radica en su interpretación y en la exactitud de estimación y predicción.

n el caso de la estimación debe verse como varios experimentos en los uales se toma un solo valor de x0 en todos los experimentos y se registra s valores observados en .

n el segundo caso en un solo experimento y se pronostica el valor de .

AJUSTE DE CURVAS

lgunas veces la dispersión de los puntos no indica una relación lineal ntre las variables x,y pero se puede visualizar alguna otra curva estándar onocida y = f(x); la cual se puede aproximar a los datos. Algunas de estas urvas estandar, donde y es la variable dependiente y x la variable dependiente son:

) Curva parabólica: y =

) Curva cúbica: y = +

) Curva hiperbólica: y =

2. El otro uso del modelo probabilístico es el r de predecir el valor de

∧

y en particular p

010 xy∧∧∧

+= ββ∧

y

Cpmla Ec

∧

ylo∧

yE

Aeccin 1 2

22110 xx βββ ++

2 2

22110 xx βββ ++ 333 xβ

110

1xββ +

ò 1/y = 110 xββ + 3

4) Curva compuesto: y = x ; log y = log 10ββ 10 log ββ x+

7) Curva geométrica: y = ò log y = log a + b log x

6) Curva exponencial: y = xe 10

ββ

bax

La representación gràfica de alguna de estas curvas es la siguiente:

Parabóli a Exponencial Hip c erbòlica

Ejemplo: considere los siguientes datos que indican un

x ncial.

a gráfica en el plano cartesiano para estos puntos se representa a continuación:

crecimiento e pone

L

0

200

400

600

800

1000

1200

1400

1600

La curva compuesto tiene la forma ; log y = xy 10ββ=

xx 1010 loglog ββββ ′+′=+ ; donde y , por lo tanto buscamos la línea de mínimos cuadrados que ajuste los siguientes datos:

X 1 2 3 4 5 6

00 log ββ =′ 11 log ββ =′

Y 6 18 55 160 485 1460

X 1 2 3 4 5 6 Log y 0.7782 1.2553 1.7404 2.2041 2.6857 3.1644 Utilizando loas ecuaciones normales se tiene que :

0β′ = 0.3028 1β ′ = 0.4767 log 0β = 0.30228; se tiene que, =0β anti log 0.30228

0

′= 0.2β

0.3log4767.0loglog

111

111

=⇒′==⇒=

ββββββ

anti

Por lo tanto xy 10ββ= el modelo que se utilizara. El paquete estadístico SPSS dispone de 11 modelos o curvas de ajustes que se pueden probar a un conjunto de datos. Dichas curvas se presentan a continua

ción:

INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA

Un intervalo de confianza para la respuesta media para un valor especifico de x, por ejemplo xp se conoce como intervalo para E(y / xp)= px10 ββ +

) a partir de los es

posible obtener una estimación puntual para E(y / xp

estimadores de y E(y / xp)=∧

0β∧

1β px10 ββ + .

La varianza de

⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡

+=⎟⎟

⎠

⎞

⎜⎜

⎝

⎛ ⎟⎟⎠

⎞⎜⎜⎝

⎛−∧

−

SSxxnxyV

xx

p

p

2

2 1δ

Demostración:

haciendo x = xp y

_ ∧∧ ⎛∧∧ __

reemplazando

XpY∧∧∧

+= 10 ββ _

10 xy∧−

−= ββ

011 =+−= XpxyY ββ ⎟⎠

⎜⎝

−+= 1 xXpyY β ⎞_∧

SxxSSxy

=∧

1β

∑ ⎟⎠⎞

⎜⎝⎛ −

⎟⎠⎞

⎜⎛ − xXp

_

⎝+= iyxxSxx

y_

1

_

∧

Y

i

ii y

Sxx

xxxXp

ny ∑∑

⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

+=

__

1 Y∧

iySSxx ⎥

⎥⎠⎝⎠⎝ ip xxxx

nY ∑

⎥

⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡⎟⎞

⎜⎛ −⎟

⎞⎜⎛ −

+=

__

1∧

( )i

ip

yVSSxx

xxxx

nYV

__

1∑⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢

⎣

⎡⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

+=⎟⎠⎞

⎜⎝⎛ ∧

2

( )2δ⎥

⎥⎟⎠⎞

⎜⎝

−⎟⎠⎞

⎜⎝

−⎟⎠

⎜⎝

−⎟⎠

xxxxxxx ipi

2

2_2__

2

21∑ ⎥

⎤

⎢⎢⎢⎡ ⎛⎛

+

⎞⎛⎞⎜⎝⎛ −

+=⎟⎠⎞

⎜⎝⎛

+∧

∧

SSxxSSxx

x

nnYV

p

⎥⎥⎦⎢

⎢⎣

( )2

2

2_2__

2 ⎥⎤

⎢⎡

⎟⎞

⎜⎛ −⎟

⎞⎜⎛ −⎟

⎞⎜⎛ − ∑∑∧

xxxxxxn ipp

2 δ

⎥⎥⎥⎥

⎦⎢⎢⎢⎢

⎣

⎠⎝⎠⎝+⎠⎝+=⎟⎠⎞

⎜⎝⎛

SSxxSSxxnny V

( )2

2

2_2_

1 δ

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛ −

+=⎟⎠⎞

⎜⎝⎛

∑∧

SSxx

xxxx

nyV

ip

= ( ) 2

2

21 σ⎥⎥⎦

⎤

⎢⎢⎣

−+

SSxxSSxxxx

np

⎡

( )2

2_

1 δ

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡⎟⎠⎞

⎜⎝⎛ −

+=⎟⎠⎞

⎜⎝⎛ ∧

SSxx

xx

ny

p

Con lo cual queda demostrado

media estará dada por:

V

Un intervalo de confianza alrededor de la respuesta

SSxx

xxp⎟⎞

⎜⎛

⎟⎞

⎜⎛ −+

_1 2

ntYE

⎟⎠

⎜⎝ ⎠⎝

−⎟⎟⎞

⎜⎜⎛ ∧

2δα ⎟⎞⎜⎛≤ yE⎠⎝ xX nP ⎠⎝ −2,

2

SSxxnP ⎠⎝ −2,2

Para una presión de 40 libras por pulgada cuadrada x

xxn

tXYE

p ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛ −+

+⎟⎟⎞

⎜⎜⎛ ∧

2_

2

1

δα

≤

p = 4, dado n = 5, y = n-2=3 el intervalo para un 95% de confianza sería

SSxx

xxn

Sty⎟⎠

⎜⎝ ⎠⎝

±∧

α o sea p ⎟⎜ −+

2

⎟⎞

⎜⎛ ⎞⎛

2_1

x⎟⎠

−4

SSxx181.3025.0 =t

St⎟⎟⎠

⎞⎞⎜⎝⎛

±∧

2

025.0 Y ; S=0.61, =X SSxx=10 y ⎜⎜⎝

+5

⎛ 1 _

_∧

y 37.2=

( ) ( )2

1034

5161.0182.37. −

+± =2.7 ± 3.182*0.61*0.55 = 2.7 ±2 1.1= (3.8,1.6)

int .6 ien pre ia cund

1.1es sometida 40 libras de presión en el 9 ve

PREDICCION DE NUEVAS OBSERVACIONES

Se estima que el ervalo 1 a 3.8 cont e la com sión med o5% de las ces.

Un intervalo de confianza para un valor nuevo de y cuando X = Xp esta dado por la siguiente expresión

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ −++−

−

∧

2_

2

2,2

11SSxx

xxn

ty o

nn δ ≤≤ py

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛ −+++

−

∧

2_

2

2,2

11SSxx

xxn

ty o

nn δ

Ejemplo: Con el fin de predecir la compresión de aterial aislante en particular Xp = 4 calculamos el intervalo de predicción del 95% omo

un trozo de m

c

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

⎟⎟⎜⎜±

− 2,t

nn

⎟

⎠

⎞⎜

⎝

⎛ −++2

2

11SSxx

xxn

y oδ =

2_∧

( )10

34511)61.0)(182.3(7.2

2−++±

)14.1)(61.0)(182.3(7.2 ± 2= 7.2 ± = [0.05 – 1.9)

t predecimos que la compresión del trozo de material aislante stará dentro (0.5 a 4.9) pulgadas.

continuación se presenta el grafico de intervalos y se puede observar

2. Por lo tan oe Acomo la amplitud del intervalo para una predicción de un valor particular es mayor

EGRESIÓ

REGRESIÓN LINEAL POLINOMIAL

R N LINEAL SIMPLE CON SPSS

Escribir una introducción como se maneja el SPSS y resolver todos los ejercicios del texto guía del SPSS.

En situaciones donde la relación funcional entre la respuesta Y y la variable independiente X no se puede aproximar adecuadamente con una relación

neal, en algunas ocasiones es posible obtener un ajuste polinomial, es decir, podemos ajustar el conjunto de datos a una relación funcional de la

a: r

0, β1,... βr son coeficientes de la regresión que tienen que estimarse os

j donde j = 1, 2, ...r, y son aquellos valores que minimizan

iβββ −−−−∑ =

ara obtener estos valores, obtenemos las derivadas de la suma de

cuadra r a mo a obtener los valores que minimizan la suma de cuadrados, al realizar estos

asos y al organizar algunos términos se obtienen las siguientes ecuaciones

li

formY = β0 + β1X1 + ...+ βrX r + e

onde βD

de los n datos (Xi, Yi) i = 1,2,3...n; los estimadores de βj los llamaremβ

2n111 0 )ˆ.....ˆˆ( rrXXYi r

Pdos anterio es respecto rβββ ˆ,.....ˆ,ˆ

10 y luego iguala s a cero par

pnormales.

∑ ∑ ∑∑ = ==+++=

n

i

n

i

n

iXiXinY

1 1.

2210

10 ˆ.....ˆˆ ββββ

=

n

irXir

1

)

∑∑∑∑∑ =

+====

++++=n

irn

i

n

i

n

i

n YiXi βi

XirXiXiXi1

11

321

21101

..........ˆ βββ

∑∑∑∑ =+

===+++=

n

irn

i

n

i

n

iXirXiXiYiXi

12

13

112

012 ˆ...........ˆˆ βββ

. . . . . . . . . . .

.

.

.

. ∑ ∑∑∑∑ ==

+=

+==

++++=n

irn

irn

irn

irn

ir XirXiXiXiYiXi

12

12

211

1101ˆ.........ˆˆˆ ββββ

ntes de ajustar un polinomio de grado r a un conjunto de datos debe alizarse un diagrama de dispersión para determinar el valor más probable

e r, o a través del paquete SPSS este podrá determinar el valor más robable de r encontrando el coeficiente de determinación de cada modelo. iempre debe usar el menor grado del polinomio posible que parezca escribir los datos adecuadamente.

AredpSd

Ejemplo: Ajuste una función polinomial a los siguientes datos:

x 1 2 3 4 5 6 7 8 9 10

y 20.6 30.8 55 71.4 97.3 131.8 156.3 197.3 238.7 291.7 Realizando una grafica de dispersión y observando los modelos lineal, cuadrático y cúbico se obtuvo los siguientes resultados.

MODELO R2 bo b1 b2 b3

LINEAL 0.967 -34.107 29.672 CUADRATICO 0.999 12.6433 6.2971 2.1250

CUBICO 0.999 5.1567 12.9374 0.6853 0.0873

GRAFICO DE DISPERSION

0100200300400

0 5 10 15

X

Y

Observando los resultados anteriores tanto el gráfico como la dispersión de

s datos estos sugieren que se debe ajustar un modelo cuadrático y estas on sus ecuaciones:

los

∑ ∑ ∑∑ = = ==+++=

n

i

n

i

n

irn

irXiXinY

1 1 1.

2210

1ˆ.....ˆˆ ββββ

) Xi

∑∑∑∑∑ =

+==

+=n

irn

i

n

iXirXiYiXi

11

11101ˆ βββ

==+++

n

i

n

iXiXi 3

212 ..........β

∑∑∑∑ +

=+++=

n rnn

i

n

iXirXiXiYiXi 232

012 ˆ...........ˆˆ βββ

=== ii 1111

∑ = 38521X ∑ = 30253

1X ∑ = 2533341X ∑ = 551X

= 1.12911Y ∑ = 3.954911 XY ∑ = 9.777581

21 YX ∑

1291.1 =

954 777 Estas ecuaciones normales se pueden escribir en notación matricial como sigue:

9549.3 385 3025

77758.9 385 3025 25333

3025

3

= 12.6433 =6.2971

CAPITULOSIÓN LINEAL

En a ayo a de predecirse de manera m adecuada no coentrada independiente sino con una independientes, donde Y se puede expresar

Y =

210ˆ385ˆ55ˆ10 βββ ++

9.3 = 210

ˆ3025ˆ385ˆ55 βββ ++

58.9 = 210ˆ25333ˆ3025ˆ385 βββ ++

0β 1291.1 10 55 385 1β 55

2β

Resolviendo este sistema para iβ se tiene: 0 10 55 385

β 55 385

β

1

2β 385 3025 253

1

0β 1β

REGRE

l m rí las aplicaciones, la respas

XX +++ βββ ..22110

-

9549.3

77758.9

=2.1250

3 MÚLTIPLE

de un experimento puede n base en una sola variable de

colección de k variables mediante la siguiente relación:

1291.1

2β

uesta

ekXk ++ β....

Donde Xj el número de variables j independientes y e es el error aleatorio distribuido normal con media cero za . Se supone que los parámetros

, j = 1, 2, 3, .... k es

y varian constante ( 2σ )

kββββ ,......,, 210 y no se conocen y deben estimarse a partir de los datos, los cuales se pueden representar como:

XY

2σ

1111221110 .................... eXXX kkjj +++++= βββββ 1

12 .................... eXXXXY kkjj 222222210 +++++= ββ βββ

XYi iikkjijii eXXX +++++= βββββ .................2210 ...1

eYn nnkkjnjnn XXXX +++++= βββββ ....................22110 Estas ecuaciones pueden representarse matricialmente de la siguiente maner

Y 1 X X ...........X ........X 1

Y 1 X21 X22...........X2j..........X e2

i i1 Xi2............Xij...........Xik e

Xn1 ……...Xnk en

En resume

a:

1 11 12 1j 1k 0β e

1β 2k 2

iβ Y 1 X i

kβ Yn 1 Xn2...........Xnj

n se tiene ε . β += XY El valor esperado de Yi es como sigue: E(Yi) = ikkjijii XXXX βββββ ++++ ....................22110 Un superficie, llamada superficie de respuesta.

a gráfica de E(y) como función de X1 y X2 describe una

Y

0)(YE 221 XX ββ 1β ++=

En gran parte de las aplicaciones reales aplicaremos un modelo de la forma:

1421322110)( XXXXXXYE ββββββ ++++=

Que corre

X2

X1

2 + 225

sponde a una curvatura en la superficie de respuesta:

X2

X1

Después de seleccionar la parte determinística de un modelo E(Y), todo Y

e la siguiente manera:

Y = Xβ + E ⇒ E(Y)= Xβ

ULTIPLE

equivalente a la parte deterministica:

puede representarse d

SUPUESTOS DEL ANÁLISIS DE REGRESIÓN M

1. E(E) = 0

Esto implica que la media de Y es

YE KK XXX ββββ ............2211 ++

3. La distribución de probabilidad de E es normal. rrores aleatorios son independientes en un sentido

probabilístico.

INTERPRETACIÓN DE LOS SUPUESTOS

1. El valor esperado de los errores es cero.

1 1

E(E) = E E2 = E(E2) = 0

conceptos

E = (e1, e2, .............en

E E - E(E) (E E

)( 0 +=

2. Para todos los valores de la variable independiente X1, X2, .......XK la

varianza de E es constante 2σ .

4. Los e

E E(E ) 0

E3 E(E3) 0

2. Para interpretar los supuestos 2 y 4 recordaremos algunos de los vectores aleatorios.

) COV( ) = E ( - E( ) = E ( - 0) ( - 0) E E

e1 e (E´ E) = E e1, e2, .......en) =

en E =

2

= 2e1) E(e2 2en)

.

. E(ene1) E(ene2)......... E(en

2

i) = E (ei2) - = E(ei

2) – 0 = E(ei) = σi2

OV (ei eJ )) = E (eiej) = σij

2 . (

.

e12 e1e2 ............ e1en

e2e1 e22 ............. e2en

. .

ene1 ene2 ............. en

E(e12) E(e1e2).......... E(e1en)

E(e 2)........... E(e .

)

( )[ ]2ieEV(e

C ) = E (ei - E (ei)) (eJ - E (eJ

( ) ( ) ( ) ( )jijiji eeEeEeEeeE =− Reemplazando estas expresiones en la matriz anterior se tiene que:

12 σ12...........σ1n

σ

E) = σ21 σ2

2...........σ2n

r es simétrica esto debido a que σij = σji.

1 2 n σ

COV(

σn1 σn2...........σn2

La matriz anterio Si los supuestos 2 y 4 son verdaderos se tiene que:

σ 2 = σ 2 = ...... σ 2 = 2 y σ = 0 para i ≠ j ij

Por lo tanto la matriz de covarianza presenta la si nt ru t

guie e est c ura:

..... 0

E) = 0 σ2 0....... 0 = σ2I

0 0 0....... σ2

COV(E) = σ2I

El supuesto número tres afirma que el vector tiene una distribución norma multivariada:

f(E) = f (e1, e2, ....... en)

σ 0 0. .

2

COV(

DISTRIBUCIÓN NORMAL MULTIVARIADA

El

La distribución normal multivariada se define como una función de

f(x) = 1, x 1 1 µµ xx

densidad conjunta:

f(x 2, ….. x3) 1 e (2/( ∑ −−− − ))()'

2/1

2 ∑Πn

donden = es l

= X = V µ = valor esperado

ueda expresado de la siguiente manera:

, e n

: número de componentes en el vector e

∑ COV(X) ector aleatorio

Si los supuestos 1, 3 y 4 son verdaderos la distribución normal multivariada para el vector de errores q f(E) = f (e1 2, ....... e ) = ) 1 e ε

σ 2

ε −)1´( I

2/1 2 ∑

Πn

bserve que I∑= 2

1σ

O

Una manera si ara expresar que un ector a eato es nomplificada p v l rio rmal

ultivariada se representa de la siguiente manera:

= N (µ, Σ)

e tor de los errores y bajo los supuestos se tiene que:

m X µ = vector Σ = COV(X) Para l caso del vec

ε = N (0, I1 ) 2σ

AJUSTE DEL MODELO POR EL MÉTODO DE LOS MINIMOS CUADRADOS

senta de la siguiente manera: El modelo general múltiple se repre

iikki eXXYi +++= βββ ............110

Llamaremos kβββ ˆ...........ˆ,ˆ10 los estimadores de βi donde i = 1, 2, ....k.

ple la estimación de los parámetros se hará po aquellos que

im .

Al igual que en la regresión lineal sim

iβr el método de los mínimos cuadrados (se tomará min icen la sumatoria de los errores al cuadrado

e1

e2 EE’ = (e1, e2, ....... en) . = ∑ ∑ −= 22 )ˆ( yye ii = SSE

en

=

++−=n

ikkii XXy 2110 ))........(( βββ

Para determinar los estimadores de mínimos cuadrados, tomamos las la suma de cuadrados anteriores, primero con

y después , e igualamos a cero las k+1

.

SSE = ∑ −i yy 2)ˆ( ∑i 1

derivadas parciales de specto a β , luego a 0 1β kβre

ecuaciones.

0ˆ0

=∂β

∂SSE 0ˆ1

=∂β

∂SSE 0ˆ =∂∂

K

SSEβ

ados:

−− 0)ˆ...............ˆˆˆ(2 XXXy ββββ

Y se obtienen los siguientes result ∑ =−−− 22110 ikkiii

∑ −−−−− ...............ˆˆˆ(2 221101 iii XXyX βββ = 0)ˆikk Xβ

0)ˆ...............ˆˆˆ( 221102 ikkiiii XXXyX ββββ

0)ˆ...............ˆˆˆ22 ikki XX ββ

Rescribiendo estas ecuaciones obtenemos que los estimadores de mínimos cuadrados satisfacen el siguiente conjunto de ecuaciones lineales, llamadas ecuaciones normales:

i

∑− 2 =−−−−

.

.

. ∑ −−− (2 110 iiik XyX ββ =−−

kββ ˆ...........ˆ0

∑ ∑ ∑ ∑++ ikkiii XXy ββ ˆ.............ˆ22110

++= Xn ββ ˆˆ

∑ ∑ ∑ ∑∑ += ii Xβ 10 +++ ikikkiiii XXXXXyX βββ ˆ.............ˆˆ122

2111

∑ ∑ ∑∑ +++= ........ˆˆˆ XXXXXX βββ ∑+ 2

22ˆ..... ikki Xβ

Estas ecuaciones normales pueden representarse matricialmente de la te

X´X = XÝ

Demostración:

. .

X1k X2k....... Xnk 1 Xn1 Xn2 X ΣXik

X´X ΣX11 ΣXi1

2 ΣXi2Xi1 ΣXikXi1

110 ikikiikiki y

siguien manera: β

1 1........ 1 1 X11 X12 ........X1K

X11 X21...... Xn1 1 X21 X22....... X2K X´X = X12 X22....... Xn2 1 ...... . .

. nk

n ΣXi1 ΣXi2................ 0β

= 1β

ΣXik ΣXi1Xik ΣXi2Xik ΣXik

2

X11 X ... Xn1 Y2 Σ XÝ =

X12 X .... Xn2 Σ . . X1k X2k....... Xnk Yn ΣY1Xik Con lo cual queda demostrado que una manera de representar las ecuaciones normales mediante notación matricial está dada por la siguiente expresión:

X´X = XÝ

a matriz X´X proporciona la siguiente información:

a. Las sumas simples de cada variable .

b. Sobre la diagonal principal la suma de cuadrados .

c. Fuera de los elementos de la diagonal se presenta la suma

simple de los productos cruzados donde L K

triz simétrica (X´X)´ = X´X.

s expresadas en forma

′Χ

kβ ˆ

Σ1 1........ 1 Y1 Y 1

21... Y1Xi1 =

22... Y1Xi2

β

L

∑=

n

iikX

1

∑=

n

iikX

1

2

jk

n

iiL XX∑

=1

≠

Una característica importante de X´X es que una ma

Otra manera de llegar a las ecuaciones normalematricial es la siguiente Υ = Χβ + ε ⇒ ε = Υ − Χ β ε′ε = (Υ − Χ β )′(Υ − Χ β ) = Υ′Υ − β ′Χ′Υ − Υ′Χ β + β ′Χ β

Recordar que Χ β ′ = β ′Χ′ además β ′Χ′Υ es un escalar y es igual a su

′Υ + ′Χ

transpuesto. ( β ′Χ′Υ) = Υ′Χβ Se tiene Υ′Υ − β ′Χ′Υ − Υ′Χ β + β ′Χ′Χ β = Υ′Υ − 2 β ′Χ β ′ X β = ε′ε

stas son las ecuaciones normales representadas matricialmente y alculadas con anterioridad al despejar de dichas ecuaciones se tiene u =(Χ′Χ)- Χ′Υ

lar la estimación de los

RESIÓN y

∂ε′ε / ∂ β = −2Χ′Υ + 2Χ′Χ β igualamos a cero ˆ ˆ −2Χ′Υ + 2Χ′Χ β = 0

2Χ′Χ β = 2Χ′

Χ′Χ β = Χ′Υ E

βce β q

Ejemplo : Para nuestro problema tradicional calcuβ i mediante notación matricial :

PRESION x COMP1 1 2 1 3 2 4 2 5 4

Χο Χ1 1

2 ε1

1 4 β = ε = ε3 5 β1 ε4

1 1 1 1 2 1 3 β ε2 Ο

Υ = 2 Χ= 4 1

1 1 1 1 1 2 5 15

1 1 1 X ′ Χ = 1 3 =

1 2 3 4 5 1 4 15 55 1 5

ΤΥ = 1 2 3 4 5 2 =

2 37

1 1 1 1 1 1 1 10 Χ

4 15 −1

′Χ)−1 = 55

inversa de una matriz de 2x2

a21 a22

= Matriz adjunta Α/ determinante Α

eterminante A = a11 * a22 - a12* a21

A+ = cofactor de a21=-a12 cofactor de a22 = a11

55 −1

2

0.3 0.1

5 (Χ 15 Recordemos como se halla la a11 a12 Α =

+Α d

cofactor de a11= a22

cofactor de a12 =-a21 5 ( ) 1−′XX = -15 5 55 * 5 − 15 = 50

1.1 -0.3

( ) 1−X = ′X−

−0.3 10 −0.1

-0.3 0.1 37 0.7

= o cuación de predicción es

1.1 β = (Χ′Χ)−1 ΧΥ = = ˆ ˆ nt la eβ 0= -0.1 β 1 0.7 y por lo ta

Υ= 0.1 0.7x +

a uciones anteriores.

992) utilizaron un modelo de regresión el dor para dar o ero de

e o e se encuentra la máquina (X2).

X1 X2 Y

Result dos que concuerdan con la sol Ejemplo : Montgomery y Peck (1para r acionar la cantidad de tiempo que requiere un vendeservici a una m quin expend oraa a ed de refrescos, (Y) con el númenvases contenidos en la máquina (X) y la distancia del vehículo dservici al sitio dond OBSERVACION

1 2 50 9.95 2 8 110 24.45 3 11 120 31.75 4 10 550 35 5 8 295 25.02 6 4 200 16.86 7 2 375 14.38 8 2 52 9.6 9 9 100 24.35

10 8 300 27.5 11 4 412 17.08 12 11 400 37 13 12 500 41.95 14 2 360 11.66 15 4 205 21.65 16 4 400 17.89 17 20 600 69 18 10.30 1 585 19 34.93 10 540 20 15 250 46.59 21 15 290 44.88 22 16 510 54.12 23 17 590 56.23 24 6 100 22.13 25 5 400 21.15

X0 X1 X2

9.95 10 24.45

11 120 31.75 10 550

1 8 295 1 4 200

2 375 14.38 0

100 24.35 300 27.50

4 205 21.65 400 17.89

20 600 69 10.30 34.93

15 250 46.59 15 290 44.88

1 16 510 54.12 1 590 56.63

1 6 100 22.13 5 40 21.15

1

1 2 50 1 8 1 1 1 35

25.02 16.86

1 1 2 52 9.6 1 9 1 8 1 4 412 17.08 1 11 400 37 1 12 500 41.95

= 1 2 360 Υ = 11.66 Χ 1

1 4 1 1 1 585

10 540 1 1 1

17 1 0

2 50 1 1............1 1 8 110 Χ′Χ = 2 8.............5 . . . 50 110..........400 1 5 1100 25 206 8294

Χ′Χ = 206 2396 77177 8294 77177 3531848

.45

274811.31

2.74426964 2 0.01252781

(Χ′Χ)-1 = El modelo de predicci

9. 1 1...........1 24

45 Χ′Υ = 2 8 5 . 50 110 400 21.15 725.82 Χ′Υ = 8008.37 274811.31 β = (Χ′Χ)-1 Χ′Υ βο 25 206 8294 -1 725.82 β1 = 206 2396 77177 8008.37 β2 8294 77177 3531848

βο 2.26379143 β1 = β 0.21653 − 0.007491 0.000340

− 0.007491 0.001671 -0.000019 − 0.000340 −0.0000019 -0.000015

ón será el siguiente: Y = 2.26379 + 2.74427X1 + 0.01253X2

PROPIEDADES DE LOS ESTIMADORES DE MINIMOS

os estimadores de β en la regresión múltiple a través del método de los dos… producen estimadores insesgados y de mínima

arianza.

CUADRADOS Lmínimos cuadrav

A continuación solo se demostrará que son insesgados y se hallará la matriz dichos estimadores.

Υ

=(Χ′Χ)-1(Χ′Χ)β+(Χ′Χ)-1 Χ′ε

Ε(Con

b. MATRIZ DE COVARIAN

e (Ι) se tiene que =β+(Χ′Χ)-1 Χ′ε −β=(Χ′Χ)Χ′ε

] COV )=Ε[( −β)( −β)′]

OV )=Ε[(Χ′Χ)-1Χ′εε′Χ(Χ′Χ)-1]

′Χ)-1Χ′σ2 ΙΧ(Χ′Χ)-1] = σ2[(Χ′Χ)-1(Χ′Χ)(Χ′Χ)-1]

lamaremos (Χ′Χ) = C

ica

σ2C

= C01=C10 ; C02=C20 ; C12=C21

=σ2C00 ; σ =σ2C11 ; σ =σ2C22

OV i)=σ Cij

de covarianza para a. ESPERANZA DE β β =(Χ′Χ)-1 Χβ =(Χ′Χ)-1 Χ′(Χβ+ε) β β =β+(Χ′Χ)Χ′ε Ε( β )=β+(Χ′Χ) Χ′Ε(ε)=β Puesto que Ε(ε)=0

β )=β cluimos que β es un estimador insesgado

ZAS PARA β

d βpor lo tanto β COV( β )=Ε[( β −Ε( β ))( β −Ε( β )′

ˆ

( β β βCOV( β )=Ε[(Χ′Χ)-1Χ′ε(Χ′Χ)-1Χ′ε)′]

( βCCOV( β )=[(Χ′Χ)-1Χ′Ε(εε′)Χ(Χ′Χ)-1]

OV( β )=[(ΧCCOV( β )=σ2 (Χ′Χ)-1

−1L

Donde C es simétr

COV( β )=σ2(Χ′Χ)-1= C00 C01 C02 C C01 C11 C12 C20 C21 C22

2 β 02 β 1 β 2σ

COV( β 0, β 1)=σ2C01 ; COV( β 0 β 2)=σ2C02 ˆ ˆ 2( β i βC

V )=σ2Cjj OV )=σ2Cij=σ2Cji i≠j

ESTIMACION DE σ , LA VARIANZA DE ε

ε′ε=SSE=(Υ−Χ )′(Υ−Χ )=Υ′Υ−2 ′Χ′Υ+ ′Χ′ΧPuesto que Χ′Χ =Χ′Υ se tiene que SSE=Υ′Υ−2 ′Χ′Υ+ ′Χ′Υ=Υ′Υ− ′Χ′Υ

nsesgado de σ esta dado por el error o error cuadrático

β j(

( β i β jC

β β β β β β

β β βUn estimador i

edio. m

pnyxyySSE −∧ ``` β

pnS

−=

−== 22σ

E E erro ático para los dos anteriores σ2

= Χ′Υ=

′Υ=[1 1 2 2 4 1 2 = 26 2

= 24.9

SE=Υ′Υ−β′Χ′Υ=26−24.9=1.1

jemplo: stimar el r cuadr medio

ejemplos − 0.1 10 β 0.7 37 Υ ] 1 4

β′Χ′Υ=[−0.1 0.7]

10

37 S

367.025

=−

=−

=pn

S ; 1.12 SSE 61.0605.0367.0 ≈==S

19.00367.0;0367.01.0*367.0 1111 ===== ββ σσσ C 2

6355.04037.0;04037.01.1*367.0 00002 ===== ββ σσσ C

Ejemplo: para el problema del vendedor se tiene

Υ′Υ=∑=

25

1

2

iyi =27177.4510

725.8 β′Χ′Υ=[2.26379110 2.74426964 0.01252781] 8 008.37 274811.3 β′Χ′Υ=27062.7775

SSE=Υ′Υ−β′Χ′Υ =27177.4510−27062.7775 =115.1735

σ2=325 −− pn

1735.15= =115.1735 = 1SSE 2352.5

22

σ =

1735.115= 115.1735

2σ = 2352.5 = 2.28805 Ejercicio: hallar ; ; ; ; 0

2βσ 1

2βσ 2

2βσ

0βσ1βσ

PRUEBAS DE HIPÓTESIS EN LA REGRESIÓN LINEAL MÚLTIPLE

pruebas d

p stos

regresión x1, x2, ..., xk. La hipótesis apropiada es:

a J ≠ 0

l rechazo de la hipótesis nula indica que almenos una de las βJ es diferente

variación Suma de

cuadrados Grados de

libertad Cuadrado

medio F Signifi-

cancia

En la regresión lineal múltiple existen e hipótesis sobre todos los parámetros del modelo para probar la significancia del mismo, y sobre cada

rámetro del modelo para determinar que una variable en particular tieneaalguna contribución al modelo (esto es posible si se cumplen los supue

el modelo). d

Significancia del modelo La prueba para la significancia del modelo determina si existe una relación lineal entre la variable de respuesta y y un subconjunto de las variables de

Ho β1 = β2 = ....... = βp = 0 β almenos para una J H

Ede cero. Para probar la hipótesis de la significancia del modelo cobra importancia la tabla de análisis de varianza.

Fuente de

Variación SSR P – 1 CMR= SSR/P – 1 CMR/CME p

Residuo SSE N – P CME=SSE/N – P Total SSyy N – 1 Donde:

( )

( )∑ ∑

∑∑

∑ ∑=⎟⎞

⎜⎛ −= yyySS i

22__ ∑

−=⎟⎠⎞

⎜⎝⎛ −=

−=−=⎟⎠⎞

⎜⎝⎛ −=

−

∧

ny

yxyySSR

yxyyxyyyy

ny

ii

iii

i

22__

22

2

``ˆ

`````ˆ

β

ββ

a tabla de análisis de varianza plantea que la suma de cuadrados total se

emostración:

SE = y`y - β`x`y

Sumando y

⎠⎝iyy

SSE

Lpuede descomponer en dos partes SSyy = SSR + SSE D

e las fórmulas anteriores se tiene que D S

restando ( )nyi

2∑ se tiene

( ) ( )SSE = y`y - n

- [β`x`y - yi2∑

nyi

2∑ ]

SSE = SSyy –SSR despejando SSyy SSyy = SSE – SSR

i la hipótesis nula es verdadera Ho β = 0 para toda J se tiene que S JSSR tiene una distribución Chi cuadrado también puede demostrarse que 2σ

2

SSE también se distribuye Chi cuadrado σ

( ) 22 sPnSSEPn

SSEs −=−

= ( )22

2

σσSSEsPn

=−

( )

( )

( )

( )CMECMR

PnSSEPSSR

PnSSE

PSSR

f =

−

−=

−

−= 11

2

2

0

σ

σDe la definición de f se tiene que

echazar la hipótesis nula si f0 es mayor a fα, P-1,n-P o si el valor varianza es menor a α.

jemplo: Para el problema de regresión del vendedor rechazar la prueba de hipótesis.

o: βJ = 0 J = 1, 2, ...., p a: βJ ≠ 0 para almenos un J

`

Debemos rde p en el análisis de E

HH y(

y = 271779510 ) ( )

25nβ`x`y = 27062.7775 De la anterior informac

82.725 22

=y

ión se tiene que:

∑

( ) ( ) 9447.610525

82.725.27177` =−= ∑ny

yySSyy 451022

=−

Y la suma de cuadrados de la regresión se calcula de la siguiente manera:

( ) ( )

1735.1157712.5990944.6105 =−=−= SSRSSSSE yy

7712.599025

7775.27061`` =−==n

yxSSR β

82.725 22

− ∑ y

17.5722352.5

3856.29

2352.51735.115

==

===

CMRf

SSECME 95

22

38.299527712.5990

17712.5990

0 =

−

=−

=

Pn

PCMR

= 3.44

Como f0 > f0.05, 2, 22 572.17 > 3.44 se rechaza la hipótesis nula

=

CME f0.05, 2, 22

Fuente de variación

Suma de cuadrados

Grados delibertad

Cuadrado medio

F Significancia

Variación 5990.7712 2 2995.3856 572.17 0.0000001 Residuo 115.1735 22 5.2352 Total 6105.9447 24 O en la anova anterior el valor de p es mucho menor que α.

area: Para el problema de la presión y compresión probar:

0 1

β0 ≠ 0 o β1 ≠ 0

Pruebas sobre los coeficientes individuales de la regresión y sobre un subconjunto

n ocasiones se tiene interés en hacer pruebas de hipótesis e intervalos de onfianza ebas son

portantes para determe ser más eficaz con la inclusión

e una variable o con la eliminación de una o más variables.

a adición de una variable al modelo de regresión siempre hace que la suma de los cuadrados de la regresión aumente y la suma de los cuadrados

el error disminuyan.

T Ho: β = β = 0

a: H

Ec sobre cada coeficiente de la regresión. Dichas pru

inar el valor potencial de cada una de las variables imdel modelo de regresión. El modelo puedd L

d Por lo tanto, debe si el aumento a la suma de cuadrados de la regresión es suficientemente grande como para justificar el uso de una variable mas en l modelo. e

Por otra parte, la adición de una variable sin importancia puede aumentar el error cuadrático medio, esto disminuye la calidad del modelo debido a que

el estadístico f disminuye

Pn − Para realizar las diferentes pruebas de hipótesis y construir los intervalos de confianza, se hace la supos

SSEPSSR

CMECMRf −== 1

ición que los supuestos del modelo se cumplen.

a) Intervalos de confianza

stán basados en el estadístico

JJ

JJ

Cst

2

∧

−=

ββE donde CJJ es el J esimo

elemento de la matriz (x`x)-1 y s la estimación de la varianza del error 2 es

Pn −Un intervalo de confianza para βJ esta dado por la siguiente expresión:

SSE=2 s

JJJJJJJ CsPnt2

, ≤−− α ββ CsPnt 2

2

2 −+≤∧

αβ

e valo de confianza del 95% para el parámetro e refresco, nótese que la

es β el elemento de la diagonal de (x`est

∧

E rj mplo: Construir un inteβ1 del problema de tiempo de suministro d

∧

estimación puntual de β1 74427.21 =

x)-1 que corresponde a β1 es C11 = 0.001671; s2 = 5.2352 y en la tabla t udent

074.222,, 025.0 ==− tPn

intervalo estará dado por la siguiente expresión:

( )

2

tα

Un

( )(7.2

P Ejem 1presió

`11

00

==

⎥⎦

⎢⎣−

=−

Cxx

) 95.093825.255029.2001671.0*2352.5074.27442.2001671.0*2352.5074.24427

1

1

=≤≤+≤≤−

ββ

plo: Calcule un intervalo de confianza para β en el problema de la n y compresión del 95% de confianza:

3.01.1 ⎤⎡ − C( )1.01.1

1.03.01

95.031.109.0

7.0192.0*182.3192.0*182.3 ≤≤∧

β7.0

,

1.0*367.

1

1

2

111

=⎟⎠⎞

⎜⎝⎛ ≤≤

+−

=

∧

∧

β

α

β

P

nt

S

182.33,025.0 ==− tP

192.002 ==Cs

b) Pruebas de hipótesis Considere los datos sobre tiempo de suministro de refresco y supóngase que sdifere

e busca probar la hipótesis que el coeficiente de regresión de x1 es nte de cero. Ho: β1 = 0 α = 0.05 Ha: β1 ≠ 0

349.2974427.2=

074.222,, 025.02

11

==− tPntα

001671.0*2352.52

1 ==

∧

Cst β

la Ho: β1 = 0 y se concluye que la 1 portante en el modelo.

Ta r sta la 625.

plearse para predecir observaciones rrespondientes a valores particulares

l

n intervalo de predicción del 100(1 - α) para esta observación futura es:

Como 074.222,025.0 =t se rechaza ariable x (número de envases tiene contribución imv

lle : En el SPSS realizar los ejercicios desde la página 619 ha

PREDICCIÓN DE NUEVAS OBSERVACIONES Un m delo de regresión puede emofuturas de la variable de respuesta y, co

e as variables independientes, por ejemplo: dXi1, Xi2, ..., Xip si Xi`= (1, Xi1, Xi2, ..., Xip) entonces una estimación puntual de la observación futura Yi en el punto Xi1, Xi2, ..., Xip es

∧∧

= β`ii xy . U

( )( )( ) ( )( )( )iìii xxxxsPntyt 12

22

``1,, −+−+≤− αα iii yxxxxsPny 12 ``1 − ≤+−∧∧

Ejemplo: Supóngase que el embotellador de refrescos desea construir un intervalo de predicción del 95% para el tiempo de suministro a un

distribuidor donde x1 = 8 envases y la distancia que camina el empleado es x2 = 275 pies. Por tanto Xi` = [1 8 275] y la estima con puntual para

[ ] ademásXy ii

01253.0 ⎥⎥⎦⎢

⎢⎣

66.2774427.227581` =⎥⎢== β26379.2 ⎤⎡

∧∧

( ) [ ] 0444.027581

0000015.0000019.0000340.0000019.0001671.000749.000.0007491.021653.0

⎢⎡ −− 034

27581`` 1 =⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

⎥⎥⎥

⎦

⎤

⎢⎢⎣ −−−

−−=−oo xxx

x

( ) ( )( ) 95.00444.01*2352.5074.266.270444.01*2352.5074.266.2(

7 =++≤≤+− iyP)

INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA

e un intervalo de confianza para la respuesta romedio en un punto en particular por ejemplo Xi1, Xi2, ..., Xip. El vector i se representa como:

⎢⎢

iX 1

P 95.051.3281.22 =≤≤ iy

También puede obtenerspx

⎥⎥⎥⎥

⎦⎢⎢⎢⎢

⎣

=

ip

ii

X

XxM

2

La respuesta promedio en este punto es

⎥⎥⎤⎡ 1

βµì

i

y

ixxx

y `==⎟⎠⎞⎜

⎝⎛Ε la cual es

estimado por ∧∧

= βµì

i

y xx ` .

El estimador anterior es insesgado ya que i

yyxxµ

ββ =⎟⎞

⎜⎛

Ε==⎟⎞

⎜⎛Ε

∧

`` la i

ìì xx ⎟⎠

⎜⎝⎠⎝

( ) iìi

yV

∧

⎜⎜⎛ µ

xxxxx

12 `` −=⎟⎟⎟⎞

⎜σ varianza es:

⎠⎝Un intervalo de confianza del 100(1-α) para iy xµ puede construirse a

partir del estadístico: ( ) iì

oyoy

xxxxs

xx12 `` −

∧

− µµ

El intervalo de confianza esta dado por la siguiente expresión:

( )( )( ) ( )( )( )iìiyiyiiiy xxxxsPntxxxxxxsPntx 12

2

12

2

``,``, −∧

−∧

−+≤≤−− αα µµµ

Ejemplo: El embotellador de refrescos le gustaría construir un intervalo de onfianza del 95% para el tiempo promedio de suministro a un distribuidor ue requiere x1 = 8 envases y la distancia x2 = 275 pies.

⎢⎢⎢

⎣

=2758ix

cq

⎥⎥⎥

⎦

⎤⎡ 1[ ] 86.27

01253.074427.2.2 26374

27581` =⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡== βµ ìoy xx

La varianza es:

( ) [ ]⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−−−−

==⎟⎠⎞

⎜⎝⎛ −

∧

27581

0000015.0000019.00034.0000019.0001671.0007491.0000540.0007491.0214653.0

275812352.5`` 12iìiy xxxxsxV µ

23266.0=⎟⎠⎞

⎜⎝⎛ ∧

iy xV µ por tanto, un intervalo de confianza del 95% para el

suministro promedio es:

66.2870.26 ≤≤ iy xµ

MEDIDAS DE ADECUACIÓN DE UN MODELO a) Coeficiente de determinación múltiple El coeficiente de determinación múltiple R

23266.0074.266.2723266.0074.2 +≤≤ iy xµ

66.27 −

2 esta definido como:

yyyy SSSSE

SSSSRR −== 12 .

R2 es una medida de la reducción en la variabilidad de y obtenida mediante el empleo de las variables de regresión x1, x2, ..., xp al igual que en el caso de la regresión lineal simple -1 ≤ R2 ≤ 1. Un valor de R2 grande no necesariamente implica que el modelo de

gresión es bueno, la adición de una nueva variable al modelo siempre 2 es una estadísticamente

tienen valores de R2 grandes ueden proporcionar predicciones pobres.

a raíz cuadrada de R2 se llama coeficiente de correlación múltiple entre y el conjunto de variables x1, x2, ..., xk, R es una medida de la asociación neal entre y x1, x2, ..., xp.

Ejemplo: El coeficiente de determinación múltiple para nuestro modelo

reaumenta R , sin importar si la variablesignificativa. Es así como los modelos que p Lyli

es:

981137.09447.61057712.59902 ===

yySSSSRR

El 98.11% de la variabilidad en el tiempo suministrado y queda explicado cuando se utiliza dos variables de regresión, volumen suministrado (x1) y distancia (x2). b) Análisis de los residuos Aleatoriedad (ver SPSS). Normalidad (ver SPSS). Intervalos de confianza para y,

∧

y (ver SPSS) Pruebas de normalidad

Para probar la normalidad de los datos se elige el menú analizar del SPSS → estadísticos descriptivos → explorar y se coloca en la pantalla resultante en dependiente la variable sobre la cual se mide la normalidad, en ambos se analiza los gráficos y estadísticos en explorar estadísticos se le coloca el chulito y si se desea se plantea un intervalo

y gráficos en prueba de normalidad. A continuación se presentan los resultados que arroja esta corrida de SPSS.

de confianza para µ. En explorar gráfico se teclea niveles de los factores juntos

• Gráfico Q – Q normal: entre más próximo estén los puntos sobre

la recta mejor es el ajuste de normalidad. • En estadísticos descriptivos debe observarse los estadísticos de

asimetría y curtosis.

Asimetría = as 31

s

xxi

i∑3__n

=

⎞⎛⎟⎠

⎜⎝

− donde

n

xxs

i∑ ⎟⎠

⎜⎝

−=

⎞⎛2__

Si as = 0; la distribución es simétrica

Curtosis k =

Si as > 0; asimétrica a la derecha Si as < 0; asimétrica a la izquierda

3 4

4__

−⎟⎠⎞

⎜⎝⎛ −∑

s

xxi

La distribución normal se caracteriza por tener una curtosis k = 0. El

sta prueba de normalidad garantiza que todo tipo de inferencias stadísticas que se hace sobre los parámetros y pronósticos tengan alguna alidez.

ichas pruebas son las siguientes:

- Comprobar la bondad del modelo en la tabla de análisis de varianza (Distribución F).

- Pruebas de hipótesis e intervalos de confianza para los βi. - Intervalos de confianza para los pronósticos.

hazada, las inferencias stadísticas planteadas anteriormente carecen de sentido.

SPSS considera que si la asimetría las y la curtosis (k) se halla en el intervalo (-2,2) debe ser considerado un buen indicador de normalidad.

PRUEBAS DE NORMALIDAD Eev D

Si al hacer la prueba de normalidad ésta es rece

PRUEBAS DE NORMALIDAD

a) Contraste de Kolmogorov Snirnov

ución acumulada de los datos con la istribución acumulada de la distribución teórica.

ribución de probabilidad cerrada si Dn es mayor que la ncontrada en tablas para un nivel α, rechazamos la distribución F(x) para

la muestra para n y n crítica será Dn > D(α,n), si el Dn calcu d D(α,n) se rechaza la ipótesis que la distribución es normal, por lo tanto si el SPSS arroja un

.01 se rechaza la hipótesis α de normalidad de lo ontrario aceptamos que existe esa normalidad.

b) Contraste de normalidad de Shapiro y Wilks

l contraste de Shapiro y Wilks mide el ajuste de la muestra a una recta al dibujarla en un papel probabilístico normal, se rechaza la normalidad

Esta prueba es mucho más robusta que la prueba de chi cuadrado. Esta prueba se basa en comparar la distribd Dn = MAX ⎢Fn (x) – F(x) ⎢ Fn (x) = distribución de los datos F(x) = distribución teórica Dn tiene una diste

α dados hallamos D(α,n) la regiólados en los atos es mayor que

hvalor menor a 0.1, 0.05 y 0c

E

cuando el ajuste es bajo, que corresponde a valores pequeños del estadístico de este dicho estadístico toma la expresión.

( )( ) ( ) 2

22

11,2 ns

AXns J

JJnnJ ⎥

⎦

⎤⎢⎣

−=

+− donde ns2 = ∑ ⎟⎠⎞

⎜⎝⎛ −

2__

xxi 1 Xah⎡

= ∑w

imparesnsinhoparesnsinh2

12

−==

os coeficientes aJn están tabulados y xJ es el valor ordenado de la muestra ue ocupa el lugar J. La distribución de muestra tabulada y se rechaza la ormalidad cuando su valor calculado a partir de la muestra es menor que

ndiente valor crítico dado en las tablas.

Si el valor dado por el SPSS es menor a 0.1, 0.05 y 0.01 se rechaza la hipótesis de normalidad de lo contrario debe aceptarse que los datos siguen una distr ción al

Lqnel correspo

ibu norm .

ANÁLISIS DE LOS RESIDUOS

Con la regresión y correlación, al igual que con otras experiencias de la vida, podemos aprender de nuestros errores. Por consiguiente, conviene estudiar resid o sión. Como se ha subrayado antes, una regral puro a r que en u d y una varianza de σ2. Si el estudio de estos redemuestr lo co rio u entes al model La d ció a a inos de error dría s fic e a l ótesis básicas relativas al mo L r e ica a estudiar térm s d i b u eden detectar dicho ális m d os de la autoc lació e Autocor ción Una de las propiedades básicas del modelo OLS es que los errores no guardan relac i se i n un momento temporal no tiene relación lineal con el error que se puede experimentar en otro m as u entar los errores a lo largo del tiem gráfica, ésta se parecería a la de la siguiente figura:

igura 1.

los uos términos de erroesión buena presenta errores debidos

r en nuestro modelo de regre

za sigu una distribución normal considuos revela condiciones que

na me ia de 0

ano.

ntraetec

, sería n de cu

n indiciolquier p

de que hayuta de corre

problemlación en

as inher los térm

po igni ar que sdelo O

han trS. El

nsgredido aesto de est

gunas de capítulo

las hip se ded

losen

ino an

e erroris. Nos

ya analcentrare

zar los proos ante to

lemas qo en los

e se puprincipi

orre n y d la heterocedasticidad.

rela

cor ión. El error de pred cción que exper menta e

omento. En el c o ideal, si hubiera q e represpo en una

F

No hay pauta detectable en los errores. Los términos de error parecen se independientes y no dan ninguna indicación de que haya relación entre ellos. Pero cuando se trata de datos pertenecientes a series temporales, muchas eces esta condición deja de cumplirse. Encontramos que los errores ueden estar correlacionados, de donde resulta una autocorrelación (AC). uchas series económicas, como el desempleo, el PNB o los tipos e terés, varían de manera cíclica en el tiempo. Si una serie tiene un valor

emasiado bajo (alto) durante un mes en relación con su media a largo ble que siga siendo bajo (alto) el mes siguiente. Las

cen de la noche a la mañana. Un modelo de regresión e basa en una media a largo plazo de la serie. Si una serie tiene un valor

lo de regresión haga una stimación excesiva de su valor. Esta sobreestimación dará lugar a un error

er ga siendo uy baja el período tem es de esperar que ocurra otro error

emasiado alto. Los errores positivos serán generados para varios períodos varios

igura 2.

vpMindplazo, es probacorrecciones no se hasdemasiado bajo, es probable que el modeenegativo, puesto que e = Yi – Ý. Como es probable que la s ie sim poral siguiente,

o la serie pasa a un ciclo de nivel negativo. Lo contrario sucede cuanddsucesivos. Esta pauta de errores sucesivos negativos, seguidos de errores positivos, es prueba de que existe autocorrelación. La siguiente figura ilustra la autocorrelación: F

Hay puta clara en los términos de error. Inician la pauta varios errores sucesivos negativos seguidos de varios errores positivos tras los cuales

aparecen varios errores negativos más (no es de esperar que la pauta sea tan

de error. Como todos los parámetros, se stima con el estadístico correspondiente cuando se toman datos aestrales. Esta correlación entre errores a nivel muestral se mide por r, el

correlación muestral que hemos utilizado para medir correlación entre dos variables de nuestro modelo. En la figura 1, en que

evidente en la práctica). La correlación entre términos de error se puede medir igual que la correlación entre dos variables cualesquiera del modelo. La correlación entre un error en un período temporal t y el períodod temporal anterior t-1 se por ρet, et-1, donde el parámetro ρes el coeficiente de correlación poblacional para los términos emmismo coeficiente delano existe AC, estimaríamos la correlación entre términos de error con ret,,et-

1 igual a cero. En cambio, la figura 2 sugiere la probabilidad de que un error vaya seguido de otro error del mismo signo. Es decir ret,,et-1. Se dice que hay una AC positiva. Si los errores tendieran a alternar su signo, habría también correlación negativa y ret,, et-1<0. La siguiente figura nos muestra la grafica en donde los errores tienden a alternar su signo: Figura 3.

En presencia de AC todos los contrastes de hipótesis e intervalos de onfianza se tornan menos fiables, los que convierte a la autocorrelación en lgo muy perjudicial.

un modelos para estudiar el error del modelo original. Si el error es ε, el modelo que relaciona el error de un período temporal con el del siguiente es:

ε= ρet-1 + µt

D e error aleatorio en la predicción de los errores; es decir, µ mide el error

ca Se puede construir

onde ρ es la correlación entre errores del modelo original y µ el términod

que experimentamos cuando tratamos de estimar el error de nuestro modelo riginal. El término µt, que a menudo se denomina ruido blanco, se roduce porque los errores del modelo original no responden a una

opcorrelación perfecta. Por tanto, habrá algo de error en nuestro intento de predecir el error del modelo original. Figura 4.

n de errores está ontenida en los dos cuadrantes positivos de los ejes. De ello resultaría que et, et-1 >0.

ra 4 b) los términos de error están limitados a los dos cuadrantes egativos, lo que indica una correlación negativa, es decir, et y et-1 toman ignos opuestos, luego ρet, et-1 <0.

a t, t-1

La Figura 4 también refleja pautas de error que pueden revelar información obre el modelo cuando se representa et frente a et-1. En la figura 4 a) existe autocorrelación positiva porque cuando et es positivo, et-1 también lo es, y cuando et es negativo, et-1 también es negativo. Los errores consecutivos tienen el mismo signo. La relaciócρ En la figuns Aunque el análisis de errores puede ser un medio de detectar la autocorrelación , ne es muy fiable. Rara vez se observan pautas tan claras como las aquí sugeridas. Necesitamos un procedimiento menos falible, y por suerte tenemos uno basado en el estadístico d de Durbin-Watson. El estadístico de Durbin-Watson se utiliza para comprobar la hipótesis de no autocorrelación:

H0: ρet, et-1 = 0, No hay correlación H : ρe e ≠ 0, Hay correlación

Se calcula por la fórmula:

d = ( )

( )∑∑ −

−2

1ee tt 2

Con nanteriogeneraautmehip

et (et) et -et-1 (et -et-1)

et

uestros datos del estudio de gastos de los consumidores, la fórmula r facilita los cálculos necesarios. Obsérvese que 0 ≤ d ≤ 4. Por regla l, si d es próximo a 2, supondremos que no hay problema de

ocorrelación. Pero es recomendable determinar si el valor hallado diante la esta fórmula es significativo, y para ello hay que contrastar la

.ótesis de ρ = 0

Ejemplo:

Observación

Yi Ypron

1 51 49,3359

1,6641 2,76922881

2 30 30,378 -0,37844

0,14318656

-2,0425 4,171806

3 32 32,1138

-0,1138 0,01295044

0,2646 0,070013

4 45 42,3943

2,6057 6,78967249

2,7195 7,395680

5 51 53,6745

-2,6745 7,15295025

-5,2802 27,88051

6 31 32,9815

-1,9815 3,92634225

0,693 0,480249

7 50 51,0714

-1,0714 1,14789796

0,9101 0,828282

8 47 46,732 0,2672 0,07139588 4

1,3386 1,791849

9 45 42,526 2,4737 6,1191916 2,2065 4,8686

3 9 42 10 39 39,791 -0,7912 0,6259974 -3,2649 10,659

2 4 57 11 50 50,218 -0,218 0,047524 0,5732 0,3285

58 12 35 34,594 0,406 0,164836 0,624 0,3893

76 13 40 39,938 0,062 0,003844 -0,344 0,1183

36 14 45 45,146 -0,146 0,021316 -0,208 0,0432

64 15 50 50,354 -0,354 0,125316 -0,208 0,0432

64 Σ 29,121649

73 59,069

40

d =( )

( )∑∑ −

−2

2

1ee tt e

=

t

291220340475.59

= 2.03

araremos d = 2.03 se hallan mediante dos valores: el númer e va ables independientes, k, y el úmero de observaciones, n. En nuestro ejemplo, k = 2 n = 15. Si α = 0.05, tabla K da dL = 0.95 y dU = 1.54. Ahora se puede construir una escala

Estadístico de

urban-Watson

Los valores críticos con los cuales comp

o d rinlasencilla para determinar si se rechaza o no la hipótesis nula de no autocorrelación. La escala es como se describe en la siguiente figura:

D

La prueba no La prueba no +AC es concluyente No AC es concluyente -AC dL dU 2 4 – dU 4 –dl 0.95 1.54 2.46 3.05 Si dU < d < 4 – dU, no hay pruebas de que exista autocorrelación y la hipótesis nula no se rechaza; d < dL demustra que existe AC positiva; d > 4 – dL indica AC negativa. Las dos regiones no concluy

entes que existen

d = 2(1 – r)

entre et y et-1. Una vez más, si los erá preciso efectuar gran cantidad de

ortuna, casi todos los programas de rdenador dan el valor de Durban-Watson.

arciales, gresar todas las variables de residuos de los modelos en estudio, aceptar. n la hoja de resultados se analiza que estos residuos se encuentren dentro

de los intervalos establecidos.

s una ariación constante de los términos de error. La variación de los errores

indican que la distribución de d depende de las características de las relaciones entre las variables independientes. Ninguna generalización de estas características puede ser lo bastante amplia para restringir sin ambigüedad el valor de d. Ya calculamos que d era 2.03, de manera que no se rechaza la hipótesis nula. Parecería que la correlación entre términos de error no constituye un problema. El cálculo es bastante aburrido. Se puede simplificar si el valor de d se estima por:

donde r es el coeficiente de correlacióncálculos se han de hacer a mano, soperaciones aritméticas. Por fo Autocorrelaciones de los errores en el SPSS En la barra de menú dar clic en Gráficos/ Series temporales y abrir la ventana Autocorrelaciones, desactivar las autocorrelaciones pinE

Hetorocedasticidad Además de la ausencia de correlación entre errores, otra propiedad básica del modelo OLS es la homocedasticidad. La homocedasticidad ev

que se experimenta cuando , por ejemplo 10, es igual que la variación de los errores cuando X es igual a cualquier otro valor. En

lo indica la existencia la existencia de

curva en X = 10, lo que

X es igual a un valor

la figura 5 a) las dos curvas normales indican que la distribución de los valores de Yi por encima y por debajo de la recta de regresión es la misma en X = 10 y en X = 11. Por tanto, los errores, representados por la diferencia entre los valores de Yi y las ordenadas de la recta de regresión, siguen una distribución normal. Elhomocedasticidad. Si la varianza de los errores no es la misma para todos los valores de X, existe heterocedasticidad. La figura 5 b) indica que a medida que X aumenta, la varianza de los términos de error se hace más pronunciada. La curva normal en X = 11 está más extendida que laindica una mayor dispersión de los errores. Figura 5

Heteroceasticidad. Los términos del error no tienen la misma varianza La heterocedasticidad es corriente cuando se manejan datos transversales. Suelen utilizarse estos datos, por ejemplo, en investigaciones sobre los hábitos de gasto de los consumidores. En estos estudios se suelen recoger el consumo y la renta de muchos individuos, que abarcan pobres, ricos y personas de clase media. Este conjunto de daos se llama transversal porque traviesa diferentes grupos de reta. Como se podría esperar, los ricos

presenta un modelo de compor ento respecto de su esquema de consumo muy diferente del resto de nosotros. Esta diferencia provoca una variación de los términos de e or que pone de manifiesto la heterocedasticidad.

atami

rr

Cuando existe heterocedasticidad, los coeficientes de regresión pierden eficiencia. Es decir, la varianza de los valores de b sufre un incremento. El valor de b obtenido con una muestra difiere del obtenido con otra distinta. En estos casos es difícil depositar mucha fe en los coeficientes de regresión.

Se puede detectar la heterocedasticidad si se representan en un gráfico los valores de Y frente a los términos de error. Si aparece una estructura, es

do existe eterocedasteicidad. La figura 6 c), por el contrario, no sugiere un

esquema detectable: parece no existir heterocedasteicidad. Figura 6

probable que haya heterocedasticidad. Las figuras 6 a) y 6 b) indican posibles estructuras que a menudo se encuentran cuanh

Si se sospecha que hay heterocedasticidad, se recomienda utilizar el método de mínimos cuadrados generalizado (GLS). En textos superiores se puede encontrar una explicación del GLS. Aunque las pautas que siguen los residuos son una buena indicación de la heterocedasticidad, su lectura requiere más de una facultad artística que un procedimiento científico. Las pautas rara vez cooperan y son tan claras como las que acabamos de ver. Necesitamos métodos más concretos de detectar la heterocedasticidad. El resto de esta sección se dedica a presentar métodos frecuentes de descubrir la existencia de heterocedasticidad. Prueba de heterocedasticidad de White. En 1980 Halbert White ofreció uno de estos métodos, basado en la distribución χ2. Su método comprende varias fases bien definidas:

1. Ejecutar la regresión original y obtener el término de error que presenta cada observación.

2. Elevar al cuadrado los términos de error para obtener e2 y hallar su

dientes X1, X2, X2, habra que hallara la

n de e respecto de X1, X2, X3, X12 , X2

2, X32, X1X2, X1X3,

X2X3. Este modelo de regresión se llama modelo auxiliar.

ay que tomar determinadas precauciones al ejecutar la fase 2. La más importante para nuestros fines es el peligro derivado de utilizar variables ficticias en el modelo. Si Xi es una variable ficticia, entonces no se debe incluir X 2 en la ecuación auxiliar porque X es igual a X 2 y existe

dar clic en Gráficos/ dispersión. Se ingresar en el eje Y evaluar. En la hoja de

sultados se analiza la gráfica.

lvo los propios coeficientes de y vigila en análisis

e regresión.

regresión con todas las variables independientes, los cuadrados de todas esas variables y los productos cruzados de todas ellas. Sihubiera tres variables indepen

2regresió

3. Calcular nR2, donde n es el número de obsrvaciones y R2 el coeficiente de determinación no ajustado de la ecuación auxiliar.

4. Si nR2 >χα,k, rechazar la hipótesis nula de que las varianzas de error son iguales y suponer que existe heterocedasticidad.

H

i i imulticolinealidad perfecta. Además, el producto cruzado de dos variablesficticias también se debe excluir puesto que es igual a cero. Heterocedasticidad en SPSS En la barra de menúel error y en el eje X la variable que se deseare

Coeficiente de determinación ajustado A causa de su importancia, R2 se calcula en la mayoría de los paquetes informáticos. Es una forma fácil y rápida de evaluar el modelo de regresión y determinar el grado en que se ajusta a los datos. Saregresión, quizá sea R2 el estadístico que más se observad

Perartific to de R con la mera inclusión de ue se incorpore una var aumentará. Es el coeficiente de determinación ajustado. Con el símbolo de R , que se leeexplic s grados de libertad de SSvariable independiente adicional que añada al modelo, porque cada variable exivariable que no añada suficiente poder explicativo al modelo para justificar

pérdida de un grado de libertad. El valor de R2 disminuirá. Si baja demasiad, habrá q esa variable del modelo. En casos extremos, el coeficiente de determinación ajustado puede

o los estadísticos poco cuidados o faltos de escrúpulos pueden inflar ialmente R2. Se puede lograr un aumen 2

otra variable independiente en el modelo. Aunqiable sin sentido que no aporte ningún poder explicativo, R2

práctica común en el análisis de regresión y correlación múltiple indicar 2

“R con barra al cuadrado”, este estadístico ajusta la medida del poder ativo con el número de grados de libertad. Lo

E son n – k – 1. El investigador pierde un grado de libertad por cada

ge el calculo de otro bi. R2 penalizará al investigador por incorporar una

laue considerar la conveniencia de excluir

llegar a valer menos de cero. Para obtener este coeficiente ajustado se dividen SSE y SST por sus grados de libertad respectivos:

)1/(1

−)1/(2 −−

−=knSSE [ ]

nSSTR 21.14

Una fórmula más conveniente para calcular 2R es:

1)1(1 22 1

−−−

−−=kn

RR n [ ]22.14

Como el numerador de la formula (14.21) es el MSE, puede decirse que R2, es una combinación de dos medidas del cumplimiento de un modelo de regresión: el error cuadrático medio y el coeficiente de determinación.

Existencia de multicolinealidad

Ya hemos anunciado antes el peligro de la multicolinealidad. Surge este problema cuando una de las variables independientes mantiene una relación lineal con una o más de las demás variables. Esta situación transgrede una de las condiciones de la regresión múltiple. En concreto, existen multicolinealidad cuando hay una alta correlación entre dos variables

independientes Xi y Xj. En el capitulo 13 explicamos explicamos el coeficiente de correlación r de la variable dependiente y la única variable independiente. Si en regresión múltiple aplicamos este mismo concepto a dos variables independientes Xi y Xj, podremos calcular el coeficiente de

un problema de grado. En cualquier medida en que

s del Mercado. 2 =Todas las mujeres del mercado. 3 = Población total del mercado.

s evidente que X3 es una combinación lineal de X1 y X2 (X3 = X1 +X2). La orrelación r13 entre X1 y X3 y la correlación r23 entre X2 y X3 son bastante ltas. Estas relaciones dejan clara la presencia de multicolinealidad, de la ue surgen numerosos problemas en el uso de las técnicas de regresión. A ontinuación se exponen algunos de los problemas más corrientes.

Problemas de la multicolinealidad

problemas más fastidiosos de la multicolinealidad proviene de

Cuando existe multicolinealidad, es imposible esenmarañar los efectos de cada Xi. Supongamos que en el modelo:

Y = 40 + 10X1 + 8X2

coeficientes de regresión se convierten en poco fiables y no se pueden

correlación rij. Si rij es alto, existe multicolinealidad. ¿ Qué se entiende por alto? Lamentablemente no hay respuesta a esta pregunta crítica. No hay ningún punto mágico de separación en el cual la correlación se pueda decir que es demasiado alta y que existe multicolinealidad. Esdos o más variables independientes tengan una relación lineal, existe un grado de multicolinealidad. Si ésta es demasiado pronunciada, el modelo quedará perjudicado. Ahora bien, lo que se considere demasiado alto es algo que queda al buen criterio del investigador. En esta sección daremos algunos consejos necesarios par alcanzar este criterio. Supongamos que está utilizando técnicas de regresión para estimar una curva de demanda (o función de demanda) de su producto. Para reconocer que el número de consumidores está relacionado con la demanda elegiría como variables explicativas: X1 = Todos los hombreXX Ecaqc

Uno de los nuestra incapacidad para separar los efectos individuales de cada variable independiente sobre Y. d

X1 y X2 mostrasen un grado de correlación alta. En este caso, el coeficiente 10 de X1 puede no representar el efecto verdadero de X1 sobre Y. Los

tomar como estimaciones de la variación de Y cuando la variable independiente varía en una unidad. Además, los errores los errores típicos de los coeficientes, Sbi, se

año, se haría

rva de demanda, se podría encontrar ue tomase un signo positivo. Esto significa que a medida que el precio de

e la multicolinealidad

ariables del modelo, como se muestra n la 14-4. El valor de r12 = 0.8698 que indica la correlación entre las dos ariables independientes muestra que existe una íntima relación entre NI y

estra muestra, queremos contrastar la hipótesis de que correlación entre X1 y X2 es cero a nivel poblacional. Contrastaremos la

desbordan. Si se tomasen dos o más muestras del mismo tamuna variación grandes de los coeficientes . En el modelo que acabamos de especificar, en lugar de 10 como coeficiente de X1, una segunda muestra podría dar un coeficiente de 15 o 20. Si b1 varía tanto de una muestra a la siguiente, deberemos poner en duda su exactitud. La multicolinealidad puede causar incluso que el signo del coeficiente sea el opuesto al que la lógica dictaría. Por ejemplo, si se incluye el precio como variable en la estimación de la cuquna mercancía aumenta los consumidores compran más, lo que constituye una trasgresión evidente de la lógica que informa la teoría de la demanda.

Detección d

El camino más directo para comprobar la multicolinealidad es elaborar una matriz de correlación de todas las vevADV. Aunque no hay un valor predeterminado de rij que señale la aparición de la multicolinealidad, el valor de 0.8698 es lo bastante elevado para indicar que existe un problema significativo. Algunas de las dudas se pueden eliminar utilizando una prueba t para determinar si el nivel de correlación entre X1 y X2 difiere significativamente de cero. Dada la relación distinta de cero entre X1 y X2 (r12 = 0.8698) de nulahipótesis de que:

H0: 012 =ρ 0: 12 ≠ρaH

donde 12ρ es el coeficiente de correlación poblacional entre X1 y X2. Esto podemos hacerlo con las técnicas aprendidas anteriormente. Donde demostramos que:

t = rS

r12

donde:

21 2−

=rS

−nr

Como ilustración, la hipótesis de , donde es el coeficiente de correlación poblacional de las dos variables independientes, es:

36.601367

8698.01367.0

2158698.01 2

=

=t

Si se pone

=−

−=Sr

α al 5%, el t crítico es 16.213,05.0 =t . Hay n – 2 grados de libertad.

Como t= 6.36>2.16, Ace puede rechazar la hipótesis nula de que no existe correlación entre X1 y X2 ( 012 =ρ ). Existe algo de multicolinealidad. Ello no significa que el modelo tenga un defecto irreparable. De hecho, muy pocos modelos esta olinealidad. Pronto Explicaremos la manera de hacer frente a este problema.

poco por ejorar la capacidad del modelo para explicar el número de pasajeros.

ya suministrada por la publicidad. Ello indica que odría existir multicolinealidad.

variable idependiente es una medida del grado de multicolinealidad

on que contribuye dicha variable.

rían libres por completo de la multic

Otra forma de detectar la multicolinealidad es comparar los coeficientes de determinación entre la variable dependiente y cada una de las variables independientes. Ya vimos que la correlación entre pasajeros y publicidad era r2 = 0.815. Pero las dos variables independientes juntas revelaban un R2 de solo 0.957. Si se toma por separado, las variables independientes explican el 93.7% y el 81.5% de la variación de Y, pero combinadas únicamente explican el 95.7%. En apariencia, existe un solapamiento de su poder explicativo. La inclusión de la segunda variable NI hizomVemos que la variable NI se limita a duplicar mucha de la información sobre los pasajeros pUna tercera forma de detectar la multicolinealidad es estudiar el factor de inflación de la varianza (VFI). El VFI asociado a cualquier variable X se halla mediante el estudio de la regresión de dicha variable en función de todas las demás variables X. El R2 resultante se utiliza después para calcular el VIF de la variable. El VIF de cualquier Xi representa la influencia de la variable sobre la multicolinealidad. Factor de inflación de la varianza. El factor de inflación de la varianza de unac

Puesto que en el modelo Hop Scotch sólo hay dos variables independientes, la regresión de X1 sobre todas las demás variables independientes (X2) o la regresión de X2 sobre todas las demás variables independientes (X1) nos da l mismo coeficiente de correlación (r12 = 0.8698). El VIF de cualquier e

variable independiente Xi es:

VIF = iR21

1−

Donde R i

2es el coeficiente de determinación obtenido en la regresión de Xi sobre todas las demás variables independientes. Como ya se ha dicho, la

ulticolinealidad produce un incremento de la variación o error típico del oeficiente de regresión. El VIF mide el incremenbto d ela varianza del

ficiente de regresión por encima de la que existiría si no hubiera ulticolinealidad. l VIF de la publicidad en el modelo de Ace es:

VIF =

mccoemE

2)8698.0(11

−= 4.1

ara X2 se hallaría el mismo VIF, puesto que sólo hay dos variables dependientes.

Si una variable independiente no tiene ninguna relación en absoluto con tra variable independiente, su VIF es igual a 1. La varianza en b y b es

tras indicaciones de multicolinealidad pueden ser las variaciones grandes

sión de una variable produce cambios grandes de los coeficientes o de us signos, puede haber multicolinealidad.

sobre Y. 2. Un error típico exagerado de los coeficientes b. 3. Signos algebraicos o coeficient contrarios a la lógica.

Pin

o 1 2por consiguiente mayor que cuatro veces la que habría sin multicolinealidad en el modelo. Pero, en general, la multicolinealidad no se considera un problema significativo a menos que el VIF de una Xi valga 10 como mínimo, o que la suma de ellos VIF de todas la Xi sumen 10 como mínimo. Ode los coeficientes o de sus signos cuando hay un cambio pequeño del número de observaciones. Además, si la relación F es significativa y los valores de t no lo son, puede haber multicolinealidad. Si la inclusión o supresEn resumen, si existe multicolinealidad encontraremos:

1. Una incapacidad para separar el efecto neto de las variables independientes individuales

es

4. Una elevada correlación entre variables independientes y un VIF

significativa combinada con relaciones t no significativas.

mitigar la influencia de la ulticolinealidad? Acaso la solución más lógica sea suprimir la variable

de todo, y a causa del solapamiento, la clusión de la segunda variable añade poco a la explicación de Y.

En relación con el mode í consejable eliminar NI, ado que su correlación con Y es menor que la de la publicidad. Las

ero la simple eliminación de una de las variables puede conducir al sesgo de fundam o. Por ejemplo, se podría evitar la multicolinealidad si se liminara la renta de una expresión de una expresión funcional de la

a una

asgresión de los principios teóricos se denomina sesgo de especificación.

i eliminar una variable se excluye por el sesgo que ello pueda producir, si

ariable. Quizá fuera beneficioso dividir los valores originales de la ariable causante por la población para obtener una cifra por persona. Es lo ue sugería con el NI al comienzo de este capítulo. Además, dividir eterminadas medidas monetarias por un precio índice (como el índice de recios al consumo) a fin de obtener una medida en términos “reales”, uede ser otro método eficaz de eliminar la multicolinealidad. También sto se podría aplicar al NI.

elevado. 5. Variaciones grandes de coeficientes o de sus signos si el número de

observaciones varía en una solo observación. 6. Una relación F

7. Variaciones grandes de los coeficientes o de sus signos cuando se incluye o suprime una variable.

Tratamiento de la multicolinealidad

¿Qué se puede hacer para eliminar o mcausante. Si Xi y Xj están en íntima relación, una de ellas se puede excluir del modelo sin más. Después in

lo de Hop Scotch, ser a adpruebas t realizadas antes también sugieren que NI no era significativa al nivel del 5%. P

especificación, en el cual la forma del modelo está en desacuerdo con su ento teóric

edemanda de los consumidores. Pero la teoría económica y también el puro sentido común, nos dice que la renta se debe incluir en cualquier intento de explicar el consumo. Sesgo de especificación: La especificación incorrecta de un modelo, por haber incluido o excluido determinadas variables, que de lugar tr Sque podemos disminuir la multicolinealidad cambiando la forma de la vvqdppe

Otra medida posible es combinar dos o más variables. Es lo que podría hacerse co empleaba X1= hombres, X2= mujeres y X3= población total. Las variables X1 y X2 se podrían sumar para formar X3. El modelo constaría entonces de una sola

n cualquier caso, es preciso reconocer que en la mayoría de los modelos

stará nada a la utilidad del modelo, porque el problema de la ulticolinealidad puede no ser grave. La multicolinealidad causará grandes

ntroducción a las series de

or ingenieros íficos ara examinar diferentes procesos y sistemas físicos y matemáticos. Un

n el modelo de la demanda de los consumidores, que

variable explicativa. Ede regresión que contienen dos o más variables independientes existe algún grado de multicolinealidad. Cuanto mayor sea el número de variables independientes mayor será también la probabilidad de multicolinealidad. Pero ello no remerrores en coeficientes individuales, pero el efecto combinado de esos coeficientes no se altera de manera drástica. De todos modos, un modelo predictivo ideado para predecir el valor de Y a partir de toda las Xi tomadas en combinación poseerá una exactitud considerable. Solamente los modelos explicativos. I Tiempo. Métodos de atenuación. Promedios movibles. INTRODUCCION La noción de modelo ha sido bastante utilizada p y cientpmodelo se convierte en una manera de experimentar con la realidad sin tener que invertir en una unidad operativa a escala natural. Este tipo de modelo también se conoce como modelo de simulación. Un modelo de predicción (Makridakis y wheelwrigtht, 1989)

Consiste en los procedimientos utilizados para desarrollar un pronóstico. Por supuesto, existe una gran variedad de modelos, pero en cuanto a los modelos cuantitativos solamente existen dos tipos bien definidos: las serie e tiempo y los métodos causales. Si el analista comprende las propiedades

isas que constituyen la ase de las técnicas de predicción y de las ventajas y desventajas de su

do de tiempo a usar.

trapolar dicho patrón pueden redecirse y desarrollarse los periodos de tiempo subsecuentes. Una

te modelo no es articularmente útil para la gerencia en caso de que de que se desee

pre sado por las decisiones tomadas antes y durante el pro Cuprácticamente la misma predicción para el siguiente periodo, sin importar uáles sean las acciones tomadas por la gerencia. Así, un modelo de serie e tiempo sería apropiado para predecir factores ambientales, nivel de la

tasa de desempleo o patrones de costo, donde las ecisiones individuales tienen poco impacto. Sin embargo, este modelo de

en esos odelos de predicción.

era de operar de este tipo e modelos, ya que la tecnología de series de tiempo trata la información

dde ambos, puede tener una mejor visión de las prembutilización en situaciones especificas. En este capitulo se abordará el primer tipo: el modelo de series de tiempo. Para aplicar esta tecnología es necesario definir dos factores importantes: a) Las series de datos a utilizar en el proceso de predicción. b) El perio Un modelo de series de tiempo supone que a lo largo del tiempo existe un cierto patrón o una combinación de patrones recurrentes. Así, al identificar y exppremisa importante es que el patrón base se identifica sólo en relación con datos históricos de dicha serie de tiempo. Por ello, esp

decir el impacto cauceso estadístico.

alquier metodología de serie de tiempo que se utilice debe producir

cdeconomía nacional, dserie de tiempo es totalmente inapropiado para predecir ventas mensuales resultantes de cambios en los precios, o en la publicidad. Una de las mayores ventajas de los modelos de series de tiempo es que las reglas básicas de la contabilidad también están orientadas a periodos secuénciales de tiempo, lo que significa que en gran parte de las empresas siempre existe disponibilidad de información que puede aplicarsem En ocasiones puede parecer decepcionate la mand

como una caja negra, sin intentar descubrir los factores que afectan el comportamiento del sistema o la información que se analiza (Véase figura 2.1). El sistema se contempla de manera simple como un proceso no identificado (Puede ser cualquier tema: ventas, economía, meteorología, etcétera).

Figura de un m

Existen tres r por l s que ec : la pr era esfuese, puede ser extremadamente difíomportamiento. La seg

ON PARA LOS ME

X es el número de artículc

sí, en un periodo de dos años, el mes s

2.1 Relación

azones a l momo una caja negra im qu

Sistema

t

c unda razón esejercicio de predicción es justamente razón especial para saber el porqué. Lque desea saberse es qué va a sucedesaber el porque. El costo de saber el por NOTACI CUANTITATIVA Cuando se prepara la información a predicción, inicialmente se compilan vaobservaciones. Estas observaciones pesde unidades de algún producto vendd

dichas unidades, o inclusive el numesección de producción. Debido a que een general se representan por una variavalor de algún artículo, por ejemplo ladado.

ebido a que Dne esario identificar dicho periodo. Econsecutivos a cada uno de los periodoA

Cap ura d
e datos Proceso
generador

odelo de de tiemp

odelo neja pue o entecil medir la r

jetiv

TODOS DE

os vendidos en

sucede identifica com

series

mae de n

que el obhacer una pre

a tercera razónr, realmente esqué puede ser m

utilizar con clores observadoueden represeido hasta el cosro de empleadostos valores vable X, donde és lavadoras ven

sto se logra s que se

Resultad

o

lo os comn , y aun

elación que rige su o principal de un

PREDICCION

de producción de

un periodo dado, es nar números

en secuencialmente. o 1, 2, 3, 4,..., 24.

s dat o una derse que lo

dicción y no existe es cuando lo único de poca la utilidad uy alto.

ualquier método de s, datos históricos u

ntar muchas cosas, to s que hay en cada rían aleatoriamente,

sta es el símbolo del didas en un periodo

al asig

Ress cualquier interv l periodo, éste e identifica como subíndice de la variable aleatoria; así, X10 corresponde

al periodo 10 y X13 es el valor 13 de la serie numérica. Necesariamente, la decisión del cuál es el primer valor (X1) es arbitraria, y a partir de ahí los números subsecuentes aumentan de forma consecutiva en la serie.

Cuadro 4.1 Notación utilizada en los modelos de predicción de series de tiempo

n general, puede decirse que el símbolo X identifica los valores históricos

dica el valor ronosticado del periodo t+1.

los valores de redicción, denotada como sigue:

ulta evidente que es necesario predefinir la longitud del periodo: puede er un día, una semana, un bimestre, un trimestre, un semestre, un año o

alo temporal posible. Una vez establecido es

E

VALORES DE PREDICCION Valores observados X1 X2 X3 ... Xt-2 Xt-1 Xt Ft+1 Ft+2 Ft+3 … Ft+m

Periodo i 1 2 3 … t-2 t-1 t t+1 t+2 t+3 … t+m Valores estimados X1 X2 X3 ... Xt-2 Xt-1 Xt Xt+1 Xt+2 Xt+3 … Xt+m F1 F2 F3 … Ft-2 Ft-1 Ft

Valores de error e1 e2 e3 … et-2 et-1 et

Presente

Valor real =patrón + aleatoriedad

observados, y para indicar los valores de predicción se utiliza otro símbolo que suele ser la letra Ft-1 (del inglés Forecast)o bien 1

ˆ+tX (notación

matemática de valor estimado) donde el subíndice (t+1) inp La premisa básica de su utilización en cualquier técnica de predicción es el valor real observado se determina por algún tipo de patrón e influencias aleatorias. Esta notación puede observarse con todo detalle en el cuadro 4.1. Debido a que el mundo de los negocios no es determinístico, la aleatoriedad siempre está presente, lo cual significa que siempre existe una diferencia o desviación entre los valores reales observados yp

et = Xt - Ft

Donde el subíndice t indica que en el periodo i hay un error que está examinándose. Como se muestra en el cuadro 4.1, cada valor individual tiene asociado un error e para el cual siempre existe un valor observado X y un valor de predicción F. Para simplificar la manipulación de las expresiones presentes en la adición de muchos números, conviene utilizar matoria. El uso de ste signo y de los elementos de notación matemática puede ejemplificarse

dro 4.1: Xt es el valor real y Ft es el valor de predicción; por lo tanto, t l error o dife rvados Xt y los valores

pronosticados Ft de Si se desea conoc bservaciones, dicha suma puede obte

el signo de la suedel cuae es e rencia entre los valores obse

po t. un periodo de tiem

er la suma de los errores y se tienen n onerse de

e1 + e2 + e3 + …+ en = ∑=

4.2 ENFOQUE DE LA ATENUACIÓN PARA LAS SERIES DE

s desarrollados para procesar las series de tiempo, desde l método de atenuación de promedios movibles hasta el mas sofisticado de

.

n

t 1et

La expresión de la derecha puede leerse como “la suma de los valores de error, et, tomados desde t=1 hasta t=n (Inclusive)”.

TIEMPO Se ha observado que los técnicos que utilizan el método de las series de tiempos para proyectar un grupo de datos lo hacen examinando los movimientos pasados (históricos). Este proceso se denomina extrapolación de patrones de los datos hacia el futuro. Existe una gran variedad de métodoeBox-Jenkins (ARIMA) pasando por los métodos de descomposición

Atenuación por promedios Atenuación exponencial

Otrmo

Método Naive(directo)

s Atenuación exponencial doble Brown: lineal de un parámetro
Promedios movibles simple
Holt: dos parámetros comprende TENDENCIA

Promedios movibles dobles

as técnicas de promedios vibles(combinación)

Atenuación exponencial simple

Atenuación exponencial triple Brown: Cuadrática, un parámetro Winters: Tres parámetros ESTACIONALIDAD Y TENDENCIA

Figura 4.2 Clasificación de los métodos de atenuación (Makridakis y Wheelwright)

• Patrones de d

atos (Holton y Keating, 1994) Antes de avanzar más en este tópico es necesario explorar los tantas veces

ede decirse que en cualquier erie de datos hay cuatro patrones: cíclico, tendencia, estacionalidad y

d económica “ El niño”). a que el ciclo

mbargo, el ciclo de1979 a 1981 solamente duró 20 meses(de noviembre

les que ocurren cada seis ños.

l patrón mas familiar es el de tendencia, que representa el decremento o de una serie de datos en cierto periodo de tiempo.

s brir por lo menos un ciclo comercial. De aquí que los atrones de tendencia y ciclo están interrelacionados; es decir, la dirección eneral que sigue un ciclo o un periodo de tiempo es la tendencia. Por lo

resultado de costumbres sociales, fiestas y limas. Es evidente que las ventas de helados aumentan durante los meses

de verano debido las al eraturas de esta estación. Este es el patrón de estacionalidad n em ebe notarse que la estacionalidad se anula si misma dentro del mismo año, razón por la que los incrementos en el

es estacionarios.

l último patrón, la aleatoriedad, refleja las variaciones inexplicadas de los datos. Estos movimientos al azar pueden ser resultados de colección de errores o de circunstancias inesperadas como s, guerras, etcétera.

mencionados patrones. En forma simple pusaleatoriedad. Un patrón cíclico representa los altibajos de la activida(aunque también se presenta en meteorología, por ejemplo:Este patrón es fácil de identificar y de anticipar. Así, se calculmacroeconómico en los países industrializados es de cuatro años; sin ede 1979 a julio de 1981), en tanto que el ciclo anterior duro 6 años. En cuanto a México, podría decirse que los ciclos macroeconómicos han seguido hasta la fecha los cambios presidenciaa Eincremento horizontalEste periodo uele cupgmismo, muchos analistas no intentan separar ambos patrones (aunque el método de descomposición si trata de hacerlo). El tercer patrón es la estacionalidad, que son los movimientos recurrentes en el lapso de un año como c

a tas temp; si bargo, d

amismo año no contienen patron E

huelga

En resumen, una serie de datos consta de patrones cíclicos, de tendencia, opósito de los métodos de las series de

empo es eliminar estas irregularidades e influencias estacionales y estacionales y aleatorios. El prtiproyectar una serie de datos más bien con base en sus patrones de tendencia/ciclo. • Medición de la precisión Sin importar cuál método se aplique para generar una proyección el mejor indicador para medir una predicción es la exactitud (o precisión). Todos los comparativos de desempeño, simplicidad, costo, etcétera., deben someterse al hecho de que el mejor método es aquel que muestre la mayor precisión en el pronostico. Una compañía puede evaluarse según sus utilidades, y los analistas de métodos de predicción pueden medirse con base en su xactitud.

o obstante, también debe notarse que la precisión tiene otra connotación en el es r re n cu D o con

2. Error medio a ion). 3. Promedio del error al cuadrado(MSD: Mean square deviation).

e N

proceso de predicción, ya que la construcción del modelo depende dete concepto; en efecto, el analista escoge el modelo y los datos que mejoproducen los datos históricos. Esto es, las medidas de exactitud muestraal modelo tiene menor error de predicción.

ebido a que la exactitud pasada y futura son tan importantes es necesariocer las medidas mas usuales del error de predicción:

1. Error promedio. bsoluto(MAD: Mean absolute deviat

4. Error absoluto medio porcentual(MAPE: Mean absolute percent error).

• Error promedio En el cuadro 4.2 se ilustran las cuatro medidas de error y sus capacidades y

mitaciones correspondientes. El error promedio se calcula como la

que las variaciones negativas son iguales a las positivas . Así, ste error es inapropiado para medir la exactitud de la predicción.

lidiferencia entre los datos observados(columna 2) y el valor de predicción(columna 3). Como puede verse, los errores individuales de predicción(columna 4) se compensan, de manera que la suma de los errores es cero pore

• Promedio de la desviación absoluta (MAD) Una mejor medida de la variación en la predicción es la desviación absoluta o MAD, que considera los valores absolutos (Sin tomar en cuenta el signo) de los errores calculados en la columna 4, de manera que los alores positivos no se compensan con los valores negativos. En la

columna 5 los error a suma de MAD es 8 y su promedio es 4.7. La ev ación d error la predicción se ve mas justa.

vse ha eliminado el signo de es de la columna 4. L

alu el de

(1) (2) (3) (4) (5) (6) (7)

Tiempo Real Predicción ErrorError

Absoluto Error

cuadrado

Error Absoluto

Porcentual 1 10.0 11.0 -1.0 1.0 1.0 10.0% 2 20.0 16.0 4.0 4.0 16.0 20.0% 3 15.0 18.0

Suma -3.0 0.0

3.0 8.0

9.0 26.0

20.0% 50.0%

Media o promedio 0.0 2.7 8.7 16.7% Cuadro4 edición ecisión

E colum también ica c os v son ativos uánto n positivos; esto es, cuántos valores quedade los datos históricos. En la tabla se ve que dos están por encima y uno por debajo, lo cual proporciona al analista confianza de que no hay sesgo en los datos. •

.2 M d pre la

sta na ind uánt alores neg cy s son por encima y cuántos por debajo

Promedio de la desviación al cuadrado (MSD) Al elevar al cuadrado los errores, la suma también elimina el signo. El MSE tiene ad se penaliza

ucho mas a las variaciones grandes que a las pequeñas.

que la predicción con el MAD más pequeño también tiene el enor MSD.

emás otra función ya que al elevar al cuadradom Este impacto puede verse en el cuadro 4.2, donde el promedio del error absoluto es 4.7, en tanto el promedio MSD es 8.7. Debido a esta característica se prefiere el MSD al MAD, ya que el MSD muestra mejor las variaciones mayores(amplificándolas); sin embargo, en la practica puede versem • Error absoluto medio porcentual(MAPE)

Esta medida también es muy popular. Igual que el MAD y el MSD, usa los valores absolutos(sin signos); no obstante, consume un paso más en el

proceso, ya que mide el error en porcentaje.

100t

ttt X

FXPE −= (4.1)

n

PEMAPE

n

tt∑

== 1 (4.2)

Al sustituir en las formulas anteriores se obtiene que el resultado es de 16.7. La ventaja del MAPE es que se expresa en forma porcentual, lo que permite comparar series de datos divergentes porque los porcentajes se constituyen en común denominador. Así por ejemplo, las predicciones de ventas de computadoras de IBM pueden compararse con la predicción de ventas de automóviles Chrysler o con las ventas de cualquier otra empresa, sin importar cuán diferente es el producto manufacturado. • Nivel de precisión Una vez que se han analizado las medidas de exactitud para un modelo de erie de tiempo, es necesario preguntarse ”¿Cuál es el nivel de exactitud ue debe perseguirse al procesar un modelo de predicción?”.

e no una r ivamevariaciones aleatorias pueden ser bastante volátiles, en cuyo caso las proyecciones elaboradas no sonconfiables. En cambio, datos homog curso con erm er

icos n un a ivel d confianz

l i io de rabajo de predicción los primeros intentos generan errores considerables, si estos modelos se enfocan desde una perspectiva

ta si pre existe una amplia posib lidad jor

odo e aten ión dos directos (Naive).

sq Aunqu existe espuesta p

con los

recisa, intu

modelos éneos de

it nte se sab

lo suficistante p

e que las

entemente ite hac

pronóst co lto n e a.

Cuando a nic los t s

optimis em i de me ía.

• Mét s d uac . Méto

Estos métodos pueden considerarse como puntos de referencia para decidir sfuer vale l na ra qué pueden compararse los resultados

del modelo que está trabajándose(Benchmark)(Thomopoulus,1980).

El primer método, NF1(Naive Forecast 1), usa la información mas reciente m e q e si está p parándose una

dicción para un izonte de un solo periodo, el valor más reciente liz par decir el valor del siguiente periodo. La formula es

muy simple:

si el e zo a pe y cont

disponible referente al valor real, de pre

odo d u re hor

puede uti arse a pre

tt XF =+1 (4.3)

nde

= Ultimo valor real(para el periodo t) En estadística este modelo se conoce como modelo aleatorio caminante(Random Walk Model ) y en ciertas ocasiones, debido ala inercia de los datos observados, puede ser el mejor predictor. Por ejemplo, en los mercados de valores de futuros, frecuentemente los datos se manejan con estos modelos caminantes, que hacen de la ecuación (4.3) la mas apropiada para efectuar pronósticos. Lo anterior quiere decir que existe fluctuación en los datos, pero es difícil predecir los giros bruscos. Si el método de evaluación MAPE se utiliza con n-1 términos incluidos en este método de predicción (NF1), predicción empieza realmente con el periodo 2. La aplicación de este método facilita obtener medidas comparativas de mejoría obtenible a través de métodos formales de predicción. El MAPE se presta mejor para benchmark que otros métodos de evaluación como el MSD, ya que permite observar la exactitud relativa de los resultados . • Métodos de atenuación. Promedios móviles simples.(SMA):

do

1+tF = Periodo a predecir para t+i t= Periodo actual i = Numero de periodos futuros a predecir

tX

El método de promedios móviles simples es un método de primer orden; es decir, se considera simple en el sentido de que el promedio de un número dado de observaciones(periodos) se utiliza para predecir el valor del periodo siguiente. Cada autor maneja este método de diferente manera, y en este caso se utiliza la interpretación Moore, (1989). En el cuadro 4.3 se

utiliza un prompro(co

edio movible (SMA) de tres años (base tres), donde se la media

lumnan los valores 20, 60 y 40 de el p e 40 3), que se convierte en la predicción para el cuarto

(columna 4).

a cada nuevo punto de datos a obser y la mas antigua. Por lo tanto, ahora en el año 4 se obtien

UE DE LA ATENU AS R PO

Cuadro 2.3 Promedios m

lor de 50 que , agregado a los valores de 40 y 60, genera el promedio +40+50)/3 o se con tico para el s

caso, la f vible p

columna 2. rom dio es

vacióne

IES DE

vierte en

les es:

per Se se

iodo

avelim

anzaina

, se agrega la nuev

ENFOQ ACIÓN PARA L SETIEM

ovibles simples. Ejercicio 2.1: Ventas

Un de el

va50pro

[(60nos

bseigu

rvaien

ciote p

neer

s]. iod

Eso (

te nAñ

ueo 5

vo).

promedio

En

este ormula general para los promedios mo s sim

∑=

−−− =+++ nXXX

F 1K (2.4)

esta el pr

representan los valores observados de pe os pasados hasta n . Al sustituir en la ecuación (4.4) , se tienen

que 40+60+20 correspon t-3´ y al sustituir 3

=t 1

tXntttt nn

21

En formula Ft es la predicción de los SMA para esente periodo,donde los valores de x, t-1,t-2,...,t-n , los riodentonces por n se calcula lo siguiente :

de a x t-1 + x t-2 + x

36 )200 +40(40 +

= y para 36 )05040(50 ++

= ,

(1Añ

) o

Ventas Promedios movibles Predicción

Reales de tres años

(2) (3) (4)

1 20 _ _

60 _ _ 50 40

_ _ 50

2 3 4 5

40

40 50

_

por lo que ahora la formula es

∑+

++ =

1

21

1 n

ttt X

nF (2.5)

os SMA:

• Característica de l

a primera característica importante de este método es que los promedios ovibles(y para todos los métodos de series de tiempo) se utilizan

predicciones a corto plazo. Otra característica portante es que cada observación se pondera con el mismo peso; así, en

predicción. Cuando se incorpora un nuevo valor (50) y del alculo se elimina el más antiguo(20, ecuación 4.5), se procede

exactamente igual. Con lo anterio ye que las observaciones fuera el marco de la base del tiempo(n=3)no tiene ningún peso en la obtención

io móviles SMA:

Lmprimariamente para imel ejemplo se promediaron los valores 20, 40, y 60 para obtener el valor de 40. Cada una de las tres observaciones tiene un tercio de representación para llegar a lac

r se concluddel promedio movible que está calculándose. • Desarrollo de un modelo de promed

o a que en gran medida este método es puramente mecánico; el proceso a seguir está bastante estandarizado. El único hecho que puede alterar el modelo es el numero (base) de observaciones a promediar. En este caso, de manera arbitraria se escogió una base de 3 años, pero en la practica pueden escogerse trimestre, cuatrimestre, semestres o cualquier

res de predicción.

inexactitud de los una predicción de

Debid

otra combinación. En el cuadro 4.4 se efectúa el ejercicio 4.2, donde se comparan dos bases, de 3 y de 5 meses. En este libro, y para efectos

didácticos la comparación se simplificará utilizando solamente el MAD y el MSD para determinar cuál base genera la mejor exactitud histórica para

proyectar los valo En efecto, debido a que se conoce bastante bien la ronósticos climáticos , en el ejercicio 4.2 se estudia p

temperaturas por los últimos 14 años y se genera una proyección para la temperatura más fría (promedio de 24 horas) que podrá experimentarse para el próximo año. Si esta predicción es correcta será de gran utilidad de granjeros, la compañía de electricidad, etc., para enfrentar los efectos del clima.

El cuadro 4.4 examina promedios movibles base 3 y base 5 para ver qué

modelo, MSD o MAD, produce el menor error. Es claro que la base 5, genera el menor error indica una mejor reproducción de los datos históricos. Otra cuestión importante es que la base 5 asigna menor peso a cada observación (1/5 contra 1/3). Por lo tanto, el efecto atenuador de la base 5 es mayor, ya que reacciona menos a cada punto individual. De este hecho puede deducirse una regla general: En las regiones en que una serie de tiempo exhibe variaciones amplias alrededor de una línea estacionaria, una base más grande genera un mejor ajuste de la predicción a los datos históricos (menor error).

Promedio de tres años SMA Promedio 5 años SMA 1

Años

2 Temperatu

ra actual

3

Predicción

4 Error

cuadrado

5 Error

cuadrado

6

Predicción

7

Absoluto

8

Cuadrado

1 31 2 44 3 31 4 49 35 14 187 5 28 41 13 178 6 25 36 11 121 37 14 135 7 21 34 13 169 35 4 207 8 35 25 10 107 31 12 18 9 44 27 17 289 32 6 154 10 37 33 4 13 31 4 41 11 28 39 11 114 32 1 19 12 32 36 4 19 33 13 1 13 22 32 10 107 35 8 174 14 41 27 14 187 33 0 71 15 32

MAD

= 11 7

MSD

= 135 91 Cuadro 4.4 Temperatura diaria mas fría (grados Fahrenheit).Ejercicio 2.2

s importante hacer notar que como base puede fijarse cualquier n. En el cuadro 4.5 puede verse que la b la que genera mejor ajuste (6 rados); es decir que ninguna réplica de los datos históricos genera un

riencias permite

E

ase 7 es gresultado que mejora en promedio tales 6 grados. Esta expe

apreciar las dificultades presentes a tratar de predecir las variaciones climáticas.

onclusiones a las ya mencionadas:

l

Pueden agregarse algunas nuevas c Debido a que las variaciones de los datos afectan menos la

Periodo SMA MAD 3 11 5 8 7 6 9 7

Cuadro4.5 Medidas de exactitud en grados Fahrenheit predicción, si se utiliza una base más grande (periodo de tiempo más largo), se tiene que el factor de atenuación es mayor. El tamaño de la base

uedebase más a los va ores históricos observado Como u punto de este capitulo cabe hacer notar que existe una gran variedad de combinaciones dios movibles dobles hasta los prom s lineales de orde r ejemplo, este método lineal utiliza promedios simp resolver tendencias no estacionarias. En suma, puede decirse(Makridakis y Wheelwrigth) que cualquier tipo de promedio movible plica una ponderación de los datos istóricos más útiles suavizando y atenuando (más que pronosticando) eries de datos, ya que a su vez se muestra mejor como predictor (Método

p determinarse empíricamente haciendo varios ensayos, y la mejor es aquella que genera el menor error; es decir el que se acerca l s.

ltimode prome

edio n más alto. Poles y dobles para

imhsde promedios movibles) para datos que son más homogéneos hacia la media (tendencia central, datos estacionarios).

Mes Periodo de tiempo

Promedios movibles Base 3




Enero 1 2000

Febrero 2 1350

MAD 71.46 51.00

Marzo 3 1950

MAPE

34.89 27.88

Abril 4 1975

1767 MSD 6395.66 3013.25

Mayo 5 3100

1758

Junio 6 1750

2342 2075

Julio 7 1550

2275 2025

Agosto 8 1300

2133 2065

Septiembre

9 2200

1533 1935

Octubre 10 2770

1683 1980

Noviembre

11 2350

2090 1914

Diciembre

12

2440 2034

Ejercicio 4.3 Se tienen 11 embarques de abridores de latas y se plantea un odulo de predicción de atenuación de promedios movibles simples para el periodo 12 tanto de base 3 como de base 5. Compagine los resultados del

pitulo

m

modelo con lo que aprendió en este ca

Mes Periodo de tiempo


MSDBase 3

PromediosMovibles Base 5

MSDBase 5


MSDBase 7


MSDBase 9


MSD Base 11

Enero 1 19.0 Febrero 2 15.0 Marzo 3 39.0 Abril 4 102.0 24 6032 Mayo 5 90.0 52 1444 Junio 6 29.0 77 2304 53.0 576 Julio 7 90.0 74 267 55.0 1225 Agosto 8 46.0 70 560 70.0 576 54.9 78 Septiembre 9 30.0 55 625 71.4 1714 58.7 825 Octubre 10 66.0 55 114 57.0 81 60.9 26 51.1 222 Noviembre 11 80.0 47 1067 52.2 773 64.7 234 56.3 560 Diciembre 12 89.0 59 920 62.4 708 61.6 752 63.6 647 59.8 854 Enero 13 82.0 78 13 62.2 392 61.4 423 69.1 166 59.6 501 Febrero 14 17.0 84 4444 69.4 2746 69.0 2704 66.9 2489 60.5 1889 Marzo 15 26.0 63 1344 66.8 1665 58.6 1061 58.8 1074 59.7 1135 Abril 16 29.0 42 160 58.8 888 55.7 714 58.4 867 56.2 738 Mayo 24 48.6 55.6 51.7 53.1 Error

MSD 1484 1031 757 861 1024

EjeLa

r muestra la ve per enero 981 g cción para el mes de mayo de 1982 utilizando promedios movi base

los resultados del model ue aprendió en e apitulo

cicio4.4 El cuadro siguiente erencia desea conocer la predi

11. Compagine

nta de cuchillos eléctricos en el

o co

iodo de

ste c

de 1bles .

a abril1982. 3, 5, 7, 9 y

n lo q

Métodos de atenuación exponencial simple,

NTRODUCCION

lineal y no lineal. I Una manera de representar el método de promedios movibles simples, según se estudió en el capitulo anterior (véase ecuación 4.4), es con la formula (5.1)

NXXX

F Ntttt

−−− +++=

K21 (5.1)

Lo anterior significa que una vez obtenida la predicción para el periodo t (de F), la predicción para el periodo t +1 puede obtenerse, a su vez, sumando Xt/N y luego restando Xt-N/N. El valor de Ft+1 en la ecuación (5.1) también puede representarse con la ecuación

tNtt

t FN

XNX

F +−= −+1 (5.2)

Escrita de manera, cada nueva predicción basada en promedios movibles es un ajuste a la predicción anter anera que se comprueba que el efecto de atenuación se incrementa a hacer cada vez mayor a N; esta es, entre cada predicción se hace menor.

NE CIAL.

Seg n pu todo de promedios móviles hay dos lim e iere siempre un

ero N de valore ulas y cálculo para lograr una predicción. Segundo, el método de

ior, de m l

TEORIA DE LA ATENUACIÓN EXPO N

ú ede observarse, en el méitaciones(Makridakis y Wheelwright). Primero, se r qu

toma un espacio considerable ennúm s observados, lo quefórm

promed odas las N observaciones y no considera las observaciones del periodo anterior a (t-N).

l recordar el método directo (Naive) puede argumentarse que las obs cpuede suceder en le futuro, por lo queq e s. reque res

e

m

v cc ec

ios móviles pondera con un mismo peso t

Aervaciones más recientes ontienen información actualizada de lo que

deberían ponderarse con mayor peso ue las obs rvaciones anteriore El método exponencial satisface este

rimiento y elimina la necesidad de almacenar gran número de valohistóricos. El principio operativo d atenuaciones similar al de los promedios móviles para eliminar la aleatoriedad. El procedimiento

atemático es algo diferente; así, si se modifica la ecuación (5.2) incorporando un estimado más reciente, en lugar del valor t-N y si este alor estimado fuese la predi ión del periodo precedente, entonces lauación (5.2) quedaría

ttt F

F+−t NN

XF =+1 (5.3)

Dicha ecuación también puede escribirse de la siguiente manera

ttt FN

XN

F ⎟⎠

⎜⎝

−+=+ 11 (5.4)

Ahora se tiene una predicción que ha dado un peso de 1/N a la

⎞⎛ 11

observación á nt eso de 1-1/N a la predicción que se obtuvo de dicha

observación, y si luego la notación 1/N se sustituye con la letra alfa(�), entonces se obtiene

m s recie e y un p

ttt FXF )1(1 αα −+=+ (5.5)

es la ecuación general utilizada por el método de atenuación

xponencial simple. P o la necesidad os con bases

d s. Si la ecuación (5.5) se desarrolla sustituyendo el valor de Ft dado

Estae uede comprobarse que se ha eliminadde manejar varias observaciones para obtener promedigran epor ttt FXF )1(1 αα −+=+ , entonces se tiene

])1()1( 111 −−+ [ −+−+= tttt FXXF αααα

12

11 )1()1( −−+ −+−+= tttt FXXF ααααα

(5.6)

Sin embargo,

22−1 1(+ ) −−+= tFtXtF αα (5.7) Al co inuar sus ndo se la sig e ecua

nt tituye obtiene uient ción:

222) Xα1−t1+t )1() −−−−+= ttt FXF ααα (5

y así sucesivame De esta ecuación puede verse la atenuació onenclimitación de los promedios movibles, ya que adjudica pesos decrecientes a

lmd 5.1.

Cuadro 5.1 Peso decreciente para los valores más antiguos � = 0.1

1( −+ α1(α +X .8)

nte.

n xpe ial limina la segunda e

las observaciones anteriores; es decir, debido a que el valor � es un número entre 0 y 1, entonces (1-�) también es un número entre 0 y 1, y por tanto los pesos �(1-�), �(1-�)2, etc., tienen valores que decrecen exponencia ente. De aquí el nombre de atenuación exponencial. Holton muestra claramente lo anterior en el cua ro Sin importar el valor que se elija para la constante �, la suma de los pesos alcanzará finalmente el valor de 1. el valor escogido de la constante hace que la suma de los pesos converja rápidamente o lentamente.

Tiempo Cálculo Peso t 0.1

t-1 0.9 x 0.1 0.090 t-2 0.9 x 0.9 x 0.1 0.081 t-3 0.9 x 0.9 x 0.9 x 0.1 0.073 Total 1

Si se escoge �=0.9, la suma de los pesos converge mucho mas rápido que con �=0.1, como se muestra en el cuadro5.2.

Cuadro 5.2 Peso decreciente Tiempo

� = Cálc

para los valores más antiguos 0.9 ulo

Peso

t 0.9 t-1 0.1 x 0.9 0.09 t-2 0.1 x 0.1 x 0.9 0.009 t-3 0.1 x 0.1 x 0.1 x 0.9 0.0009 Total 1

omo simple guía para escoger �, si la serie numérica tienen amplias ariaciones aleatorias deben seleccionarse valores cercanos a 0. Si se desea

ambios más recientes de los valores no a 1. El valor de � también puede icamente dicho valor y procesando el tes valores de �, para seleccionar

ensayo que obtenga el menor MSD(Mean Square eviation).

Para efectos del proceso pueden utilizarse las siguientes ecuaciones alternas a la ecuación 5.5:

Cvque la predicción dependa de los creales, debe elegirse un valor cercaseleccionarse haciendo variar empírmodelo varias veces con diferenosteriormente el p

D

)(11 ttt FXFF −+=+ α o bien ttt eFF α+=+1 (5.9) Como �=1/N, en un modelo de promedios movibles también podría interpretarse que una � cercana a 0 corresponde a un valor mayor de N (mayor número de observaciones), en tanto que un valor de � grande corresponde a un menor valor de N (correspondiente a un menor número de observaciones). 3.3 ATENUACIÓN EXPONENCIAL SIMPLE Varios aspectos de este modelo se ilustran con el ejercicio 5.3 del capitulo anterior. En el cuadro 5.3 (ejercicio5.1) se muestran los valores pronosticados utilizando la ecuación (5.5) o la ecuación (5.9). El único punto importante a recordar es que para el primer periodo no existe pronostico disponible(este hecho se enfrentará recurrentemente para cada modelo de series de tiempo). En este caso, el valor de la primera observación(la demanda de enero) puede utilizarse también para el primer pronostico. Así, F2= X1=2000. A continuación, tomamos este valor de

2000(el pronostico previo) y le sumamos el resultado de 0.1(1350-2000) para obtener 1935, que puede utilizarse como predicción para el periodo número 3.

En la f � en la cantidad de atenu rvados. Un valor � rande(0.9) logra muy poca atenuación, mientras un valor pequeño de � .1) genera una atenuación considerable.

s de dos bases e promedios movibles (3 y 5), entonces es posible evaluar la exactitud de

igura 5.1 se observa el efecto que tiene el valor de la constante

ación lograda en los valores obseg(0 En la grafica puede observarse que el valor 0.1 de � muestra una línea que casi no fluctúa. Al calcular el error MSD se observa que �=0.1 genera un error menor que aquellos errores MSD correspondientes a valores mayores de �. Como en el capitulo anterior ya se calcularon los erroredambos métodos.

3000

3500

0

500

1000

1500

2000

0 1 2 3 4 5 6 7 8 9 10 11 12 13

Dem

and

2500

Periodo de tiempo

a Demanda observada?=0,1?=0,5?=0,9

Figura 5.1 Comparación de la atenuación exponencial simple para predicción con valores � 0.1, 0.5 y 0.9 (ejercicio5.1)

Cuadro 5.3 Pred a para cuchillos eléctricos para el mes de Dici nuación exp le

(Ejercicio5.1) ción exponencial

s

icción de la demandembre utilizando la ate onencial simp

Atenua

imple Periodo Mes

Demanda observada �=0.1 �=0.5

1 Enero 2000 �=0.9

2 Febrero 1350 2000 2000 2000 MSD0.1=34313 Marzo 1950 1935

1675 1415 MSD0.5=4338

4 Abril 1975 1937 1813 1897 MSD0.9=50345 Mayo 3100 1940 1894 1967 6 Junio 1750 2056 2497 2987 7 Julio 1550 2026 218 Agosto 1300 1978 1837 15 9 Septiembre 2200 1910 1568 1328

10 Octubre 7 2123 11 Noviembre 3 2330 2709 12 Diciembre 0 2386

23 1874 82

22

75 1939 1884 50 2023 2056 234

Puede observarse que el mejor de los dos métodos computados es el promedio movible de 5 me 0.1. También es fácil observar que los de cómputo con el método exponencial simple son más sencillos, y el hecho de apreciar intuitivamente que la pond el exponencial se basa en los datos más recientes, hace que mente prefiera el método exponencial, en lugar del movibles con base mayor. Esta evaluación mostrado

petidamente que el método exponencial produce resultados sencillos y onfiables en una amplia gama de aplicaciones de predicción (forecasting).

DODO Yamudatefepat dente o descendente), entonces el método xponencial simple ya no es tan efectivo.

Parmapuede Si ncial simple se utiliza para datos con tendencia, la preposdatajuproexp

ses y es muy semejante al de �=requerimientos

eración para el analista normal de promedios

ha sido comprobada por la experiencia, que ha rec

BLE ATENUACIÓN EXPONENCIAL LINEAL DE HOLT DE S PARÁMETROS, PARA TENDENCIA

se ha mostrado ampliamente que cuando los datos son homogéneos y estran poca variación con respecto a la media(el patrón histórico de los os es estacionario),estas técnicas de atenuación pueden utilizarse ctivamente y a muy bajo costo. No obstante, si los datos muestran rones de tendencia(sea ascen

e

a enfrentar este problema Holt (1957) y Brown (1956) desarrollaron de nera independiente, y casi simultánea, métodos de atenuación lineal que den resolver procesos de predicción con datos que exhiben algún patrón tendencia y que, como en el caso anterior, son efectivos y de bajo costo.

el método exponedicción resultante tendría un error sistemático amplio negativo o itivo, dependiendo de la tendencia descendente o ascendente de los os originales. La predicción mejora notablemente si esta tendencia se sta utilizando algunos métodos lineales de atenuación: el doble de medios movibles, el exponencial lineal de un parámetro de Brown o el onencial lineal de Holt de dos parámetros.

Para efectos prácticos, el método de Holt se tiene ventaja sobre los otros dos por tres razones principales: ante todo, su simplicidad, ya que sólo reqestexp remento (o de factor de tendencia) a la ecuación de la atenuación exponencial para así pod

uiere de dos constantes: � y β y de tres ecuaciones; en segundo lugar, e método no es más que una extensión del modelo de atenuación onencial simple y, en tercer lugar, agrega un factor de inc

er ajustar dicha tendencia

))(1(1 tttt TFXF +−+=+ αα (5.10)

tttt TFFT )1()( 11 ββ −+−= ++ (5.11)

11 +++ += ttmt mTFH (5.12)

don

de:

1+tF = valor atenuado para el periodo 1+t α = constante de atenuación

r de los d les

dicción p iodo

X t = valo atos rea

tF = pre ara el per t (valor atenuado 1−t ) tor de te1+t = facT ndencia

β =constante de de la tendodos fut decir

predicción para el per

atenuación encia m = peri uros a pre

mtH + = de Holt iodo mt +

ión (5.10 para el iento del periodo anterior sumando al valor atenuado del periodo anterior. El estimado

de la tendencia se calcula en la ecuaci ), donde se a la diferencia de los dos úl res

La ecuac ) ajusta 1+tF crecim tT

tT tF

1+tT ón (5.11 computtimos valo F atenuados. Debido a que estos dos

valores ya han sido atenuados, e asum ue la d ferencia entre un estimado de la tendencia de los datos. La segunda constante de atenuación

e q i ambos es

( β )de la ecuación(5.11) se obtiene utilizando el mismo principio empleado para determinar la constante (α ) de la atenuación exponencial simple. El

lor más reciente de la tendencia )( FFva 1 tt −+ se pondera por la constante β ) y, entonces, el ultimo valor tT atenuado de la tende a sncia es u vez (

ponderado por )1( β− . La suma de los valores ponderados es el nuevo valor de la tendencia .

La ecuación (5.10) se utiliza pa periodos de tiem n el futuro sumando el producto del componen

y el o do alor do . Este d o ex el a es a un factor de tendencia. El mod o er s d nda ta s cáejecutados pueden verse para el periodo 8, utilizando

1+tT

ra llegar a la predicción de mpo e te de tendencia 1+tT

númer de perio s m al v atenua actual +tF 1

méto o aplica c n bastante actitud juste nec ario par predecir cuadro5.4 (ejercicio 5.2)

ie de datoilustra la aplicación del

de invenelo H lt a una s e dema rios. Lo lculos α = 0.2,

m β =0.3 y =1, así,

778 (5don

7F .10)

mmT+FH = con .12)

de:

)6T+ (8.06 F+2.0 X=2.0

con (56

87.168)39.52.170(8.0)174( =++ TT

= 6677 7.0)F(3.0 F +−= .1 7.

con (5 1) 37.3)39.5(0)174214(3.0 =+−=

así:

25.172)1(37.38.1688 =+=H

Cuadro 5.4 Método de exponenciación lineal de dos parámetros de Holt. Demanda de inventarios (ejercicio5.2)

α = 0.2 β =0.3 =1 m X S b 1 143 143.00 9.00 2 152 152.00 9.00 3 161 161.00 9.00 161.00 04 139 168.80 7.14 170.00 9615 137 164.15 5.10 170.94 11526 174 170.2 5.39 169.26 23

1128

7.50 4270 610.07

7 142 168.87 3.37 175.59 2.25 8

9 141 16

166.0016 .4

1.50 17

17 976302 6 1. 16

El proceso de inicialización del modelo de atenuación lineal de Holt de dos parámetros requiere dos estimados: uno para obtener el primer valor atenuado y otro para obtener el valor de la tendencia. El primer

valor coge tF tT

t es fácil de obtener: se esF tt XF = . El estimado de la tendencia es bastante problemático algunas veces. En principio, se requiere un estimado de tendenc de u eriodo siguiente, de manera que exis varias p ilidades

X

la ia n p alten osib :

1X21T −=

3)()()1( 3432 XXXX

T 2X1

X−+−+−

u omportan bien”, la alternativa escogida no es

lver predicciones de sin embargo, estos

pronósticos de datos que muestren

=

1 =un estimado “a ojo” de la pendiente, después de graficar los datos T

C ando los datos “ se ccrítica, pero los datos del ejercicio 5.2 presentan una “caída dramática” en los periodos 3 y 4, de manera que si se utiliza la segunda alternativa, que incluye la diferencia X4 - X3, entonces el método requiere gran cantidad de periodos para dirigir la tendencia otra vez hacia arriba, sobreponiéndola a

influencia de tan notable “caída”. la TRIPLE ATENUACIÓN EXPONENCIAL: MÉTODO DE WINTERS DE TRES PARÁMETROS, PARA TENDENCIA Y ESTACIONALIDAD Todos los modelos utilizados hasta ahora pueden resoatos estacionarios, no estacionarios y con tendencia;d

modelos no son efectivos para hacer variaciones estaciónales.

))(1( 11 −−−

+−+= ttpt

tt TF

SXF αα

Este método de predicción está basado en tres ecuaciones y es similar al método de Holt, una ecuación adicional para la stac

e ionalidad.

ptt

t F −t S−+ )1( β

11 )1()( −− −+−= tttt TFFT γγ

tttmt SmTFW )( +=+ Donde P indica la longitud de

estacional en número de s y S significa el estimado

de estacionalidad

tiempo periodo

XS = β

Figura 5.2 Triple exponeniple exponenciación de Winters para tendencia y

e tres parámetros

dizar mucho en este modelo (véase figura 5.2), el método de

iones estacionarias, la egunda para la tendencia y la tercera para la estacionalidad.

métodos de atenuación. el análisis de éstos surge tres conceptos de mejora y utilización

elos, de tal manera que se resuelvan situaciones especiales de predicción. Al respecto, pueden mencionarse el m delo de tr atenua expone al cuadrática de Bro e a er les l método de a uación armónica d la simplicidad de los métodos de atenuación, pero trata de introducir transformaciones de Fou i e of (Pegels, Gar

Triple exponenciación cuadrática Métodos de atenuación

e ncia

ciación de Winters para tendencia y e tres parámetros

dizar mucho en este modelo (véase figura 5.2), el método de

iones estacionarias, la egunda para la tendencia y la tercera para la estacionalidad.

métodos de atenuación. el análisis de éstos surge tres conceptos de mejora y utilización

elos, de tal manera que se resuelvan situaciones especiales de predicción. Al respecto, pueden mencionarse el m delo de tr atenua expone al cuadrática de Bro e a er les l método de a uación armónica d la simplicidad de los métodos de atenuación, pero trata de introducir transformaciones de Fou i e of (Pegels, Gar

Triple exponenciación cuadrática Métodos de atenuación

e ncia

estacionalidad destacionalidad d Sin profun

Sin profunWinters se basa en tres ecuaciones de atenuación (de hecho, sigue la misma lógica que el modelo Holt):una para las variacWinters se basa en tres ecuaciones de atenuación (de hecho, sigue la misma lógica que el modelo Holt):una para las variacss OTROS MÉTODOS DE ATENUACIÓN Al igual que el método de Winters, existen otros

OTROS MÉTODOS DE ATENUACIÓN Al igual que el método de Winters, existen otros DD(Makridakis y Wheelwright): (Makridakis y Wheelwright): a) Incorporar la transformación de datos en los moda) Incorporar la transformación de datos en los mod

own de un parámten

own de un parámten

ipleiple ciónción ncino lineane

ncino lineane

tro ptro p r resolve Harrison

r resolve Harrison

tendencias, que mantietendencias

, que mantie o e o e

rier a f n de agrrier a f n de agr gar sgar s isticación matemática a dicho misticación matemática a dicho modeloodelodner). dner).

xponexpone l l '+t Sα Pr1

' )1( −−= tt XS α i at n mera enuació ''

1' 1( −−+ tt Sα Se'' )=t SS α a ón ti

ple, de Brown, de Chow gunda tenuaci Adapta vos:

Sim'''1

'' )1( −−+ tt Sα Te''' =t SS α atenuación rcera Jenk re metros

utiliza residuales y autocorrelación.

Box ins de t s pará

'''''' 3 ttt SS +− 3t Sa =

todo a o rrison Mé rmónic de Ha'''''' 3 tt SS +− 3 tt Sa = liza m

ie uti transfor aciones de

Four r

) Es

21(

''''''tc −

−=

te do ión iza

cuando Los datos muestran una

Sistema nitoreo Trigg

()2 ttt SSS +

α

2α métode prediccse util

de mo

2

21 mcb+aF mt +=+ tendencia no

lineal (cuadrática, cúbica o de orden mayor)

ttmt

Figura 5.3 Otros métodos de atenuación exponencial b) Incorporar el enfoque adaptativo a los modelos de atenuación, lo cual

implica que, en lugar de tener un valor único de cualquiera de los parámetros utilizados (�, β o γ), este valor puede variar, de manera controlada, según los cambios que vayan ocurriendo en los patrones, sean aleatorios, de tendencia o de estacionalidad. Esta característica es atractiva cuando se tienen cientos o miles de observaciones para lograr una predicción, y en done este enfoque permite cambios automáticos en los valores delos parámetros, según vayan cambiando los patrones de variación de la información.

c) Todos los de computación, como SAS, SYSTAT, SPSS o MINITAB,

con ización de los métodos de atenuación tanto por pro ios movibles como por exponenciales, transformaciones y enfoque adaptativo en forma transparente para el usuario; es decir el paquete presenta una pantalla de dialogo donde solicita, en forma

, quieren calcular: aleatorio, de tendencia y/o

En el mismo dialogo, el paquete solicita el valor que el usuario desea adjuntar al parámetro o parámetros que se aplican a los patrones mencionados y, entonces, además de algunas otras indicaciones de orden computacional (impresora, almacenamiento, etc.), procede a calcular el pronostico solicitado, generando la predicción con tantos valores como

templan la utilmed

practica qué patrones se rede estacionalidad.

el usuario solicite, gratificando dichos valores y presentando el error de serie de datos procesados. Cada paquete presenta los errola res

computados estándar de cada modelo y ensayo, que son los ya

Atenuación exponencial simple:

mencionados en el capitulo 2 y 3: MSD, MAD y MAPE. Debe mencionarse que, en general, los paquetes no indican cuál método ha sido programado. Es factible suponer, entre otras razones, que en la mayor parte de los casos el modelo es elegido en función de consideraciones pragmáticas. Como ejemplo, y dada simplicidad, para el calculo de la tendencia suele preferirse el modelo Holt de dos parámetros al de Brown, de un parámetro .

EJERCICIOS •

or cuadrado

Con las ventas de detalle de farmacias a partir de enero de 1980 realice la atenuación exponencial simple. Se escogió arbitrariamente un valor de �=0.168

Fecha Datos Error Err1980-Ene 2410.73 1980-Feb 2295.97 -114.76 13170 1980-Mar 2405.33 13.88 193 1980-Abr 2458.69 64.91 4213 1980-May 2512.29 107.60 11579 1980-Jun 2468.3 2074 45.54 1980-Jul 2451.35 20.94 438 1980-Ago 2515.78 81.85 6699 1980-Sep 2455.28 7.60 58 1980-Oct 2628.81 179.85 32347 1980-Nov 2582.01 102.84 10575 1980-Dic 2731.78 235.33 55380 1981-Ene 136725 MSD= 12430

• Doble atenuación exponencial lineal de Holt : Con los mismos datos del ejercicio anterior, desarrolle la atenuación exponencial lineal de Holt, con �=0.052 y β=0.294. Valor inicial T=40 Fecha Datos Atenuación Tendencia Predicción Error Error

cuadrado

1980- 2410.73 2410.73 40.00 Ene

1980-Feb

2295.97 2448.65 39.93

1980-Mar

2405.33 2478.05 36.45 2488.04 -82.71 6840.69

1980- 2458.69 2508.83 34.7Abr

8 2514.50 -55.81 3115.10

1980- 2512.29 2539.19 33.48 2543.61 -31.32 980May

.89

1980-Ju

2468.3 2569.54 32.56 2572.68 - 10894.81n 104.38

1980- 2451.35 2595.14 30Jul

.52 2602.10 -150.75

22725.46

1980- 2515.78 2616.59 Ago

27.85 2625.66 -109.88

12073.22

1980- 2455.28 2637.75 25.88 2644.45 - 35783.57Sep 189.17 1980-Oct

2628.81 2652.80 22.70 2663.64 -34.83 1213.07

1980- 2Nov

582.01 2673.08 21.99 2675.50 -93.49 8740.99

1980-Dic

2731.78 2689.18 20.26 2695.06 36.72 1348.34

1981-Ene

2710.60 20.60 2709.44 103716.14

MSD= 10372 • Otros métodos atenuación :

Utilizando la serie no aleatoria 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, calcule la predicción del periodo 11 utilizando el método exponencial simple y el método exponencial lineal de Holt. ¿Qué valor de � debe usarse en el exponencial simple?¿A la luz de la ecuación 4.9, por que?¿Cuál debería ser el valor inicial de T en el exponencial lineal?¿por qué? �=0.1 �=0.001 β=0.1

Datos Exp. Simp. Error Atenuación T Holt Error 2 2 2 2

4 2 2 4 2 4 0 6 4 2 6 2 6 0 8 6 2 8 2 8 0 10 8 2 10 2 10 0 12 10 2 12 2 12 0 1 4 12 0 2 14 2 14 1 6 14 2 16 2 16 0 18 16 18 0 2 18 2 20 0 0 18 2 2 2 20

20 22

ATENUACIÓN O IAL TADA A TE T

U i co enci manej ten li se denomina Método de dos parámetros de Holt

EXP NENC AJUS A L NDENCIA:MÉTODO DE HOL

na técn ca que se usa n frecu a para ar una dencia neal

( )( )11−1 −+−+t=t tTY tAA αα

. La Técnica de Holt atenúa e te a y ndient pleando diferentes c tantes de aten n da un las. Con esta ecuación se atenúa la serie en forma exponencial de manera si e so de avizació one m la d encia radica ue rega u rmino para toma u la te . L c s n en e écnica s La serie exponencialmente atenuada

La estimac de

El pronóstico de “p” periodos en el futuro Donde : A v α = Constante de atenuación de los datos (0< α<1)

n forma directons

a la ndenci la pe e emuació para ca a de el

milar a como seifer

hacia n el ca la su n exp ncial si ple, en q se ag n té r en c enta

ndencia

as tres e uaciones que e utiliza sta t on:

ión de la ten ncia

t = Nue o valor

( ) ( ) 11 1 −− −+−= ttt TAAtT ββ( ) pLtttpt SpTAY +−+

∧

+=

atenuado

Y Nueva observación o valor real de la serie en el periodo t ß = Constante de atenuación de la estimación de la tendencia (0< ß<1) T Estimación de la tendencia p = Número de periodos a estimar Y Pronóstico de p periodos a futuro Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales en el período 1988-93. Pronosticar las ventas de 1994, usando la técnica de Holt con α .3 y ß = 0.2. Considerar además como valor inicial atenuado 500 y el v c stimación inicial de la tendencia. Solución : to a los valores iniciales : El valor inicial atenuado puede estimarse promediando unos cuantos valores de la serie, además, el valor inicial de la tendencia se puede estimar utilizando la pendiente de la ecuación de tendencia obtenida de datos anteriores. Pronóstico usando Atenuación Exponencial ajustada a la Tendencia Variable : Ventas de piezas metálicas, según años

m. Yt At

valor atenuado

Tt estimac.

Tendencia

Yt+p et

t =

t =

t+p =

= 0alor de 0 omo e

Respec

Año TriT

88 1 1

6

4

500 350

0 400

150 400

0 250

500.0 455.0 390.4 385.9

219.5 277.5

377.0 354.1

0 -4.5 -10.5 -9.9

-17.8 -10.2

0.8 -1.6

500.0 500.0 450.5 379.8

202.9 206.2

321.7 296.5

0 -150

-200.5 20.2

-52.9 194

28.3 -46.5

2 252 3 3 4 4 89 1 5 2

450 350 200 300 350 200

398.2 378.3 311.9 295.6 303.0 260.3

-7.7 -8.9 -14.2 -14.4 -12.2 -15.3

376.0 390.5 338.8 305.5 293.2 271.2

74.0 -40.5 -169.4

-5.5 56.8 -71.2

3 550 364.7 -0.5 287.6 262 7 35

8 550 403.1 3.5 404.9 145

90 1 9

550 400

426.4 437.5

5.5 6

490.3 59.7

2

4 12

13

14 3 15

16 92 1 17 2

3

350

400 650

450.1

546.4 546.4

6.7

12.1 10.9

387.3 337.6

430.9 687.3

1.9

12.7 12.4

-30.9 -37.3

10 3 11

600 750 500

471.9 531.8 548.8

8.2 13.4 13.7

554.1 591.0 491.7

45.9 159 8.3

91 1 75

2

4

18

19 4 20 93 1 21 2 22 3 23 4 24 94 1 25

EMC = 21 488.5

(1 )( 1− )1−−

+−+ t= tLt

t ASY

α

Y A LA VARIACIÓN ESTACIONAL: MODELO DE WINTER

l modelo de atenuación exponencial lineal y estacional de tres parámetros de Winter, que es una extensión del modelo de Holt, y puede reducir el error d ó e iz cu io a ra determinar la estacionalidad. Esta estima d dice estacional y se calcula l muestr que l ión del índice estacional t t lic γ, se suma después a la estimación estacio ult a por ). divide entre A e r al orma de índice en vez de hacerlo en términos absolutos, de modo que pueda promediarse con el índice estacio u p o Esta técnica s ate n forma directa la tendencia y la estacio fer onstantes de atenuación para cada uno de ellos. Las cuatro ecua q p odelo de Winter son: Serie exponencial atenuada :

Ajusta io m os estaciónales que pudieran existir en el v original Yt Estimación de la Tendencia :

Estimación de la Estacionalidad :

El pronóstico de “p” períodos en el futuro :

ATENUACIÓN EXPONENCIAL AJUSTADA A LA TENDENCIA

E

tA α T

e pron stico. S util a una eción está

ación adicada por un

n l pa ín

con la ecuació (Y /A ) se m

n 3, a cual a a ecuacultip a por

nal anterior (St-

t, para xpresaL), m iplicad (1 - γ La razón Yt se el v or en f

nal aten ado al eriod t – L.

e basa en nuar enalidad empleando di entes c

ciones ue em lea el m

la estac nalidaalor

d, eli ina efect

( ) )( 1−1− 1−+−= tt AttT A Tβ β

( ) Ltt

tt S

AY

S −−+= γγ 1( ) Ltttpt SpTAY −+

∧

+= p+

Este índice ajusta el pronóstico a la estacionalidad.

DondeAt = Valor atenuado α = Constante de atenuación (0< α<1) Yt = Nueva observación o valor real de la serie en el periodo t ß = C e la tendencia (0< ß<1) Tt = Estimación de la tendencia γ = Constante de atenuación de la estimación de la estacionalidad (0< γ<1) St = Estimación de la estacionalidad p = Nú ro de periodos a estimar L = Longitud de la estacionalidad Yt+p = Pronóstico de p periodos a futuro

uestran las ventas trimestrales do icar las ventas de 1994, usando la técnica de

Winter con α = 0.4, ß = 0 atenuado 500, el valor de 0 com tendencia y el

la estimación inicial de estacionalidad.

de e e

:

onstant de atenuación de la estimación de

me

Ejemplo : Los datos del cuadro siguiente mn el perío 1988-93. Pronoste

.1, y γ = 0.3. Considerar además como valor inicialo estimación inicial de la

valor de 1 como Solución : Respecto a los valores iniciales : El valor inicial atenuado pueestimarse promediando unos cuantos valores de la serie. El valor inicial dla tendencia se puede estimar utilizando la pendiente de la ecuación dtendencia obtenida de datos anteriores. Las estimaciones de estacionalidadse pueden calcular para datos anteriores mediante la descomposición de la serie de tiempo.

Pronóstico usando: Atenuación Exponencial ajustada a la Tendencia ya la Variación Estacional

Yt valor estimac. estimac. et

Variable : Ventas de piezas metálicas, según años

Año Trim. At Tt St Yt+T atenuado Tendencia estacional. p

88 1 1 2 2

500 350 250

500 440

360.4

0 -6

-13.4

1.00 0.94 0.91

500.0 500.0 500.0

0 -1

3 3 4

14 3 15 4

400 450 350

550

0

368.2 394.2 381.2

426.4

548.8

-11.2 -7.5 -8.1

4.4

5.5 6

13.7

1.03 1.04 0.93 0.83 1.02 1.08 0.88 0.78 1.15 1.21 0.90 0.76 1.21 1.23 0.90 0.77 1.23 1.28 0.90 0.76 1.22

500.0 357.0 362.9 338.8 305.5 293.2 271.2 202.9 206.2 287.6 321.7 296.5 404.9 490.3 387.3 337.6 554.1 591.0 491.7 430.9 687.3 751.9 546.2 449.6 718.8

50-250-10093

-12.9-139-5.5 56.8-71.2-52.9194 262 28.3-46.5145 59.712.712.445.9159 8.3

-30.9-37.3

4 200 300

311.9 295.6

-14.2 -1

89 1 5

350 200

303.0 260.3

-12.2 -15.3

2 150 219.5 -17.8 6 400 277.5 -10.2 3 7

550 350

364.7 377.0

-0.5 0

4 250 354.1 .8

-1.6 8 550 403.1 3.5 90 1 9 2

400 350

437.5 450.1 6.7

10 600 471.9 8.2 3 750 531.8 13.4 11 50 4 12

400 650

546.4 546.4

12.1 10.9

91 1 13 2

16 92 1 17 2 18

4

22 3 23 4 24 94 1 25 2 26 3 27 4 28

3 19

20 93 1 21

2

ECM = 12431.5 El modelo de Winter resulta mejor en minimizar el EMC y proporciona una forma fácil de explicar la estacionalidad en un modelo, cuando los datos tienen un patrón estacional. Un método alternativo consiste en desestacionalizar primero o ajustar estacionalmente los datos. Después se aplica el modelo de pronóstico a los datos sin estacionalidad y posteriormente los resultados se estacionalizan de nuevo para proporcionar pronósticos precisos.

ATENUACIÓN EXPONENCIAL AJUSTADA A LA TENDENCIA: MÉTODO DE HOLT

se Una técnica que se usa con frecuencia para manejar una tendencia lineal

denomina Método de dos parámetros de Holt. La Técnica de Holt atenúa

en forma directa la tendencia y la pendiente empleando diferentes constantes de atenuación para cada una de ellas. Con esta ecuación se atenúa la serie en forma

( )( )111 −− +−+= YA tttt TAαα

exponencial de manera imilar a como se hacia en el caso de la suavización exponencial simple, la

a la

a estimación de la tendencia

El pronóstico de “p” periodos en el futuro Donde :

= Constante de atenuación de los datos (0< α<1)

< ß<1)

Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales en el período 1988-93. Pro

olt con 00 y el

olución : Respecto a los valores iniciales : El valor inicial atenuado puede est inicial la ecuación de tendencia obtenida de datos anteriores.

sdiferencia radica en que se agrega un término para tomar en cuenttendencia. Las tres ecuaciones que se utilizan en esta técnica son: La serie exponencialmente atenuada

L

( ) ( ) 11 1 −− −+−= tttt TAAT ββ( ) pLtttpt SpTAY +−+ +=

∧

At = Nuevo valor atenuado αYt = Nueva observación o valor real de la serie en el periodo t ß = Constante de atenuación de la estimación de la tendencia (0Tt = Estimación de la tendencia p = Número de periodos a estimar Yt+p = Pronóstico de p periodos a futuro

nosticar las ventas de 1994, usando la técnica de Hα = 0.3 y ß = 0.2. Considerar además como valor inicial atenuado 5valor de 0 como estimación inicial de la tendencia. S

imarse promediando unos cuantos valores de la serie, además, el valor de la tendencia se puede estimar utilizando la pendiente de

Pro Variable : Ventas de piezas metálicas, según años

Año Trim. Yt At

valor Tt

estimac. Yt+ et

nóstico usando Atenuación Exponencial ajustada a la Tendencia

T atenuado Tendencia p

88 1 1

500 350

500.0 0 500.0 0

2 2 3 3

10 3

12 91 1 13 2

450 350

00

600 750

650

455.0

398.2 378.3

303.0 260.3

471.9 531.8

-4.5

-7.7 -8.9

-12.2 -15.3

7 8.2 13.4

9

500.0

376.0 390.5

293.2 271.2

6.5

337.6 554.1 591.0

687.3 751.9

-150

74.0 -40.5

56.8 -71.2

-46.5

12.4 45.9 159

-37.3

4 4 89 1

200 300

311.9 295.6

-14.2 -14.4

338.8 305.5

-169.4 -5.5

5 350 2

2 6

150 400

219.5 277.5

-17.8 -10.2

202.9 206.2

-52.9 194

3 7

550 350

364.7 377.0

-0.5 0.8

287.6 321.7

262 28.3

4 250 354.1 -1.6 298 90 1 9 2

550 550 400 350

403.1 426.4 437.5 450.1

3.5 5.5 6

6.

404.9 490.3 387.3

145 59.7 12.7

11 4

500 400

548.8 546.4 546.4

13.7 12.1 10.

491.7 430.9

8.3 -30.9

14 3 15 4 16

250 400

390.4 385.9

-10.5 -9.9

450.5 379.8

-200.5 20.2

92 1 17 2

19 4 20 93 1 21 22 3 23 4 24 94 1 25

18 3

2

EMC = 21 488.5

CAPITULO 6 METODOS DE DESCOMPOSICIÓN

ntroducción

estos se empl as matemáticas sencillas que permiten separar los trones componentes de una serie de tiempo: estacionalidad,

toriedad. Al eliminar la estacionalidad (por métodos atoriedad se obtiene la curva de ciclo / tendencia, que

es el elemento más importante de los pronósticos comerciales. Es importante hacer notar que la sencillez del método no le resta exactitud;

nto así que se utiliza ampliamente no sólo en todos los medios de negocios, sino también en las áreas técnica y científica (de hecho, una de las aplicaciones de mayor importancia es su uso en actividades censales). Los métodos de descomposición producen tres ventajas prácticas muy impo1.Una vez coutilizar.

I Los métodos de predicción más antiguos son los de descomposición. En

ean fórmulcuatro patendencia, ciclo y aleae atenuación) y la aled

ta

rtantes: mputada la predicción, su presentación es simple y fácil de

2.Los resultados, totales y parciales, brindan una perspectiva histórica que también se entiende fácilmente, con base en los conocimientos del analista y en su apreciación intuitiva. 3.Finalmente, aunque otros métodos pueden ser más exactos (Box-Jenkins), no se emplean tanto en el ámbito de los negocios debido a su dificultad de interpretación e integración en el proceso de toma de decisiones. El método clásico es tan sencillo que puede resolverse con simples calculadoras. Esto no o por ser algo más complicado des organiestadística.

Métodos de descomposición L todos de descom sición a principios de siglo, por una parte tratando de elim E cia, e 911 deb o a las económicas, decidió económicas para poder predecir los efectos de las depresiones. E 5, en E ados U s, donmicroeconom requerí ejores e separar los componentes estacionales para predecir las ventas. En actualid , la ma aplicac los sist as de c sos seg l DeptC io de tados U os y se a enfunciones desde 1955 c ocas ione

curre con el método censal, que requiere computadoras para su utilización por las gran

zaciones y las dependencias gubernamentales de geografía y

os mé po surgieron

inar tendencia y variaciones estacionales.

n Fran n 1 id crisis se separar las actividades

n 911 st nido de la ía a m maneras d

la ad yor ión es enem en ún e o. de

omerc Es nid encuentr on p modificac s.

Cuadro 6.1 Sumarización de los rincipios del método de

descomposición.

Método clásico de descomposición El método de descomposición supone que los datos están constituidos de la siguiente manera:

DATOS = patrón + error

Es decir, DATOS = f ( tendencia-ciclo, estacionalidad, error ) En otras palabras, agregado al patrón existe un elemento de aleatoriedad que, asimismo, está presente en cualquier dato de serie de tiempo. Este componente aleatorio también se denomina error o residuo. Resulta evidente que no es posible predecir la aleatoriedad, pero al menos sí puede identificarse y cuantificarse para determinar la confiabilidad o margen de error de la predicción generada por los datos ( véase cuadro 6.1 ). Teóricamente el punto de vista es estadístico, el método de descomposición tiene varios inconvenientes. Sin embargo, como ya se mencionó, en la práctica se ignoran muchas desventajas y el método se utiliza con bastante éxito. Este método se originó desde principios de siglo, aunque desde 1884 Poynting3 trató de eliminar la tendencia y las variaciones estacionales para los precios del trigo sobre una serie de tiempo de varios años. Hooker4 (1901) logró resultados más precisos y posteriormente Spencer5 (1904) y Anderson6 (1914) generalizaron el procedimiento para eliminar la tendencia. Los economistas también participaron en este método con el objetivo de predecir las depresiones, tratando así de aislar los ciclos de la actividad

Métodos de descomposición

La ecuación general para los métodos de descomposición es:

Xt = f ( St, Tt, Ct, Et )

Donde: St = Componente estacional de la variable Xt. Tt = Componente de la tendencia. Ct = Componente cíclico. Et = Componente aleatorio ( error ). El modelo puede ser aditivo, pero se ha impuesto el multiplicativo basado en promedios movibles:

Xt = St x Tt x Ct x Et

p

económica de otros patrones. En 1915, Coperland7 intentó aislar los ciclos estacionales y, finalmente, el método tal y como se conoce ahora fue introducido en 1930 por Macauley8 , quien presentó los promedios movibles como la base de los índices estacionales. El uso de computadoras e inado un amplio esarrollo y utilización de estos modelos, tanto por economistas como por nalistas de administración y mercadotecnia. La sencillez de estos métodos

a ate de los stas, qu los han o mássofisticados sin perder su enfoque y atractivo intuitivo. En la Oficina del Censo de Estados Unidos se han incorporado variantes no sólo de regresión, sino inclusive del método ARIMA. La representac máti del es la te:

Xt = f ( St, Tt, Ct t ) )

Xt (datos originales) en el período t = Componentes estacionales (o índices) en el período t. t = Componente de la tendencia en el período t.

Ct = Componente cíclico en el período Rt = Componente aleatorio (random) o error en el período t.

ponen uede asu arias fdesde la aditiva (simplement umar los ro elementos), la multiplicativa (m tiplicándolo ), la logarítmica, etc. La más usual es la multiplicativa. Lo anterior se debe a que la estacionalidad y el ciclo son proporcionales a la tendencia, or lo q n cífica es:

t t x t t (6.2) Según Majani, para desco a p atco nte e s re seestacionalid n ed

lcular un prome on base en la estacio lidad:para la anual y 4 trimestres para las cuatro estaciones tradicionales.

n las últimas décadas ha origdaha llamado l nción anali ienes hech

ión mate ca básica método siguien

, R (6.1

Donde = Valores de la serie de tiempo t.

ST

t.

La función de relación de estos com tes p

cuatmir v ormas,

e al sul s

p ue la represe tación espe

X = ( S T x Ct x R )

mponer un serie de tiem o en sus cu ro mpone s se requier

ad y eliminan cinco paso la aleatori

, donde los tad:

s primeros paran la

1. Ca dio móvil c na 12 meses

MAt = ( Xt – 6 Xt – 5 + Xt t + 1 + … + Xt + 5 ) / 12 ; Datos mensuales .3)

MAt = ( Xt – 2 + Xt – 1 + Xt + Xt + 1 ) / 4 ; Para datos trimestrales

(6.4)

2. Dividir los datos reales entre el valor promedio y multiplicar por 100, con lo que se obtienen las variaciones porcentuales por cada estación contra el promedio.

X / MA = ( S x T x C x R ) / (T x C) = S x R

(6.5)

Donde MA = T x C , ya que al promediar se eliminan la estacionalidad y

3.

los En jorar el p o que per

ad

sos:

1.

2.3.

+ + X(6

La aleatoriedad.

Promediar sistemáticamente las estaciones homólogas para eliminarla aleatoriedad de las variaciones porcentuales. Este proceso genera índices estacionales (véanse cuadros 6.2 y 6.3).

forma práctica pueden agregarse dos pasos: uno que permita meroceso de atenuación para eliminar la estacionalidad y otrmita “ajustar” los índices estacionales.

Cuadro 6.2 Proceso de eliminación de aleatoriedad y cálculo de estacionalid

La tabla se ha construido con los siguientes pa

Se promedian los valores trimestrales de un año y se centran en el tercer renglón.

Por definición, los promedios eliminan las variaciones estacionales. Al dividir las observaciones X / MA entre los promedios movibles se

obtiene la variación de la observación contra la media, que al

multiplicarse por cien da un valor porcentual. Los valores superiores a 100 indican ventas mayores que la media y viceversa. Estos valores se organizan horizontalmente, con lo que puede observarse claramente la estacionalidad.

4.

5.

Y p me

or definición, como el error es aleatorio, es igual a cero con respecto a ladia

X / MA = ( S x T x C x E ) / (T x C) = S x E

0

1000

2000

3000

4000

5000

1 3 5 7 9 11 13 15 17 19

Serie1

Gráfica de los datos originales, donde se observan la tendencia ascendente y

estacionalidad.

a r, según se vio, es igual cero.

según efectos climáticos, sociales o religiosos.

la Donde: MA = T x C, ya que

L estacionalidad desaparece al promediar, y el erroa

cionalidad es cíclica, pero lo es dentro de cada año y en general es La esta

Cuadro6.3 Promedios movibles dobles y ajuste de los índices de estacionalidad.

Métodos de descomposición.

Cálculo de la estacionalidad (%);veamos la tabla: (Venta de papel francés por promedios movibles centrados)

ad

Año

Trimestre

Periodo

Observaciones

Promedio

Movible

Movible doble

Estacio-

nalid1997 1 1 3017.60

2 2 3043.54 3 3 2094.35 2741.33 2773.48 75.51 4 4 2809.84 2805.63 2820.60 99.62

19 115.39 78 1 5 3274.80 2835.57 2838.06 2 6 3163.28 2840.56 2867.40 110.32 3 7 2114.31 2894.24 2900.83 72.89 4 8 3024.57 2907.41 2948.69 102.57

1979 1 9 3327.48 2989.96 3030.66 109.79 2 10 3493.48 3071.37 3129.64 111.63 3 11 2439.93 3187.92 3232.62 75.48 4 12 3490.79 3277.32 3298.29 105.84

1980 1 13 3685.08 3319.26 3311.57 111.28 2 14 3661.32 3303.88 3299.98 110.95 3 15 2378.43 3296.07 3316.64 71.71 4 16 3459.55 3337.21 3342.20 103.51

1981 1 17 3849.63 3347.20 3380.19 113.89 2 18 3701.18 3413.19 3428.93 107.94 3 19 2642.38 344.68 4 20 3585.52

n s es o Trimestre 1ro 2do 3ro Sumas

Í dices e tacional crud s

4toAño

1977 75.51 9 2 175.13 9.61978 .39 110.32 . 0115 72 89 102.57 4 1.17 1979 109.79 111.63 5.48 105.84 402.74 71980 .2 110.95 71.71 7.45 111 8 103.51 391981 113.89 107.94 221.83

9 15 8.32 Suma 450.35 440.84 295.59 411.54 1598.32

Promedio 112.5875 110.21 73.8975 102.885 399.58 1.00105 Factor de Ajuste

Índices Estacionales Ajustados Tr 4to Sumas imestr 1ro 2do 3ro

e Año

1977 75.5893688 99.7247109

175.31408

1978 115.511287

110.435958

72.19666149

102.677812

401.591671

1979 109.90540 111.74733 75.559373 105.91 5

51249

403.163321

17 1

980 111.39696 111.06662 71.7853746 103.6188 397.86776

1981 114.00971 108.053456

222.063166

1600 Suma 450.82336 441.30336 295.900696 411.97257 1600

5 9 1 Pr 2.70584 110.32584

2 73.9751739 102.99314

3 400 omedio 11

1

s inclu ediana ( Newbold9 ) o eliminan los valores extremos; aq os a akridakis10 para el primer paso, que consiste en centrar los valores de atenuación (promedio movible) y en seguida hacer un promedio movible doble (véanse cuadros 6.2 y 6.3):

MAdt = ( MAt + MAt + 1 ) / 2

(6.6)

. El ajuste de los índices estacionales se lleva a cabo al elaborar un cuadro horizontal de las razones porcentuales X / MA por cada período y año (cuadro 6.3). En seguida se promedian verticalmente dichos promedios y luego todos ellos se suman horizontalmente. Por supuesto, la suma debe ser igual a 400. Si ésta es inferior a 400, entonces se divide 400 entre el valor resultante (el cociente es superior a 1) y este número se utiliza como valor de ajuste. A continuación todos los índices parciales se multiplican por este factor, de manera que en la nueva tabla ahora los valores promediados son iguales a 400. Si la suma inicial es superior a 400, entonces se invierte la división, con el 400 como divisor, de manera que el factor de ajuste ahora es inferior a uno.

Los dos últimos pasos son: el cuarto para aislar y calcular la tendencia, y el quinto para aislar y calcular el ciclo.

Aislamiento y cálculo de la tendencia

Es importante hacer notar que la tendencia puede ser un componente temporal del ciclo, el cual muestra primero una tendencia ascendente y luego descendente, dependiendo si la serie de tiempo plantea la fase de crecimiento o la de depresión económica de dicho ciclo (figura 6.1a).

1. Algunos autore yen la muí aplicam M

2

Pero también puede plantearse una tendencia que trascienda al ciclo, en uyo caso los movimientos de crecimiento y depresión forman parte de

un crecimiento sostenido (por ejemplo el crecimiento de la población) como se muestra en la figura 6.1b del ejemplo del cuadro 6.3 (y que continúa en el cuadro 6.4), en el que se estudia parcialmente la venta de papel en Francia de 1968 a 1980 y pueden apreciarse varios altibajos de tipo cíclico, pero donde el esquema integral es de crecimiento sostenido.

PNB 0 1 6 x Años

Figura 6.1 (a) Ciclo sin Tendencia

Venta de papel en Francia y $

c

Probablemente una de las características más afortunadas del modelo de descomposición es que al calcular la tendencia se plantea en formasimplificada una ecuación, lineal o exponencial, que al tener agregados los índices estacionales y cíclicos correspondientes se genera este sencillo modelo, denominado de descomposición. Ciclo sexenal en México

y

12

0 1968 1980 x

EJE

de 1968 a 1980, puede verse que aunque

hay tres recesiones, una leve en 1969, una serie en 1974 - 1975 y una que comenzó en 1980, la tendencia en general muestra una pendiente lineal de crecimiento sostenido. Si se hicieran estudios parciales con intervalos cortos de tiempo, podría caerse en la parte ascendente de cada ciclo, donde el crecimiento precedente a una depresión es rápido (exponencial) tanto para los años previos a 1974 como para los anteriores a 1980. Resulta evidente que para cubrir el ciclo y la tendencia se requiere un número considerable de años que muestren el esquema general en toda su amplitud, ya que de otra manera los resultados de tendencia y ciclo podrían ser engañosos. No existe ninguna seguridad de que cualquier análisis matemático sea capaz de prever con exactitud los cambios de tendencia o ciclo, aunque la descomposición en sus integrantes permite que el analista tenga una visión bastante razonable de todo el proceso de predicción (véase cuadro 6.4). La solución matemática es muy simple, ya que al utilizar un modelo de mínimos cuadrados y graficar los períodos de tiempo en el eje de las abscisas y las ventas trimestrales en el de las ordenadas, la ecuación queda como

Tt = a + bxt (6.7)

(b) Ciclo con Tendencia de Crecimiento

RCICIO 6.1 Al considerar los datos del cuadro 6.3 y de la figura 6.1b sobre la ventade papel periódico en Francia

posición

Cuadro 6.4 Cálculo de la tendencia en el método de descomposición.

Métodos de descom(Cálculo de Tendencia)

Se utiliza el método de regresión lineal, tomando como la variable Independiente el periodo (trimestre) y como variable

Dependiente las ventas (observaciones)

Años

Tri- mest

re

Pe- riod

o

Datos Promedio

movible

Promedio

Doble

Índ. esta-

cional

Tendencia

Ind. Est.

ajustado

Predi-cción

1 2 3 4 5 6 7 8 9 10 4/5*1

00 3xb+a 8x9/10

0 199 1 1 3017. 2554.7 112.7 2879.4

7 6 8 1 97 2 2 3043.

54 2610.6

7 110.3

3 2880.3

49 3 3 2094.

35 2741.3 2773.4

83 75.5 2666.5

5 73.98 1972.7

14 4 4 2809. 2805.6 2820.6 99.6 2722.4

84 3 102.9

9 2803.8

35 197

8 1 5 3274.

8 2835.6 2838.0

63 115.4 2778.3

2 112.7

1 3131.4

42 2 6 3163.

28 2840.6 2867.3

99 110.3 2834.2

0 110.3

3 3126.9

75 3 7 2114.

31 2894.2 2900.8

25 72.9 2890.0

9 73.98 2138.0

85 4 8 3024. 2907.4 2948.6 102.6 2945.9 102.9 3034.0

57 85 7 9 53 197 1 9 33

9 27.

48 2990.0 3030.6

63 109.8 3001.8

5 112.7

1 3383.3

88 4 3129.6 111.6 3057.7 110.3 3373.62 10 3493. 3071.

48 43 4 3 3187.9 3232.6 75.5 3113.6 73.98 2303.4

56 3 11 2439.

93 2 2 .3 3298.2 105.8 3169.5

0 102.9

9 3264.2

71 4 12 3490. 3277

79 89 198

0 08 7 3225.3

9 112.7

1 3635.3

33 1 13 3685. 3319.3 3311.5 111.3

2 14 3661.23

3303.9 3299.978

110.9 3281.27

110.33

3620.226

3 15 2378.43

3296.1 3337.15

73.98 2468.827

4 16 3459.55

3393.04

102.99

3494.489

Donde Tt = Valor de la tendencia a predecir en el período t. xt = Dato observado (real) del período t a predecir. b = Coeficiente de regresión de la pendiente de la tendencia. a = Constante de intersección de la pendiente con el eje de las ordenadas. En el cuadro6.5 se muestra el resultado de la regresión para 16 valores de las ventas de papel; con los coeficientes obtenidos se procedió a elaborar los resultados que aparecen en el cuadro6.4 .

Cuadro 6.5 Cálculo de la tendencia por el método de descomposición.

Métodos de descomposición (Cálculo de tendencia)

Resultado Regresión Constante 2498.9 Error de estim. Y 534.6414Coef. determinac. (r2) 0.171589Tamaño de la muestra 14 Grados de libertad 12

Coeficiente a Coeficiente b donde Y = a + bt y t = Periodo Coeficiente(s) X 55.8836

Error coef. X .4 38 35 46

Tendencia aestac

islada, ionalidad

elimina la

0000

2000000

4000

1 3 5 7 9 11 13 15 17 19

1

3Serie2

La fórmula de predicción es muy simple: Se cálcula, como base y representación de los datos, una línea recta donde: Y = a + Xb T = a + Periodo * b Donde: T = Tendencia a = Constante b = Coeficiente de regresión Y el valor t obtenido, se multiplica por el índice estacional ajustado, restituyéndole así sus variaciones estacionales: Ft = (Periodo x b + a) x Índice estacional

A Loest o occidental. Este

pre ha sido de gran interés debido a las razones de

En Estados Unidos se ha mostrado que los ciclos están constituidos por 5 hasta 105 meses y por

variaciones de contracción que han durado de 6 a 65 meses, de manera que un ciclo1945 se registraron 30 ciclos, y desde 1945 hasta 1994 otros ocho, con

económicos y bancarios de los países industrializados. En términos algebraicos, la separación del ciclo es muy sencilla, yasi los promedios movibles se dividen entre la tendencia se obtiene

C = ( T x C) / T = MA / T , lo que multiplicado por 100 (6.8) es el índice de ciclo.

Ft = (Periodo Xb

E multiplica por 100 para obtener un valor porcentual. Debido a que las actividades cíclicas son fenómenos a largo plazo, resultobservaciones de un número múltiplo de años correspondientes al de los

os, etc.

característica de detectar los cambios cíclicos con bastante exactitud y oportunidad, especialmente en los casos en los que existen cambios bruscos donde la detección tempran bio de tendencia ascendente n la toma de deci

nálisis del ciclo

s factores cíclicos han recibido bastante atención desde los primeros udios de los trabajos econométricos en el mund

fenómeno siemextrema miseria y sufrimiento que causan dichas variaciones cuando alcanzan niveles extremos.

variaciones de expansión que van desde 2

completo puede variar de 17 a 117 meses. Entre 1854 y

un patrón recurrente que desafortunadamente es bastante irregular. Las causas pueden variar: desde eventos aleatorios como malas cosechas, sequías, etc., hasta reajustes en los sistemas

que

+ a)*índice estacional*índice de ciclo

l ciclo, igual que la estacionalidad, se

a evidente que se requiere, por lo menos, tener

ciclos que se estudian, sean macroeconómicos, meteorológic Como ya se mencionó, es posible que este método no sea tan preciso, por ejemplo, como el Box-Jenkins (ARIMA). Sin embargo, tiene la

a de un cam hacia uno descendente puede ser muy importante e

siones. Aparentemente, el método Box-Jenkins con toda su

exactitud no es capaz de determinar este tipo de cambios en el momento requerido. Otras aplicacion

Método II del censo Este método fue desarrollado en 1955 por la Oficina del Censo del Departamento de Comercio estadounidense. Como es de suponer, el

ya sin nunca ión de la

e s meses. Esta prueba fue capaz de detectar

los cambios en la estacionalidad causados por el embargo estadounidense en Medio Oriente, que provocaron aumentos de precio, lo cual llevó a la crisis del petróleo.

3. Prueba de la igualdad: Algunas veces se hacen ajustes exagerados a los datos ya sin estacionalidad, por lo que esta prueba es de gran valor para detectar estos tipos de ajuste, que no deben exceder de 90 a 110% de los valores regulares en el resto de los datos del año.

e composicións de los métodos de des

censo no requiere la estacionalidad y el personal de la oficina del censo descubrió la forma de separar los cuatro componentes de las series de tiempo, uno por uno. Otra mejora aportada por la oficina del censo fue ajustar la estacionalidad, ya que las variaciones en el tamaño de los meses hacen que algunos sean de cuatro semanas y otros de cinco, de modo que sólo por este hecho se genera hasta 10% de error adicional. Ajustar los coeficientes según la duración del mes ha permitido mejorar la predicción. Además de las mejoras operativas del método aportadas por la oficinadel censo, ahí también se diseñaron tres pruebas para determinar la precisión del método de descomposición: 1. Prueba del mes adyacente: Prueba la razón entre los valores

estacionalidad y el promedio del mes adyacente. Esta razón debe exceder de 95 a 105% para que el proceso de eliminacestacionalidad sea adecuado.

2. Prueba del mes de enero: Trata de evitar cambios importantes al pasar de un año al siguiente y consiste en comparar los resultados denero con los de los demá

Pronósticos comerciales

No hay duda de que los pronósticos no constituyen una ciencia exacta, ya que la mayor parte de los datos proporcionados por los administradores carece de un análisis profundo que les quite su carácter especulativo. El

tes

atemático, principalmente porque no entienden el alcance, las ventajas y/o las

todos ios entiendan

fácilmente los resultados del proceso de pronóstico. Los métodos de pronósticos deben ser no solamente exactos, sino también convincentes, y es en este renglón donde los métodos de descomposición resultan

ar. ntender

te

Aunque todo mundo sabe que los presupuestos se generan con base en pronósticos, curiosamente en el área financiera el presupuesto no tiende a ser de lo más exacto ni homogéneo, sino a expresar las aspiraciones, el optimismo y/o las necesidades políticas a resolver. El analista estadístico pocas veces puede aportar nada mejor que la precisión matemática, los márgenes de error y el procesamiento rápido y oportuno. Por supuesto, cuando el financiero a cargo de presupuestar incluye un factor de exceso en la predicción real para forzar cuotas de venta, motivar al personal administrativo o generar una nota de optimismo en la empresa, el analista estadístico que hace el pronóstico no debe caer en la tentación de alterar sus resultados matemáticos a fin de generar un optimismo injustificado: su función es pronosticar el futuro, no

objetivo principal de los métodos de predicción es obtener informaciónsuficiente para ayudar al ejecutivo en la toma de decisiones. Bastanhombres de negocios se niegan a usar un enfoque altamente m

limitaciones que implica el enfoque matemático. Resulta evidente que para solventar este problema, el analista de méde predicción debe buscar la manera en que los usuar

sumamente atractivos porque son muy intuitivos y fáciles de interpretEl ejecutivo puede acudir a su experiencia y sentido común para elos conceptos de ciclo-tendencia, por lo cual puede decirse que esmétodo permite un buen grado de sinergia entre el analista estadístico yel ejecutivo que asume la responsabilidad de las decisiones. Pronósticos de presupuestos

mejorarlo. El analista debe considerar, sin entrar en más detalle, los siguientes puntos:

• La economía nacional. • El ámbito internacional, especialmente en las compañías

multinacionales. • La demanda de los productos de la compañía. • El volumen de ventas. • La participación en el mercado. • El precio de los productos de la empresa.

La labor de predicción (forecasting) en las compañías modernas se cubre parcialmente por el departamento de estadística de la empresa y/o por empresas externas que realizan estas labores para los departamentos de Mercadotecnia, Recursos Humanos, etc. Este punto puede resumirse al notar que el método de descomposición es una herramienta bastante útil que permite que la empresa moderna haga predicciones mejores y más sencillas, de fácil empleo y muy atractivas desde el punto de vista de la interpretación de los resultados.

EJERCICIO 6.2 Venta de ropa de playa en el Pacíf illones de dólares estadounidenses.

ico mexicano, en m

Periodo Trimestre X T MA C I.E. F SSE

1 1 362 353,12 2 2 385 368,28 3 3 432 383,44391,02 1,02 1,15447,8 249,94 4 341 398,6 406,181,0190,87351,9 119,55 1 382 413,76421,341,0180,98411,5 869,76 2 409 428,92 436,5 1,0181,01441,61062,87 3 498 444,08451,661,0171,15517,3 371 8 4 387 459,24466,821,0170,87404,5 305,49 1 473 474,4 481,981,0160,98470,7 5,2

10 2 513 489,56497,141,0151,01 503 100,911 3 582 504,72 12 4 474 519,88

MSE = 385,6

Tendencia de la serie

0

200

400

600

800

2 3 4 5 6 7 8 9 10 111 12

Serie2Serie3

Resultado Regresión

Constante 337.954545 Error de est.Y 49.1877024 Coef. determ (r) 0.57600721 Tamaño de Muestra 12

10 Grados de Libertad

Coeficiente(s) Error co

X 15.1608392

ef. X 4.11328231

Ajuste del elo

300400500600

1 2 3

Mod

0100200

4 5 6 7 8

Serie2Serie3

Indices estacionales ajustados 1 2 3 4 113.2 88.1

96.2 99.2 116.2 85.1

99.2 103.2 114.2

97.7 101.2 114.5 86,6 400

Indices estacionales sin ajustar 1 2 3 4 113 88

96 99 116 85 99 14 103 1

98 101 114 86,5

399 Factor de ajuste= 1,001669

Resumen matemático El método de descomposición trata de aislar y predecir los patrones que integran la información histórica de la empresa como base para xtrapolar los resultados hacia pronósticos útiles en planeación y toma de

decisiones. Estos patrones son: 1. Tendencia: Es el comportamiento de los datos a largo plazo y puede

ser creciente o decreciente. Cuando no cambia puede utilizarse para abreviar el proceso de predicción.

por

ones. as

en forma de onda, que se relacionan con la temperatura, la lluvia, el frío, los meses del año, festividades o bien con políticas gubernamentales o corporativas.

El elemento error se refiere a la aleatoriedad de los daros y es la diferencia entre el efecto combinado de los tres subpatrones de una serie real de tiempo. El desarrollo matemático es como sigue:

MA = ( X1 + X2 + X3 + X4 ) / 4 = T x C ; (6.9)

Donde MA = promedios movibles. Dado que al atenuar los valores ias

) = S ; (6.10)

cuadrados),

tomando como variable dependiente a los valores reales (o los atenuados) y como variable independie nte dichos para obtener

.11)

e

2. Ciclo: Este factor representa las bajas y altas causadas condiciones macroeconómicas o industriales. El ciclo sigue a menudoel patrón de fluctuaciones en forma de ondas, con altas y depresi

3. Estacionalidad: Los factores estacionales se refieren a lvariaciones, también

(promediando) éstos pierden estacionalidad y variaciones aleator(recuérdese que Σ Xi – X = 0 ), entonces

X / MA = ( S x T x C x R ) / (T x C

T se calcula por medio del método de regresión (mínimos

nte a los períodos propiame

Tt = a + b( Pt ) ; (6

A su vez, para calcular el ciclo se tiene

MA / T = ( T x C ) / T = C ;

Ya que T en el numerador y en el denominador se anul .

(6.12)

an Por último, el error también puede determinarse algebraicamente con la única finalidad de conocer el margen de confianza de la predicción.

MA = T x C por lo que S = X / ( MA ) ; entonces

( S x T x C x R ) / S = X / S = T x C x R, de donde ( T x C x R ) / MA = ( T x C x R ) / ( T x C ) = R ; (6.13)

ya que el producto T x C se elimina en el numerador y en el denominador.

CAPITULO 7

AUTOCORRELACION

Construcción de modelos de predicción basados en técnicas de Autocorrelación. El problema practico que se abordara en este capitulo, es si es posible, con base solo en la información del pasado de las variables de una serie de tiem os dada, pronosticar los valores futuros de las mismas. En la atenuación exponencial se aplica un algoritmo a una serie de tiempo sin investigar las propiedades de esta. En este capitulo se asume que el investigador cuenta con los recursos necesarios para llevar a cabo su análisis y desarrollar una función de predicción idónea para una serie de tiempo que tiene ciertas propiedades observadas. Entonces, el algoritmo escogido para pronosticar esta determinado por dicha investigación sobre el comportamiento de los valores de una serie de tiempo. El primer paso en este intento analítico debe ser ajustar un modelo a los datos, de forma que éste genere una serie de datos de predicción que se ap

¿ cuál es la mejor manera de predecir el futuro de una serie dada?

INDEPENDENCIA DE VARIABLES ALEATORIAS

p

roximen al proceso inicial que les dio origen. Si se logra lo anterior, se tendrá una buena herramienta que permitirá plantear la pregunta:

Esta cuestión puede desglosarse en las tres preguntas siguientes: 1. ¿Que clase de modelo debe considerarse como el posible generadoruna serie de tiempo observada? 2. ¿Cómo debe proceder el analista para ajustar un modelo es

de

pecífico de una lase general de modelos a un grupo panicular de datos?

3. ¿Cómo se desarrollarán los valores futuros de predicción de un modelo que se ajuste a los datos originales?

s

es importantes que limitan en forma considerable esta cantidad:

n

cción de modelos de predicción es buscar iempre el modelo más sencillo que describa mejor las características de los

ia.

upuesto, el primer paso será siempre graficar los datos originales y enseguida desarrollar el paso de autocorrelación, que describe la relación ntre los diversos valores de la serie de tiempo según k desplazamientos de

dichos valores entre sí. Box y Jenkins resumieron los pasos de análisis para analizar series de tiempo invariadas. Una vez que se encuentra el mejor modelo, el paso final es utilizarlo para la predicción requerida véase la siguiente figura.

c

Por tanto, cualquier predicción es una función de los datos mismos, según el modelo que mejor se ajuste a ellos. En principio, existirían tantos modelocomo series de datos individuales (una infinidad); sin embargo, hay por lo menos dos restriccion

1. Las predicciones son funciones lineales de los datos observados. 2. La meta es encontrar parámetros eficientes que permitan una descripcióadecuada de las características de dicha serie de datos, siempre y cuando logre minimizarse el MSD con el número óptimo de parámetros. La limitación lineal es simplemente una manera práctica de restringir el número posible de funciones disponibles y, aun así, las posibilidades son amplias y suficientes para las necesidades prácticas del analista (debe recordarse la posibilidad de transformar los datos no lineales: Una buena estrategia en la construsdatos. Esta estrategia también se conoce como principio de la parsimonEn este capítulo se sentarán las bases del proceso de autocorrelación por s

e

FIGURA 1. Esquema de la metodología Box-Jenkins para modelación de series de tiempo.

Análisis autocorrelacionales en una serie de datos

La clave de estos modelos se encuentra en el coeficiente de autocorrelación (para las series de tiempo que se correlacionan consigo mismas con desplazamientos de 1, 2 o más periodos). La ecuación para determinar el oeficiente de Autocorrelación es c

∑

∑ −+=

−

−−= n

kt

n

ktt

k

YY

YYYYr

2

1

)(

))(( (1)

=tt

1

donde indica cómo los valores sucesivos de Y se relacionan consigo mismo

tre sí, y así sucesivamente. Al agrupar dichos coeficientes r como

Autocorrelación. A su vez, esta función puede graficO. Ejemplo 1: considere una tabla de 10 números aleatorios, como se muestra en el siguiente cuadro.

Autocorrelación Calculo de coeficientes de autocorrelacion

Observaciones

Cuadrados diferenciales vs.

media

Producto diferencia

s 1er

desplaz. 2do.

Desplaz. 3ro 4to 5to

1rs, 2r

indica cómo los valores de Y separados por dos periodos se relacionanendesplazamientos 1, 2, 3,…., se obtiene la denominada función de

13 9 -6 15 -18 -18 68 4 -10 12 12 -4 -2

15 25 -30 -30 10 5 -154 36 36 -12 -6 18 -244 36 -12 -6 18 -24 -12

12 4 2 -6 8 8 411 1 -3 4 2

7 9 -12 -6 14 16 8 12 4

100 144 -27 -29 26 -19 -4710 14.4 -3 -3.625 3.7142857 -- -9.4

Coeficiente de -

0.20138880.180555

-0.1319444

-0.3263888

9Autocorrelación -0.1875 9 5 4

Cuadro 1. Diez números aleatorios autocorrelacionados con cinco d mien si .

esplaza tos de mismos

ANALISIS AUTOCORRELACIONALES EN UNA SERIE DEDATOS

Veamos el siguiente ejemplo: autocorrelación

Cuadro 2.Resumen del calculo de los coeficientes de

autocorrelación Para 10 números aleatorios.

uvo utilizando 10 números no relacionados (aleatorios) en el rango de 0 a 20; sin embargo, si este hecho no fuera conocido, sería fácil Esta serie se obt

determinar que los números son independientes y no se encuentran relacionados entre sí al someterlos a la técnica de autocorrelación. Para cada desplazamiento calculado, si no hay Autocorrelación, el coeficiente debe estar muy próximo a cero. Al sustituir en (1) se obtiene lo siguiente:

)1012(.....)1015()108()1013()1012)(1014(....)104)(1015()1015)(108()108)(1013(

222 −++−+−+−−−++−−+−−+−−

=kr

22222 24....5)2(3)2)(4(....2)6()6(5)5)(2()2(3

++++−+++−+−+−+−

= 188.0−=

Validación de los coeficientes de correlación El coeficiente de Autocorrelación es una herramienta muy valiosa para investigar las propiedades empíricas de una serie de tiempo, y aunque para efectos de este texto la teoría subyacente es bastante complicada, si se utiliza la distribución probabilística de Autocorrelación es posible validar los coeficientes obtenidos.

Existen dos métodos estadísticos para validar los coeficientes de auto-correlación: el primero utiliza el error estándar que prueba si cada uno de los coeficientes es estadísticamente diferente de cero (ver figura 8.2) y el segundo considera un grupo completo de valores de coeficientes de

Autocorrelación dado un número k de desplazamientos como en este caso, donde k = 5 (r1, r2, r3, r4 y r5). A continuación se desarrolla una prueba global de significancia, donde se desea saberse si desde el punto de vista estadístico todas las variables del grupo son diferentes de cero. Esta prueba es la estadística Q Box-Pierce y se resuelve con la distribución probabilística x2.

En cuanto al error estándar de un coeficiente de Autocorrelación rk ais-lado, con los diez valores observados en el ejemplo 1 se obtuvieron cinco autocorelaboración de la gráfic figura 3 (la laboración de la gráfica se hizo con SYSTAT).

Se observa el margen de confianza calculado según la fórmula

relaciones que se muestran en la figura 2 (el cálculo y la a se hicieron con Excel) y en la

e

nserk

196.1= A 95% de probabilidad (2)

Lo que se interpreta teóricamente como sigue: los coeficientes de auto-correlación para una serie de tiempo generada por números aleatorios deben tener un valor próximo a cero. Si se toma una infinidad de muestras de números aleatorios, de la misma forma y en promedio los coeficientes de autocorrelación tendrían un valor cercano a cero. Si para denotar la Autocorrelación de toda la población se utiliza la , entonces los valores de r debe formar una distribución probabilística alrededor de

kp

kp

FIGURA 2. Utiliza rror estándar de riborr

ar los coeficien oc ón

arios autores (entre otros Anderson, Bartlett y Quenouille) demostraron que dicha distribución tiende a la normal con media cero y desviación estándar

ción del e la dist ución de autoc elación

para valid tes de aut orrelaci .

V

n/1 . Esta información puede utilizarse (ecuación 2) para desarrollar una prueba de significancia de los coeficientes de Autocorrelación

FIGURA 3. Gráficas de los datos observados y de cinco coeficientes de utocorrela rgenes de error (no excedidos pro los valores de )

os tro de un rango

specificado por la media más o menos 1.96 desviaciones estándar, puede

a ción y los má k

como las pruebas t de Student o F de Fisher, que permiten determinar si alguna de las rk proviene de una población cuyos valores son cero para k desplazamientos. Debido a que n = 10 y como a 95% de probabilidad todos coeficientes de autocorrelación deben quedar den

r

le

concluirse que la serie de tiempo está formada por valores aleatorios si los coeficientes de autocorrelación quedan dentro de los límites

),3162.0(96.1)3162.0(96.1 +≤≤− kr 62.062.0 +≤≤− kr

En las figuras 8.2 y 8.3 puede verse que ninguno de los cinco valores rk excede los límites establecidos por el e r a lo que

Ahora bien, puede observarse que r5 = 0.33, y aunque con una muestra de sólo 10 observaciones este valor de r es estadísticamente igual a cero, si tal valor de r se hubiese obtenido con una muestra de 360 observaciones en lugar de 10, donde los límites de confianza hubieran sido ±0.105 en lugar de ±0.3162, estaría hablándose de la presencia de algún tipo de patrón (no aleatorio), ya que el valor de r habría excedido ampliamente el límite establecido por el error estándar. Es claro que con un número tan elevado de observaciones sería bastante difícil que un coeficiente de autocorrelación llegara a alcanzar el valor de 0.33, aunque en casos como el que se ha escrito es importante utilizar en forma teórica algún otro modo de asegurar

adístico Q desarrollado por Box-Pierce (1970) que computa rk como sigue:

r or estándar, lo cual confirmya se sabía: que la serie de datos estudiada está compuesta por números aleatorios. Esto se conoce como ruido blanco y se verá en mayor detalle en el capítulo siguiente.

dla significancia de los valores rk. Para este efecto se utiliza el est

∑=

=5

1

2

k

rnQ (3)

[ ] 343.2)33.0()13.0()18.0()20.0()19.0(10 22222 =−+−++−+−=

Este estadístico se considera de la distribución de x2 con (m - p - q) grados de libertad. En el próximo capítulo se estudiará el número de parámetros AR (p) que se utilizan para hacer una predicción, así como el número de arámetrop s (q) MA para establecer un modelo de promedios movibles, onde (m) es el número total de parámetros a utilizar en cualquier modelo

ruido blanco (autocorrelación de números aleatorios), todos ellos son iguales a cero. Al consultar la tabla de x2 con 5

dARIMA: en el caso del

grados de libertad se encuentra que el valor es 11.07 al 95% de probabilidad y que entonces el valor calculado de Q = 2.343 está muy lejos de exceder el punto crítico de tablas. El estadístico Q confirma una vez más que este grupo de datos no puede considerarse diferente de cero (en términos estadísticos). Ljung y Box8 afirman que la ecuación

∑=

h21

ene una distribución más cercana a la de x2• Para los efectos prácticos del curso Pronósticos para la toma de decisiones para el que está destinado este texto, la prueba Q debe ser suficiente para validar modelos que no requieren

stas pruebas normalmente aceptan las series de datos omo significativamente autocorrelacionados si el valor de Q cae en el

extremo 5% de la cola del lado derecho de la distribución de x2• Es decir que el valor de Q es mayor que el valor crítico de tablas a 95% (0.05) de probabilidad. Desafortunadamente, a menudo estas pruebas fallan al no rechazar modelos que no dan un buen ajuste, por lo que es conveniente advertir que un modelo no debe aceptarse únicamente con base en la prueba estadística Box-Pierce o en la de Ljung-Box.

Coeficiente de autocorrelación parcial

En un análisis de regresión conviene determinar cuanta capacidad tiene cada variable independiente para explicar su relación con la variable independiente y. las regresiones de cada variable independiente se parcializan individualmente para obtener los residuales de este análisis individual y encontrar la correlación de dichos residuales con la variable independiente Xi. En autocorrelación existe una técnica similar. La autocorrelación parcial se utiliza como una medida del grado de asociación entre Yt y Yt-1 cuando se han eliminado los efectos de otros desplazamientos como 1,2,3,..., k-1.

−−+=k

krknnnQ1

)()2(

ti

un grado tan alto de precisión, sea en los campos técnico o científico. Cabe hacer notar que ec

nxxx ,.....,, 21

Al observar la autocorrelación entre Yt y Yt-1 del ejercicio 1, también se ve

entre

recisamente lo que hace la autocorrelación parcial.

que entre Yt-1 y Yt-2 existe autocorrelación porque la distancia entre ambos es de una unidad, por lo que entre Yt y Yt-2 debe haber una relación debidoa que ambas están relacionadas con Yt-1. Para medir la correlación realYt y Yt-2 es necesario eliminar el efecto intermedio de Yt-1, que es p El coeficiente de autocorrelación parcial de orden k se denota como kα y puede calcularse haciendo la regresión de Yt contra Yt-1, Yt-2, ..., Yt-k.

ybybybby ktkttt −−− ++++= .... (5) 22110

Esta es una regresión múltiple que viola la premisa de independencia entre variables independientes ya que, como bien se sabe. los valores Y son desplazamientos de la variable misma, por lo que este proceso se denomina autorregresión (AR) y se utiliza para describir la ecuación

Figura 4. coeficiente de autocorrelación parcial (PACF)

Entonces la autocorreción parcial ∝k es la estimación del coeficiente bk de la regresión múltiple. Es de notar que la primera autocorrelación parcial es exactamente igual a la primera autocorrelación, y si se hace variar el número de términos del lado derecho de la ecuación se obtienen las autocorrelaciones parciales para los diferentes valores de K. Así como sucede con los coeficientes de autocorelación, los coeficientes parciales deben estar muy próximos a cero en el caso de las series de ruido

bnormalmente distribuilanco, donde dichas autocorrelaciones parciales son independientes y están

das con un error estándar = n/1 . De aquí que los mismos valores críticos de ± 1.96 ( )n/1 pueden utilizarse con PACF para

riod a o a s espe

Otra manera de analizar una serie de tie s desc onerla en ondas o ciclos d erentes frecuenc Este método era m pular dea enim o de l mput n conserva méaunque cada vez se menciona menos en las ediciones modernas de los tratados sobre métodos de predicción para negocios. A nque méto arece lejo, al menos tiene la virtud de ayudar a

entifica la aleatoriedad y la estacionalidad en las series de tiempo. En ste sen es necesario hacer una descripción de las tres características ásicas d las onda inoidale 1 da edi sigu inv n

relacionada con la frecuen 2. Amplitud de onda, que se mide en altura o “fortaleza” de la onda.

. Fase, que se refiere al desplazamiento (o posición) horizontal de la ond

En las series de tiempo, el ancho de onda traduce o unidades de tiempo (o número de observaciones que fo an una onda) y la fase se trata e orm ar. C lquier de tiem está com esta porobservaciones equidistantes, ajustadas por mínimos cuadrados a un número de ondas sinoidales con frecuencia, amp y fase d das. Los r ultado se conocen como per gram huster9, 98) y tam ién como nálisisrmónico o análisis de Fourier. Para efec s de las s ies de tiempo, xaminar las amplitudes de onda tiene cualquiera de los tres objetivos guiente

1. Ayuda a identificar la aleatoriedad e las sede de tiempo o de losresi ales). E uadro 8. y la figura muestran claramente que no ex ningú rón i able, al conf a la total alea-tor d de la e de , hech e ya se ostró a iame .

evaluar el ruido blanco.

Pe ogram nálisi ctral

mpo e ompe dif ias. uy po antes l

dv ient as co adoras personales y aú cierto rito,

u este do p compid r e tido b e s s s:

. Ancho de on , m da de una cresta a la iente, e ersame te cia.

3

a.

se comrm

n f a simil ua serie po pu n

litud a es s iodo a (Sc 18 b a

a to eresi s:

(d s du l c 3 8.5

iste n pat dentific lo cu irmieda sed tiempo o qu dem mpl nte

2. Ayuda a identificar estacionalidad en la sede de tiempo.

Ayuda a determ inancia de autocorrelación negativa o positiva, ya que para ésta predomi las baj recuencias, mientras para tocorr ón n lo hac as altas.

ebe adv rtirse que sta técn a no es central para lo modelos ARIMA,

unque e algun utilida siem ícil t ide eodelo apropiado para una se e de tiem

Frecuencias de índice Real

Imaginaria

Magnitud Fase

Periodograma

3. inar la predomnan as f

au elaci egativa en l

D e e ic s a es d a d en la pre dif area de ntificar l m d po.

1 0.0 9.250 0.0 9.250 0.0 217.883 2 0.12500 1.037 0.119 1.043 0.114 2.772 3 0.25000 -1.125 -1.125 1.591 -2.356 6.446 4 0.37500 1.213 1.119 1.650 0.754 6.936 5 0.50000 1.500 0.0 1.500 0.0 5.730

onentes Fourier de ruido blanco (archivo aleatorio)

Cuadro 3. Comp

Figura 5 . Periodograma de una serie de ruido blanco (números aleatorios)

s jos de tiempo (un año). Si el patrón es consistente, los coeficientes en el

desplazamiento 12 (para series mensuales) o en el desplazamiento 4 (para

IDENTIFICACIÓN DE LA ESTACIONALIDAD

La estacionalidad puede definirse como un patrón que se repite a intervalofi

series trimestrales) son altos y positivos, lo que indica la presencia de stacionalidad. Si no hubiera ningún coeficiente diferente de cero, indicaría

m e distancia no están correlacionados, o g

úl-

erar qu los valores de p, q y m son iguales cero, en la tabla de x2 puede verse, para 95% de probabilidad y 12 grados e libertad, que el valor es 21

autocorrelaciones no es significativo, aunque el valor 0.7 del desplazamiento 8 e igual a 0.42

mbién a 95% de probabilidad.

EJERCICIO 2

de los índices de un patrón

n rios, sino que también se identifica claramente el patrón de

eque los eses o trimestres a un año dque no existe un patrón que pueda identificarse de un año al si uiente. Datos de esta clase no tendrían estacionalidad.

or lo general, en un desplazamiento estacional o en alguno de sus mPtiplos puede identificarse un coeficiente de autocorrelación significativo (ver ejercicio 8.2, desplazamientos 4 y 8). Como era de esperarse, en la autocorrelación parcial se observa una autocorrelación altamente sig-nificativa y en los índices 1,5 y 9 (cada 4) del periodograma se aprecia claramente un aumento considerable en magnitud, así como en el periodograma propiamente dicho. El valor de Q que se obtiene en la prueba Box-Pierce es 11.61 y al consid ead .02. Este hecho indica que todo el grupo de

s mayor que el margen de error, que es ta

Considere los datos del siguiente cuadro, donde por medioestacionalidad del método de descomposición se identificó estacional. En este ejercicio no sólo se establece que los datos no soestacionaestacionalidad.

Ejercicio 2. Desplazamientos, ACF, PACK, periodograma y

gráfica de los datos originales

Fourier componentes del archivo Papel

Frecuencia índice

Real Imaginaria Magnitud Fase periodograma

1 0.0 3029.891 0.0 3029.891 0.0 4.67545E+0.72 0.06250 -28.208 141.826 144.604 1.767 106494.711 3 0.12500 -43.021 18.218 46.720 2.741 11116.538 4 0.18750 -5.558 24.204 24.834 1.797 3140.862 5 0.25000 267.371 36.049 269.790 0.134 370700.469 6 0.31250 -25.977 21.598 33.783 2.448 5812.393 7 0.37500 -33.829 23.411 41.139 2.536 8619.604 8 0.43750 -17.727 36.650 40.712 2.021 8441.446 9 0.50000 -238.394 0.0 238.394 3.142 289440.656

A

El tér

orizno exhconsttamb

NÁLISIS DE DATOS ESTACIONA

TIEMPO

mino estacionado se refiere a que en l

ontales a lo largo del eje de tiempo y fliste patrón de crecimiento ni decrecim

ante independiente del tiempo. La variién permanece constante a lo largo del

RIOS EN UNA SERIE DE

os datos de una serie de tiempo tos deben estar

uctúan alrededor de una media iento. Los da

anza de dichas fluctuaciones tiempo.

La visualización de las sedes de tiempo basta muchas veces para convencer al analista si los datos son estacionarios o no. La gráfica de autocorrelación

CF) se abate a cero rápidamente. En una serie de tiempo no estacionaria n varios de los desplazamientos aparecen uno o varios coeficientes

diferentes de cero orrelación en el jercicio 2 ) la autocorrelación de los datos no estacionarios decrece len-

(Ae

. En estos casos (véase la gráfica de autocetamente al aumentar el número de desplazamientos. En el siguiente

FIGURA 6. esta gráfica es de datos que no cambian la media a lo largo del tiempo. Se dice que esta serie de tiempo estacionaria en la media.

FIGURA 7. esta gráfica tiene variación en la media, pero evidentemente no

una serie de tiempo stacionaria en la varianza.

se observa cambio en la varianza. Se dice que ésta es e

FIGURA 8. Ésta es una gráfica de serie de tiempo que no es estacionaria ni en la media ni en la varianza. La media vaga (cambios en el tiempo) y la varianza no es razonablemente constante sobre el

empo.

án observarse varios modelos donde se describirán en detalle s características de éstos usando las herramientas presentadas en este

atrones no estacionarios. Antes de

ecesario eliminar la no estacionariedad para permitir la aparición de otras

s aplicando la técnica de diferenciación. Esta técnica se define como el

laro que en una serie de tiempo el número de valores di-renciados será n -1.

ti

capítulo podrlacapítulo. ELIMINACIÓN DE LA NO ESTACIONARIEDAD DE LAS SERIES DE TIEMPO Muchas veces los diagramas de autocorrelación son dominados por la tendencia, la estacionariedad y otros pproceder a construir un modelo de predicción, en muchas ocasiones es nestructuras de autocorrelación. Una manera de lograr lo anterior ecambio que hay entre cada observación de la serie original:

1'

−−= ttt YYY

Debido a que no es posible calcular la diferencia para la primera ob-servación, es cfe

EJERCICIO 3 Se obtiene una serie de tiempo con una tendencia ascendente y se procede a

n las tres series de tiempo puede observarse que el primer valor de Q está

o al valor de blas (11.02 < 11.07), ya no es significativo y el tercero, después de

desplazamiento tiene un valor alto (-0.32), pero

xcedan el margen de error.

presan como

efectuar las primeras diferencias, encontrándose que aun no desaparece la tendencia (la ACF muestra pendiente). Se procede a aplicar segundas diferencias y ahora la serie de tiempo se convierte en “ruido blanco”. Ebastante próximo al valor de tablas (11.79 > 11.07 a 95% de probabilidad) aunque es significativo; el segundo valor, también próximtadiferenciar por segunda vez, ha perdido toda significancia. Puede notarse que el quintoes necesario recordar que pueden aceptarse hasta 5% de valores cuyos picos e Como se ha observado en este ejercicio, al hacer las primeras diferencias no siempre se logra eliminar la no estacionariedad de la serie de tiempo, por lo que es necesario recurrir a las segundas diferencias, que se ex

( ) ( ) 21211'

1''' 2 −−−−−− +−=−−−=− ttttttttt YYYYYYYYYY t

FIGURA 9. Gráficas de autocorrelación de la serie de la página iguiente. La primera gráfica muestra la tendencia con el primer esplazamiento significativo, la segunda todavía conserva tendencia y tercera ya es ruido blanco.

sdla

REDUCCIÓN DE LA ESTCIONARIEDAD POR MEDIO DE PRIMERAS Y SEGUNDAS DIFERENCIAS

t Y Dif Cuad. Desplazamiento

1 2 3 4 5 6

1 2,44 -35,38 1251,45 1150,27 1020,45 846,75 645,11 382,97 66,01

2 5,3 -32,52 1057,28 937,95 778,29 592,95 352,01 60,67 -261,56

3 8,97 -28,85 832,08 690,45 526,03 312,28 53,82 -232,04 -515,88

4 13,88 -23,94 572,92 436,49 259,13 44,66 -192,54 -428,07 -707,16

5 19,58 -18,24 332,55 197,42 34,03 -146,69 -326,13 -538,76 -762,52

6 26,99 -10,83 117,2 20,2 -87,08 -193,61 -319,84 -452,67 -588

7 35,95 -1,87 3,48 -15,01 -33,37 -55,12 -78,02 -101,34

8 45,86 8,04 64,71 143,86 237,66 336,36 436,91

9 55,7 17,88 319,84 528,37 747,81 971,36

10 67,36 29,54 872,86 1235,36 1604,67

11 79,63 41,81 1748,42 2271,1

12 92,13 54,31 2950,03

37,82 10122,82 7596,47 5087,6 2708,94 571,32 -1309,25 -2769,12

0,75043 0,502587 0,267607 0,056439 -0,12934 -0,27355

Suma de cuadrados: 0,98 0,563145 0,252594 0,071614 0,003185 0,016728 0,0074831

Q = 11,785155 X tablas = 12,592 2

Primeras diferencias

1 2,86 -5,29 28,02 23,73 17,17 12,99 3,94 -4,27 -9,3

2 3,67 -4,48 20,1 14,54 11 3,33 -3,62 -7,87 -7,56

3 4,91 -3,24 10,52 7,96 2,41 -2,62 -5,7 -5,47 -11,37

4 5,7 -2,45 6,02 1,82 -1,98 -4,31 -4,14 -8,6 210,1

5 7,41 -0,74 0,55 -0,6 -1,31 -1,25 -2,61 -3,06 -3,23

6 8,96 0,81 0,65 1,42 1,36 2,83 3,32 3,5

7 9,91 1,76 3,08 2,96 6,16 7,23 7,63

8 9,84 1,69 2,84 5,91 6,94 7,33

9 11,66 3,51 12,29 14,43 15,24

10 12,27 4,12 16,94 17,89

11 12,5 4,35 18,89

8,15 119,93 90,08 57 25,53 -1,17 -25,77 -41,56

0,751091 0,475275 0,212881 -0,00974 -0,2149 -0,34657

Suma de cuadrados 1,0017343 0,564138 0,225886 0,045318 9,49E - 05 0,046183 0,120113

Q = 11,019077 < 12,592 No significativa

1 0,81 -0,15 0,023716 -0,04 0,03 -0,11 -0,09 0 0,16

2 1,24 0,28 0,076176 -0,05 0,21 0,16 0 -0,29 0,24

3 0,79 -0,17 0,030276 -0,13 -0,1 0 0,18 -0,15 0,06

4 1,71 0,75 0,556516 0,44 -0,01 -0,77 0,64 -0,26 -0,55

5 1,55 0,59 0,343396 -0,01 -0,61 0,5 -0,21 -0,43

6 0,95 -0,01 0,000196 0,01 -0,01 0 0,01

7 -0,07 -1,03 1,069156 -0,89 0,37 0,76

8 1,82 0,86 0,732736 -0,3 -0,63

9 0,61 -0,35 0,125316 0,26

10 0,23 -0,73 0,538756

0,96 3,49624 -0,7052 -0,75989 0,543452 0,527216 -1,12638 -0,09048

-0,2017 -0,21735 0,155439 0,150795 -0,32217 -0,02588

Suma de cuadrados 0,2392854 0,040683 0,047239 0,024161 0,022739 0,103793 0,00067

Q = 2,3928543 < 12,592

Y’ se denomina diferencias de segundo orden. Esta serie tiene n-2 valores. En la práctica casi nunca es necesario ir más allá de las segundas diferencias porque las series de datos solamente tienen no estacionariedad de primer o segundo nivel. MODELO NAIVE En las ecuaciones 3.3, 8.8 y 9.5 se describe el modelo Naive o random walk, de gran utilidad práctica para las sedes de datos que han sido transformadas en ruido blanco por medio de la técnica de diferenciación.

tTT eYY += −1

rgos periodos coTípicamente estos modelos tienen la

encia ascendente o descendente quen patrones de ten-

pueden cambiar de dirección en forma impredecible (véase figura 8.8). Este modelo se utiliza frecuentemente en econometría y en el análisis de las fluctuaciones financieras de las acciones

s de valores.

RUEBAS PARA LA ESTACIONARIEDAD

do para rificar la ta-las series de tiempo, la más conocida es la Dickey-Fuller.

d

en las bolsa P De las diversas pruebas que se han desarrolla ve esionariedad de c

''22

'111

' ... ptptttt YbYbYbYY −−−− +++Φ=

donde Y denota la serie diferenciada '

t 1−− tt

alrededor de tres desplazamientos (p = 3) y si la sede original tY requiere diferenciación, entonces el valor estimado de ∅ se aproxima a cero. Si Y, ya es estacionaria, entonces el valor de ∅ es negativo.

YY . En general se ejecutan

l valor de ∅ se estima a partir de la regresión (8.9) utilizando la técnica os cuadrados. Si se requiere diferenciación, entonces ya

a ∅. En vez de lo anterior, el res de tablas creadas por Fuller

976 , entonces puede considerarse que la .

CAPITULO 8

egresívos de alto orden ARIMA (2,0,0) o ARIMÁ

odelos de regresión simple y múltiple cuya forma general es Y = b0 + b1X + b2X2 + ………… +bpXp + e (8.1) Donde Y es la variable a predecir, X1 hasta Xp son las variables explicatorias, b0 hasta bp son los coeficientes de regresión y e es el término que denota el error aleatorio de la serie de tiempo. En la ecuación (8.1) los

Eordinaria de mínimno es válido el supuesto de la prueba t parvalor de ∅ debe compararse con los valo(1 ). Si el parámetro es significativoserie a prueba es estacionaria

Método Box-Jenkins (ARIMA) Objetivos • 8.1 Introducción • 8.2 Modelo autorregresivo de orden 1 (cuando p = 1) • 8.3 Modelo de promedios movibles de primer orden Ma (1) 8.4 Modelos autorr•

(p, o, o) • 8.5 Modelos de promedios movibles (MA) de alto orden... 8.1 Introducción Antes se discutieron los m

valores X1, X2 ……. Xp pueden representar cualquier factor como precio, ingreso per cápita, existencias de inventario, etcétera. Si ahora estas variables se definen como X1 = Yt-1, X2 = Yt-2, ……., Xp =Yt-p , la ecuación (8.1) se convierte en Yt = b0 + b1Yt-1+ b2Yt-2 + ······ +bpYt-p + et (8.2) que todavía es una ecuación de regresión pero difiere de la (8.1) porque en sta las variables del miembro derecho son diferentes variables ex-

s de la mente

esplazados en tiempo; de ahí el término auto regresión (AR) que se utiliza

razón para tratar en forma iferente la auto regresión de la regresión? La respuesta es doble:

gresión es muy fácil violar el supuesto de la indepen-

igualdad usualmente se relacionan entre sí (de hecho, cada ariable independiente es un desplazamiento de la misma variable de serie

de tiempo). 2. No siempre es tan sencillo determinar el número de valores previos de Yt a utilizar en la ecuación (8.2).

quí, explícitamente la relación de dependencia se hace a lo largo de los errores (o residuales) y la ecuación se denomina de promedios movibles o

ver ges).

les no debe confundirse con la que se estudió en los métodos de atenuación y en los de descomposición. Aquí se denomina

éplicatorias, en tanto que en la ecuación (8.2) son los valores previomisma variable Yt a pronosticar. Estos valores han sido simpledpara describir ecuaciones de la forma (8.2). Este tipo de ecuaciones ya se usó en el capítulo anterior sobre auto correlación. La primera pregunta que se plantea es: ¿cuál es la d 1. En la auto redencia del error entre variables independientes porque las variables del lado derecho de lav

Otro concepto interesante es que así como se auto correlacionan los valores pasados de las observaciones de las series de tiempo, también es posible utilizar los errores (residuos) como variables explicatorias: Yt = bO + b1ey-1+ b2et-2+... +bpet-p+et (8.3) A

modelo MA (Moving A La frase promedios movib

de promedios movibles porque se refiere a una serie de promedios movibles de las series de errores et. En los capítulos anteriores se trataba de los romedios movibles de las observaciones propiamente dichas, Yt. En

Como se verá más adelante, l ueden acoplarse fácilmente a s modelos MA para formar una clase general y más útil de modelos de

procedimiento de diferenciación se denomina promedios ovibles auto regresivos integrados (ARIMA), y fue popularizado por Box

modelo no stacional general se denomina ARIMA (p, d, q ), donde:

AR: p = orden (o nivel) de la porción auto regresiva. I: d = nivel de diferenciación implicado. MA: q = orden (o nivel).de la porción de promedios movibles. Los modelos de las ecuaciones (8.2) y (8.3) se escriben en esta notación. Un modelo de ruido blanco como el descrito por la ecuación (8.4) se clasifica como ARIMA (0,0,0) debido a que no hay aspectos AR (Yt no depende de Yt-1). No hay diferenciación implicada y tampoco hay porción MA (Yt no depende del error et-1). La variable Yt está formada por dos componentes: el error mencionado y la constante c.

anera semejante, un modelo aleatorio Naive se clasifica como ARIMA

Obsérvese que los términos no utilizados pueden descartarse en la escripción del modelo; por ejemplo, un modelo AR (2,0,0) también puede

peste capítulo el término MA se refiere a los errores.

os modelos AR ploauto regresión: los ARMA. La limitación más importante de estos modelos es que deben usarse sólo con datos estacionarios aunque pueden extenderse a series de tiempo no estacionarias utilizando la diferenciación de las series de tiempo. Estemy Jenkins en 1970. Existe gran variedad de modelos ARIMA. El e

Yt = c + et (8.4)

e mD(0,1,0) debido a que no contiene componentes significativos AR ni MA e incorpora una diferenciación. El valor más reciente puede utilizarse para redecir el valor del siguiente periodo, y en los modelos Box- Jenkins lap

ecuación representativa sería Yt =Yt-1 + et (8.5)

d

escribirse como AR (2), porque no implica diferenciación (I) ni promedios ovibles (MA). Un modelo ARIMA (1,0,1) también se escribe como

AR ), etcétera.

delos es muy laborioso y se utilizó hasta el advenimiento de s computadoras.

ara desarrollar un modelo debemos seguir los siguientes pasos:

. Conceptualización de series de tiempo, visto en los modelos de

nes generales de ARIMA. tadísticas que han probado su utilidad

uto correlación, error estándar y prueba Q). 4. Ilustrar cómo los conceptos, notaciones y herramientas estadísticas pueden combinarse para ayudar al análisis de una amplia variedad de variables ordenadas en series de tiempo. Los modelos de atenuación y descomposición se presentaron en la forma siguiente: Ft-1 = Ft + α (Xt – Ft ) = Ft + α(et) Ecuación (1) Si sustituimos, la atenuación es ahora Ft = Ft+1 + α (Xt+1 - Ft+1) Ft-1 = Ft+1 + α (Xt+1 - Ft+1) + α (Xt – Ft )

Y sustituyendo para Ft-1 = e (2) (3)

mMA (1,1) y un modelo ARIMA (0,1,1) se denominará IMA (1,1

Métodos ARIMA de auto correlación

Este tipo de mola P 1atenuación(Smoothing). 2. Definición de las notacio3. Describir las herramientas es(a

= Ft+1 + α (et+1 ) + α(et) Ecuación (2)

en él primer término d

Ft-1 = Ft-2 + α (et-2 ) + a (et-1 ) + α(et) Ecuación

Los resultados de seguir expandiendo la ecuación por sustitución son claros. Dada alguna predicción inicial, llámese Ft-2 se pueden obtener nuevas predicciones agregando un porcentaje de los errores entre el valor real y el vvalor pronosticado inicial Ft+1 y qud Euna serie de tiempo entre los elementos que la componen (estacionalidad, tendencia, ciclo y aleatoriedad) calculando y pronosticando cada uno por separado (excepto la aleatoriedad, que puede calcularse pero no predecirse) y a continuación recombinando estas prLvariaciones en alguna variable de interés (dependiente) con base en variaciones en varios otros factores (variables independientes). Por ejemplo en la regresión múltiple el modelo es:

alor pronosticado (por ejemplo: Xt-2 - Ft-2 )asi para cada valor real y su e se acercara en promedio al patrón real

e lo datos de la serie de tiempo.

n el caso de la descomposición el principio es el de partir o descomponer

edicciones. a regresión, como ya sabemos, es una predicción causal, trata de predecir

Y = b0 + b1X1 + b2X2 + ……………. + bkXk +e cuación(4)

ariable dependiente, X1 hasta Xk son las variables dependientes y bo hasta bk son los coeficientes de regresión lineal y e

cipios de atenuación y los de regresión aplicados a s series de tiempo como se indica a continuación:

En la ecuación (4) X1, X2,..., Xk pueden representar cualquier factor, como entas mensuales, el producto nacional bruto, precios, etc. Si a estas

variables ahora las definimos como: Xt = Yt-1 , X2 = Yt-2 , Xk = Yt-k entonces la ecuación (4) se convierte en: Y = a + b1Yt-1 + b2Yt-2 + …….. + bkYt-k +e La ecuación (5) sigueecuación (4) en que las variables de derecha (independientes) ahora son valores previos de la misma variable Yt Estos valores son simplemente valores con es iente y por lo tanto se gener otación de la ecuación (5

E Donde Y es la vines el error aleatorio. Combinaremos los prinla

v

Ecuación(5)

siendo una ecuación de regresión, pero difiere de la la

pacio en tiempo de la misma variable dependa una auto regresión (AR) presentada en la n

).

S la a

re 1. En la auto regresión. el supue o básico de independencia del error (residuos) de los resultados se puede violar fácilmente dado que todas las variables ción de ependencia (son la misma variable).

. La determinación del numero de valores anteriores de Yt, para

ón (3).

e plantean entonces algunas preguntas acerca de la ecuación (5): ¿por que regresión que se aplica a una auto correlación debe tratarse en form

diferente de un cálculo de mínimos cuadrados? Tenemos una doble spuesta:

st

independientes de la ecuación (5) tienen una relad 2incluirse en la ecuación (5) no es un mecanismo sencillo. De igual manera, la ecuación (5) puede escribirse en términos de errores anteriores, tal como se ve. Yt = a + b1et-1 + b2et-2 +......+ bket-k + et Ecuación (6) Aquí, explícitamente se establece una relación de dependencia entre términos sucesivos de error, y la ecuación del modelo se denomina (MA) de promedios movibles. Nótese la relación con la ecuaci

Los modelos de auto regresión (AR) pueden acoplarse con los de promedios movibles (MA) para generar modelos muy útiles de series de tiempo llamados (ARMA) autoregressive/moving averages.

Métodos AR y MA. Comparación con la regresión: Fórmulas: Regresión simple: Yt = a +bXt-1 = 1.043 + .83Xt-1 (7) Regresión múltiple: Yt = a + b1Xt-1 + b2Xt-2 + … + bpXt-p (8)

Yt = Ø1Yt-1 + Ø2Yt-2 + ········ +

gresivo residuos (MA): Yt = et - Ø1et-1 – Ø2et-2 - ······ - Øqet-q

ecir que dos de los coeficientes r de auto correlación quedan fuera de los limites de confianza al 95% de probabilidad. La flotación es que ahora en lugar del coeficiente b tenemos n coeficiente rp, denotado ahora con la letra griega ∅p

ara un modelo MA (2), seguimos la misma lógica, excepto que el , en

tendríamos dos coeficientes r significativos.

Debe observarse que ahora no existe la constante a, se genera ahora una onstante que es función de la media para el caso de los procesos AR en

donde se calcula la constante µ’ = µ - µ∅. En él caso de los procesos MA, iliza la media

µ completa en lugar de la constante a.

Como indicamos, los modelos AR y MA pueden acoplarse para generar nado de diferenciación

) para lograr los modelos ARIMA. A continuación se presentan los

Autorregresivo (AR): ØpYt-p (9)

utorreA(10)

or ejemplo, un modelo AR (2) quiere dP

u Método ARMA de auto correlación Pcoeficiente r ahora se convierte en un coeficiente con notación griega ∅donde

c

dado que son obtenidos de auto correlación de residuales se ut

modelos combinados. incluyendo un ajuste denomi(1modelos de predicción ARIMA tal y como lo desarrollaron Box y Jenkins.

Los modelos ARIMA para sedes de tiempo son:

Modelo aleatorio: ARIMA (0,0,0) Loa tres números se refieren al proceso AR, al grado de diferenciación (1) y al proceso MA. en donde: Yt = µ + et Ecuación (11)

onde la observación Yt está formada de dos partes. Una media general µ,

y un componente de error aleatorio et, el cual es independiente de periodo a periodo. Se clasifica como ARIMA (0,0,0) porque no hay proceso AR (no hay ninguna r significativa por ser datos estacionarios), esto es, ninguna Yt, depende de Yt-1. No hay diferenciación implicada (los datos ya son estacionarios) y no hay proceso MA (Yt no depende de et-1). La gráfica de los datos para este modelo es:

ARIMA (0,0,0 (a) ARIMA (0,0,0) • No tiene aspecto AR • No hay diferenciación • No tiene aspecto MA

D

o: ARIMA (0,1,0)

ación (13) muestra que las primeras diferencias de la serie de an un modelo aleatorio. Veamos las dos siguientes gráficas

Modelo aleatorio no estacionari

La ecuación (12), muestra los datos como si fueran AR (con tendencia) en donde Yt, depende de Yt-1, pero en el caso de que el coeficiente Yt-1 es unitario, la ecutiempo Yt formy sus implicaciones: (b)ARIMA(0,l,0) • Tiene aspecto AR

• Necesita cálculo de primeras diferencias para remover lo no estacionario de la media • No tiene aspecto MA

Yt = Yt-1 + et Ecuación (12) Yy – Yt-1 = et Ecuación (13) Matemáticamente, es conveniente redefinir (Yt – Yt-1) como Wt, la serie de

encias, de manera que podemos entonces hablar de W como una serie estacionaria. Este concepto de ser estacionaria se puede describir en términos no estadísticos en la forma siguiente:

. Si una serie de tiempo se grafica y no hay evidencia de cambio en la edia sobre cierto

periodo de tiempo gráfica (a), entonces decimos que la serie es estacionaria en la media. 2. Si la serie de tiempo graficada muestra que no hay cambio obvio en la varianza a lo largo del tiempo, entonces se dice que se trata de una serie estacionaria en la varianza. 3. La segunda gráfica (b) muestra una serie de tiempo ARIMA (0,1.0) típica, donde la media varia sobre el tiempo (con una aparente tendencia). Ésta es una serie de tiempo con una media no estacionaria. 4. La tercera gráfica (c) muestra que la serie de tiempo no es estacionaria en la media ni en la varianza. No es razonablemente constante sobre el tiempo.

(c) ARIMA (0.1,0)

primeras difer

1m

• No tiene aspecto AR • La media varía “henaiite” y la varianza cambiante, nos da una serie de tiempo difícil de manejar • No tiene aspecto MA

Modelo de auto regresión ARIMA, estacionario de primer orden tipo (1,0,0):

ARIMA (1,0,0)

a ecuación (14) muestra la forma básica de un modelo AR (1) o ARIMA (1,0,0), hablando en forma más general. La observación Y, depende de la Yt-1 y el valor del coeficiente autorregresivo ∅ está restringido a caer en el rango -1 a + 1. Yt = ∅1Yt-1 + µ’ + et Ecuación (14) (d) ARIMA(1,0,0) o AR(1)

L

donde Ø1 = r1 y et = NID(O , l0) (NID significa que el error está istribuido normalmente, es independiente y con media = O y varianza =

10). L A (1,0,0) para un modelo onde et, es un error distribuido normalmente e independiente.

(e) ARIMA (1,0,0)0 AR (1)

d

a grafica (d) muestra una serie de tiempo ARIMd

Cuya grafica muestra datos con una tendencia muy leve.

Modelo estacionario de promedios movibles MA de primer orden:

hablando en forma más general. La observación Yt, depende del error et, y también del et-1 con el coeficiente -∅1 restringido a caer en el

ARIMA (0,0,1) La ecuación (15) muestra la forma básica de un modelo MA (1) 0 ARIMA (0,0,1),

rango -1 a + 1. Yt =µ + et - ∅1e t-1 Ecuación (15) (f) ARIMA (0,0,1) 0 MA(1) Yt =100 + et - ∅te t-1 Donde ∅t = 0.7 y et es NID (0,10)

a gráfica (f) muestra un ejemplo de modelo ARIMA (0,0,1) o MA (1), con el valor del coeficiente q de la ecuación (15) restringido a quedar en el

rango entre -1 y + 1.

Modelo ARIMA simple combinado: ARIMA (1,0,1)

eden combinarse para plo, la ecuación (16)

bina un proceso AR de primer orden y un proceso MA de primer orden.

ARIMA (1,0,1) o ARMA (1,1)

dia y en la varianza. La grafica (g) a un ejemplo de una serie que podría ser ARIMA (1,0,1) y que fue

ente (Makridakis).

n el ejercicio se observará que una tendencia que se resuelve con un odelo AR (2) con un MSD muy pequeño, también se resuelve con un odelo ARIMA (1,0,1) disminuyendo aún más el MSD.

L

Los elementos básicos de los procesos AR y MA puproducir una gran variedad de modelos. Por ejemcom Yt = µ’ + ∅1 Yt-1 + et - ∅1 et-1 Ecuación (16) Aquí Yt depende de un valor Yt-1 anterior y un error previo et-1. La serie de tiempo se pone estacionaria en la medgenerada artificialm Emm

(g) ARIMA (l,0,l)

Yt = 0.31 Yt-1 + 70 + et + 0.7 et-1. onde et es NID (0,10)

d

Combinaciones ARIMA de afro orden (p, d, q):

Claramente no hay límite a la variedad de modelos ARIMA. El modelo general, que cubre todos los casos m uchos más, se

conoce como ARIMA (p, d, q ).

donde AR: p = orden del proceso de auto regresión

I: d = grado de diferenciación involucrado MA: q = orden del proceso de promedios movibles

En la práctica, raramente se hace necesario trabajar con valores de p, d o q

que sean diferentes de 0, 1 o 2. Es importante observar qué tan pequeño rango de valores de p, d o q pueda ser capaz de generar a su vez tan amplia variedad de modelos ARIMA para las diversas situaciones de predicción

encionados antes y m

encontradas en el medio comercial, industrial o científico.

8.2 Modelo autorregresivo de orden 1 (cuando p = 1)

Yt = c + Ø1Yt-1 + et (8.6)

epresenta la forma básica de un modelo ARIMA (1,0,0) o AR (1). La bservación Yt depende de Yt-1 y el valor del coeficiente de auto regresión 1 está restringido entre los valores -1 y +1. En este caso, el error et está istribuido normalmente con media O y varianza 1.

Obviamente, si el valor de Ø1 es igual a cero, entonces el modelo Yt es equivalente al modelo ruido blanco de la ecuación (8.4). Cuando Ø1 = 1, Yt es equivalente al modelo naive de la ecuación (8.5). Normalmente, dado que Ø1= r1 , los modelos AR (1) oscilan entre estos dos extremos, en cuyo caso la serie de tiempo sólo tiene un coeficiente de auto correlación de un desplazamiento significativo (el primero, ver auto correlación parcial, donde los coeficientes restantes disminuyen exponencialmente ). En el ejercicio 8.1 se estudia un caso AR (1) - Gráfica de autocorre1aciòn Gráfica de autocorre1aciòn parcial

La ecuación

RoØd

Figura 8.2 Diagramas de auto correlación y auto correlación parcial Ejercicio 8.1 Serie de tiempo AR (1). En el cuadro de la página siguiente se observan los datos del ejercicio 8.1 con una tendencia descendente y la ecuación del modelo es Yt = µ` + Ø1Yt-1 + et en donde la constante c = ư, está dada como función de la media de la serie de tiempo, el desarrollo es como sigue ( Yt - µ ) = Ø1 (Yt-1 - µ ) + et donde µ = media de la serie Yt = Ø1Yt-1 + ( µ - Ø1µ ) + et Yt = Ø1Yt-1 + µ`+ et (8.7) al sustituir en la fórmula se encuentran los valores siguientes: Yt = O.73 ·Yt-1 + 40.71 188.1 = 0.73 x 203 + 40.71 Que es el resultado anotado en el primer renglón del cuadro de la página anterior. Si la iteración continúa se obtienen todos los valores subsiguientes, y para continuar la predicción cada valor de pronóstico será utilizado para predecir el que le sigue. Como se muestra en la figura 8.3 donde los valores de predicción que siguen se muestran con la línea punteada.

Figura 8.3 SERIES

8.3 Modelo de promedios movibles de primer orden MA (1) La ecuación Yt = c+ et - Ø1et-1 (8.8) Representa un modelo MA (1), o sea un modelo ARIMA (0,0,1) en la notación más general. La observación. Yt depende del error, denotado por et y también del error previo et-1 multiplicado por el coeficiente -Ө1. Dado que en este caso se trabaja con los residuos, es evidente que para obtener valores de predicción de la magnitud original la constante es la media µ no modificada (ư).

Como ya se había dicho, el valor del coeficiente Ө1 está restringido entre -1 y +1. En la ecuación (8.8), nótese el signo negativo del coeficiente Ө1. Esta es una convención para los modelos ARIMA. En la figura 8.1, que contiene el resumen de los modelos ARIMA Box--Jenkins, se ha graficado la serie de tiempo MA (1), y en la figura 8.4 pueden apreciarse las gráficas del ACF y el PACF. Nótese que en el primer desplazamiento sólo existe una auto correlación significativa (diferente de cero) y que las auto correlaciones parciales decaen exponencialmente.

Figura 8.4 Gráficas de serie de tiempo, ACF y PACF de un MA (1) desarrolladas en el paquete SYSTAT

8.4 Modelos auto regresivos de alto orden ARIMA (2,0,0) o ARIMA (p,0,0)

La ecuación (8.9) representa un modelo AR de orden p (avo): Y1 = e + Ø1Yt-1 + Ø2Yt-2 + .....+ ØpYt-p + et (8.9) donde c = constante

Øj = parámetro autorregresivo j (avo) et = el error del miembro t de la ecuación Existen restricciones aplicables a los valores de los parámetros auto regresivos. Para p = 1, -1 < Ø1< 1. Para p = 2 se aplican las siguientes restricciones: -1 < Ø2< 1 Ø2 + Ø1 < 1 Ø2 - Ø1 < 1 Para p = 3 las restricciones son aún más complicadas; sin embargo, como ya se mencionó, aunque teóricamente existe una gran variedad de combinaciones de alto orden, puede observarse que en el ACF difícilmente se encuentran más de dos coeficientes de auto correlación que sean significativos, por lo que en la práctica es bastante excepcional utilizar un modelo con p > 2. En el ejercicio 8.2 de la página siguiente se han utilizado los datos no estacionarios con pendiente ascendente del ejercicio 7.3. De inmediato puede apreciarse que el MSD = 148 disminuye en AR (1) a 39.7 con AR (2). Es claro que el coeficiente de auto correlación del desplazamiento 1 es significativo y que el correspondiente al desplazamiento 2 se encuentra en el límite (ver la gráfica del ejercicio 8.2), ya que al parecer la tendencia no es lineal y presenta concavidad izquierda (signo positivo del coeficiente de autocorrelaçión Ø2). Sin embargo, en este ejercicio es posible observar cómo puede generarse un mejor resultado simplemente explorando empíricamente el mejor ajuste (de manera muy similar a como se trabaja con el método Stepwise para el análisis de regresión múltiple). En este caso particular se exploró la combinación ARIMA (1,0,1) [también denominada ARMA (1,1)] y en forma sorprendente se obtuvo un ajuste casi perfecto, con un valor virtualmente igual a cero. Ejercicio 8.2 Auto correlación de una serie de tiempo no estacionaria con tendencia ascendente.

8.5 Modelos de promedios movibles (MA) de alto orden ARIMA (0,0,2) o ARIMA (0,0,q)

La ecuación (8.10) representa un modelo MA de orden q (avo): Yt = c - Ø1et-1 – Ø2et-2 - …..- Øpet-q donde c = constante

Øj = parámetro de promedios movibles j (avo) e1 = el error del miembro t de la ecuación

Las mismas restricciones mencionadas en los modelos AR también se aplican a los modelos MA. Puede verse que es posible producir una gran variedad de modelos de promedios movibles, pero igual que con los modelos auto regresivos, en general puede afirmarse que difícilmente se requerirá un modelo de orden mayor que el modelo MA (2).

MODELOS DE COMBINACIONES ARMA Y ARIMA Los elementos básicos AR y MA pueden combinarse para producir diversos modelos, como se observa en cl ejercicio 8.2 donde la ecuación (8.11) muestra que el valor de Yt depende del valor previo Y (Yt-1) y del error

previo según el término et-1. Se asume que estas series son estacionarias en la media y en la varianza. Yt = C + Ø1Yt-1 + et - Ø1et-1(8.11) Los modelos ARMA de orden mayor pueden desarrollarse de la misma manera Yt =c + Ø1Yt-1 + Øp Yt-p + et - Ø1et-1 - ..... - Øqet-q (8.12) Si a un modelo ARMA se agrega la no estacionariedad, entonces sé obtiene un modelo ARIMA (p,d,q) donde la ecuación para un caso simple como ARIMA (1,1,1) se conserva igual a la notación ARMA (ecuación 8.11) y los casos de orden mayor quedan como en la ecuación (8.12). La variedad de modelos generados al introducir la eliminación de la no estacionariedad por medio de primeras y segundas diferencias es enorme, de manera que es casi imposible definir reglas que permitan identificar los modelos. En el apéndice 1 de este capítulo se incluye una manera simple de manejar empíricamente tal tipo de variaciones utilizando la versión pública y gratuita para estudiantes del paquete de estadística SYSTAT (que en realidad no es diferente de cualquier otro paquete como SAS, SPSS, etcétera). Igual que para los modelos ARMA y ARIMA, también debe mencionarse la complejidad añadida al utilizar dichos modelos para predecir esta-cionalidad. Exactamente de la misma manera en que puntos consecutivos de una serie de tiempo exhiben una auto correlación AR, MA, y/o mezclas ARMA o ARIMA, los datos separados por una estación completa (normalmente un año) pueden exhibir las mismas propiedades. La notación ARIMA puede extenderse fácilmente para manejar los aspectos de estacionalidad de una serie de tiempo y la notacòn que suele usarse es ARIMA (p, d,q ) (P,D,Q )

Parte no Parte estacional estacional del modelo del modelo El álgebra es simple pero puede ser laboriosa y por tanto rebasa los alcances de este libro. Igual que para el manejo empírico de todos los modelos de ARIMA, basta con examinar como funciona cualquier paquete estadístico que contenga estos modelos.