CAPITULO 1 CORRELACIÓN
Antes de plantear cualquier modelo de regresión, pronosticar o predecir el valor de y conociendo los valores de la variable X1, X2, ..., Xn, se debe realizar un análisis de la relación existente entre la variable dependiente y y las variables independientes Xi. COVARIANZA Se define la covarianza, entre dos variables X, Y como la asociación que existe entre las variables. Sea (X1, Y1); (X2, Y2); .....; (Xn, Yn) una muestra aleatoria de tamaño n a la cual se le mide las características X, Y. La covarianza de dicha muestra se calcula de la siguiente manera:
________
__
1
__
1
),( YXnn
nY
XnX
Yn
YXn
YYXXYXCOV iiii +−−=
⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
= ∑∑∑∑
−
−=+−−= ∑∑ ________________
),( XYn
YXYXYXXY
nYX
YXCOV iiii
También se interpreta la covarianza como un estadístico que resume la variabilidad simultanea de las variables, un estimador insesgado de la
varianza poblacional es la covarianza muestral. co
∑ ⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
−=
____
11),( YYXX
nYXCOV ii
Algunos textos de estadística aplicada a los ingenieros como Sheldon, M.
oss, Douglas C. Mongomomery y George, Paul Newbol (Estadística plicada a los negocios), definen la expresión:
Ra
∑ ∑ ∑∑ −=⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −=
nYX
YXYYXX iiiiiiXY
____
S
CARTESIANO
YY ⟩
INTERPRETACIÓN GRÁFICA DEL PLANO
__
__
XX ⟩n
YYXX ii∑ ⎟⎞
⎜⎛
⎟⎞
⎜⎛ ____
mm⎠⎝⎠⎝
__
Y Relación positiva __
⟨
__
Y⟨Y
XX
__
X
⟨
__
__
YY ⟩
XX n
__
YYXX ii∑ ⎟⎠⎞
⎜⎝⎛
⎟⎠⎞
⎜⎝⎛ ±
____m
Y __
Relación negativa
X
⟨
⟩
__
X YY
__
X Ejem: Se efectuó un estudio que relaciona los puntajes de aptitud de un examen (X), con productividad (Y una empr e to n a sei ersonas y e son los resultad
Aptitud (X) Productividad (Y) XY X2 Y2
la ), a esa s maro l azars p stos os:
9 23 207 81 529 17 35 595 289 1225 20 29 580 400 841 19 33 627 361 1089
20 43 860 400 1849
23 32 736 529 1024 Σ 108 195 3605 2060 6557
( ) ( ) 83.155.32*186
3605),(____
=−=−= ∑ YXnXY
YXCOV
olo diremos que la covarianza es positiva pero no sabemos si esta es
tomar esta decisión debe estandarizarse la e no dependa de las unidades de medidas de las
aracterísticas X, Y.
Sgrande o pequeña, paraovarianza con el fin de quc
c
2
2__2______
n
YYXX
n
YYXX iiii ∑ ∑∑ ⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
≤⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
YX SSYXCOV ≤),(
YXYX SSYXCOVSS ≤≤− ),( Dividimos entre SXSY
1),(1 ≤≤−
YX SSYXCOV Sea
YX SSYXCOVr ),(
=
11 ≤≤− r
Donde el estadístico r se llama Coeficiente de Correlación lineal y este
ide la asociación lineal entre las variables X, Y.
Una vez calculada la covarianza, para poder hallar el coeficiente de correlación lineal se hace necesario calcular la desviación estándar de (X) y (Y), para ello aplicamos un conjunto de formulas reducidas.
m
2
2__2
2__
2
XX
ii
X
SS
XnX
n
XX
=
⎟⎠⎞
⎜⎝⎛−=
⎟⎠⎞
⎜⎝⎛ −
= ∑∑ S
Para nuestro problema de la productividad, la desviación estándar de X, Y son respectivamente:
4.433.19
33.19186
2060 22__2
2 =−=⎟⎠⎞
⎜⎝⎛−=
⎟⎠
⎜⎝
−= ∑∑
ii
X XnX
n
XXS
2__
==
⎞⎛
X
S
05.658.36
58.365.326
6557 22__2
2 ⎞⎛=⎟⎠⎞
⎜⎝⎛ −
= ∑∑i
i
Y nY
n
YYS
2__
==
=−=⎟⎠
⎜⎝
−
Y
Y
S
6.04.4*05.6
83.15),(===
YX SSYXCOVr
rmalmente se considera que un coeficiente de correlación es alto cuando e es mayor a 0.8.
Noest
COEFICIEN MINACIÓN Este coeficiente mide la cantidad de variabilidad de la característica Y que es explicada por la variable X (o el modelo). El coeficiente de determinación se calcula de la siguiente manera:
TE DE DETER
2
36.06.0
),(
2
2
==
⎟⎟⎠
⎞⎜⎜⎝
⎛==
SSYXCOVrR
YX
sto significa que el 36% de la variabilidad de la productividad es explicada
R Epor el puntaje de aptitud.
TALLER No 1 1. Un individuo asegura que el consumo de combustible de su automóvil
no depende de la velocidad, con el fin de probar la anterior afirmación se probo el automóvil a diferentes millas y se midió el consumo de gasolina. Los datos aparecen a continuación:
Velocidad (X) Consumo (Y)
45 24.2 50 25.0 55 23.3 60 22.0 65 21.5 70 20.6 75 19.8
Hallar el coeficiente de determ tar. 2. Para los problemas del libro guía 11.6 – 11.11, hallar el coeficiente de
s variables X1, X2, ..., Xn se debe o se desea predecir o pronosticar l comportamiento de Y para unos valores determinados de X , X , ..., X .
sos (X1) y la capacidad de ahorro (X2). El bjetivo seria crear una ecuación de predicción o un modelo que exprese los
gastos (Y) variable dependiente como una función de las variables independientes (X1) ingresos, (X2) ahorro. Los modelos que se emplean para relacionar una variable dependiente (Y) con las variables independientes X1, X2, ..., Xn se denominan m elos de regresión o modelos estadísticos lineales.
inación e interpre
determinación e interpretar.
ANÁLISIS DE REGRESIÓN Una vez que se sospeche que una variable aleatoria Y esta relacionada con una o máe 1 2 n Como por ejemplo un economista quiere relacionar los gastos de una comunidad (Y) con los ingreo
od
CAPITULO 2
regresión simple es la de poder predecir el valor e (Y) variable dependiente en términos de una variable independiente (X).
Los valore gadas cuadradas) y las
resión resultantes Y (en unidades 0.1 de pulgada). Se resentan a continuación:
REGRESIÓN LINEAL SIMPLE
La finalidad del modelo ded Ejem: Supongamos que el inventor de un nuevo material aislante quiere determinar la magnitud de la compresión que se producirá en un espécimen de dos pulgadas de espesor cuando se somete a diferentes cantidades de presión.
s de X (en unidades de libras por pulmagnitudes de compp
GRAFICA PRESION Vs COMPRE ION
2,53
3,54
4,5
ESIO
N
S
00,5
11,5
2
0 1 2 3 4 5
PRESION
CO
MPR
El estado ideal será el de trazar una línea y que todos los puntos quedaran sobre dicha línea, pero esto en la realidad no ocurre, ya que algunos puntos se desviarán de esta línea. La solución a este problemas es el de construir un modelo probabilístico (modelo de regresión lineal simple), supone que el valor medio de Y para un valor dado de X se grafica como una línea recta y que los puntos se desvían de esta recta a una cantidad aleatoria (positiva o negativa) igual a ε es decir:
Presión (X) Compresión (Y)1 1 2 1 3 2 4 2 5 4
εββ ++= 110 XY
110 Xββ + → Valor medio de Y para un valor de X ε → Error aleatorio
Es lógico pensar que el E(ε) = 0 ya que las desviaciones ocurren por debajo o por encima y por tanto ( ) XEXEYE 1010 )()( ββεββ +=++= donde 0β y 1β son parámetros de la parte deterministica que se estimaron y su distribución
dad de hacer inferencias sobre dicho parámetro depende de la distribución de probabilidad de la variable aleatoria ε.
de probabilidad con la finali
Un modelo de regresión lineal simple εββ ++= 110 XY
Y = variable dependiente X = variable independiente
XYE 10)( ββ += es el componente determinístico ε (epsilon) = componente aleatorio
= Pendiente 1β
0β = Corte con la ordenada Y Si queremos ajustar un modelo de regresión lineal simple se debe estimar
0β , 1β de la línea de regresión Y. Con el fin de hacer algunas inferencias obre estos parámetros, daremos algunos supuestos: s
1. E(ε) = 0 2. V(ε) = σσ constante para todo valor de X
n valor en particular Y no tiene efecto alguno sobre los errores asociados a otros valores de Y.
EROS
== 22yε
3. ε ≈ N(µ1, σε) = N(0, σε) 4. Los errores son independientes, esto quiere decir que los errores asociados a u
INTERPRETACIÓN GRÁFICA DE LOS TRES PRIMSUPUESTOS
ESTIMACIÓN DE LOS PARÁMETROS PARA β0, β1 Si queremos tomar la mejor recta será aquella que minimice la distancia de los puntos (errores) a la recta. Como aparece en la siguiente gráfica:
Si queremos encontrar la línea de mínimos cuadrados para un conjunto de os que tenemos una muestra n, (X1, Y1); (X2, Y2),...,(Xn, Yn),
or ejemplo, los n = 5 puntos de datos del ejercicio anterior son (1,1), (2,1), s la recta que minimice los
e os estimadores de β0 y β1 se llaman y respectivamente y representamos el modelo estimado como
. Toda observación se obtiene al reemplazar x en la anterior ecuación, toda observación Y se obtiene al sumar el error εi al modelo estimado
∧∧
Se aplicara el método de los mínimos cuadrados para estimar β0 y β1 tal que haga mínima la sumatoria al cuadrado de los errores.
⎠⎝
∧∧2
10 xyiii ββ derivando con respecto a
y e igualando a cero se tiene:
datos suponemp(3, 2), (4, 2), (5, 4) para estimar β0, β1 tomamorrores al cuadrado Σεi
2 es la más pequeña, l∧
0β∧
1β
( )ii xy∧∧∧
+= 10 ββ
∧
iy
( ) iii xy εββ ++= 10
∑ ∑ ∑ ⎥⎦
⎤⎢⎣
⎡⎟⎠⎞
⎜⎝⎛ +−=⎟
⎠⎞
⎜⎝⎛ −=⇒−=
∧∧∧∧2
101
2
12
11 xyyyyy ii ββεε
∑ ∑ ∑=⎟⎞
⎜⎛ −==
∧ 22 yySSE ε ⎥⎦
⎤⎢⎣
⎡⎟⎠⎞
⎜⎝⎛ +−
∧
0β
∧
1β
∑ ⎟⎠⎞
⎜⎝⎛ −−−=
∂∂ ∧∧
ii xySSE10
0
2 βββ
∑ ⎟⎠⎞
⎜⎝⎛ −−−=
∂∂ ∧∧
xyxSSEii 10
1
2 βββ
las dos ecuaciones igualadas a cero se tiene
02
02
210
10
=⎟⎠⎞
⎜⎝⎛ −−−
=⎟⎠⎞
⎜⎝⎛ −−−
∑ ∑ ∑
∑ ∑∧∧
∧∧
iiii
ii
xxyx
xny
ββ
ββ
∑∑ =−−∧∧
010 ii xny ββ ∑ ∑−=−−∧∧
ii yxn 10 ββ
⎜⎛ 02
10 =⎟⎠⎞
⎝−−∑ ∑ ∑
∧∧
iiii xxyx ββ ∧∧
iiii
ii
yxxx
yx
210
10
ββ
ββ despejamos β0 ecuaciones normales
∑ ∑ ∑∧∧
−=−− iiii yxxx 210 ββ
∑ ∑ ∑∑ ∑
=+
=+∧∧
n
∑= iii
0β ∑ ∑
∑∑
∧∧
∧∧
−
−=
i
ii
xxyx
nx
ny
21
1
β
ββ
∑
∑ ∑∑ ∑∧
∧ −=⎟
⎠⎞
⎜⎝⎛ −⇒
i
iiiii x
xyxxy
n
21
11 β
β 0
Igualando términos se tiene:
∑ ∑ ∑ ∑ ∑∑ ∑ ∑ ∑∑
−=
−=−
−=−∧∧
∧∧
iiii
iiiiii
yxxyn
yxxynxx
xnyxnxyx
22
21
21
)(
)(
ββ
ββ
( )( )∑ ∑−∧
ii
iiiiii
xxn 221
11
β
n
∑ ∑ ∑
( )∑ ∑∑ ∑ ∑− ii yx
Dividimos entre n−
=∧
221
ii
i
xn
xynβ
i
x2
( )2
2
2
2x
22
1
nx
nn
nyx
nyn
ii
iii
∑∑
∑x i ∑∑
−
−∧
β =
222
____
),(
xii
ii
i SyxCOV
nx
nx
yxn
xy
=
⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=
∑∑
∑∧
β
( ) ( )∑ ∑
∑ ∑ ∑
∑∑
∑ ∑∑
−
−= nn ii
22 −
−=
∧
nx
x
yxxy
nx
nxn
yxn
xyn
ii
ii
ii
iiii
i
22
βO
∑
∑
⎟⎠⎞
⎜⎝⎛ −
⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
= 2__
____
xx
yyxx
SS
i
ii
xx
xy
Despejando en la primera ecuación se tiene que
∧
0β
∑ ∑∑∑∧
∧∧∧
−=⇒=+n
xny
yxn iiii
1010
ββββ
__
1
__
0 xy∧∧
−= ββ Calcular o estimar por mínimos cuadrados para y con los datos de nuestro ejemplo
Presión (Xi) Compresión (Yi) XiYi Xi2 Yi
2
∧
0β∧
1β
1 1 1 1 1 2 1 2 4 1 3 2 6 9 4 4 2 8 16 4
5 4 20 25 16 Σ 15 10 37 55 26
COV (x,y) =
4.1
57
==n
Sxy
41.1;25
105
2 ==== SxSxxxS
( )2.1
52026
55
5
22
12 =
−=
−==
∑∑ iyySyyyS
1.12.1 ==Sy
90.041.1*1.1
4.1),(===
SxSyyxCOVr
81.02 =R
( )∑ ∑
∑ =−=−= 7510*1537
2
nyxS ii
iixy∑ ∑
=−=−= 105
1555
*
22 x
x
yx
i
Snixx
7.0101 ==7∧
β 1β es la dependiente de la recta estimada ∧
1.05
157.05
101
__
1
__
0 −=−=−=−= ∑∑ ∧∧∧
nx
ny
xy ii βββ
∧
Interpretación de
o anterior significa que la compresión aumenta 0.7 por cada valor de umento de la presión.
nterpretación de
1 este resultado es absurdo puesto ue no hay compresión negativa, la razón es que x no puede tomar valores
s a cero o negativos. La compresión puede expresarse en términos de .
observ e timados con el mismo que todas las desviaciones al cuadrado de
los valores observados y estimados − yy la suma de estas observaciones de a viaciones SSE y este
alor es el menor que se obtiene ajustando cualquier otra recta.
− yyi
1β La
∧
0βI
uando x = 0 la compresión es de –0.Cqigualela presión si esta toma valores positivos En la siguiente tabla se presenta los valores ados y smodelo xy 7.01.0 +−= lo
2∧
∧
)( i
al cuadrado se llama suma de cuadrados l s desv
x y ∧ ∧
xy 7.01.0 +−= )( 2)(∧
− yyi 1 1 0.6 0.4 0.16 2 1 1.3 -0.3 0.09 3 2 0 0.00 2.0 4 2 -0.7 0.49 2.7 5 4 3.4 0.6 0.36
0 1.10 A ÁL Z RA E LO EAL SI LE
Se llamara suma de cuadrados total a la desviación de y con respecto a
su media −=2__
yySS iyy .
Llamaremos sum e cuadra s de la re sión a l iación
N ISIS DE VARIAN A PA L MODE LIN MP
∑ ⎟⎠⎞
⎜⎝⎛
a d do gre a desv de
∧
+ xβ∧∧
= 10y β a la media de las bservada = ySS iR .
las observaciones ⎥⎦⎢⎣⎟⎠
⎜⎝
+−=− ββyyy
⎛ ∧
i
_
⎜⎛ ∧
2__
∑ ⎟⎠⎞
⎜⎝⎛ −
∧
yy o s
Llamamos suma de cuadrados del error a las desviaciones del modelo a
( )22 ⎤⎡ ⎞⎛ ∧∧∧
10 ∑ ⎟⎠⎞
⎜⎝⎛ −=
∧ 2
yySSE i
INTERPRETACIÓN GRÁFICA
yi
⎟⎠⎞ xy 10
∧∧∧
+= ββ ⎜⎝
− yy
⎟⎜⎝
− yy ⎠⎞⎛
−
y ⎟⎞−
_
y⎠
y⎝
0β x
En la gráfica anterior se
⎜⎝
−
⎞⎛⎞ ∧∧ ____
yyi
En el siguiente cuadro se presentan los resultados de la SSyy, SSR, SSE para los datos de la compresión (y) y la presión (x).
i
puede observar que
⎟⎠⎞⎛−⎟
⎠⎞
⎜⎝⎛ −=⎟
⎠⎞
⎜⎛ −
=⎟⎠⎞
⎜⎝⎛ −+⎟
⎠⎜⎝
−=⎟⎠
⎜⎝
−
∧∧ ____
0
yyyy
yyyyyy
iii
iiii
⎛
⎝
Presión
x Compresión
y SSyy
∑ − 2__
)( yyi
∧
y estimado -0.1+0.7x
SSE
∑∧
− 2)( ii yy SSR
∑ −∧
2__
)( ii yy
1 1 1 0.6 0.16 1.96 2 1 1 1.3 0.09 0.49
3 2 0 2 0.00 0.0 04 2 0 2.7 0.49 0.49
5 4 4 3.4 0.36 1.96 ∑ 15 10 6 1.1 4.9
n la estadística aplicada, cobra mE ucha importancia la tabla de análisis de arianza la cual presenta las siguientes columnas.
uente de Suma de Grados de F Significa
v
Fvariación cuadrados libertad cuadrática ncia
Media
Regresión SSR P – 1 SSR/(P – 1) SSR/(P–1)/ SSE/(N–P) Residual SSE N – P SSE/(N – P) Total SSyy N – 1 SSyy/(N – 1)
n la tabla anterior P es el número de parámetros en el modelo y la razón E
)
)1(PSSR
− se distribuye F con P – 1 y N –
(Nrespectivamente y la última colum
PSSE
−
P grados de libertad
na corresponde a la probabilidad o e la cola superior de encontrar un valor mayor que el F ara el modelo l ple de nuestro ejemplo.
a tabla de análisis de varianza será la siguiente:
e Suma de cuadrados
Grados de libertad
Media cuadrática
F Significancia
porcentaje dcalculado p linea sim L Fu nte de variación Regresión 4.9 (2-1) = 1 4.9 13.364 0.035 Residual 1.1 (5-2) = 3 0.367 Total 6.0 (5-1) = 4 CALCULO DEL COEFICIENTE DE DETERMINACIÓN CON LA
SUMA DE CUADRADOS
l coeficiente de determinación se define como el porcentaje de la Evariación total que es explicada por el modelo, esto puede representarse de la siguiente manera:
82.06
1.16=
−=
−=
yy
yy
SSSSESS
R
AREA: Calcular R para el ejemplo de la compresión (y) y la presión (x)
diante la siguiente fórmula
T2
2 ),(⎟⎟⎠
⎞⎜⎜⎝
⎛==
yxSSyxCOVrRme y observar su similitud
o igualdad con el resultado anterior si existe una pequeña diferencia esta es por el redondeo.
tra manera de calcular la SSR = en nuestro ejemplo y Sxy = 7, entonces SSR = 0.7*7 = 4.9
Taller: Páginas 570 – 571
PROPIEDADES DE LOS ESTIMADORES DE MÍNIMOS
CUADRADOS
En la teoría de estimación se espera que este cumpla algunas propiedades como insesgado, de varianza mínima (eficiente), etc. Demostramos que el
s insesgado calculemos la varianza, la cual será útil en las intervalos de dichos estimadores.
Antes de realizar dichas demostraciones recordaremos algunas expresiones que son importantes para dichas demostraciones.
⎟⎠⎞
⎜⎝⎛ ____
yxxS
ya que
SSxx =
=
1) es un estimados insesgado
Demostración:
xySS∧
1β 7.01 =∧
β OS
estimador β1 e ypruebas de hipótesis y estimación por
⎥⎦
⎤ ∑ ∑ ⎢⎣
⎡⎜⎝⎛ −−⎟
⎠⎞−=⎟
⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −=
______
xyxyyxxS iiiiixy
∑ ∑ ∑ ⎟⎠⎞
⎜⎝⎛ −=⎟
⎠⎞
⎜⎝⎛ −−⎟
⎠⎞
⎜⎝⎛ − iiiii yxxxxyyxx
________
=
( )∑ =− 0__
xxi ∑ =−=− 0______
xnxnxnxi
=⎟⎠⎞
⎜⎝⎛ −−⎟
⎠⎞
⎜⎝⎛ −=⎟
⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −=⎟
⎠⎞
⎜⎝⎛ −∑ ∑ ∑
__________2__
xxxxxxxxxxxx iiiiii
∑ ∑ ∑ ⎟⎠⎞
⎜⎝⎛ −=⎟
⎠⎞
⎜⎝⎛ −−⎟
⎠⎞
⎜⎝⎛ − iiiii xxxxxxxxx
________
∧
1β 11 ββ =⎟⎠⎞
⎜⎝⎛Ε
∧
∧∧
=⎟⎠⎞
⎜⎝⎛ −
++⎟⎠⎞
⎜⎝⎛ −
+⎟⎠⎞
⎜⎝⎛ −
=⎟⎠⎞
⎜⎝⎛ −== ∑ 1
__
2
__
2
1
__
__
1 .....1 ββ nxx
n
xxxx
i
iixxxx
xy ySS
xxy
SS
xxy
SS
xxyxx
SSSSSS
En la expresión anterior puede observarse como β1 se representa como una combinación lineal de los yi.
⎟⎟⎟
⎠
⎞
⎜⎜⎜⎛ −
+−
Ε=⎟⎞
⎜⎛ ∧ xyxx ()( 21β
⎝
−++
⎠⎝Ε n
xx
n
xxxx
ySS
xxySS
xSS
)(....)__
2
__
1
__
1
( ) 1101 xy ββ +=Ε ; ( ) 2102 xy ββ +=Ε ; .....; ( ) nn xy 10 ββ +=Ε
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛Ε
−++Ε
−+Ε
−=⎟
⎠⎞⎛ ∧ (
⎜Ε )()(....)()()()__
2
__
21
__
11 n
xx
n
xxxx
ySS
xxySS
xxySS
xxβ
⎝
⎟⎟⎟
⎠
⎞
⎜⎜⎜⎛
⎞⎛ ∧ ( 1x
⎝
+−
+++−
++−
Ε=⎟⎠
⎜⎝
Ε )()(
....)()(
)()
10
__
210
__
2110
__
1 nxx
n
xxxx
xSS
xxx
SSxx
xSS
xβββββββ
= ∑ ∑∑ ⎟
⎠⎞
⎜⎝⎛ −
=⎟⎠⎞
⎜⎝⎛ −+⎟
⎠⎞
⎜⎝⎛ −
xx
ii
iixx
ixx SS
xxxxxx
SSxx
SS
__
1
__1
__0 βββ
1111 ββββ =⎟⎠⎞
⎜⎝⎛Ε⇒=
∧
xx
xx
SSSS
( )( )
( )( )
( )n
yVxx
yVxx
yVxx
V2
2__
1 ⎟⎠
⎜⎝
−++
⎟⎠
⎜⎝
−+
⎟⎠⎞
⎜⎝⎛ −
=⎞⎛ ∧
β
Vy == 22 σσε
2__2__ ⎞⎛⎞⎛
nxxxxxx SSSSSS 222121 )(
⎟⎠
⎜⎝
....
( )y
2
2__
222
2__
2221 )()( xxxx SSSS
V +=⎟⎠
⎜⎝
σσβ
2__
22
2__
1
)()(....
xx
i
xx
n
SS
xx
SS
xxxxxx ∑ ⎟⎠⎞
⎜⎝⎛ −
=⎟⎠⎞
⎜⎝⎛ −
++⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
⎞⎛ ∧
σσ
= xxxx
xx
SSSS 22
)(σ =
SS 2σ
xxSS
2
1σβ =⎟
⎠⎜⎝
=⎞⎛ ∧2
ˆ1βσ V
xxxx SSSS⎠⎝V β ==⎟⎜
2
1
2)
σσ⎞⎛ ∧
0β es un estimador insesgado, de 0β se tiene que:
0 xy−= ββ pero ____ ∧∧
1xx
iixySS∧
xxSS SS
yxx∑ ⎟⎠⎞
⎜⎝⎛ −
==
__
1β
∑∑∑∑
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛⎟⎠⎞
⎜⎝⎛ −
−=⎟⎠⎞
⎜⎝⎛ −
−=⎟⎠⎞
⎜⎝⎛ −
−=∧
xx
iii
xx
iii
xx
ii
SS
yxxx
ny
SS
yxxx
ny
SS
yxxxy
______
__
__
____
0β
∑⎟⎞
⎜⎜⎜⎛
⎟⎞
⎜⎝⎛ −
−=∧ i
SS
xxx
n
____
01β
⎟⎟⎟
⎠⎜
⎠i
xx
y
⎝
( )∑∑ Ε⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛⎟⎠⎞
⎜⎝⎛ −
−=
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛⎟⎠⎞
⎜⎝⎛ −
−Ε=⎟⎠⎞
⎜⎝⎛Ε
∧
ixx
i
ixx
i
ySS
xxx
ny
SS
xxx
n
________
011β
( ) ∑∑∑⎟⎟⎟
⎜⎜
−+
⎟⎟⎟
⎜⎜⎜ −=+
⎟⎟⎟
⎜⎜⎜ −=⎟
⎠⎜⎝ xxxx
ixx SSnSSn
xSSn 0100 ββββ ⎟
⎟⎟
⎠
⎞
⎜
⎜⎜⎜
⎝
⎛⎟⎠⎞
⎜⎝⎛ −
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛⎟⎠⎞
⎜⎝⎛ −
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛⎟⎠⎞
⎜⎝⎛ −
⎞⎛Ε∧
i
iii
xxxxxxxxxx
1
____________
111 β
∑ ∑∑ ⎜⎛−+⎟
⎞− ii
i xxxxxx
_1
1
__ ββ ⎟⎠⎞
⎝−
⎠⎜⎝⎛−=⎟
⎠⎞
⎜⎝⎛Ε
∧
iixxxx
xSSnSS
xnn _
____
000
βββ
⎟⎠⎞
⎜⎝⎛Ε==−+=⎟
⎞⎜⎛Ε
−+−=⎟⎠⎞
⎜⎝⎛Ε
∧∧
∧
01
__
100
1
__
100 0
βββββ
ββββ
xx
SSSS
xxxx
xx
⎠⎝
⎟⎠⎞−−=⎟
⎠⎞
⎜⎝⎛Ε
∧
0
____
000
β
βββ x
SS ixxxx
⎜⎝⎛−+⎟
⎠⎞
⎜⎝⎛ −∑ ∑∑ __
11
__ ββ xx
SSx
nx
xxx
ii
i
∧
0β es un estimador insesgado
∑ ∑∑⎟⎟⎟⎟⎟⎟⎞
⎜⎜⎛
⎟⎞
⎜⎛ −⎥
⎤⎢⎡
⎟⎟⎞
⎜⎜⎛
⎟⎞
⎜⎛ −⎟
⎞⎜⎛
⎟⎞
⎜⎛
⎟⎞
⎜⎛ −
=⎟⎞
⎜⎛ ∧
__________
βxxxxxxxxx
V
⎠⎜⎜⎜⎜
⎝
⎠⎝−=
⎥⎥⎥⎥⎥
⎦⎢⎢⎢⎢⎢
⎣⎟⎟⎟⎟
⎠⎜⎜⎜⎜
⎝
⎠⎝−=
⎟⎟⎟⎟
⎠
⎜⎜
⎟⎟⎟
⎠⎜⎜⎜
⎝
⎠⎝−⎠⎝
20
111 σxx
i
ixx
i
ixx
i
SSny
SSnVy
SSnV
⎜⎜⎝
= ( )∑ ⎥
⎥⎥
⎢⎢⎢ ⎟
⎠⎜⎝
−+
⎟⎠
⎜⎝
−−⎟
⎠⎞
⎜⎛ 2
2
2 21 σ
xx
i
xx
i
SS
xxx
nSS
xxx
n
⎥⎥⎦⎢
⎢⎣
⎤⎡ ⎞⎛⎞⎛
⎝
2__2______
= ( ) ⎥
⎥⎦
⎟⎠
⎠⎝⎠⎝ 2SSSS ixx
ixx
⎥
⎢⎢⎢
⎣
⎟⎟
⎜⎜⎜
⎝
⎟⎞
⎜⎛ −+⎟
⎞⎜⎛ −−∑ ∑∑
____
22 21 xxxxx
nx
nσ
⎤⎡ ⎞⎛ 22____
= ( )
⎥⎥⎥
⎦
⎤
⎢⎣
⎡+
⎥⎦
⎤
⎢⎣
⎡
⎥⎦
⎤
⎢⎣
⎡
⎥⎥⎥
⎦
⎤
⎢⎣
⎡
xxxx Sxn
2__2__2__22
2__
=
⎢⎢=⎥
⎥⎢⎢ +=⎥
⎥⎢⎢ +=⎢
⎢ +− xx
xxxx
xx
nSSS
SSx
nSSx
nSSSSx
n222
22 101* σσσσσσ
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡+⎟
⎟⎠
⎞⎜⎜⎝
⎛+−
=
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡+⎟
⎠⎞
⎜⎝⎛ − ∑∑
xx
ii
xx
i
nSS
xnxxxx
nSS
xnxx2__2____
2
2
2__2__
2
2σσ
= ⎥⎥⎦
⎤
⎢⎢⎣
⎡=
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡+−
=⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡++− ∑∑∑∑
xx
i
xx
i
xx
ii
nSSx
nSSxnnxx
nSSxnxnxxx 2
2
2__2__2
2
2__2____2
2 222σσσ
S σ
edio de la suma de las desviaciones al cuadrado entre los y observados y la línea de regresión
ESTIMADOR INSE GADO 2
La varianza de los errores o lo que es lo mismo el prom
x debe calcularse de la siguiente manera: y 10 ββ +=⎟⎠⎞
⎜⎝⎛Ε
∧
( )( )n
yy
nn
ii
∑∑∑2⎟⎠⎞
⎜⎝⎛ −
==Ε−
=
∧ 2
2211 εεε
σε
( ) ( ) ( ) 210
2yVxVyV
n
Un estimador insesgado de
SSE σεεββσ ==++===
22222
−====
nSSEsy εσσσ
La explicación anterior se deriva del echo que se debe estimar los
arámetros β0 y β1. para demostrar lo anterior enunciaremos el siguiente orema:
l estadístico
pte E 2σ
SSE se distribuye χ2
2
22 )2(
σχ sn −
= ⇒= 22
σχ SSE como SSE = (n – 2)s2 se tiene que
2) = σ2
iene que
Demostración de E(s
el teorema anterior se tD
( )22
2
)2(χσ
Ε−
=⎟⎟⎠
⎞
⎝ n ( )
22
222
)2(2χσχσ
⎜⎜⎛
−Ε=Ε⇒
−=
ns
ns
) ( ) 22
2(2
2Ε s)2(
)2(2
σσχσ=
−−
=Ε−
=n
nn
alor esperado de una χ2 son sus grados de libertad
E(χ2) = n – 2
onde
Recordamos que el v
∑∧∧
−=⎟⎠⎞
⎜⎝⎛ −= xyyyi SSSSyySSE 1
2
β D
( )
xx
xy
iiiiiixy
iiiyy n
yyyySS −=⎟
⎠⎞
⎜⎝⎛ −= ∑ ∑∑
22
2__
SSSS
=
nyx
yxyyxx −=⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
∧
∑ ∑ ∑ ∑
1
____
β
erci presión.
SSSSSS β
SS =
Ej plo la varianza del ej cio de la presión y comem : Estime
1.17*7.00.61 =−=−=∧
E xxyy
367.031.12 ===
SSEs y la 2−n
desviación estándar 61.02 == ss
INFERENCIA RESPECTO A LOS Para nuestro ejemplo supóngase que la presión no tiene relación con la ompresión, que podría decirse de los valores β0, β1 del modelo robabilístico y = β0 + β1x +ε.
fecta el valor medio de y, y = β0 + β1x ; es decir y independiente del valor de x, entonces se podría
afirmar que β1 = 0. Cobra importancia probar la siguiente hipótesis nula y alterna. Ho β1 = 0 Ha β1 ≠ 0 Para probar esta hipótesis se hace necesario conocer la distribución del
estadístico
∧
β
cp Si los cambios de x no atomara cualquier valor
xx
xy
SSSS
=∧
1β Bajo el supuesto de que los errores se distribuye
N(0, σ), entonces y = β0 + β1x +ε. Se distribuye N(β0 + β1x; σ), como β1 puede expresarse como una combinación lineal de los yi ya que
( )nx
x
nyx
yx
ii
iiii
22
1∑∑
∑ ∑∑
−
−=
∧
β t el estimador ∧
1β iene una distribución N(β 1,xxSS
σ )
por lo tanto el estadístico
xxSSσ
ββ −∧
1 tiene una distribución normal estándar.
El 95% de las mu ⎯ se hallan entre =1β ∧±∧
1
2β
σβSSxxσβ 2
1 ±estras
Como 2σ es desconocido y se estima con el estadístico
22 =
SSEs el −n
estadìstico
SSxxS
11β
tβ −∧
iene una distribución t estuden y la hipótesis nula
o 01 =β H
Ha 01 ≠β
αβ
,2011 −≥
−∧
Puede rechazarse si α,2−≥ ntT o ntS
SSXX Prueba de una cola inferior Ho 01 =β
0<Ha β
Estadística de prueba
SSxxs
∧
β1
Pru Ho
Región de rechazo t < tα
eba de una cola superior
01 =β 01 >Ha β
∧
Estadística de prueba
SSxxs
1
Región de rechazo t > t
β
α
Ejemplo Para nuestro ejemplo de compresión del aislante probamos la siguiente hipótesis en los siguientes pasos: a. Ho 01 =β
01 ≠β Ha
b. Nivel de significancia α=0.05 n = 5 n-2=3 t0.025, 3 = 3.182 -t0.025, 3 = -3.182
c. Estadístico de prueba
1
1
β
β
ST = =
∧
SSxxS
1
∧
β= 7.3
19.061.7.0 −
=7
=
. Decisión estadística
Como T=3.7 es mayor que el t de la tabla t0.023, 3 = 3.182 se rechazara la hipótesis nula. Esto significa que
10 d
1β es diferente se cero, la inferencia sobre le parámetro 0β no tiene mucho significado en el análisis de la regresión.
i se tomo la decisión de hacer pruebas de hipótesis sobre este intercepto se ebe utilizar el siguiente estadístico.
Sd
∧
−=
∧
00 ββT =
0βS
⎟⎟⎠
⎞⎜⎜⎝
⎛
−∧
00 ββ =
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛−
−−
∧
∑nSSxx
xi2
2δSSxx
xx12
00
δ
ββ
INTERVALO DE CONFIANZA PARA 1β
Otra manera de hacer inferencia acerca de la pendiente del modelo es a través de la estimación por intervalo. Un intervalo de confianza esta dado por la siguiente expresión
∧±∧
121
βαβ St donde
SSxxSS =∧
1β
Ejemplo: Determine un intervalo de confianza para nuestro ejemplo con un 95% de confianza
SSxxSt 3,025.01±
∧
β = 61.07.01061.0185.37.0 ±=⎟
⎠
⎞⎜⎝
⎛±
45.031.109.0 1 =⎟⎠⎞
⎜⎝⎛ ≤≤
∧
βp
Un intervalo de confianza para 0β será el siguiente
2,2
0−
∧
± tαβ , S 0β nSSxx
xt
∧
±2
β αn
i
n
∑−2,
20 σ
Pag , 55 56 en cio
R Y PREDECIR
Un e l modelo es el mas adecuado a través del oeficiente de determinación o pruebas de hipótesis a los parámetros. Este
a e creado, que es la de valor de y para unos valores particulares de x, los usos
ás comunes de los modelos probabilísticas son: 1. Estimar el valor medio de y, E(y/xp) para un valor especifico de x. Para
nuestro ejemplo queremos estimar el valor medio de la compresión para una presión de 40 lb. (x = 4) por lo tanto, E(y / x = 4)= =
Taller: inas 557 8, 559, 0, 561 m os los op nales
EMPLEO DEL MODELO PARA ESTIMA
a vez que se det rmina si ecdeberá utilizarse para la finalid d por la cual fuestimar o predecir elm
)4(10
∧∧
+ ββ
-0.1+0.7(4)=2.7 E(y / x = 4)=2.7 se espera una compresión de 2.7 cm / lb.
ara un x dado. = -0.1+0.7(4)=2.7=
esto quiere decir que para una presión de 40 lbs se pronostica una compresión de 2.7 cm / lbs.
omo puede observarse tanto para estimar el valor medio como para redecir un valor en particular para y para un valor dado de x se aplica el ismo modelo, la diferencia radica en su interpretación y en la exactitud de estimación y predicción.
n el caso de la estimación debe verse como varios experimentos en los uales se toma un solo valor de x0 en todos los experimentos y se registra s valores observados en .
n el segundo caso en un solo experimento y se pronostica el valor de .
AJUSTE DE CURVAS
lgunas veces la dispersión de los puntos no indica una relación lineal ntre las variables x,y pero se puede visualizar alguna otra curva estándar onocida y = f(x); la cual se puede aproximar a los datos. Algunas de estas urvas estandar, donde y es la variable dependiente y x la variable dependiente son:
) Curva parabólica: y =
) Curva cúbica: y = +
) Curva hiperbólica: y =
2. El otro uso del modelo probabilístico es el r de predecir el valor de
∧
y en particular p
010 xy∧∧∧
+= ββ∧
y
Cpmla Ec
∧
ylo∧
yE
Aeccin 1 2
22110 xx βββ ++
2 2
22110 xx βββ ++ 333 xβ
110
1xββ +
ò 1/y = 110 xββ + 3
4) Curva compuesto: y = x ; log y = log 10ββ 10 log ββ x+
7) Curva geométrica: y = ò log y = log a + b log x
6) Curva exponencial: y = xe 10
ββ
bax
La representación gràfica de alguna de estas curvas es la siguiente:
Parabóli a Exponencial Hip c erbòlica
Ejemplo: considere los siguientes datos que indican un
x ncial.
a gráfica en el plano cartesiano para estos puntos se representa a continuación:
crecimiento e pone
L
0
200
400
600
800
1000
1200
1400
1600
La curva compuesto tiene la forma ; log y = xy 10ββ=
xx 1010 loglog ββββ ′+′=+ ; donde y , por lo tanto buscamos la línea de mínimos cuadrados que ajuste los siguientes datos:
X 1 2 3 4 5 6
00 log ββ =′ 11 log ββ =′
Y 6 18 55 160 485 1460
X 1 2 3 4 5 6 Log y 0.7782 1.2553 1.7404 2.2041 2.6857 3.1644 Utilizando loas ecuaciones normales se tiene que :
0β′ = 0.3028 1β ′ = 0.4767 log 0β = 0.30228; se tiene que, =0β anti log 0.30228
0
′= 0.2β
0.3log4767.0loglog
111
111
=⇒′==⇒=
ββββββ
anti
Por lo tanto xy 10ββ= el modelo que se utilizara. El paquete estadístico SPSS dispone de 11 modelos o curvas de ajustes que se pueden probar a un conjunto de datos. Dichas curvas se presentan a continua
ción:
INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA
Un intervalo de confianza para la respuesta media para un valor especifico de x, por ejemplo xp se conoce como intervalo para E(y / xp)= px10 ββ +
) a partir de los es
posible obtener una estimación puntual para E(y / xp
estimadores de y E(y / xp)=∧
0β∧
1β px10 ββ + .
La varianza de
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
+=⎟⎟
⎠
⎞
⎜⎜
⎝
⎛ ⎟⎟⎠
⎞⎜⎜⎝
⎛−∧
−
SSxxnxyV
xx
p
p
2
2 1δ
Demostración:
haciendo x = xp y
_ ∧∧ ⎛∧∧ __
reemplazando
XpY∧∧∧
+= 10 ββ _
10 xy∧−
−= ββ
011 =+−= XpxyY ββ ⎟⎠
⎜⎝
−+= 1 xXpyY β ⎞_∧
SxxSSxy
=∧
1β
∑ ⎟⎠⎞
⎜⎝⎛ −
⎟⎠⎞
⎜⎛ − xXp
_
⎝+= iyxxSxx
y_
1
_
∧
Y
i
ii y
Sxx
xxxXp
ny ∑∑
⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
+=
__
1 Y∧
iySSxx ⎥
⎥⎠⎝⎠⎝ ip xxxx
nY ∑
⎥
⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡⎟⎞
⎜⎛ −⎟
⎞⎜⎛ −
+=
__
1∧
( )i
ip
yVSSxx
xxxx
nYV
__
1∑⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
+=⎟⎠⎞
⎜⎝⎛ ∧
2
( )2δ⎥
⎥⎟⎠⎞
⎜⎝
−⎟⎠⎞
⎜⎝
−⎟⎠
⎜⎝
−⎟⎠
xxxxxxx ipi
2
2_2__
2
21∑ ⎥
⎤
⎢⎢⎢⎡ ⎛⎛
+
⎞⎛⎞⎜⎝⎛ −
+=⎟⎠⎞
⎜⎝⎛
+∧
∧
SSxxSSxx
x
nnYV
p
⎥⎥⎦⎢
⎢⎣
( )2
2
2_2__
2 ⎥⎤
⎢⎡
⎟⎞
⎜⎛ −⎟
⎞⎜⎛ −⎟
⎞⎜⎛ − ∑∑∧
xxxxxxn ipp
2 δ
⎥⎥⎥⎥
⎦⎢⎢⎢⎢
⎣
⎠⎝⎠⎝+⎠⎝+=⎟⎠⎞
⎜⎝⎛
SSxxSSxxnny V
( )2
2
2_2_
1 δ
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡⎟⎠⎞
⎜⎝⎛ −⎟
⎠⎞
⎜⎝⎛ −
+=⎟⎠⎞
⎜⎝⎛
∑∧
SSxx
xxxx
nyV
ip
= ( ) 2
2
21 σ⎥⎥⎦
⎤
⎢⎢⎣
−+
SSxxSSxxxx
np
⎡
( )2
2_
1 δ
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡⎟⎠⎞
⎜⎝⎛ −
+=⎟⎠⎞
⎜⎝⎛ ∧
SSxx
xx
ny
p
Con lo cual queda demostrado
media estará dada por:
V
Un intervalo de confianza alrededor de la respuesta
SSxx
xxp⎟⎞
⎜⎛
⎟⎞
⎜⎛ −+
_1 2
ntYE
⎟⎠
⎜⎝ ⎠⎝
−⎟⎟⎞
⎜⎜⎛ ∧
2δα ⎟⎞⎜⎛≤ yE⎠⎝ xX nP ⎠⎝ −2,
2
SSxxnP ⎠⎝ −2,2
Para una presión de 40 libras por pulgada cuadrada x
xxn
tXYE
p ⎟⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛ −+
+⎟⎟⎞
⎜⎜⎛ ∧
2_
2
1
δα
≤
p = 4, dado n = 5, y = n-2=3 el intervalo para un 95% de confianza sería
SSxx
xxn
Sty⎟⎠
⎜⎝ ⎠⎝
±∧
α o sea p ⎟⎜ −+
2
⎟⎞
⎜⎛ ⎞⎛
2_1
x⎟⎠
−4
SSxx181.3025.0 =t
St⎟⎟⎠
⎞⎞⎜⎝⎛
±∧
2
025.0 Y ; S=0.61, =X SSxx=10 y ⎜⎜⎝
+5
⎛ 1 _
_∧
y 37.2=
( ) ( )2
1034
5161.0182.37. −
+± =2.7 ± 3.182*0.61*0.55 = 2.7 ±2 1.1= (3.8,1.6)
int .6 ien pre ia cund
1.1es sometida 40 libras de presión en el 9 ve
PREDICCION DE NUEVAS OBSERVACIONES
Se estima que el ervalo 1 a 3.8 cont e la com sión med o5% de las ces.
Un intervalo de confianza para un valor nuevo de y cuando X = Xp esta dado por la siguiente expresión
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ −++−
−
∧
2_
2
2,2
11SSxx
xxn
ty o
nn δ ≤≤ py
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ −+++
−
∧
2_
2
2,2
11SSxx
xxn
ty o
nn δ
Ejemplo: Con el fin de predecir la compresión de aterial aislante en particular Xp = 4 calculamos el intervalo de predicción del 95% omo
un trozo de m
c
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
⎟⎟⎜⎜±
− 2,t
nn
⎟
⎠
⎞⎜
⎝
⎛ −++2
2
11SSxx
xxn
y oδ =
2_∧
( )10
34511)61.0)(182.3(7.2
2−++±
)14.1)(61.0)(182.3(7.2 ± 2= 7.2 ± = [0.05 – 1.9)
t predecimos que la compresión del trozo de material aislante stará dentro (0.5 a 4.9) pulgadas.
continuación se presenta el grafico de intervalos y se puede observar
2. Por lo tan oe Acomo la amplitud del intervalo para una predicción de un valor particular es mayor
EGRESIÓ
REGRESIÓN LINEAL POLINOMIAL
R N LINEAL SIMPLE CON SPSS
Escribir una introducción como se maneja el SPSS y resolver todos los ejercicios del texto guía del SPSS.
En situaciones donde la relación funcional entre la respuesta Y y la variable independiente X no se puede aproximar adecuadamente con una relación
neal, en algunas ocasiones es posible obtener un ajuste polinomial, es decir, podemos ajustar el conjunto de datos a una relación funcional de la
a: r
0, β1,... βr son coeficientes de la regresión que tienen que estimarse os
j donde j = 1, 2, ...r, y son aquellos valores que minimizan
iβββ −−−−∑ =
ara obtener estos valores, obtenemos las derivadas de la suma de
cuadra r a mo a obtener los valores que minimizan la suma de cuadrados, al realizar estos
asos y al organizar algunos términos se obtienen las siguientes ecuaciones
li
formY = β0 + β1X1 + ...+ βrX r + e
onde βD
de los n datos (Xi, Yi) i = 1,2,3...n; los estimadores de βj los llamaremβ
2n111 0 )ˆ.....ˆˆ( rrXXYi r
Pdos anterio es respecto rβββ ˆ,.....ˆ,ˆ
10 y luego iguala s a cero par
pnormales.
∑ ∑ ∑∑ = ==+++=
n
i
n
i
n
iXiXinY
1 1.
2210
10 ˆ.....ˆˆ ββββ
=
n
irXir
1
)
∑∑∑∑∑ =
+====
++++=n
irn
i
n
i
n
i
n YiXi βi
XirXiXiXi1
11
321
21101
..........ˆ βββ
∑∑∑∑ =+
===+++=
n
irn
i
n
i
n
iXirXiXiYiXi
12
13
112
012 ˆ...........ˆˆ βββ
. . . . . . . . . . .
.
.
.
. ∑ ∑∑∑∑ ==
+=
+==
++++=n
irn
irn
irn
irn
ir XirXiXiXiYiXi
12
12
211
1101ˆ.........ˆˆˆ ββββ
ntes de ajustar un polinomio de grado r a un conjunto de datos debe alizarse un diagrama de dispersión para determinar el valor más probable
e r, o a través del paquete SPSS este podrá determinar el valor más robable de r encontrando el coeficiente de determinación de cada modelo. iempre debe usar el menor grado del polinomio posible que parezca escribir los datos adecuadamente.
AredpSd
Ejemplo: Ajuste una función polinomial a los siguientes datos:
x 1 2 3 4 5 6 7 8 9 10
y 20.6 30.8 55 71.4 97.3 131.8 156.3 197.3 238.7 291.7 Realizando una grafica de dispersión y observando los modelos lineal, cuadrático y cúbico se obtuvo los siguientes resultados.
MODELO R2 bo b1 b2 b3
LINEAL 0.967 -34.107 29.672 CUADRATICO 0.999 12.6433 6.2971 2.1250
CUBICO 0.999 5.1567 12.9374 0.6853 0.0873
GRAFICO DE DISPERSION
0100200300400
0 5 10 15
X
Y
Observando los resultados anteriores tanto el gráfico como la dispersión de
s datos estos sugieren que se debe ajustar un modelo cuadrático y estas on sus ecuaciones:
los
∑ ∑ ∑∑ = = ==+++=
n
i
n
i
n
irn
irXiXinY
1 1 1.
2210
1ˆ.....ˆˆ ββββ
) Xi
∑∑∑∑∑ =
+==
+=n
irn
i
n
iXirXiYiXi
11
11101ˆ βββ
==+++
n
i
n
iXiXi 3
212 ..........β
∑∑∑∑ +
=+++=
n rnn
i
n
iXirXiXiYiXi 232
012 ˆ...........ˆˆ βββ
=== ii 1111
∑ = 38521X ∑ = 30253
1X ∑ = 2533341X ∑ = 551X
= 1.12911Y ∑ = 3.954911 XY ∑ = 9.777581
21 YX ∑
1291.1 =
954 777 Estas ecuaciones normales se pueden escribir en notación matricial como sigue:
9549.3 385 3025
77758.9 385 3025 25333
3025
3
= 12.6433 =6.2971
CAPITULOSIÓN LINEAL
En a ayo a de predecirse de manera m adecuada no coentrada independiente sino con una independientes, donde Y se puede expresar
Y =
210ˆ385ˆ55ˆ10 βββ ++
9.3 = 210
ˆ3025ˆ385ˆ55 βββ ++
58.9 = 210ˆ25333ˆ3025ˆ385 βββ ++
0β 1291.1 10 55 385 1β 55
2β
Resolviendo este sistema para iβ se tiene: 0 10 55 385
β 55 385
β
1
2β 385 3025 253
1
0β 1β
REGRE
l m rí las aplicaciones, la respas
XX +++ βββ ..22110
-
9549.3
77758.9
=2.1250
3 MÚLTIPLE
de un experimento puede n base en una sola variable de
colección de k variables mediante la siguiente relación:
1291.1
2β
uesta
ekXk ++ β....
Donde Xj el número de variables j independientes y e es el error aleatorio distribuido normal con media cero za . Se supone que los parámetros
, j = 1, 2, 3, .... k es
y varian constante ( 2σ )
kββββ ,......,, 210 y no se conocen y deben estimarse a partir de los datos, los cuales se pueden representar como:
XY
2σ
1111221110 .................... eXXX kkjj +++++= βββββ 1
12 .................... eXXXXY kkjj 222222210 +++++= ββ βββ
XYi iikkjijii eXXX +++++= βββββ .................2210 ...1
eYn nnkkjnjnn XXXX +++++= βββββ ....................22110 Estas ecuaciones pueden representarse matricialmente de la siguiente maner
Y 1 X X ...........X ........X 1
Y 1 X21 X22...........X2j..........X e2
i i1 Xi2............Xij...........Xik e
Xn1 ……...Xnk en
En resume
a:
1 11 12 1j 1k 0β e
1β 2k 2
iβ Y 1 X i
kβ Yn 1 Xn2...........Xnj
n se tiene ε . β += XY El valor esperado de Yi es como sigue: E(Yi) = ikkjijii XXXX βββββ ++++ ....................22110 Un superficie, llamada superficie de respuesta.
a gráfica de E(y) como función de X1 y X2 describe una
Y
0)(YE 221 XX ββ 1β ++=
En gran parte de las aplicaciones reales aplicaremos un modelo de la forma:
1421322110)( XXXXXXYE ββββββ ++++=
Que corre
X2
X1
2 + 225
sponde a una curvatura en la superficie de respuesta:
X2
X1
Después de seleccionar la parte determinística de un modelo E(Y), todo Y
e la siguiente manera:
Y = Xβ + E ⇒ E(Y)= Xβ
ULTIPLE
equivalente a la parte deterministica:
puede representarse d
SUPUESTOS DEL ANÁLISIS DE REGRESIÓN M
1. E(E) = 0
Esto implica que la media de Y es
YE KK XXX ββββ ............2211 ++
3. La distribución de probabilidad de E es normal. rrores aleatorios son independientes en un sentido
probabilístico.
INTERPRETACIÓN DE LOS SUPUESTOS
1. El valor esperado de los errores es cero.
1 1
E(E) = E E2 = E(E2) = 0
conceptos
E = (e1, e2, .............en
E E - E(E) (E E
)( 0 +=
2. Para todos los valores de la variable independiente X1, X2, .......XK la
varianza de E es constante 2σ .
4. Los e
E E(E ) 0
E3 E(E3) 0
2. Para interpretar los supuestos 2 y 4 recordaremos algunos de los vectores aleatorios.
) COV( ) = E ( - E( ) = E ( - 0) ( - 0) E E
e1 e (E´ E) = E e1, e2, .......en) =
en E =
2
= 2e1) E(e2 2en)
.
. E(ene1) E(ene2)......... E(en
2
i) = E (ei2) - = E(ei
2) – 0 = E(ei) = σi2
OV (ei eJ )) = E (eiej) = σij
2 . (
.
e12 e1e2 ............ e1en
e2e1 e22 ............. e2en
. .
ene1 ene2 ............. en
E(e12) E(e1e2).......... E(e1en)
E(e 2)........... E(e .
)
( )[ ]2ieEV(e
C ) = E (ei - E (ei)) (eJ - E (eJ
( ) ( ) ( ) ( )jijiji eeEeEeEeeE =− Reemplazando estas expresiones en la matriz anterior se tiene que:
12 σ12...........σ1n
σ
E) = σ21 σ2
2...........σ2n
r es simétrica esto debido a que σij = σji.
1 2 n σ
COV(
σn1 σn2...........σn2
La matriz anterio Si los supuestos 2 y 4 son verdaderos se tiene que:
σ 2 = σ 2 = ...... σ 2 = 2 y σ = 0 para i ≠ j ij
Por lo tanto la matriz de covarianza presenta la si nt ru t
guie e est c ura:
..... 0
E) = 0 σ2 0....... 0 = σ2I
0 0 0....... σ2
COV(E) = σ2I
El supuesto número tres afirma que el vector tiene una distribución norma multivariada:
f(E) = f (e1, e2, ....... en)
σ 0 0. .
2
COV(
DISTRIBUCIÓN NORMAL MULTIVARIADA
El
La distribución normal multivariada se define como una función de
f(x) = 1, x 1 1 µµ xx
densidad conjunta:
f(x 2, ….. x3) 1 e (2/( ∑ −−− − ))()'
2/1
2 ∑Πn
donden = es l
= X = V µ = valor esperado
ueda expresado de la siguiente manera:
, e n
: número de componentes en el vector e
∑ COV(X) ector aleatorio
Si los supuestos 1, 3 y 4 son verdaderos la distribución normal multivariada para el vector de errores q f(E) = f (e1 2, ....... e ) = ) 1 e ε
σ 2
ε −)1´( I
2/1 2 ∑
Πn
bserve que I∑= 2
1σ
O
Una manera si ara expresar que un ector a eato es nomplificada p v l rio rmal
ultivariada se representa de la siguiente manera:
= N (µ, Σ)
e tor de los errores y bajo los supuestos se tiene que:
m X µ = vector Σ = COV(X) Para l caso del vec
ε = N (0, I1 ) 2σ
AJUSTE DEL MODELO POR EL MÉTODO DE LOS MINIMOS CUADRADOS
senta de la siguiente manera: El modelo general múltiple se repre
iikki eXXYi +++= βββ ............110
Llamaremos kβββ ˆ...........ˆ,ˆ10 los estimadores de βi donde i = 1, 2, ....k.
ple la estimación de los parámetros se hará po aquellos que
im .
Al igual que en la regresión lineal sim
iβr el método de los mínimos cuadrados (se tomará min icen la sumatoria de los errores al cuadrado
e1
e2 EE’ = (e1, e2, ....... en) . = ∑ ∑ −= 22 )ˆ( yye ii = SSE
en
=
++−=n
ikkii XXy 2110 ))........(( βββ
Para determinar los estimadores de mínimos cuadrados, tomamos las la suma de cuadrados anteriores, primero con
y después , e igualamos a cero las k+1
.
SSE = ∑ −i yy 2)ˆ( ∑i 1
derivadas parciales de specto a β , luego a 0 1β kβre
ecuaciones.
0ˆ0
=∂β
∂SSE 0ˆ1
=∂β
∂SSE 0ˆ =∂∂
K
SSEβ
ados:
−− 0)ˆ...............ˆˆˆ(2 XXXy ββββ
Y se obtienen los siguientes result ∑ =−−− 22110 ikkiii
∑ −−−−− ...............ˆˆˆ(2 221101 iii XXyX βββ = 0)ˆikk Xβ
0)ˆ...............ˆˆˆ( 221102 ikkiiii XXXyX ββββ
0)ˆ...............ˆˆˆ22 ikki XX ββ
Rescribiendo estas ecuaciones obtenemos que los estimadores de mínimos cuadrados satisfacen el siguiente conjunto de ecuaciones lineales, llamadas ecuaciones normales:
i
∑− 2 =−−−−
.
.
. ∑ −−− (2 110 iiik XyX ββ =−−
kββ ˆ...........ˆ0
∑ ∑ ∑ ∑++ ikkiii XXy ββ ˆ.............ˆ22110
++= Xn ββ ˆˆ
∑ ∑ ∑ ∑∑ += ii Xβ 10 +++ ikikkiiii XXXXXyX βββ ˆ.............ˆˆ122
2111
∑ ∑ ∑∑ +++= ........ˆˆˆ XXXXXX βββ ∑+ 2
22ˆ..... ikki Xβ
Estas ecuaciones normales pueden representarse matricialmente de la te
X´X = XÝ
Demostración:
. .
X1k X2k....... Xnk 1 Xn1 Xn2 X ΣXik
X´X ΣX11 ΣXi1
2 ΣXi2Xi1 ΣXikXi1
110 ikikiikiki y
siguien manera: β
1 1........ 1 1 X11 X12 ........X1K
X11 X21...... Xn1 1 X21 X22....... X2K X´X = X12 X22....... Xn2 1 ...... . .
. nk
n ΣXi1 ΣXi2................ 0β
= 1β
ΣXik ΣXi1Xik ΣXi2Xik ΣXik
2
X11 X ... Xn1 Y2 Σ XÝ =
X12 X .... Xn2 Σ . . X1k X2k....... Xnk Yn ΣY1Xik Con lo cual queda demostrado que una manera de representar las ecuaciones normales mediante notación matricial está dada por la siguiente expresión:
X´X = XÝ
a matriz X´X proporciona la siguiente información:
a. Las sumas simples de cada variable .
b. Sobre la diagonal principal la suma de cuadrados .
c. Fuera de los elementos de la diagonal se presenta la suma
simple de los productos cruzados donde L K
triz simétrica (X´X)´ = X´X.
s expresadas en forma
′Χ
kβ ˆ
Σ1 1........ 1 Y1 Y 1
21... Y1Xi1 =
22... Y1Xi2
β
L
∑=
n
iikX
1
∑=
n
iikX
1
2
jk
n
iiL XX∑
=1
≠
Una característica importante de X´X es que una ma
Otra manera de llegar a las ecuaciones normalematricial es la siguiente Υ = Χβ + ε ⇒ ε = Υ − Χ β ε′ε = (Υ − Χ β )′(Υ − Χ β ) = Υ′Υ − β ′Χ′Υ − Υ′Χ β + β ′Χ β
Recordar que Χ β ′ = β ′Χ′ además β ′Χ′Υ es un escalar y es igual a su
′Υ + ′Χ
transpuesto. ( β ′Χ′Υ) = Υ′Χβ Se tiene Υ′Υ − β ′Χ′Υ − Υ′Χ β + β ′Χ′Χ β = Υ′Υ − 2 β ′Χ β ′ X β = ε′ε
stas son las ecuaciones normales representadas matricialmente y alculadas con anterioridad al despejar de dichas ecuaciones se tiene u =(Χ′Χ)- Χ′Υ
lar la estimación de los
RESIÓN y
∂ε′ε / ∂ β = −2Χ′Υ + 2Χ′Χ β igualamos a cero ˆ ˆ −2Χ′Υ + 2Χ′Χ β = 0
2Χ′Χ β = 2Χ′
Χ′Χ β = Χ′Υ E
βce β q
Ejemplo : Para nuestro problema tradicional calcuβ i mediante notación matricial :
PRESION x COMP1 1 2 1 3 2 4 2 5 4
Χο Χ1 1
2 ε1
1 4 β = ε = ε3 5 β1 ε4
1 1 1 1 2 1 3 β ε2 Ο
Υ = 2 Χ= 4 1
1 1 1 1 1 2 5 15
1 1 1 X ′ Χ = 1 3 =
1 2 3 4 5 1 4 15 55 1 5
ΤΥ = 1 2 3 4 5 2 =
2 37
1 1 1 1 1 1 1 10 Χ
4 15 −1
′Χ)−1 = 55
inversa de una matriz de 2x2
a21 a22
= Matriz adjunta Α/ determinante Α
eterminante A = a11 * a22 - a12* a21
A+ = cofactor de a21=-a12 cofactor de a22 = a11
55 −1
2
0.3 0.1
5 (Χ 15 Recordemos como se halla la a11 a12 Α =
+Α d
cofactor de a11= a22
cofactor de a12 =-a21 5 ( ) 1−′XX = -15 5 55 * 5 − 15 = 50
1.1 -0.3
( ) 1−X = ′X−
−0.3 10 −0.1
-0.3 0.1 37 0.7
= o cuación de predicción es
1.1 β = (Χ′Χ)−1 ΧΥ = = ˆ ˆ nt la eβ 0= -0.1 β 1 0.7 y por lo ta
Υ= 0.1 0.7x +
a uciones anteriores.
992) utilizaron un modelo de regresión el dor para dar o ero de
e o e se encuentra la máquina (X2).
X1 X2 Y
Result dos que concuerdan con la sol Ejemplo : Montgomery y Peck (1para r acionar la cantidad de tiempo que requiere un vendeservici a una m quin expend oraa a ed de refrescos, (Y) con el númenvases contenidos en la máquina (X) y la distancia del vehículo dservici al sitio dond OBSERVACION
1 2 50 9.95 2 8 110 24.45 3 11 120 31.75 4 10 550 35 5 8 295 25.02 6 4 200 16.86 7 2 375 14.38 8 2 52 9.6 9 9 100 24.35
10 8 300 27.5 11 4 412 17.08 12 11 400 37 13 12 500 41.95 14 2 360 11.66 15 4 205 21.65 16 4 400 17.89 17 20 600 69 18 10.30 1 585 19 34.93 10 540 20 15 250 46.59 21 15 290 44.88 22 16 510 54.12 23 17 590 56.23 24 6 100 22.13 25 5 400 21.15
X0 X1 X2
9.95 10 24.45
11 120 31.75 10 550
1 8 295 1 4 200
2 375 14.38 0
100 24.35 300 27.50
4 205 21.65 400 17.89
20 600 69 10.30 34.93
15 250 46.59 15 290 44.88
1 16 510 54.12 1 590 56.63
1 6 100 22.13 5 40 21.15
1
1 2 50 1 8 1 1 1 35
25.02 16.86
1 1 2 52 9.6 1 9 1 8 1 4 412 17.08 1 11 400 37 1 12 500 41.95
= 1 2 360 Υ = 11.66 Χ 1
1 4 1 1 1 585
10 540 1 1 1
17 1 0
2 50 1 1............1 1 8 110 Χ′Χ = 2 8.............5 . . . 50 110..........400 1 5 1100 25 206 8294
Χ′Χ = 206 2396 77177 8294 77177 3531848
.45
274811.31
2.74426964 2 0.01252781
(Χ′Χ)-1 = El modelo de predicci
9. 1 1...........1 24
45 Χ′Υ = 2 8 5 . 50 110 400 21.15 725.82 Χ′Υ = 8008.37 274811.31 β = (Χ′Χ)-1 Χ′Υ βο 25 206 8294 -1 725.82 β1 = 206 2396 77177 8008.37 β2 8294 77177 3531848
βο 2.26379143 β1 = β 0.21653 − 0.007491 0.000340
− 0.007491 0.001671 -0.000019 − 0.000340 −0.0000019 -0.000015
ón será el siguiente: Y = 2.26379 + 2.74427X1 + 0.01253X2
PROPIEDADES DE LOS ESTIMADORES DE MINIMOS
os estimadores de β en la regresión múltiple a través del método de los dos… producen estimadores insesgados y de mínima
arianza.
CUADRADOS Lmínimos cuadrav
A continuación solo se demostrará que son insesgados y se hallará la matriz dichos estimadores.
Υ
=(Χ′Χ)-1(Χ′Χ)β+(Χ′Χ)-1 Χ′ε
Ε(Con
b. MATRIZ DE COVARIAN
e (Ι) se tiene que =β+(Χ′Χ)-1 Χ′ε −β=(Χ′Χ)Χ′ε
] COV )=Ε[( −β)( −β)′]
OV )=Ε[(Χ′Χ)-1Χ′εε′Χ(Χ′Χ)-1]
′Χ)-1Χ′σ2 ΙΧ(Χ′Χ)-1] = σ2[(Χ′Χ)-1(Χ′Χ)(Χ′Χ)-1]
lamaremos (Χ′Χ) = C
ica
σ2C
= C01=C10 ; C02=C20 ; C12=C21
=σ2C00 ; σ =σ2C11 ; σ =σ2C22
OV i)=σ Cij
de covarianza para a. ESPERANZA DE β β =(Χ′Χ)-1 Χβ =(Χ′Χ)-1 Χ′(Χβ+ε) β β =β+(Χ′Χ)Χ′ε Ε( β )=β+(Χ′Χ) Χ′Ε(ε)=β Puesto que Ε(ε)=0
β )=β cluimos que β es un estimador insesgado
ZAS PARA β
d βpor lo tanto β COV( β )=Ε[( β −Ε( β ))( β −Ε( β )′
ˆ
( β β βCOV( β )=Ε[(Χ′Χ)-1Χ′ε(Χ′Χ)-1Χ′ε)′]
( βCCOV( β )=[(Χ′Χ)-1Χ′Ε(εε′)Χ(Χ′Χ)-1]
OV( β )=[(ΧCCOV( β )=σ2 (Χ′Χ)-1
−1L
Donde C es simétr
COV( β )=σ2(Χ′Χ)-1= C00 C01 C02 C C01 C11 C12 C20 C21 C22
2 β 02 β 1 β 2σ
COV( β 0, β 1)=σ2C01 ; COV( β 0 β 2)=σ2C02 ˆ ˆ 2( β i βC
V )=σ2Cjj OV )=σ2Cij=σ2Cji i≠j
ESTIMACION DE σ , LA VARIANZA DE ε
ε′ε=SSE=(Υ−Χ )′(Υ−Χ )=Υ′Υ−2 ′Χ′Υ+ ′Χ′ΧPuesto que Χ′Χ =Χ′Υ se tiene que SSE=Υ′Υ−2 ′Χ′Υ+ ′Χ′Υ=Υ′Υ− ′Χ′Υ
nsesgado de σ esta dado por el error o error cuadrático
β j(
( β i β jC
β β β β β β
β β βUn estimador i
edio. m
pnyxyySSE −∧ ``` β
pnS
−=
−== 22σ
E E erro ático para los dos anteriores σ2
= Χ′Υ=
′Υ=[1 1 2 2 4 1 2 = 26 2
= 24.9
SE=Υ′Υ−β′Χ′Υ=26−24.9=1.1
jemplo: stimar el r cuadr medio
ejemplos − 0.1 10 β 0.7 37 Υ ] 1 4
β′Χ′Υ=[−0.1 0.7]
10
37 S
367.025
=−
=−
=pn
S ; 1.12 SSE 61.0605.0367.0 ≈==S
19.00367.0;0367.01.0*367.0 1111 ===== ββ σσσ C 2
6355.04037.0;04037.01.1*367.0 00002 ===== ββ σσσ C
Ejemplo: para el problema del vendedor se tiene
Υ′Υ=∑=
25
1
2
iyi =27177.4510
725.8 β′Χ′Υ=[2.26379110 2.74426964 0.01252781] 8 008.37 274811.3 β′Χ′Υ=27062.7775
SSE=Υ′Υ−β′Χ′Υ =27177.4510−27062.7775 =115.1735
σ2=325 −− pn
1735.15= =115.1735 = 1SSE 2352.5
22
σ =
1735.115= 115.1735
2σ = 2352.5 = 2.28805 Ejercicio: hallar ; ; ; ; 0
2βσ 1
2βσ 2
2βσ
0βσ1βσ
PRUEBAS DE HIPÓTESIS EN LA REGRESIÓN LINEAL MÚLTIPLE
pruebas d
p stos
regresión x1, x2, ..., xk. La hipótesis apropiada es:
a J ≠ 0
l rechazo de la hipótesis nula indica que almenos una de las βJ es diferente
variación Suma de
cuadrados Grados de
libertad Cuadrado
medio F Signifi-
cancia
En la regresión lineal múltiple existen e hipótesis sobre todos los parámetros del modelo para probar la significancia del mismo, y sobre cada
rámetro del modelo para determinar que una variable en particular tieneaalguna contribución al modelo (esto es posible si se cumplen los supue
el modelo). d
Significancia del modelo La prueba para la significancia del modelo determina si existe una relación lineal entre la variable de respuesta y y un subconjunto de las variables de
Ho β1 = β2 = ....... = βp = 0 β almenos para una J H
Ede cero. Para probar la hipótesis de la significancia del modelo cobra importancia la tabla de análisis de varianza.
Fuente de
Variación SSR P – 1 CMR= SSR/P – 1 CMR/CME p
Residuo SSE N – P CME=SSE/N – P Total SSyy N – 1 Donde:
( )
( )∑ ∑
∑∑
∑ ∑=⎟⎞
⎜⎛ −= yyySS i
22__ ∑
−=⎟⎠⎞
⎜⎝⎛ −=
−=−=⎟⎠⎞
⎜⎝⎛ −=
−
∧
ny
yxyySSR
yxyyxyyyy
ny
ii
iii
i
22__
22
2
``ˆ
`````ˆ
β
ββ
a tabla de análisis de varianza plantea que la suma de cuadrados total se
emostración:
SE = y`y - β`x`y
Sumando y
⎠⎝iyy
SSE
Lpuede descomponer en dos partes SSyy = SSR + SSE D
e las fórmulas anteriores se tiene que D S
restando ( )nyi
2∑ se tiene
( ) ( )SSE = y`y - n
- [β`x`y - yi2∑
nyi
2∑ ]
SSE = SSyy –SSR despejando SSyy SSyy = SSE – SSR
i la hipótesis nula es verdadera Ho β = 0 para toda J se tiene que S JSSR tiene una distribución Chi cuadrado también puede demostrarse que 2σ
2
SSE también se distribuye Chi cuadrado σ
( ) 22 sPnSSEPn
SSEs −=−
= ( )22
2
σσSSEsPn
=−
( )
( )
( )
( )CMECMR
PnSSEPSSR
PnSSE
PSSR
f =
−
−=
−
−= 11
2
2
0
σ
σDe la definición de f se tiene que
echazar la hipótesis nula si f0 es mayor a fα, P-1,n-P o si el valor varianza es menor a α.
jemplo: Para el problema de regresión del vendedor rechazar la prueba de hipótesis.
o: βJ = 0 J = 1, 2, ...., p a: βJ ≠ 0 para almenos un J
`
Debemos rde p en el análisis de E
HH y(
y = 271779510 ) ( )
25nβ`x`y = 27062.7775 De la anterior informac
82.725 22
=y
ión se tiene que:
∑
( ) ( ) 9447.610525
82.725.27177` =−= ∑ny
yySSyy 451022
=−
Y la suma de cuadrados de la regresión se calcula de la siguiente manera:
( ) ( )
1735.1157712.5990944.6105 =−=−= SSRSSSSE yy
7712.599025
7775.27061`` =−==n
yxSSR β
82.725 22
− ∑ y
17.5722352.5
3856.29
2352.51735.115
==
===
CMRf
SSECME 95
22
38.299527712.5990
17712.5990
0 =
−
=−
=
Pn
PCMR
= 3.44
Como f0 > f0.05, 2, 22 572.17 > 3.44 se rechaza la hipótesis nula
=
CME f0.05, 2, 22
Fuente de variación
Suma de cuadrados
Grados delibertad
Cuadrado medio
F Significancia
Variación 5990.7712 2 2995.3856 572.17 0.0000001 Residuo 115.1735 22 5.2352 Total 6105.9447 24 O en la anova anterior el valor de p es mucho menor que α.
area: Para el problema de la presión y compresión probar:
0 1
β0 ≠ 0 o β1 ≠ 0
Pruebas sobre los coeficientes individuales de la regresión y sobre un subconjunto
n ocasiones se tiene interés en hacer pruebas de hipótesis e intervalos de onfianza ebas son
portantes para determe ser más eficaz con la inclusión
e una variable o con la eliminación de una o más variables.
a adición de una variable al modelo de regresión siempre hace que la suma de los cuadrados de la regresión aumente y la suma de los cuadrados
el error disminuyan.
T Ho: β = β = 0
a: H
Ec sobre cada coeficiente de la regresión. Dichas pru
inar el valor potencial de cada una de las variables imdel modelo de regresión. El modelo puedd L
d Por lo tanto, debe si el aumento a la suma de cuadrados de la regresión es suficientemente grande como para justificar el uso de una variable mas en l modelo. e
Por otra parte, la adición de una variable sin importancia puede aumentar el error cuadrático medio, esto disminuye la calidad del modelo debido a que
el estadístico f disminuye
Pn − Para realizar las diferentes pruebas de hipótesis y construir los intervalos de confianza, se hace la supos
SSEPSSR
CMECMRf −== 1
ición que los supuestos del modelo se cumplen.
a) Intervalos de confianza
stán basados en el estadístico
JJ
JJ
Cst
2
∧
−=
ββE donde CJJ es el J esimo
elemento de la matriz (x`x)-1 y s la estimación de la varianza del error 2 es
Pn −Un intervalo de confianza para βJ esta dado por la siguiente expresión:
SSE=2 s
JJJJJJJ CsPnt2
, ≤−− α ββ CsPnt 2
2
2 −+≤∧
αβ
e valo de confianza del 95% para el parámetro e refresco, nótese que la
es β el elemento de la diagonal de (x`est
∧
E rj mplo: Construir un inteβ1 del problema de tiempo de suministro d
∧
estimación puntual de β1 74427.21 =
x)-1 que corresponde a β1 es C11 = 0.001671; s2 = 5.2352 y en la tabla t udent
074.222,, 025.0 ==− tPn
intervalo estará dado por la siguiente expresión:
( )
2
tα
Un
( )(7.2
P Ejem 1presió
`11
00
==
⎥⎦
⎢⎣−
=−
Cxx
) 95.093825.255029.2001671.0*2352.5074.27442.2001671.0*2352.5074.24427
1
1
=≤≤+≤≤−
ββ
plo: Calcule un intervalo de confianza para β en el problema de la n y compresión del 95% de confianza:
3.01.1 ⎤⎡ − C( )1.01.1
1.03.01
95.031.109.0
7.0192.0*182.3192.0*182.3 ≤≤∧
β7.0
,
1.0*367.
1
1
2
111
=⎟⎠⎞
⎜⎝⎛ ≤≤
+−
=
∧
∧
β
α
β
P
nt
S
182.33,025.0 ==− tP
192.002 ==Cs
b) Pruebas de hipótesis Considere los datos sobre tiempo de suministro de refresco y supóngase que sdifere
e busca probar la hipótesis que el coeficiente de regresión de x1 es nte de cero. Ho: β1 = 0 α = 0.05 Ha: β1 ≠ 0
349.2974427.2=
074.222,, 025.02
11
==− tPntα
001671.0*2352.52
1 ==
∧
Cst β
la Ho: β1 = 0 y se concluye que la 1 portante en el modelo.
Ta r sta la 625.
plearse para predecir observaciones rrespondientes a valores particulares
l
n intervalo de predicción del 100(1 - α) para esta observación futura es:
Como 074.222,025.0 =t se rechaza ariable x (número de envases tiene contribución imv
lle : En el SPSS realizar los ejercicios desde la página 619 ha
PREDICCIÓN DE NUEVAS OBSERVACIONES Un m delo de regresión puede emofuturas de la variable de respuesta y, co
e as variables independientes, por ejemplo: dXi1, Xi2, ..., Xip si Xi`= (1, Xi1, Xi2, ..., Xip) entonces una estimación puntual de la observación futura Yi en el punto Xi1, Xi2, ..., Xip es
∧∧
= β`ii xy . U
( )( )( ) ( )( )( )iìii xxxxsPntyt 12
22
``1,, −+−+≤− αα iii yxxxxsPny 12 ``1 − ≤+−∧∧
Ejemplo: Supóngase que el embotellador de refrescos desea construir un intervalo de predicción del 95% para el tiempo de suministro a un
distribuidor donde x1 = 8 envases y la distancia que camina el empleado es x2 = 275 pies. Por tanto Xi` = [1 8 275] y la estima con puntual para
[ ] ademásXy ii
01253.0 ⎥⎥⎦⎢
⎢⎣
66.2774427.227581` =⎥⎢== β26379.2 ⎤⎡
∧∧
( ) [ ] 0444.027581
0000015.0000019.0000340.0000019.0001671.000749.000.0007491.021653.0
⎢⎡ −− 034
27581`` 1 =⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
⎥⎥⎥
⎦
⎤
⎢⎢⎣ −−−
−−=−oo xxx
x
( ) ( )( ) 95.00444.01*2352.5074.266.270444.01*2352.5074.266.2(
7 =++≤≤+− iyP)
INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA
e un intervalo de confianza para la respuesta romedio en un punto en particular por ejemplo Xi1, Xi2, ..., Xip. El vector i se representa como:
⎢⎢
iX 1
P 95.051.3281.22 =≤≤ iy
También puede obtenerspx
⎥⎥⎥⎥
⎦⎢⎢⎢⎢
⎣
=
ip
ii
X
XxM
2
La respuesta promedio en este punto es
⎥⎥⎤⎡ 1
βµì
i
y
ixxx
y `==⎟⎠⎞⎜
⎝⎛Ε la cual es
estimado por ∧∧
= βµì
i
y xx ` .
El estimador anterior es insesgado ya que i
yyxxµ
ββ =⎟⎞
⎜⎛
Ε==⎟⎞
⎜⎛Ε
∧
`` la i
ìì xx ⎟⎠
⎜⎝⎠⎝
( ) iìi
yV
∧
⎜⎜⎛ µ
xxxxx
12 `` −=⎟⎟⎟⎞
⎜σ varianza es:
⎠⎝Un intervalo de confianza del 100(1-α) para iy xµ puede construirse a
partir del estadístico: ( ) iì
oyoy
xxxxs
xx12 `` −
∧
− µµ
El intervalo de confianza esta dado por la siguiente expresión:
( )( )( ) ( )( )( )iìiyiyiiiy xxxxsPntxxxxxxsPntx 12
2
12
2
``,``, −∧
−∧
−+≤≤−− αα µµµ
Ejemplo: El embotellador de refrescos le gustaría construir un intervalo de onfianza del 95% para el tiempo promedio de suministro a un distribuidor ue requiere x1 = 8 envases y la distancia x2 = 275 pies.
⎢⎢⎢
⎣
=2758ix
cq
⎥⎥⎥
⎦
⎤⎡ 1[ ] 86.27
01253.074427.2.2 26374
27581` =⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡== βµ ìoy xx
La varianza es:
( ) [ ]⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−−−−−
==⎟⎠⎞
⎜⎝⎛ −
∧
27581
0000015.0000019.00034.0000019.0001671.0007491.0000540.0007491.0214653.0
275812352.5`` 12iìiy xxxxsxV µ
23266.0=⎟⎠⎞
⎜⎝⎛ ∧
iy xV µ por tanto, un intervalo de confianza del 95% para el
suministro promedio es:
66.2870.26 ≤≤ iy xµ
MEDIDAS DE ADECUACIÓN DE UN MODELO a) Coeficiente de determinación múltiple El coeficiente de determinación múltiple R
23266.0074.266.2723266.0074.2 +≤≤ iy xµ
66.27 −
2 esta definido como:
yyyy SSSSE
SSSSRR −== 12 .
R2 es una medida de la reducción en la variabilidad de y obtenida mediante el empleo de las variables de regresión x1, x2, ..., xp al igual que en el caso de la regresión lineal simple -1 ≤ R2 ≤ 1. Un valor de R2 grande no necesariamente implica que el modelo de
gresión es bueno, la adición de una nueva variable al modelo siempre 2 es una estadísticamente
tienen valores de R2 grandes ueden proporcionar predicciones pobres.
a raíz cuadrada de R2 se llama coeficiente de correlación múltiple entre y el conjunto de variables x1, x2, ..., xk, R es una medida de la asociación neal entre y x1, x2, ..., xp.
Ejemplo: El coeficiente de determinación múltiple para nuestro modelo
reaumenta R , sin importar si la variablesignificativa. Es así como los modelos que p Lyli
es:
981137.09447.61057712.59902 ===
yySSSSRR
El 98.11% de la variabilidad en el tiempo suministrado y queda explicado cuando se utiliza dos variables de regresión, volumen suministrado (x1) y distancia (x2). b) Análisis de los residuos Aleatoriedad (ver SPSS). Normalidad (ver SPSS). Intervalos de confianza para y,
∧
y (ver SPSS) Pruebas de normalidad
Para probar la normalidad de los datos se elige el menú analizar del SPSS → estadísticos descriptivos → explorar y se coloca en la pantalla resultante en dependiente la variable sobre la cual se mide la normalidad, en ambos se analiza los gráficos y estadísticos en explorar estadísticos se le coloca el chulito y si se desea se plantea un intervalo
y gráficos en prueba de normalidad. A continuación se presentan los resultados que arroja esta corrida de SPSS.
de confianza para µ. En explorar gráfico se teclea niveles de los factores juntos
• Gráfico Q – Q normal: entre más próximo estén los puntos sobre
la recta mejor es el ajuste de normalidad. • En estadísticos descriptivos debe observarse los estadísticos de
asimetría y curtosis.
Asimetría = as 31
s
xxi
i∑3__n
=
⎞⎛⎟⎠
⎜⎝
− donde
n
xxs
i∑ ⎟⎠
⎜⎝
−=
⎞⎛2__
Si as = 0; la distribución es simétrica
Curtosis k =
Si as > 0; asimétrica a la derecha Si as < 0; asimétrica a la izquierda
3 4
4__
−⎟⎠⎞
⎜⎝⎛ −∑
s
xxi
La distribución normal se caracteriza por tener una curtosis k = 0. El
sta prueba de normalidad garantiza que todo tipo de inferencias stadísticas que se hace sobre los parámetros y pronósticos tengan alguna alidez.
ichas pruebas son las siguientes:
- Comprobar la bondad del modelo en la tabla de análisis de varianza (Distribución F).
- Pruebas de hipótesis e intervalos de confianza para los βi. - Intervalos de confianza para los pronósticos.
hazada, las inferencias stadísticas planteadas anteriormente carecen de sentido.
SPSS considera que si la asimetría las y la curtosis (k) se halla en el intervalo (-2,2) debe ser considerado un buen indicador de normalidad.
PRUEBAS DE NORMALIDAD Eev D
Si al hacer la prueba de normalidad ésta es rece
PRUEBAS DE NORMALIDAD
a) Contraste de Kolmogorov Snirnov
ución acumulada de los datos con la istribución acumulada de la distribución teórica.
ribución de probabilidad cerrada si Dn es mayor que la ncontrada en tablas para un nivel α, rechazamos la distribución F(x) para
la muestra para n y n crítica será Dn > D(α,n), si el Dn calcu d D(α,n) se rechaza la ipótesis que la distribución es normal, por lo tanto si el SPSS arroja un
.01 se rechaza la hipótesis α de normalidad de lo ontrario aceptamos que existe esa normalidad.
b) Contraste de normalidad de Shapiro y Wilks
l contraste de Shapiro y Wilks mide el ajuste de la muestra a una recta al dibujarla en un papel probabilístico normal, se rechaza la normalidad
Esta prueba es mucho más robusta que la prueba de chi cuadrado. Esta prueba se basa en comparar la distribd Dn = MAX ⎢Fn (x) – F(x) ⎢ Fn (x) = distribución de los datos F(x) = distribución teórica Dn tiene una diste
α dados hallamos D(α,n) la regiólados en los atos es mayor que
hvalor menor a 0.1, 0.05 y 0c
E
cuando el ajuste es bajo, que corresponde a valores pequeños del estadístico de este dicho estadístico toma la expresión.
( )( ) ( ) 2
22
11,2 ns
AXns J
JJnnJ ⎥
⎦
⎤⎢⎣
−=
+− donde ns2 = ∑ ⎟⎠⎞
⎜⎝⎛ −
2__
xxi 1 Xah⎡
= ∑w
imparesnsinhoparesnsinh2
12
−==
os coeficientes aJn están tabulados y xJ es el valor ordenado de la muestra ue ocupa el lugar J. La distribución de muestra tabulada y se rechaza la ormalidad cuando su valor calculado a partir de la muestra es menor que
ndiente valor crítico dado en las tablas.
Si el valor dado por el SPSS es menor a 0.1, 0.05 y 0.01 se rechaza la hipótesis de normalidad de lo contrario debe aceptarse que los datos siguen una distr ción al
Lqnel correspo
ibu norm .
ANÁLISIS DE LOS RESIDUOS
Con la regresión y correlación, al igual que con otras experiencias de la vida, podemos aprender de nuestros errores. Por consiguiente, conviene estudiar resid o sión. Como se ha subrayado antes, una regral puro a r que en u d y una varianza de σ2. Si el estudio de estos redemuestr lo co rio u entes al model La d ció a a inos de error dría s fic e a l ótesis básicas relativas al mo L r e ica a estudiar térm s d i b u eden detectar dicho ális m d os de la autoc lació e Autocor ción Una de las propiedades básicas del modelo OLS es que los errores no guardan relac i se i n un momento temporal no tiene relación lineal con el error que se puede experimentar en otro m as u entar los errores a lo largo del tiem gráfica, ésta se parecería a la de la siguiente figura:
igura 1.
los uos términos de erroesión buena presenta errores debidos
r en nuestro modelo de regre
za sigu una distribución normal considuos revela condiciones que
na me ia de 0
ano.
ntraetec
, sería n de cu
n indiciolquier p
de que hayuta de corre
problemlación en
as inher los térm
po igni ar que sdelo O
han trS. El
nsgredido aesto de est
gunas de capítulo
las hip se ded
losen
ino an
e erroris. Nos
ya analcentrare
zar los proos ante to
lemas qo en los
e se puprincipi
orre n y d la heterocedasticidad.
rela
cor ión. El error de pred cción que exper menta e
omento. En el c o ideal, si hubiera q e represpo en una
F
No hay pauta detectable en los errores. Los términos de error parecen se independientes y no dan ninguna indicación de que haya relación entre ellos. Pero cuando se trata de datos pertenecientes a series temporales, muchas eces esta condición deja de cumplirse. Encontramos que los errores ueden estar correlacionados, de donde resulta una autocorrelación (AC). uchas series económicas, como el desempleo, el PNB o los tipos e terés, varían de manera cíclica en el tiempo. Si una serie tiene un valor
emasiado bajo (alto) durante un mes en relación con su media a largo ble que siga siendo bajo (alto) el mes siguiente. Las
cen de la noche a la mañana. Un modelo de regresión e basa en una media a largo plazo de la serie. Si una serie tiene un valor
lo de regresión haga una stimación excesiva de su valor. Esta sobreestimación dará lugar a un error
er ga siendo uy baja el período tem es de esperar que ocurra otro error
emasiado alto. Los errores positivos serán generados para varios períodos varios
igura 2.
vpMindplazo, es probacorrecciones no se hasdemasiado bajo, es probable que el modeenegativo, puesto que e = Yi – Ý. Como es probable que la s ie sim poral siguiente,
o la serie pasa a un ciclo de nivel negativo. Lo contrario sucede cuanddsucesivos. Esta pauta de errores sucesivos negativos, seguidos de errores positivos, es prueba de que existe autocorrelación. La siguiente figura ilustra la autocorrelación: F
Hay puta clara en los términos de error. Inician la pauta varios errores sucesivos negativos seguidos de varios errores positivos tras los cuales
aparecen varios errores negativos más (no es de esperar que la pauta sea tan
de error. Como todos los parámetros, se stima con el estadístico correspondiente cuando se toman datos aestrales. Esta correlación entre errores a nivel muestral se mide por r, el
correlación muestral que hemos utilizado para medir correlación entre dos variables de nuestro modelo. En la figura 1, en que
evidente en la práctica). La correlación entre términos de error se puede medir igual que la correlación entre dos variables cualesquiera del modelo. La correlación entre un error en un período temporal t y el períodod temporal anterior t-1 se por ρet, et-1, donde el parámetro ρes el coeficiente de correlación poblacional para los términos emmismo coeficiente delano existe AC, estimaríamos la correlación entre términos de error con ret,,et-
1 igual a cero. En cambio, la figura 2 sugiere la probabilidad de que un error vaya seguido de otro error del mismo signo. Es decir ret,,et-1. Se dice que hay una AC positiva. Si los errores tendieran a alternar su signo, habría también correlación negativa y ret,, et-1<0. La siguiente figura nos muestra la grafica en donde los errores tienden a alternar su signo: Figura 3.
En presencia de AC todos los contrastes de hipótesis e intervalos de onfianza se tornan menos fiables, los que convierte a la autocorrelación en lgo muy perjudicial.
un modelos para estudiar el error del modelo original. Si el error es ε, el modelo que relaciona el error de un período temporal con el del siguiente es:
ε= ρet-1 + µt
D e error aleatorio en la predicción de los errores; es decir, µ mide el error
ca Se puede construir
onde ρ es la correlación entre errores del modelo original y µ el términod
que experimentamos cuando tratamos de estimar el error de nuestro modelo riginal. El término µt, que a menudo se denomina ruido blanco, se roduce porque los errores del modelo original no responden a una
opcorrelación perfecta. Por tanto, habrá algo de error en nuestro intento de predecir el error del modelo original. Figura 4.
n de errores está ontenida en los dos cuadrantes positivos de los ejes. De ello resultaría que et, et-1 >0.
ra 4 b) los términos de error están limitados a los dos cuadrantes egativos, lo que indica una correlación negativa, es decir, et y et-1 toman ignos opuestos, luego ρet, et-1 <0.
a t, t-1
La Figura 4 también refleja pautas de error que pueden revelar información obre el modelo cuando se representa et frente a et-1. En la figura 4 a) existe autocorrelación positiva porque cuando et es positivo, et-1 también lo es, y cuando et es negativo, et-1 también es negativo. Los errores consecutivos tienen el mismo signo. La relaciócρ En la figuns Aunque el análisis de errores puede ser un medio de detectar la autocorrelación , ne es muy fiable. Rara vez se observan pautas tan claras como las aquí sugeridas. Necesitamos un procedimiento menos falible, y por suerte tenemos uno basado en el estadístico d de Durbin-Watson. El estadístico de Durbin-Watson se utiliza para comprobar la hipótesis de no autocorrelación:
H0: ρet, et-1 = 0, No hay correlación H : ρe e ≠ 0, Hay correlación
Se calcula por la fórmula:
d = ( )
( )∑∑ −
−2
1ee tt 2
Con nanteriogeneraautmehip
et (et) et -et-1 (et -et-1)
et
uestros datos del estudio de gastos de los consumidores, la fórmula r facilita los cálculos necesarios. Obsérvese que 0 ≤ d ≤ 4. Por regla l, si d es próximo a 2, supondremos que no hay problema de
ocorrelación. Pero es recomendable determinar si el valor hallado diante la esta fórmula es significativo, y para ello hay que contrastar la
.ótesis de ρ = 0
Ejemplo:
Observación
Yi Ypron
1 51 49,3359
1,6641 2,76922881
2 30 30,378 -0,37844
0,14318656
-2,0425 4,171806
3 32 32,1138
-0,1138 0,01295044
0,2646 0,070013
4 45 42,3943
2,6057 6,78967249
2,7195 7,395680
5 51 53,6745
-2,6745 7,15295025
-5,2802 27,88051
6 31 32,9815
-1,9815 3,92634225
0,693 0,480249
7 50 51,0714
-1,0714 1,14789796
0,9101 0,828282
8 47 46,732 0,2672 0,07139588 4
1,3386 1,791849
9 45 42,526 2,4737 6,1191916 2,2065 4,8686
3 9 42 10 39 39,791 -0,7912 0,6259974 -3,2649 10,659
2 4 57 11 50 50,218 -0,218 0,047524 0,5732 0,3285
58 12 35 34,594 0,406 0,164836 0,624 0,3893
76 13 40 39,938 0,062 0,003844 -0,344 0,1183
36 14 45 45,146 -0,146 0,021316 -0,208 0,0432
64 15 50 50,354 -0,354 0,125316 -0,208 0,0432
64 Σ 29,121649
73 59,069
40
d =( )
( )∑∑ −
−2
2
1ee tt e
=
t
291220340475.59
= 2.03
araremos d = 2.03 se hallan mediante dos valores: el númer e va ables independientes, k, y el úmero de observaciones, n. En nuestro ejemplo, k = 2 n = 15. Si α = 0.05, tabla K da dL = 0.95 y dU = 1.54. Ahora se puede construir una escala
Estadístico de
urban-Watson
Los valores críticos con los cuales comp
o d rinlasencilla para determinar si se rechaza o no la hipótesis nula de no autocorrelación. La escala es como se describe en la siguiente figura:
D
La prueba no La prueba no +AC es concluyente No AC es concluyente -AC dL dU 2 4 – dU 4 –dl 0.95 1.54 2.46 3.05 Si dU < d < 4 – dU, no hay pruebas de que exista autocorrelación y la hipótesis nula no se rechaza; d < dL demustra que existe AC positiva; d > 4 – dL indica AC negativa. Las dos regiones no concluy
entes que existen
d = 2(1 – r)
entre et y et-1. Una vez más, si los erá preciso efectuar gran cantidad de
ortuna, casi todos los programas de rdenador dan el valor de Durban-Watson.
arciales, gresar todas las variables de residuos de los modelos en estudio, aceptar. n la hoja de resultados se analiza que estos residuos se encuentren dentro
de los intervalos establecidos.
s una ariación constante de los términos de error. La variación de los errores
indican que la distribución de d depende de las características de las relaciones entre las variables independientes. Ninguna generalización de estas características puede ser lo bastante amplia para restringir sin ambigüedad el valor de d. Ya calculamos que d era 2.03, de manera que no se rechaza la hipótesis nula. Parecería que la correlación entre términos de error no constituye un problema. El cálculo es bastante aburrido. Se puede simplificar si el valor de d se estima por:
donde r es el coeficiente de correlacióncálculos se han de hacer a mano, soperaciones aritméticas. Por fo Autocorrelaciones de los errores en el SPSS En la barra de menú dar clic en Gráficos/ Series temporales y abrir la ventana Autocorrelaciones, desactivar las autocorrelaciones pinE
Hetorocedasticidad Además de la ausencia de correlación entre errores, otra propiedad básica del modelo OLS es la homocedasticidad. La homocedasticidad ev
que se experimenta cuando , por ejemplo 10, es igual que la variación de los errores cuando X es igual a cualquier otro valor. En
lo indica la existencia la existencia de
curva en X = 10, lo que
X es igual a un valor
la figura 5 a) las dos curvas normales indican que la distribución de los valores de Yi por encima y por debajo de la recta de regresión es la misma en X = 10 y en X = 11. Por tanto, los errores, representados por la diferencia entre los valores de Yi y las ordenadas de la recta de regresión, siguen una distribución normal. Elhomocedasticidad. Si la varianza de los errores no es la misma para todos los valores de X, existe heterocedasticidad. La figura 5 b) indica que a medida que X aumenta, la varianza de los términos de error se hace más pronunciada. La curva normal en X = 11 está más extendida que laindica una mayor dispersión de los errores. Figura 5
Heteroceasticidad. Los términos del error no tienen la misma varianza La heterocedasticidad es corriente cuando se manejan datos transversales. Suelen utilizarse estos datos, por ejemplo, en investigaciones sobre los hábitos de gasto de los consumidores. En estos estudios se suelen recoger el consumo y la renta de muchos individuos, que abarcan pobres, ricos y personas de clase media. Este conjunto de daos se llama transversal porque traviesa diferentes grupos de reta. Como se podría esperar, los ricos
presenta un modelo de compor ento respecto de su esquema de consumo muy diferente del resto de nosotros. Esta diferencia provoca una variación de los términos de e or que pone de manifiesto la heterocedasticidad.
atami
rr
Cuando existe heterocedasticidad, los coeficientes de regresión pierden eficiencia. Es decir, la varianza de los valores de b sufre un incremento. El valor de b obtenido con una muestra difiere del obtenido con otra distinta. En estos casos es difícil depositar mucha fe en los coeficientes de regresión.
Se puede detectar la heterocedasticidad si se representan en un gráfico los valores de Y frente a los términos de error. Si aparece una estructura, es
do existe eterocedasteicidad. La figura 6 c), por el contrario, no sugiere un
esquema detectable: parece no existir heterocedasteicidad. Figura 6
probable que haya heterocedasticidad. Las figuras 6 a) y 6 b) indican posibles estructuras que a menudo se encuentran cuanh
Si se sospecha que hay heterocedasticidad, se recomienda utilizar el método de mínimos cuadrados generalizado (GLS). En textos superiores se puede encontrar una explicación del GLS. Aunque las pautas que siguen los residuos son una buena indicación de la heterocedasticidad, su lectura requiere más de una facultad artística que un procedimiento científico. Las pautas rara vez cooperan y son tan claras como las que acabamos de ver. Necesitamos métodos más concretos de detectar la heterocedasticidad. El resto de esta sección se dedica a presentar métodos frecuentes de descubrir la existencia de heterocedasticidad. Prueba de heterocedasticidad de White. En 1980 Halbert White ofreció uno de estos métodos, basado en la distribución χ2. Su método comprende varias fases bien definidas:
1. Ejecutar la regresión original y obtener el término de error que presenta cada observación.
2. Elevar al cuadrado los términos de error para obtener e2 y hallar su
dientes X1, X2, X2, habra que hallara la
n de e respecto de X1, X2, X3, X12 , X2
2, X32, X1X2, X1X3,
X2X3. Este modelo de regresión se llama modelo auxiliar.
ay que tomar determinadas precauciones al ejecutar la fase 2. La más importante para nuestros fines es el peligro derivado de utilizar variables ficticias en el modelo. Si Xi es una variable ficticia, entonces no se debe incluir X 2 en la ecuación auxiliar porque X es igual a X 2 y existe
dar clic en Gráficos/ dispersión. Se ingresar en el eje Y evaluar. En la hoja de
sultados se analiza la gráfica.
lvo los propios coeficientes de y vigila en análisis
e regresión.
regresión con todas las variables independientes, los cuadrados de todas esas variables y los productos cruzados de todas ellas. Sihubiera tres variables indepen
2regresió
3. Calcular nR2, donde n es el número de obsrvaciones y R2 el coeficiente de determinación no ajustado de la ecuación auxiliar.
4. Si nR2 >χα,k, rechazar la hipótesis nula de que las varianzas de error son iguales y suponer que existe heterocedasticidad.
H
i i imulticolinealidad perfecta. Además, el producto cruzado de dos variablesficticias también se debe excluir puesto que es igual a cero. Heterocedasticidad en SPSS En la barra de menúel error y en el eje X la variable que se deseare
Coeficiente de determinación ajustado A causa de su importancia, R2 se calcula en la mayoría de los paquetes informáticos. Es una forma fácil y rápida de evaluar el modelo de regresión y determinar el grado en que se ajusta a los datos. Saregresión, quizá sea R2 el estadístico que más se observad
Perartific to de R con la mera inclusión de ue se incorpore una var aumentará. Es el coeficiente de determinación ajustado. Con el símbolo de R , que se leeexplic s grados de libertad de SSvariable independiente adicional que añada al modelo, porque cada variable exivariable que no añada suficiente poder explicativo al modelo para justificar
pérdida de un grado de libertad. El valor de R2 disminuirá. Si baja demasiad, habrá q esa variable del modelo. En casos extremos, el coeficiente de determinación ajustado puede
o los estadísticos poco cuidados o faltos de escrúpulos pueden inflar ialmente R2. Se puede lograr un aumen 2
otra variable independiente en el modelo. Aunqiable sin sentido que no aporte ningún poder explicativo, R2
práctica común en el análisis de regresión y correlación múltiple indicar 2
“R con barra al cuadrado”, este estadístico ajusta la medida del poder ativo con el número de grados de libertad. Lo
E son n – k – 1. El investigador pierde un grado de libertad por cada
ge el calculo de otro bi. R2 penalizará al investigador por incorporar una
laue considerar la conveniencia de excluir
llegar a valer menos de cero. Para obtener este coeficiente ajustado se dividen SSE y SST por sus grados de libertad respectivos:
)1/(1
−)1/(2 −−
−=knSSE [ ]
nSSTR 21.14
Una fórmula más conveniente para calcular 2R es:
1)1(1 22 1
−−−
−−=kn
RR n [ ]22.14
Como el numerador de la formula (14.21) es el MSE, puede decirse que R2, es una combinación de dos medidas del cumplimiento de un modelo de regresión: el error cuadrático medio y el coeficiente de determinación.
Existencia de multicolinealidad
Ya hemos anunciado antes el peligro de la multicolinealidad. Surge este problema cuando una de las variables independientes mantiene una relación lineal con una o más de las demás variables. Esta situación transgrede una de las condiciones de la regresión múltiple. En concreto, existen multicolinealidad cuando hay una alta correlación entre dos variables
independientes Xi y Xj. En el capitulo 13 explicamos explicamos el coeficiente de correlación r de la variable dependiente y la única variable independiente. Si en regresión múltiple aplicamos este mismo concepto a dos variables independientes Xi y Xj, podremos calcular el coeficiente de
un problema de grado. En cualquier medida en que
s del Mercado. 2 =Todas las mujeres del mercado. 3 = Población total del mercado.
s evidente que X3 es una combinación lineal de X1 y X2 (X3 = X1 +X2). La orrelación r13 entre X1 y X3 y la correlación r23 entre X2 y X3 son bastante ltas. Estas relaciones dejan clara la presencia de multicolinealidad, de la ue surgen numerosos problemas en el uso de las técnicas de regresión. A ontinuación se exponen algunos de los problemas más corrientes.
Problemas de la multicolinealidad
problemas más fastidiosos de la multicolinealidad proviene de
Cuando existe multicolinealidad, es imposible esenmarañar los efectos de cada Xi. Supongamos que en el modelo:
Y = 40 + 10X1 + 8X2
coeficientes de regresión se convierten en poco fiables y no se pueden
correlación rij. Si rij es alto, existe multicolinealidad. ¿ Qué se entiende por alto? Lamentablemente no hay respuesta a esta pregunta crítica. No hay ningún punto mágico de separación en el cual la correlación se pueda decir que es demasiado alta y que existe multicolinealidad. Esdos o más variables independientes tengan una relación lineal, existe un grado de multicolinealidad. Si ésta es demasiado pronunciada, el modelo quedará perjudicado. Ahora bien, lo que se considere demasiado alto es algo que queda al buen criterio del investigador. En esta sección daremos algunos consejos necesarios par alcanzar este criterio. Supongamos que está utilizando técnicas de regresión para estimar una curva de demanda (o función de demanda) de su producto. Para reconocer que el número de consumidores está relacionado con la demanda elegiría como variables explicativas: X1 = Todos los hombreXX Ecaqc
Uno de los nuestra incapacidad para separar los efectos individuales de cada variable independiente sobre Y. d
X1 y X2 mostrasen un grado de correlación alta. En este caso, el coeficiente 10 de X1 puede no representar el efecto verdadero de X1 sobre Y. Los
tomar como estimaciones de la variación de Y cuando la variable independiente varía en una unidad. Además, los errores los errores típicos de los coeficientes, Sbi, se
año, se haría
rva de demanda, se podría encontrar ue tomase un signo positivo. Esto significa que a medida que el precio de
e la multicolinealidad
ariables del modelo, como se muestra n la 14-4. El valor de r12 = 0.8698 que indica la correlación entre las dos ariables independientes muestra que existe una íntima relación entre NI y
estra muestra, queremos contrastar la hipótesis de que correlación entre X1 y X2 es cero a nivel poblacional. Contrastaremos la
desbordan. Si se tomasen dos o más muestras del mismo tamuna variación grandes de los coeficientes . En el modelo que acabamos de especificar, en lugar de 10 como coeficiente de X1, una segunda muestra podría dar un coeficiente de 15 o 20. Si b1 varía tanto de una muestra a la siguiente, deberemos poner en duda su exactitud. La multicolinealidad puede causar incluso que el signo del coeficiente sea el opuesto al que la lógica dictaría. Por ejemplo, si se incluye el precio como variable en la estimación de la cuquna mercancía aumenta los consumidores compran más, lo que constituye una trasgresión evidente de la lógica que informa la teoría de la demanda.
Detección d
El camino más directo para comprobar la multicolinealidad es elaborar una matriz de correlación de todas las vevADV. Aunque no hay un valor predeterminado de rij que señale la aparición de la multicolinealidad, el valor de 0.8698 es lo bastante elevado para indicar que existe un problema significativo. Algunas de las dudas se pueden eliminar utilizando una prueba t para determinar si el nivel de correlación entre X1 y X2 difiere significativamente de cero. Dada la relación distinta de cero entre X1 y X2 (r12 = 0.8698) de nulahipótesis de que:
H0: 012 =ρ 0: 12 ≠ρaH
donde 12ρ es el coeficiente de correlación poblacional entre X1 y X2. Esto podemos hacerlo con las técnicas aprendidas anteriormente. Donde demostramos que:
t = rS
r12
donde:
21 2−
=rS
−nr
Como ilustración, la hipótesis de , donde es el coeficiente de correlación poblacional de las dos variables independientes, es:
36.601367
8698.01367.0
2158698.01 2
=
=t
Si se pone
=−
−=Sr
α al 5%, el t crítico es 16.213,05.0 =t . Hay n – 2 grados de libertad.
Como t= 6.36>2.16, Ace puede rechazar la hipótesis nula de que no existe correlación entre X1 y X2 ( 012 =ρ ). Existe algo de multicolinealidad. Ello no significa que el modelo tenga un defecto irreparable. De hecho, muy pocos modelos esta olinealidad. Pronto Explicaremos la manera de hacer frente a este problema.
poco por ejorar la capacidad del modelo para explicar el número de pasajeros.
ya suministrada por la publicidad. Ello indica que odría existir multicolinealidad.
variable idependiente es una medida del grado de multicolinealidad
on que contribuye dicha variable.
rían libres por completo de la multic
Otra forma de detectar la multicolinealidad es comparar los coeficientes de determinación entre la variable dependiente y cada una de las variables independientes. Ya vimos que la correlación entre pasajeros y publicidad era r2 = 0.815. Pero las dos variables independientes juntas revelaban un R2 de solo 0.957. Si se toma por separado, las variables independientes explican el 93.7% y el 81.5% de la variación de Y, pero combinadas únicamente explican el 95.7%. En apariencia, existe un solapamiento de su poder explicativo. La inclusión de la segunda variable NI hizomVemos que la variable NI se limita a duplicar mucha de la información sobre los pasajeros pUna tercera forma de detectar la multicolinealidad es estudiar el factor de inflación de la varianza (VFI). El VFI asociado a cualquier variable X se halla mediante el estudio de la regresión de dicha variable en función de todas las demás variables X. El R2 resultante se utiliza después para calcular el VIF de la variable. El VIF de cualquier Xi representa la influencia de la variable sobre la multicolinealidad. Factor de inflación de la varianza. El factor de inflación de la varianza de unac
Puesto que en el modelo Hop Scotch sólo hay dos variables independientes, la regresión de X1 sobre todas las demás variables independientes (X2) o la regresión de X2 sobre todas las demás variables independientes (X1) nos da l mismo coeficiente de correlación (r12 = 0.8698). El VIF de cualquier e
variable independiente Xi es:
VIF = iR21
1−
Donde R i
2es el coeficiente de determinación obtenido en la regresión de Xi sobre todas las demás variables independientes. Como ya se ha dicho, la
ulticolinealidad produce un incremento de la variación o error típico del oeficiente de regresión. El VIF mide el incremenbto d ela varianza del
ficiente de regresión por encima de la que existiría si no hubiera ulticolinealidad. l VIF de la publicidad en el modelo de Ace es:
VIF =
mccoemE
2)8698.0(11
−= 4.1
ara X2 se hallaría el mismo VIF, puesto que sólo hay dos variables dependientes.
Si una variable independiente no tiene ninguna relación en absoluto con tra variable independiente, su VIF es igual a 1. La varianza en b y b es
tras indicaciones de multicolinealidad pueden ser las variaciones grandes
sión de una variable produce cambios grandes de los coeficientes o de us signos, puede haber multicolinealidad.
sobre Y. 2. Un error típico exagerado de los coeficientes b. 3. Signos algebraicos o coeficient contrarios a la lógica.
Pin
o 1 2por consiguiente mayor que cuatro veces la que habría sin multicolinealidad en el modelo. Pero, en general, la multicolinealidad no se considera un problema significativo a menos que el VIF de una Xi valga 10 como mínimo, o que la suma de ellos VIF de todas la Xi sumen 10 como mínimo. Ode los coeficientes o de sus signos cuando hay un cambio pequeño del número de observaciones. Además, si la relación F es significativa y los valores de t no lo son, puede haber multicolinealidad. Si la inclusión o supresEn resumen, si existe multicolinealidad encontraremos:
1. Una incapacidad para separar el efecto neto de las variables independientes individuales
es
4. Una elevada correlación entre variables independientes y un VIF
significativa combinada con relaciones t no significativas.
mitigar la influencia de la ulticolinealidad? Acaso la solución más lógica sea suprimir la variable
de todo, y a causa del solapamiento, la clusión de la segunda variable añade poco a la explicación de Y.
En relación con el mode í consejable eliminar NI, ado que su correlación con Y es menor que la de la publicidad. Las
ero la simple eliminación de una de las variables puede conducir al sesgo de fundam o. Por ejemplo, se podría evitar la multicolinealidad si se liminara la renta de una expresión de una expresión funcional de la
a una
asgresión de los principios teóricos se denomina sesgo de especificación.
i eliminar una variable se excluye por el sesgo que ello pueda producir, si
ariable. Quizá fuera beneficioso dividir los valores originales de la ariable causante por la población para obtener una cifra por persona. Es lo ue sugería con el NI al comienzo de este capítulo. Además, dividir eterminadas medidas monetarias por un precio índice (como el índice de recios al consumo) a fin de obtener una medida en términos “reales”, uede ser otro método eficaz de eliminar la multicolinealidad. También sto se podría aplicar al NI.
elevado. 5. Variaciones grandes de coeficientes o de sus signos si el número de
observaciones varía en una solo observación. 6. Una relación F
7. Variaciones grandes de los coeficientes o de sus signos cuando se incluye o suprime una variable.
Tratamiento de la multicolinealidad
¿Qué se puede hacer para eliminar o mcausante. Si Xi y Xj están en íntima relación, una de ellas se puede excluir del modelo sin más. Después in
lo de Hop Scotch, ser a adpruebas t realizadas antes también sugieren que NI no era significativa al nivel del 5%. P
especificación, en el cual la forma del modelo está en desacuerdo con su ento teóric
edemanda de los consumidores. Pero la teoría económica y también el puro sentido común, nos dice que la renta se debe incluir en cualquier intento de explicar el consumo. Sesgo de especificación: La especificación incorrecta de un modelo, por haber incluido o excluido determinadas variables, que de lugar tr Sque podemos disminuir la multicolinealidad cambiando la forma de la vvqdppe
Otra medida posible es combinar dos o más variables. Es lo que podría hacerse co empleaba X1= hombres, X2= mujeres y X3= población total. Las variables X1 y X2 se podrían sumar para formar X3. El modelo constaría entonces de una sola
n cualquier caso, es preciso reconocer que en la mayoría de los modelos
stará nada a la utilidad del modelo, porque el problema de la ulticolinealidad puede no ser grave. La multicolinealidad causará grandes
ntroducción a las series de
or ingenieros íficos ara examinar diferentes procesos y sistemas físicos y matemáticos. Un
n el modelo de la demanda de los consumidores, que
variable explicativa. Ede regresión que contienen dos o más variables independientes existe algún grado de multicolinealidad. Cuanto mayor sea el número de variables independientes mayor será también la probabilidad de multicolinealidad. Pero ello no remerrores en coeficientes individuales, pero el efecto combinado de esos coeficientes no se altera de manera drástica. De todos modos, un modelo predictivo ideado para predecir el valor de Y a partir de toda las Xi tomadas en combinación poseerá una exactitud considerable. Solamente los modelos explicativos. I Tiempo. Métodos de atenuación. Promedios movibles. INTRODUCCION La noción de modelo ha sido bastante utilizada p y cientpmodelo se convierte en una manera de experimentar con la realidad sin tener que invertir en una unidad operativa a escala natural. Este tipo de modelo también se conoce como modelo de simulación. Un modelo de predicción (Makridakis y wheelwrigtht, 1989)
Consiste en los procedimientos utilizados para desarrollar un pronóstico. Por supuesto, existe una gran variedad de modelos, pero en cuanto a los modelos cuantitativos solamente existen dos tipos bien definidos: las serie e tiempo y los métodos causales. Si el analista comprende las propiedades
isas que constituyen la ase de las técnicas de predicción y de las ventajas y desventajas de su
do de tiempo a usar.
trapolar dicho patrón pueden redecirse y desarrollarse los periodos de tiempo subsecuentes. Una
te modelo no es articularmente útil para la gerencia en caso de que de que se desee
pre sado por las decisiones tomadas antes y durante el pro Cuprácticamente la misma predicción para el siguiente periodo, sin importar uáles sean las acciones tomadas por la gerencia. Así, un modelo de serie e tiempo sería apropiado para predecir factores ambientales, nivel de la
tasa de desempleo o patrones de costo, donde las ecisiones individuales tienen poco impacto. Sin embargo, este modelo de
en esos odelos de predicción.
era de operar de este tipo e modelos, ya que la tecnología de series de tiempo trata la información
dde ambos, puede tener una mejor visión de las prembutilización en situaciones especificas. En este capitulo se abordará el primer tipo: el modelo de series de tiempo. Para aplicar esta tecnología es necesario definir dos factores importantes: a) Las series de datos a utilizar en el proceso de predicción. b) El perio Un modelo de series de tiempo supone que a lo largo del tiempo existe un cierto patrón o una combinación de patrones recurrentes. Así, al identificar y exppremisa importante es que el patrón base se identifica sólo en relación con datos históricos de dicha serie de tiempo. Por ello, esp
decir el impacto cauceso estadístico.
alquier metodología de serie de tiempo que se utilice debe producir
cdeconomía nacional, dserie de tiempo es totalmente inapropiado para predecir ventas mensuales resultantes de cambios en los precios, o en la publicidad. Una de las mayores ventajas de los modelos de series de tiempo es que las reglas básicas de la contabilidad también están orientadas a periodos secuénciales de tiempo, lo que significa que en gran parte de las empresas siempre existe disponibilidad de información que puede aplicarsem En ocasiones puede parecer decepcionate la mand
como una caja negra, sin intentar descubrir los factores que afectan el comportamiento del sistema o la información que se analiza (Véase figura 2.1). El sistema se contempla de manera simple como un proceso no identificado (Puede ser cualquier tema: ventas, economía, meteorología, etcétera).
Figura de un m
Existen tres r por l s que ec : la pr era esfuese, puede ser extremadamente difíomportamiento. La seg
ON PARA LOS ME
X es el número de artículc
sí, en un periodo de dos años, el mes s
2.1 Relación
azones a l momo una caja negra im qu
Sistema
t
c unda razón esejercicio de predicción es justamente razón especial para saber el porqué. Lque desea saberse es qué va a sucedesaber el porque. El costo de saber el por NOTACI CUANTITATIVA Cuando se prepara la información a predicción, inicialmente se compilan vaobservaciones. Estas observaciones pesde unidades de algún producto vendd
dichas unidades, o inclusive el numesección de producción. Debido a que een general se representan por una variavalor de algún artículo, por ejemplo ladado.
ebido a que Dne esario identificar dicho periodo. Econsecutivos a cada uno de los periodoA
Cap ura d
e datos Procesogenerador
odelo de de tiemp
odelo neja pue o entecil medir la r
jetiv
TODOS DE
os vendidos en
sucede identifica com
series
mae de n
que el obhacer una pre
a tercera razónr, realmente esqué puede ser m
utilizar con clores observadoueden represeido hasta el cosro de empleadostos valores vable X, donde és lavadoras ven
sto se logra s que se
Resultad
o
lo os comn , y aun
elación que rige su o principal de un
PREDICCION
de producción de
un periodo dado, es nar números
en secuencialmente. o 1, 2, 3, 4,..., 24.
s dat o una derse que lo
dicción y no existe es cuando lo único de poca la utilidad uy alto.
ualquier método de s, datos históricos u
ntar muchas cosas, to s que hay en cada rían aleatoriamente,
sta es el símbolo del didas en un periodo
al asig
Ress cualquier interv l periodo, éste e identifica como subíndice de la variable aleatoria; así, X10 corresponde
al periodo 10 y X13 es el valor 13 de la serie numérica. Necesariamente, la decisión del cuál es el primer valor (X1) es arbitraria, y a partir de ahí los números subsecuentes aumentan de forma consecutiva en la serie.
Cuadro 4.1 Notación utilizada en los modelos de predicción de series de tiempo
n general, puede decirse que el símbolo X identifica los valores históricos
dica el valor ronosticado del periodo t+1.
los valores de redicción, denotada como sigue:
ulta evidente que es necesario predefinir la longitud del periodo: puede er un día, una semana, un bimestre, un trimestre, un semestre, un año o
alo temporal posible. Una vez establecido es
E
VALORES DE PREDICCION Valores observados X1 X2 X3 ... Xt-2 Xt-1 Xt Ft+1 Ft+2 Ft+3 … Ft+m
Periodo i 1 2 3 … t-2 t-1 t t+1 t+2 t+3 … t+m Valores estimados X1 X2 X3 ... Xt-2 Xt-1 Xt Xt+1 Xt+2 Xt+3 … Xt+m F1 F2 F3 … Ft-2 Ft-1 Ft
Valores de error e1 e2 e3 … et-2 et-1 et
Presente
Valor real =patrón + aleatoriedad
observados, y para indicar los valores de predicción se utiliza otro símbolo que suele ser la letra Ft-1 (del inglés Forecast)o bien 1
ˆ+tX (notación
matemática de valor estimado) donde el subíndice (t+1) inp La premisa básica de su utilización en cualquier técnica de predicción es el valor real observado se determina por algún tipo de patrón e influencias aleatorias. Esta notación puede observarse con todo detalle en el cuadro 4.1. Debido a que el mundo de los negocios no es determinístico, la aleatoriedad siempre está presente, lo cual significa que siempre existe una diferencia o desviación entre los valores reales observados yp
et = Xt - Ft
Donde el subíndice t indica que en el periodo i hay un error que está examinándose. Como se muestra en el cuadro 4.1, cada valor individual tiene asociado un error e para el cual siempre existe un valor observado X y un valor de predicción F. Para simplificar la manipulación de las expresiones presentes en la adición de muchos números, conviene utilizar matoria. El uso de ste signo y de los elementos de notación matemática puede ejemplificarse
dro 4.1: Xt es el valor real y Ft es el valor de predicción; por lo tanto, t l error o dife rvados Xt y los valores
pronosticados Ft de Si se desea conoc bservaciones, dicha suma puede obte
el signo de la suedel cuae es e rencia entre los valores obse
po t. un periodo de tiem
er la suma de los errores y se tienen n onerse de
e1 + e2 + e3 + …+ en = ∑=
4.2 ENFOQUE DE LA ATENUACIÓN PARA LAS SERIES DE
s desarrollados para procesar las series de tiempo, desde l método de atenuación de promedios movibles hasta el mas sofisticado de
.
n
t 1et
La expresión de la derecha puede leerse como “la suma de los valores de error, et, tomados desde t=1 hasta t=n (Inclusive)”.
TIEMPO Se ha observado que los técnicos que utilizan el método de las series de tiempos para proyectar un grupo de datos lo hacen examinando los movimientos pasados (históricos). Este proceso se denomina extrapolación de patrones de los datos hacia el futuro. Existe una gran variedad de métodoeBox-Jenkins (ARIMA) pasando por los métodos de descomposición
Atenuación por promedios Atenuación exponencial
Otrmo
Método Naive(directo)
s Atenuación exponencial doble Brown: lineal de un parámetro
Promedios movibles simpleHolt: dos parámetros comprende TENDENCIA
Promedios movibles dobles
as técnicas de promedios vibles(combinación)
Atenuación exponencial simple
Atenuación exponencial triple Brown: Cuadrática, un parámetro Winters: Tres parámetros ESTACIONALIDAD Y TENDENCIA
Figura 4.2 Clasificación de los métodos de atenuación (Makridakis y Wheelwright)
• Patrones de d
atos (Holton y Keating, 1994) Antes de avanzar más en este tópico es necesario explorar los tantas veces
ede decirse que en cualquier erie de datos hay cuatro patrones: cíclico, tendencia, estacionalidad y
d económica “ El niño”). a que el ciclo
mbargo, el ciclo de1979 a 1981 solamente duró 20 meses(de noviembre
les que ocurren cada seis ños.
l patrón mas familiar es el de tendencia, que representa el decremento o de una serie de datos en cierto periodo de tiempo.
s brir por lo menos un ciclo comercial. De aquí que los atrones de tendencia y ciclo están interrelacionados; es decir, la dirección eneral que sigue un ciclo o un periodo de tiempo es la tendencia. Por lo
resultado de costumbres sociales, fiestas y limas. Es evidente que las ventas de helados aumentan durante los meses
de verano debido las al eraturas de esta estación. Este es el patrón de estacionalidad n em ebe notarse que la estacionalidad se anula si misma dentro del mismo año, razón por la que los incrementos en el
es estacionarios.
l último patrón, la aleatoriedad, refleja las variaciones inexplicadas de los datos. Estos movimientos al azar pueden ser resultados de colección de errores o de circunstancias inesperadas como s, guerras, etcétera.
mencionados patrones. En forma simple pusaleatoriedad. Un patrón cíclico representa los altibajos de la activida(aunque también se presenta en meteorología, por ejemplo:Este patrón es fácil de identificar y de anticipar. Así, se calculmacroeconómico en los países industrializados es de cuatro años; sin ede 1979 a julio de 1981), en tanto que el ciclo anterior duro 6 años. En cuanto a México, podría decirse que los ciclos macroeconómicos han seguido hasta la fecha los cambios presidenciaa Eincremento horizontalEste periodo uele cupgmismo, muchos analistas no intentan separar ambos patrones (aunque el método de descomposición si trata de hacerlo). El tercer patrón es la estacionalidad, que son los movimientos recurrentes en el lapso de un año como c
a tas temp; si bargo, d
amismo año no contienen patron E
huelga
En resumen, una serie de datos consta de patrones cíclicos, de tendencia, opósito de los métodos de las series de
empo es eliminar estas irregularidades e influencias estacionales y estacionales y aleatorios. El prtiproyectar una serie de datos más bien con base en sus patrones de tendencia/ciclo. • Medición de la precisión Sin importar cuál método se aplique para generar una proyección el mejor indicador para medir una predicción es la exactitud (o precisión). Todos los comparativos de desempeño, simplicidad, costo, etcétera., deben someterse al hecho de que el mejor método es aquel que muestre la mayor precisión en el pronostico. Una compañía puede evaluarse según sus utilidades, y los analistas de métodos de predicción pueden medirse con base en su xactitud.
o obstante, también debe notarse que la precisión tiene otra connotación en el es r re n cu D o con
2. Error medio a ion). 3. Promedio del error al cuadrado(MSD: Mean square deviation).
e N
proceso de predicción, ya que la construcción del modelo depende dete concepto; en efecto, el analista escoge el modelo y los datos que mejoproducen los datos históricos. Esto es, las medidas de exactitud muestraal modelo tiene menor error de predicción.
ebido a que la exactitud pasada y futura son tan importantes es necesariocer las medidas mas usuales del error de predicción:
1. Error promedio. bsoluto(MAD: Mean absolute deviat
4. Error absoluto medio porcentual(MAPE: Mean absolute percent error).
• Error promedio En el cuadro 4.2 se ilustran las cuatro medidas de error y sus capacidades y
mitaciones correspondientes. El error promedio se calcula como la
que las variaciones negativas son iguales a las positivas . Así, ste error es inapropiado para medir la exactitud de la predicción.
lidiferencia entre los datos observados(columna 2) y el valor de predicción(columna 3). Como puede verse, los errores individuales de predicción(columna 4) se compensan, de manera que la suma de los errores es cero pore
• Promedio de la desviación absoluta (MAD) Una mejor medida de la variación en la predicción es la desviación absoluta o MAD, que considera los valores absolutos (Sin tomar en cuenta el signo) de los errores calculados en la columna 4, de manera que los alores positivos no se compensan con los valores negativos. En la
columna 5 los error a suma de MAD es 8 y su promedio es 4.7. La ev ación d error la predicción se ve mas justa.
vse ha eliminado el signo de es de la columna 4. L
alu el de
(1) (2) (3) (4) (5) (6) (7)
Tiempo Real Predicción ErrorError
Absoluto Error
cuadrado
Error Absoluto
Porcentual 1 10.0 11.0 -1.0 1.0 1.0 10.0% 2 20.0 16.0 4.0 4.0 16.0 20.0% 3 15.0 18.0
Suma -3.0 0.0
3.0 8.0
9.0 26.0
20.0% 50.0%
Media o promedio 0.0 2.7 8.7 16.7% Cuadro4 edición ecisión
E colum también ica c os v son ativos uánto n positivos; esto es, cuántos valores quedade los datos históricos. En la tabla se ve que dos están por encima y uno por debajo, lo cual proporciona al analista confianza de que no hay sesgo en los datos. •
.2 M d pre la
sta na ind uánt alores neg cy s son por encima y cuántos por debajo
Promedio de la desviación al cuadrado (MSD) Al elevar al cuadrado los errores, la suma también elimina el signo. El MSE tiene ad se penaliza
ucho mas a las variaciones grandes que a las pequeñas.
que la predicción con el MAD más pequeño también tiene el enor MSD.
emás otra función ya que al elevar al cuadradom Este impacto puede verse en el cuadro 4.2, donde el promedio del error absoluto es 4.7, en tanto el promedio MSD es 8.7. Debido a esta característica se prefiere el MSD al MAD, ya que el MSD muestra mejor las variaciones mayores(amplificándolas); sin embargo, en la practica puede versem • Error absoluto medio porcentual(MAPE)
Esta medida también es muy popular. Igual que el MAD y el MSD, usa los valores absolutos(sin signos); no obstante, consume un paso más en el
proceso, ya que mide el error en porcentaje.
100t
ttt X
FXPE −= (4.1)
n
PEMAPE
n
tt∑
== 1 (4.2)
Al sustituir en las formulas anteriores se obtiene que el resultado es de 16.7. La ventaja del MAPE es que se expresa en forma porcentual, lo que permite comparar series de datos divergentes porque los porcentajes se constituyen en común denominador. Así por ejemplo, las predicciones de ventas de computadoras de IBM pueden compararse con la predicción de ventas de automóviles Chrysler o con las ventas de cualquier otra empresa, sin importar cuán diferente es el producto manufacturado. • Nivel de precisión Una vez que se han analizado las medidas de exactitud para un modelo de erie de tiempo, es necesario preguntarse ”¿Cuál es el nivel de exactitud ue debe perseguirse al procesar un modelo de predicción?”.
e no una r ivamevariaciones aleatorias pueden ser bastante volátiles, en cuyo caso las proyecciones elaboradas no sonconfiables. En cambio, datos homog curso con erm er
icos n un a ivel d confianz
l i io de rabajo de predicción los primeros intentos generan errores considerables, si estos modelos se enfocan desde una perspectiva
ta si pre existe una amplia posib lidad jor
odo e aten ión dos directos (Naive).
sq Aunqu existe espuesta p
con los
recisa, intu
modelos éneos de
it nte se sab
lo suficistante p
e que las
entemente ite hac
pronóst co lto n e a.
Cuando a nic los t s
optimis em i de me ía.
• Mét s d uac . Méto
Estos métodos pueden considerarse como puntos de referencia para decidir sfuer vale l na ra qué pueden compararse los resultados
del modelo que está trabajándose(Benchmark)(Thomopoulus,1980).
El primer método, NF1(Naive Forecast 1), usa la información mas reciente m e q e si está p parándose una
dicción para un izonte de un solo periodo, el valor más reciente liz par decir el valor del siguiente periodo. La formula es
muy simple:
si el e zo a pe y cont
disponible referente al valor real, de pre
odo d u re hor
puede uti arse a pre
tt XF =+1 (4.3)
nde
= Ultimo valor real(para el periodo t) En estadística este modelo se conoce como modelo aleatorio caminante(Random Walk Model ) y en ciertas ocasiones, debido ala inercia de los datos observados, puede ser el mejor predictor. Por ejemplo, en los mercados de valores de futuros, frecuentemente los datos se manejan con estos modelos caminantes, que hacen de la ecuación (4.3) la mas apropiada para efectuar pronósticos. Lo anterior quiere decir que existe fluctuación en los datos, pero es difícil predecir los giros bruscos. Si el método de evaluación MAPE se utiliza con n-1 términos incluidos en este método de predicción (NF1), predicción empieza realmente con el periodo 2. La aplicación de este método facilita obtener medidas comparativas de mejoría obtenible a través de métodos formales de predicción. El MAPE se presta mejor para benchmark que otros métodos de evaluación como el MSD, ya que permite observar la exactitud relativa de los resultados . • Métodos de atenuación. Promedios móviles simples.(SMA):
do
1+tF = Periodo a predecir para t+i t= Periodo actual i = Numero de periodos futuros a predecir
tX
El método de promedios móviles simples es un método de primer orden; es decir, se considera simple en el sentido de que el promedio de un número dado de observaciones(periodos) se utiliza para predecir el valor del periodo siguiente. Cada autor maneja este método de diferente manera, y en este caso se utiliza la interpretación Moore, (1989). En el cuadro 4.3 se
utiliza un prompro(co
edio movible (SMA) de tres años (base tres), donde se la media
lumnan los valores 20, 60 y 40 de el p e 40 3), que se convierte en la predicción para el cuarto
(columna 4).
a cada nuevo punto de datos a obser y la mas antigua. Por lo tanto, ahora en el año 4 se obtien
UE DE LA ATENU AS R PO
Cuadro 2.3 Promedios m
lor de 50 que , agregado a los valores de 40 y 60, genera el promedio +40+50)/3 o se con tico para el s
caso, la f vible p
columna 2. rom dio es
vacióne
IES DE
vierte en
les es:
per Se se
iodo
avelim
anzaina
, se agrega la nuev
ENFOQ ACIÓN PARA L SETIEM
ovibles simples. Ejercicio 2.1: Ventas
Un de el
va50pro
[(60nos
bseigu
rvaien
ciote p
neer
s]. iod
Eso (
te nAñ
ueo 5
vo).
promedio
En
este ormula general para los promedios mo s sim
∑=
−−− =+++ nXXX
F 1K (2.4)
esta el pr
representan los valores observados de pe os pasados hasta n . Al sustituir en la ecuación (4.4) , se tienen
que 40+60+20 correspon t-3´ y al sustituir 3
=t 1
tXntttt nn
21
En formula Ft es la predicción de los SMA para esente periodo,donde los valores de x, t-1,t-2,...,t-n , los riodentonces por n se calcula lo siguiente :
de a x t-1 + x t-2 + x
36 )200 +40(40 +
= y para 36 )05040(50 ++
= ,
(1Añ
) o
Ventas Promedios movibles Predicción
Reales de tres años
(2) (3) (4)
1 20 _ _
60 _ _ 50 40
_ _ 50
2 3 4 5
40
40 50
_
por lo que ahora la formula es
∑+
++ =
1
21
1 n
ttt X
nF (2.5)
os SMA:
• Característica de l
a primera característica importante de este método es que los promedios ovibles(y para todos los métodos de series de tiempo) se utilizan
predicciones a corto plazo. Otra característica portante es que cada observación se pondera con el mismo peso; así, en
predicción. Cuando se incorpora un nuevo valor (50) y del alculo se elimina el más antiguo(20, ecuación 4.5), se procede
exactamente igual. Con lo anterio ye que las observaciones fuera el marco de la base del tiempo(n=3)no tiene ningún peso en la obtención
io móviles SMA:
Lmprimariamente para imel ejemplo se promediaron los valores 20, 40, y 60 para obtener el valor de 40. Cada una de las tres observaciones tiene un tercio de representación para llegar a lac
r se concluddel promedio movible que está calculándose. • Desarrollo de un modelo de promed
o a que en gran medida este método es puramente mecánico; el proceso a seguir está bastante estandarizado. El único hecho que puede alterar el modelo es el numero (base) de observaciones a promediar. En este caso, de manera arbitraria se escogió una base de 3 años, pero en la practica pueden escogerse trimestre, cuatrimestre, semestres o cualquier
res de predicción.
inexactitud de los una predicción de
Debid
otra combinación. En el cuadro 4.4 se efectúa el ejercicio 4.2, donde se comparan dos bases, de 3 y de 5 meses. En este libro, y para efectos
didácticos la comparación se simplificará utilizando solamente el MAD y el MSD para determinar cuál base genera la mejor exactitud histórica para
proyectar los valo En efecto, debido a que se conoce bastante bien la ronósticos climáticos , en el ejercicio 4.2 se estudia p
temperaturas por los últimos 14 años y se genera una proyección para la temperatura más fría (promedio de 24 horas) que podrá experimentarse para el próximo año. Si esta predicción es correcta será de gran utilidad de granjeros, la compañía de electricidad, etc., para enfrentar los efectos del clima.
El cuadro 4.4 examina promedios movibles base 3 y base 5 para ver qué
modelo, MSD o MAD, produce el menor error. Es claro que la base 5, genera el menor error indica una mejor reproducción de los datos históricos. Otra cuestión importante es que la base 5 asigna menor peso a cada observación (1/5 contra 1/3). Por lo tanto, el efecto atenuador de la base 5 es mayor, ya que reacciona menos a cada punto individual. De este hecho puede deducirse una regla general: En las regiones en que una serie de tiempo exhibe variaciones amplias alrededor de una línea estacionaria, una base más grande genera un mejor ajuste de la predicción a los datos históricos (menor error).
Promedio de tres años SMA Promedio 5 años SMA 1
Años
2 Temperatu
ra actual
3
Predicción
4 Error
cuadrado
5 Error
cuadrado
6
Predicción
7
Absoluto
8
Cuadrado
1 31 2 44 3 31 4 49 35 14 187 5 28 41 13 178 6 25 36 11 121 37 14 135 7 21 34 13 169 35 4 207 8 35 25 10 107 31 12 18 9 44 27 17 289 32 6 154 10 37 33 4 13 31 4 41 11 28 39 11 114 32 1 19 12 32 36 4 19 33 13 1 13 22 32 10 107 35 8 174 14 41 27 14 187 33 0 71 15 32
MAD
= 11 7
MSD
= 135 91 Cuadro 4.4 Temperatura diaria mas fría (grados Fahrenheit).Ejercicio 2.2
s importante hacer notar que como base puede fijarse cualquier n. En el cuadro 4.5 puede verse que la b la que genera mejor ajuste (6 rados); es decir que ninguna réplica de los datos históricos genera un
riencias permite
E
ase 7 es gresultado que mejora en promedio tales 6 grados. Esta expe
apreciar las dificultades presentes a tratar de predecir las variaciones climáticas.
onclusiones a las ya mencionadas:
l
Pueden agregarse algunas nuevas c Debido a que las variaciones de los datos afectan menos la
Periodo SMA MAD 3 11 5 8 7 6 9 7
Cuadro4.5 Medidas de exactitud en grados Fahrenheit predicción, si se utiliza una base más grande (periodo de tiempo más largo), se tiene que el factor de atenuación es mayor. El tamaño de la base
uedebase más a los va ores históricos observado Como u punto de este capitulo cabe hacer notar que existe una gran variedad de combinaciones dios movibles dobles hasta los prom s lineales de orde r ejemplo, este método lineal utiliza promedios simp resolver tendencias no estacionarias. En suma, puede decirse(Makridakis y Wheelwrigth) que cualquier tipo de promedio movible plica una ponderación de los datos istóricos más útiles suavizando y atenuando (más que pronosticando) eries de datos, ya que a su vez se muestra mejor como predictor (Método
p determinarse empíricamente haciendo varios ensayos, y la mejor es aquella que genera el menor error; es decir el que se acerca l s.
ltimode prome
edio n más alto. Poles y dobles para
imhsde promedios movibles) para datos que son más homogéneos hacia la media (tendencia central, datos estacionarios).
Mes Periodo de tiempo
Promedios movibles Base 3
Promedios movibles Base 5
Promedios movibles Base 3
Promedios movibles Base 5
Enero 1 2000
Febrero 2 1350
MAD 71.46 51.00
Marzo 3 1950
MAPE
34.89 27.88
Abril 4 1975
1767 MSD 6395.66 3013.25
Mayo 5 3100
1758
Junio 6 1750
2342 2075
Julio 7 1550
2275 2025
Agosto 8 1300
2133 2065
Septiembre
9 2200
1533 1935
Octubre 10 2770
1683 1980
Noviembre
11 2350
2090 1914
Diciembre
12
2440 2034
Ejercicio 4.3 Se tienen 11 embarques de abridores de latas y se plantea un odulo de predicción de atenuación de promedios movibles simples para el periodo 12 tanto de base 3 como de base 5. Compagine los resultados del
pitulo
m
modelo con lo que aprendió en este ca
Mes Periodo de tiempo
Promedios movibles Base 3
MSDBase 3
PromediosMovibles Base 5
MSDBase 5
PromediosMovibles Base 7
MSDBase 7
PromediosMovibles Base 9
MSDBase 9
PromediosMovibles Base 11
MSD Base 11
Enero 1 19.0 Febrero 2 15.0 Marzo 3 39.0 Abril 4 102.0 24 6032 Mayo 5 90.0 52 1444 Junio 6 29.0 77 2304 53.0 576 Julio 7 90.0 74 267 55.0 1225 Agosto 8 46.0 70 560 70.0 576 54.9 78 Septiembre 9 30.0 55 625 71.4 1714 58.7 825 Octubre 10 66.0 55 114 57.0 81 60.9 26 51.1 222 Noviembre 11 80.0 47 1067 52.2 773 64.7 234 56.3 560 Diciembre 12 89.0 59 920 62.4 708 61.6 752 63.6 647 59.8 854 Enero 13 82.0 78 13 62.2 392 61.4 423 69.1 166 59.6 501 Febrero 14 17.0 84 4444 69.4 2746 69.0 2704 66.9 2489 60.5 1889 Marzo 15 26.0 63 1344 66.8 1665 58.6 1061 58.8 1074 59.7 1135 Abril 16 29.0 42 160 58.8 888 55.7 714 58.4 867 56.2 738 Mayo 24 48.6 55.6 51.7 53.1 Error
MSD 1484 1031 757 861 1024
EjeLa
r muestra la ve per enero 981 g cción para el mes de mayo de 1982 utilizando promedios movi base
los resultados del model ue aprendió en e apitulo
cicio4.4 El cuadro siguiente erencia desea conocer la predi
11. Compagine
nta de cuchillos eléctricos en el
o co
iodo de
ste c
de 1bles .
a abril1982. 3, 5, 7, 9 y
n lo q
Métodos de atenuación exponencial simple,
NTRODUCCION
lineal y no lineal. I Una manera de representar el método de promedios movibles simples, según se estudió en el capitulo anterior (véase ecuación 4.4), es con la formula (5.1)
NXXX
F Ntttt
−−− +++=
K21 (5.1)
Lo anterior significa que una vez obtenida la predicción para el periodo t (de F), la predicción para el periodo t +1 puede obtenerse, a su vez, sumando Xt/N y luego restando Xt-N/N. El valor de Ft+1 en la ecuación (5.1) también puede representarse con la ecuación
tNtt
t FN
XNX
F +−= −+1 (5.2)
Escrita de manera, cada nueva predicción basada en promedios movibles es un ajuste a la predicción anter anera que se comprueba que el efecto de atenuación se incrementa a hacer cada vez mayor a N; esta es, entre cada predicción se hace menor.
NE CIAL.
Seg n pu todo de promedios móviles hay dos lim e iere siempre un
ero N de valore ulas y cálculo para lograr una predicción. Segundo, el método de
ior, de m l
TEORIA DE LA ATENUACIÓN EXPO N
ú ede observarse, en el méitaciones(Makridakis y Wheelwright). Primero, se r qu
toma un espacio considerable ennúm s observados, lo quefórm
promed odas las N observaciones y no considera las observaciones del periodo anterior a (t-N).
l recordar el método directo (Naive) puede argumentarse que las obs cpuede suceder en le futuro, por lo queq e s. reque res
e
m
v cc ec
ios móviles pondera con un mismo peso t
Aervaciones más recientes ontienen información actualizada de lo que
deberían ponderarse con mayor peso ue las obs rvaciones anteriore El método exponencial satisface este
rimiento y elimina la necesidad de almacenar gran número de valohistóricos. El principio operativo d atenuaciones similar al de los promedios móviles para eliminar la aleatoriedad. El procedimiento
atemático es algo diferente; así, si se modifica la ecuación (5.2) incorporando un estimado más reciente, en lugar del valor t-N y si este alor estimado fuese la predi ión del periodo precedente, entonces lauación (5.2) quedaría
ttt F
F+−t NN
XF =+1 (5.3)
Dicha ecuación también puede escribirse de la siguiente manera
ttt FN
XN
F ⎟⎠
⎜⎝
−+=+ 11 (5.4)
Ahora se tiene una predicción que ha dado un peso de 1/N a la
⎞⎛ 11
observación á nt eso de 1-1/N a la predicción que se obtuvo de dicha
observación, y si luego la notación 1/N se sustituye con la letra alfa(�), entonces se obtiene
m s recie e y un p
ttt FXF )1(1 αα −+=+ (5.5)
es la ecuación general utilizada por el método de atenuación
xponencial simple. P o la necesidad os con bases
d s. Si la ecuación (5.5) se desarrolla sustituyendo el valor de Ft dado
Estae uede comprobarse que se ha eliminadde manejar varias observaciones para obtener promedigran epor ttt FXF )1(1 αα −+=+ , entonces se tiene
])1()1( 111 −−+ [ −+−+= tttt FXXF αααα
12
11 )1()1( −−+ −+−+= tttt FXXF ααααα
(5.6)
Sin embargo,
22−1 1(+ ) −−+= tFtXtF αα (5.7) Al co inuar sus ndo se la sig e ecua
nt tituye obtiene uient ción:
222) Xα1−t1+t )1() −−−−+= ttt FXF ααα (5
y así sucesivame De esta ecuación puede verse la atenuació onenclimitación de los promedios movibles, ya que adjudica pesos decrecientes a
lmd 5.1.
Cuadro 5.1 Peso decreciente para los valores más antiguos � = 0.1
1( −+ α1(α +X .8)
nte.
n xpe ial limina la segunda e
las observaciones anteriores; es decir, debido a que el valor � es un número entre 0 y 1, entonces (1-�) también es un número entre 0 y 1, y por tanto los pesos �(1-�), �(1-�)2, etc., tienen valores que decrecen exponencia ente. De aquí el nombre de atenuación exponencial. Holton muestra claramente lo anterior en el cua ro Sin importar el valor que se elija para la constante �, la suma de los pesos alcanzará finalmente el valor de 1. el valor escogido de la constante hace que la suma de los pesos converja rápidamente o lentamente.
Tiempo Cálculo Peso t 0.1
t-1 0.9 x 0.1 0.090 t-2 0.9 x 0.9 x 0.1 0.081 t-3 0.9 x 0.9 x 0.9 x 0.1 0.073 Total 1
Si se escoge �=0.9, la suma de los pesos converge mucho mas rápido que con �=0.1, como se muestra en el cuadro5.2.
Cuadro 5.2 Peso decreciente Tiempo
� = Cálc
para los valores más antiguos 0.9 ulo
Peso
t 0.9 t-1 0.1 x 0.9 0.09 t-2 0.1 x 0.1 x 0.9 0.009 t-3 0.1 x 0.1 x 0.1 x 0.9 0.0009 Total 1
omo simple guía para escoger �, si la serie numérica tienen amplias ariaciones aleatorias deben seleccionarse valores cercanos a 0. Si se desea
ambios más recientes de los valores no a 1. El valor de � también puede icamente dicho valor y procesando el tes valores de �, para seleccionar
ensayo que obtenga el menor MSD(Mean Square eviation).
Para efectos del proceso pueden utilizarse las siguientes ecuaciones alternas a la ecuación 5.5:
Cvque la predicción dependa de los creales, debe elegirse un valor cercaseleccionarse haciendo variar empírmodelo varias veces con diferenosteriormente el p
D
)(11 ttt FXFF −+=+ α o bien ttt eFF α+=+1 (5.9) Como �=1/N, en un modelo de promedios movibles también podría interpretarse que una � cercana a 0 corresponde a un valor mayor de N (mayor número de observaciones), en tanto que un valor de � grande corresponde a un menor valor de N (correspondiente a un menor número de observaciones). 3.3 ATENUACIÓN EXPONENCIAL SIMPLE Varios aspectos de este modelo se ilustran con el ejercicio 5.3 del capitulo anterior. En el cuadro 5.3 (ejercicio5.1) se muestran los valores pronosticados utilizando la ecuación (5.5) o la ecuación (5.9). El único punto importante a recordar es que para el primer periodo no existe pronostico disponible(este hecho se enfrentará recurrentemente para cada modelo de series de tiempo). En este caso, el valor de la primera observación(la demanda de enero) puede utilizarse también para el primer pronostico. Así, F2= X1=2000. A continuación, tomamos este valor de
2000(el pronostico previo) y le sumamos el resultado de 0.1(1350-2000) para obtener 1935, que puede utilizarse como predicción para el periodo número 3.
En la f � en la cantidad de atenu rvados. Un valor � rande(0.9) logra muy poca atenuación, mientras un valor pequeño de � .1) genera una atenuación considerable.
s de dos bases e promedios movibles (3 y 5), entonces es posible evaluar la exactitud de
igura 5.1 se observa el efecto que tiene el valor de la constante
ación lograda en los valores obseg(0 En la grafica puede observarse que el valor 0.1 de � muestra una línea que casi no fluctúa. Al calcular el error MSD se observa que �=0.1 genera un error menor que aquellos errores MSD correspondientes a valores mayores de �. Como en el capitulo anterior ya se calcularon los erroredambos métodos.
3000
3500
0
500
1000
1500
2000
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dem
and
2500
Periodo de tiempo
a Demanda observada?=0,1?=0,5?=0,9
Figura 5.1 Comparación de la atenuación exponencial simple para predicción con valores � 0.1, 0.5 y 0.9 (ejercicio5.1)
Cuadro 5.3 Pred a para cuchillos eléctricos para el mes de Dici nuación exp le
(Ejercicio5.1) ción exponencial
s
icción de la demandembre utilizando la ate onencial simp
Atenua
imple Periodo Mes
Demanda observada �=0.1 �=0.5
1 Enero 2000 �=0.9
2 Febrero 1350 2000 2000 2000 MSD0.1=34313 Marzo 1950 1935
1675 1415 MSD0.5=4338
4 Abril 1975 1937 1813 1897 MSD0.9=50345 Mayo 3100 1940 1894 1967 6 Junio 1750 2056 2497 2987 7 Julio 1550 2026 218 Agosto 1300 1978 1837 15 9 Septiembre 2200 1910 1568 1328
10 Octubre 7 2123 11 Noviembre 3 2330 2709 12 Diciembre 0 2386
23 1874 82
22
75 1939 1884 50 2023 2056 234
Puede observarse que el mejor de los dos métodos computados es el promedio movible de 5 me 0.1. También es fácil observar que los de cómputo con el método exponencial simple son más sencillos, y el hecho de apreciar intuitivamente que la pond el exponencial se basa en los datos más recientes, hace que mente prefiera el método exponencial, en lugar del movibles con base mayor. Esta evaluación mostrado
petidamente que el método exponencial produce resultados sencillos y onfiables en una amplia gama de aplicaciones de predicción (forecasting).
DODO Yamudatefepat dente o descendente), entonces el método xponencial simple ya no es tan efectivo.
Parmapuede Si ncial simple se utiliza para datos con tendencia, la preposdatajuproexp
ses y es muy semejante al de �=requerimientos
eración para el analista normal de promedios
ha sido comprobada por la experiencia, que ha rec
BLE ATENUACIÓN EXPONENCIAL LINEAL DE HOLT DE S PARÁMETROS, PARA TENDENCIA
se ha mostrado ampliamente que cuando los datos son homogéneos y estran poca variación con respecto a la media(el patrón histórico de los os es estacionario),estas técnicas de atenuación pueden utilizarse ctivamente y a muy bajo costo. No obstante, si los datos muestran rones de tendencia(sea ascen
e
a enfrentar este problema Holt (1957) y Brown (1956) desarrollaron de nera independiente, y casi simultánea, métodos de atenuación lineal que den resolver procesos de predicción con datos que exhiben algún patrón tendencia y que, como en el caso anterior, son efectivos y de bajo costo.
el método exponedicción resultante tendría un error sistemático amplio negativo o itivo, dependiendo de la tendencia descendente o ascendente de los os originales. La predicción mejora notablemente si esta tendencia se sta utilizando algunos métodos lineales de atenuación: el doble de medios movibles, el exponencial lineal de un parámetro de Brown o el onencial lineal de Holt de dos parámetros.
Para efectos prácticos, el método de Holt se tiene ventaja sobre los otros dos por tres razones principales: ante todo, su simplicidad, ya que sólo reqestexp remento (o de factor de tendencia) a la ecuación de la atenuación exponencial para así pod
uiere de dos constantes: � y β y de tres ecuaciones; en segundo lugar, e método no es más que una extensión del modelo de atenuación onencial simple y, en tercer lugar, agrega un factor de inc
er ajustar dicha tendencia
))(1(1 tttt TFXF +−+=+ αα (5.10)
tttt TFFT )1()( 11 ββ −+−= ++ (5.11)
11 +++ += ttmt mTFH (5.12)
don
de:
1+tF = valor atenuado para el periodo 1+t α = constante de atenuación
r de los d les
dicción p iodo
X t = valo atos rea
tF = pre ara el per t (valor atenuado 1−t ) tor de te1+t = facT ndencia
β =constante de de la tendodos fut decir
predicción para el per
atenuación encia m = peri uros a pre
mtH + = de Holt iodo mt +
ión (5.10 para el iento del periodo anterior sumando al valor atenuado del periodo anterior. El estimado
de la tendencia se calcula en la ecuaci ), donde se a la diferencia de los dos úl res
La ecuac ) ajusta 1+tF crecim tT
tT tF
1+tT ón (5.11 computtimos valo F atenuados. Debido a que estos dos
valores ya han sido atenuados, e asum ue la d ferencia entre un estimado de la tendencia de los datos. La segunda constante de atenuación
e q i ambos es
( β )de la ecuación(5.11) se obtiene utilizando el mismo principio empleado para determinar la constante (α ) de la atenuación exponencial simple. El
lor más reciente de la tendencia )( FFva 1 tt −+ se pondera por la constante β ) y, entonces, el ultimo valor tT atenuado de la tende a sncia es u vez (
ponderado por )1( β− . La suma de los valores ponderados es el nuevo valor de la tendencia .
La ecuación (5.10) se utiliza pa periodos de tiem n el futuro sumando el producto del componen
y el o do alor do . Este d o ex el a es a un factor de tendencia. El mod o er s d nda ta s cáejecutados pueden verse para el periodo 8, utilizando
1+tT
ra llegar a la predicción de mpo e te de tendencia 1+tT
númer de perio s m al v atenua actual +tF 1
méto o aplica c n bastante actitud juste nec ario par predecir cuadro5.4 (ejercicio 5.2)
ie de datoilustra la aplicación del
de invenelo H lt a una s e dema rios. Lo lculos α = 0.2,
m β =0.3 y =1, así,
778 (5don
7F .10)
mmT+FH = con .12)
de:
)6T+ (8.06 F+2.0 X=2.0
con (56
87.168)39.52.170(8.0)174( =++ TT
= 6677 7.0)F(3.0 F +−= .1 7.
con (5 1) 37.3)39.5(0)174214(3.0 =+−=
así:
25.172)1(37.38.1688 =+=H
Cuadro 5.4 Método de exponenciación lineal de dos parámetros de Holt. Demanda de inventarios (ejercicio5.2)
α = 0.2 β =0.3 =1 m X S b 1 143 143.00 9.00 2 152 152.00 9.00 3 161 161.00 9.00 161.00 04 139 168.80 7.14 170.00 9615 137 164.15 5.10 170.94 11526 174 170.2 5.39 169.26 23
1128
7.50 4270 610.07
7 142 168.87 3.37 175.59 2.25 8
9 141 16
166.0016 .4
1.50 17
17 976302 6 1. 16
El proceso de inicialización del modelo de atenuación lineal de Holt de dos parámetros requiere dos estimados: uno para obtener el primer valor atenuado y otro para obtener el valor de la tendencia. El primer
valor coge tF tT
t es fácil de obtener: se esF tt XF = . El estimado de la tendencia es bastante problemático algunas veces. En principio, se requiere un estimado de tendenc de u eriodo siguiente, de manera que exis varias p ilidades
X
la ia n p alten osib :
1X21T −=
3)()()1( 3432 XXXX
T 2X1
X−+−+−
u omportan bien”, la alternativa escogida no es
lver predicciones de sin embargo, estos
pronósticos de datos que muestren
=
1 =un estimado “a ojo” de la pendiente, después de graficar los datos T
C ando los datos “ se ccrítica, pero los datos del ejercicio 5.2 presentan una “caída dramática” en los periodos 3 y 4, de manera que si se utiliza la segunda alternativa, que incluye la diferencia X4 - X3, entonces el método requiere gran cantidad de periodos para dirigir la tendencia otra vez hacia arriba, sobreponiéndola a
influencia de tan notable “caída”. la TRIPLE ATENUACIÓN EXPONENCIAL: MÉTODO DE WINTERS DE TRES PARÁMETROS, PARA TENDENCIA Y ESTACIONALIDAD Todos los modelos utilizados hasta ahora pueden resoatos estacionarios, no estacionarios y con tendencia;d
modelos no son efectivos para hacer variaciones estaciónales.
))(1( 11 −−−
+−+= ttpt
tt TF
SXF αα
Este método de predicción está basado en tres ecuaciones y es similar al método de Holt, una ecuación adicional para la stac
e ionalidad.
ptt
t F −t S−+ )1( β
11 )1()( −− −+−= tttt TFFT γγ
tttmt SmTFW )( +=+ Donde P indica la longitud de
estacional en número de s y S significa el estimado
de estacionalidad
tiempo periodo
XS = β
Figura 5.2 Triple exponeniple exponenciación de Winters para tendencia y
e tres parámetros
dizar mucho en este modelo (véase figura 5.2), el método de
iones estacionarias, la egunda para la tendencia y la tercera para la estacionalidad.
métodos de atenuación. el análisis de éstos surge tres conceptos de mejora y utilización
elos, de tal manera que se resuelvan situaciones especiales de predicción. Al respecto, pueden mencionarse el m delo de tr atenua expone al cuadrática de Bro e a er les l método de a uación armónica d la simplicidad de los métodos de atenuación, pero trata de introducir transformaciones de Fou i e of (Pegels, Gar
Triple exponenciación cuadrática Métodos de atenuación
e ncia
ciación de Winters para tendencia y e tres parámetros
dizar mucho en este modelo (véase figura 5.2), el método de
iones estacionarias, la egunda para la tendencia y la tercera para la estacionalidad.
métodos de atenuación. el análisis de éstos surge tres conceptos de mejora y utilización
elos, de tal manera que se resuelvan situaciones especiales de predicción. Al respecto, pueden mencionarse el m delo de tr atenua expone al cuadrática de Bro e a er les l método de a uación armónica d la simplicidad de los métodos de atenuación, pero trata de introducir transformaciones de Fou i e of (Pegels, Gar
Triple exponenciación cuadrática Métodos de atenuación
e ncia
estacionalidad destacionalidad d Sin profun
Sin profunWinters se basa en tres ecuaciones de atenuación (de hecho, sigue la misma lógica que el modelo Holt):una para las variacWinters se basa en tres ecuaciones de atenuación (de hecho, sigue la misma lógica que el modelo Holt):una para las variacss OTROS MÉTODOS DE ATENUACIÓN Al igual que el método de Winters, existen otros
OTROS MÉTODOS DE ATENUACIÓN Al igual que el método de Winters, existen otros DD(Makridakis y Wheelwright): (Makridakis y Wheelwright): a) Incorporar la transformación de datos en los moda) Incorporar la transformación de datos en los mod
own de un parámten
own de un parámten
ipleiple ciónción ncino lineane
ncino lineane
tro ptro p r resolve Harrison
r resolve Harrison
tendencias, que mantietendencias
, que mantie o e o e
rier a f n de agrrier a f n de agr gar sgar s isticación matemática a dicho misticación matemática a dicho modeloodelodner). dner).
xponexpone l l '+t Sα Pr1
' )1( −−= tt XS α i at n mera enuació ''
1' 1( −−+ tt Sα Se'' )=t SS α a ón ti
ple, de Brown, de Chow gunda tenuaci Adapta vos:
Sim'''1
'' )1( −−+ tt Sα Te''' =t SS α atenuación rcera Jenk re metros
utiliza residuales y autocorrelación.
Box ins de t s pará
'''''' 3 ttt SS +− 3t Sa =
todo a o rrison Mé rmónic de Ha'''''' 3 tt SS +− 3 tt Sa = liza m
ie uti transfor aciones de
Four r
) Es
21(
''''''tc −
−=
te do ión iza
cuando Los datos muestran una
Sistema nitoreo Trigg
()2 ttt SSS +
α
2α métode prediccse util
de mo
2
21 mcb+aF mt +=+ tendencia no
lineal (cuadrática, cúbica o de orden mayor)
ttmt
Figura 5.3 Otros métodos de atenuación exponencial b) Incorporar el enfoque adaptativo a los modelos de atenuación, lo cual
implica que, en lugar de tener un valor único de cualquiera de los parámetros utilizados (�, β o γ), este valor puede variar, de manera controlada, según los cambios que vayan ocurriendo en los patrones, sean aleatorios, de tendencia o de estacionalidad. Esta característica es atractiva cuando se tienen cientos o miles de observaciones para lograr una predicción, y en done este enfoque permite cambios automáticos en los valores delos parámetros, según vayan cambiando los patrones de variación de la información.
c) Todos los de computación, como SAS, SYSTAT, SPSS o MINITAB,
con ización de los métodos de atenuación tanto por pro ios movibles como por exponenciales, transformaciones y enfoque adaptativo en forma transparente para el usuario; es decir el paquete presenta una pantalla de dialogo donde solicita, en forma
, quieren calcular: aleatorio, de tendencia y/o
En el mismo dialogo, el paquete solicita el valor que el usuario desea adjuntar al parámetro o parámetros que se aplican a los patrones mencionados y, entonces, además de algunas otras indicaciones de orden computacional (impresora, almacenamiento, etc.), procede a calcular el pronostico solicitado, generando la predicción con tantos valores como
templan la utilmed
practica qué patrones se rede estacionalidad.
el usuario solicite, gratificando dichos valores y presentando el error de serie de datos procesados. Cada paquete presenta los errola res
computados estándar de cada modelo y ensayo, que son los ya
Atenuación exponencial simple:
mencionados en el capitulo 2 y 3: MSD, MAD y MAPE. Debe mencionarse que, en general, los paquetes no indican cuál método ha sido programado. Es factible suponer, entre otras razones, que en la mayor parte de los casos el modelo es elegido en función de consideraciones pragmáticas. Como ejemplo, y dada simplicidad, para el calculo de la tendencia suele preferirse el modelo Holt de dos parámetros al de Brown, de un parámetro .
EJERCICIOS •
or cuadrado
Con las ventas de detalle de farmacias a partir de enero de 1980 realice la atenuación exponencial simple. Se escogió arbitrariamente un valor de �=0.168
Fecha Datos Error Err1980-Ene 2410.73 1980-Feb 2295.97 -114.76 13170 1980-Mar 2405.33 13.88 193 1980-Abr 2458.69 64.91 4213 1980-May 2512.29 107.60 11579 1980-Jun 2468.3 2074 45.54 1980-Jul 2451.35 20.94 438 1980-Ago 2515.78 81.85 6699 1980-Sep 2455.28 7.60 58 1980-Oct 2628.81 179.85 32347 1980-Nov 2582.01 102.84 10575 1980-Dic 2731.78 235.33 55380 1981-Ene 136725 MSD= 12430
• Doble atenuación exponencial lineal de Holt : Con los mismos datos del ejercicio anterior, desarrolle la atenuación exponencial lineal de Holt, con �=0.052 y β=0.294. Valor inicial T=40 Fecha Datos Atenuación Tendencia Predicción Error Error
cuadrado
1980- 2410.73 2410.73 40.00 Ene
1980-Feb
2295.97 2448.65 39.93
1980-Mar
2405.33 2478.05 36.45 2488.04 -82.71 6840.69
1980- 2458.69 2508.83 34.7Abr
8 2514.50 -55.81 3115.10
1980- 2512.29 2539.19 33.48 2543.61 -31.32 980May
.89
1980-Ju
2468.3 2569.54 32.56 2572.68 - 10894.81n 104.38
1980- 2451.35 2595.14 30Jul
.52 2602.10 -150.75
22725.46
1980- 2515.78 2616.59 Ago
27.85 2625.66 -109.88
12073.22
1980- 2455.28 2637.75 25.88 2644.45 - 35783.57Sep 189.17 1980-Oct
2628.81 2652.80 22.70 2663.64 -34.83 1213.07
1980- 2Nov
582.01 2673.08 21.99 2675.50 -93.49 8740.99
1980-Dic
2731.78 2689.18 20.26 2695.06 36.72 1348.34
1981-Ene
2710.60 20.60 2709.44 103716.14
MSD= 10372 • Otros métodos atenuación :
Utilizando la serie no aleatoria 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, calcule la predicción del periodo 11 utilizando el método exponencial simple y el método exponencial lineal de Holt. ¿Qué valor de � debe usarse en el exponencial simple?¿A la luz de la ecuación 4.9, por que?¿Cuál debería ser el valor inicial de T en el exponencial lineal?¿por qué? �=0.1 �=0.001 β=0.1
Datos Exp. Simp. Error Atenuación T Holt Error 2 2 2 2
4 2 2 4 2 4 0 6 4 2 6 2 6 0 8 6 2 8 2 8 0 10 8 2 10 2 10 0 12 10 2 12 2 12 0 1 4 12 0 2 14 2 14 1 6 14 2 16 2 16 0 18 16 18 0 2 18 2 20 0 0 18 2 2 2 20
20 22
ATENUACIÓN O IAL TADA A TE T
U i co enci manej ten li se denomina Método de dos parámetros de Holt
EXP NENC AJUS A L NDENCIA:MÉTODO DE HOL
na técn ca que se usa n frecu a para ar una dencia neal
( )( )11−1 −+−+t=t tTY tAA αα
. La Técnica de Holt atenúa e te a y ndient pleando diferentes c tantes de aten n da un las. Con esta ecuación se atenúa la serie en forma exponencial de manera si e so de avizació one m la d encia radica ue rega u rmino para toma u la te . L c s n en e écnica s La serie exponencialmente atenuada
La estimac de
El pronóstico de “p” periodos en el futuro Donde : A v α = Constante de atenuación de los datos (0< α<1)
n forma directons
a la ndenci la pe e emuació para ca a de el
milar a como seifer
hacia n el ca la su n exp ncial si ple, en q se ag n té r en c enta
ndencia
as tres e uaciones que e utiliza sta t on:
ión de la ten ncia
t = Nue o valor
( ) ( ) 11 1 −− −+−= ttt TAAtT ββ( ) pLtttpt SpTAY +−+
∧
+=
atenuado
Y Nueva observación o valor real de la serie en el periodo t ß = Constante de atenuación de la estimación de la tendencia (0< ß<1) T Estimación de la tendencia p = Número de periodos a estimar Y Pronóstico de p periodos a futuro Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales en el período 1988-93. Pronosticar las ventas de 1994, usando la técnica de Holt con α .3 y ß = 0.2. Considerar además como valor inicial atenuado 500 y el v c stimación inicial de la tendencia. Solución : to a los valores iniciales : El valor inicial atenuado puede estimarse promediando unos cuantos valores de la serie, además, el valor inicial de la tendencia se puede estimar utilizando la pendiente de la ecuación de tendencia obtenida de datos anteriores. Pronóstico usando Atenuación Exponencial ajustada a la Tendencia Variable : Ventas de piezas metálicas, según años
m. Yt At
valor atenuado
Tt estimac.
Tendencia
Yt+p et
t =
t =
t+p =
= 0alor de 0 omo e
Respec
Año TriT
88 1 1
6
4
500 350
0 400
150 400
0 250
500.0 455.0 390.4 385.9
219.5 277.5
377.0 354.1
0 -4.5 -10.5 -9.9
-17.8 -10.2
0.8 -1.6
500.0 500.0 450.5 379.8
202.9 206.2
321.7 296.5
0 -150
-200.5 20.2
-52.9 194
28.3 -46.5
2 252 3 3 4 4 89 1 5 2
450 350 200 300 350 200
398.2 378.3 311.9 295.6 303.0 260.3
-7.7 -8.9 -14.2 -14.4 -12.2 -15.3
376.0 390.5 338.8 305.5 293.2 271.2
74.0 -40.5 -169.4
-5.5 56.8 -71.2
3 550 364.7 -0.5 287.6 262 7 35
8 550 403.1 3.5 404.9 145
90 1 9
550 400
426.4 437.5
5.5 6
490.3 59.7
2
4 12
13
14 3 15
16 92 1 17 2
3
350
400 650
450.1
546.4 546.4
6.7
12.1 10.9
387.3 337.6
430.9 687.3
1.9
12.7 12.4
-30.9 -37.3
10 3 11
600 750 500
471.9 531.8 548.8
8.2 13.4 13.7
554.1 591.0 491.7
45.9 159 8.3
91 1 75
2
4
18
19 4 20 93 1 21 2 22 3 23 4 24 94 1 25
EMC = 21 488.5
(1 )( 1− )1−−
+−+ t= tLt
t ASY
α
Y A LA VARIACIÓN ESTACIONAL: MODELO DE WINTER
l modelo de atenuación exponencial lineal y estacional de tres parámetros de Winter, que es una extensión del modelo de Holt, y puede reducir el error d ó e iz cu io a ra determinar la estacionalidad. Esta estima d dice estacional y se calcula l muestr que l ión del índice estacional t t lic γ, se suma después a la estimación estacio ult a por ). divide entre A e r al orma de índice en vez de hacerlo en términos absolutos, de modo que pueda promediarse con el índice estacio u p o Esta técnica s ate n forma directa la tendencia y la estacio fer onstantes de atenuación para cada uno de ellos. Las cuatro ecua q p odelo de Winter son: Serie exponencial atenuada :
Ajusta io m os estaciónales que pudieran existir en el v original Yt Estimación de la Tendencia :
Estimación de la Estacionalidad :
El pronóstico de “p” períodos en el futuro :
ATENUACIÓN EXPONENCIAL AJUSTADA A LA TENDENCIA
E
tA α T
e pron stico. S util a una eción está
ación adicada por un
n l pa ín
con la ecuació (Y /A ) se m
n 3, a cual a a ecuacultip a por
nal anterior (St-
t, para xpresaL), m iplicad (1 - γ La razón Yt se el v or en f
nal aten ado al eriod t – L.
e basa en nuar enalidad empleando di entes c
ciones ue em lea el m
la estac nalidaalor
d, eli ina efect
( ) )( 1−1− 1−+−= tt AttT A Tβ β
( ) Ltt
tt S
AY
S −−+= γγ 1( ) Ltttpt SpTAY −+
∧
+= p+
Este índice ajusta el pronóstico a la estacionalidad.
DondeAt = Valor atenuado α = Constante de atenuación (0< α<1) Yt = Nueva observación o valor real de la serie en el periodo t ß = C e la tendencia (0< ß<1) Tt = Estimación de la tendencia γ = Constante de atenuación de la estimación de la estacionalidad (0< γ<1) St = Estimación de la estacionalidad p = Nú ro de periodos a estimar L = Longitud de la estacionalidad Yt+p = Pronóstico de p periodos a futuro
uestran las ventas trimestrales do icar las ventas de 1994, usando la técnica de
Winter con α = 0.4, ß = 0 atenuado 500, el valor de 0 com tendencia y el
la estimación inicial de estacionalidad.
de e e
:
onstant de atenuación de la estimación de
me
Ejemplo : Los datos del cuadro siguiente mn el perío 1988-93. Pronoste
.1, y γ = 0.3. Considerar además como valor inicialo estimación inicial de la
valor de 1 como Solución : Respecto a los valores iniciales : El valor inicial atenuado pueestimarse promediando unos cuantos valores de la serie. El valor inicial dla tendencia se puede estimar utilizando la pendiente de la ecuación dtendencia obtenida de datos anteriores. Las estimaciones de estacionalidadse pueden calcular para datos anteriores mediante la descomposición de la serie de tiempo.
Pronóstico usando: Atenuación Exponencial ajustada a la Tendencia ya la Variación Estacional
Yt valor estimac. estimac. et
Variable : Ventas de piezas metálicas, según años
Año Trim. At Tt St Yt+T atenuado Tendencia estacional. p
88 1 1 2 2
500 350 250
500 440
360.4
0 -6
-13.4
1.00 0.94 0.91
500.0 500.0 500.0
0 -1
3 3 4
14 3 15 4
400 450 350
550
0
368.2 394.2 381.2
426.4
548.8
-11.2 -7.5 -8.1
4.4
5.5 6
13.7
1.03 1.04 0.93 0.83 1.02 1.08 0.88 0.78 1.15 1.21 0.90 0.76 1.21 1.23 0.90 0.77 1.23 1.28 0.90 0.76 1.22
500.0 357.0 362.9 338.8 305.5 293.2 271.2 202.9 206.2 287.6 321.7 296.5 404.9 490.3 387.3 337.6 554.1 591.0 491.7 430.9 687.3 751.9 546.2 449.6 718.8
50-250-10093
-12.9-139-5.5 56.8-71.2-52.9194 262 28.3-46.5145 59.712.712.445.9159 8.3
-30.9-37.3
4 200 300
311.9 295.6
-14.2 -1
89 1 5
350 200
303.0 260.3
-12.2 -15.3
2 150 219.5 -17.8 6 400 277.5 -10.2 3 7
550 350
364.7 377.0
-0.5 0
4 250 354.1 .8
-1.6 8 550 403.1 3.5 90 1 9 2
400 350
437.5 450.1 6.7
10 600 471.9 8.2 3 750 531.8 13.4 11 50 4 12
400 650
546.4 546.4
12.1 10.9
91 1 13 2
16 92 1 17 2 18
4
22 3 23 4 24 94 1 25 2 26 3 27 4 28
3 19
20 93 1 21
2
ECM = 12431.5 El modelo de Winter resulta mejor en minimizar el EMC y proporciona una forma fácil de explicar la estacionalidad en un modelo, cuando los datos tienen un patrón estacional. Un método alternativo consiste en desestacionalizar primero o ajustar estacionalmente los datos. Después se aplica el modelo de pronóstico a los datos sin estacionalidad y posteriormente los resultados se estacionalizan de nuevo para proporcionar pronósticos precisos.
ATENUACIÓN EXPONENCIAL AJUSTADA A LA TENDENCIA: MÉTODO DE HOLT
se Una técnica que se usa con frecuencia para manejar una tendencia lineal
denomina Método de dos parámetros de Holt. La Técnica de Holt atenúa
en forma directa la tendencia y la pendiente empleando diferentes constantes de atenuación para cada una de ellas. Con esta ecuación se atenúa la serie en forma
( )( )111 −− +−+= YA tttt TAαα
exponencial de manera imilar a como se hacia en el caso de la suavización exponencial simple, la
a la
a estimación de la tendencia
El pronóstico de “p” periodos en el futuro Donde :
= Constante de atenuación de los datos (0< α<1)
< ß<1)
Ejemplo : Los datos del cuadro siguiente muestran las ventas trimestrales en el período 1988-93. Pro
olt con 00 y el
olución : Respecto a los valores iniciales : El valor inicial atenuado puede est inicial la ecuación de tendencia obtenida de datos anteriores.
sdiferencia radica en que se agrega un término para tomar en cuenttendencia. Las tres ecuaciones que se utilizan en esta técnica son: La serie exponencialmente atenuada
L
( ) ( ) 11 1 −− −+−= tttt TAAT ββ( ) pLtttpt SpTAY +−+ +=
∧
At = Nuevo valor atenuado αYt = Nueva observación o valor real de la serie en el periodo t ß = Constante de atenuación de la estimación de la tendencia (0Tt = Estimación de la tendencia p = Número de periodos a estimar Yt+p = Pronóstico de p periodos a futuro
nosticar las ventas de 1994, usando la técnica de Hα = 0.3 y ß = 0.2. Considerar además como valor inicial atenuado 5valor de 0 como estimación inicial de la tendencia. S
imarse promediando unos cuantos valores de la serie, además, el valor de la tendencia se puede estimar utilizando la pendiente de
Pro Variable : Ventas de piezas metálicas, según años
Año Trim. Yt At
valor Tt
estimac. Yt+ et
nóstico usando Atenuación Exponencial ajustada a la Tendencia
T atenuado Tendencia p
88 1 1
500 350
500.0 0 500.0 0
2 2 3 3
10 3
12 91 1 13 2
450 350
00
600 750
650
455.0
398.2 378.3
303.0 260.3
471.9 531.8
-4.5
-7.7 -8.9
-12.2 -15.3
7 8.2 13.4
9
500.0
376.0 390.5
293.2 271.2
6.5
337.6 554.1 591.0
687.3 751.9
-150
74.0 -40.5
56.8 -71.2
-46.5
12.4 45.9 159
-37.3
4 4 89 1
200 300
311.9 295.6
-14.2 -14.4
338.8 305.5
-169.4 -5.5
5 350 2
2 6
150 400
219.5 277.5
-17.8 -10.2
202.9 206.2
-52.9 194
3 7
550 350
364.7 377.0
-0.5 0.8
287.6 321.7
262 28.3
4 250 354.1 -1.6 298 90 1 9 2
550 550 400 350
403.1 426.4 437.5 450.1
3.5 5.5 6
6.
404.9 490.3 387.3
145 59.7 12.7
11 4
500 400
548.8 546.4 546.4
13.7 12.1 10.
491.7 430.9
8.3 -30.9
14 3 15 4 16
250 400
390.4 385.9
-10.5 -9.9
450.5 379.8
-200.5 20.2
92 1 17 2
19 4 20 93 1 21 22 3 23 4 24 94 1 25
18 3
2
EMC = 21 488.5
CAPITULO 6 METODOS DE DESCOMPOSICIÓN
ntroducción
estos se empl as matemáticas sencillas que permiten separar los trones componentes de una serie de tiempo: estacionalidad,
toriedad. Al eliminar la estacionalidad (por métodos atoriedad se obtiene la curva de ciclo / tendencia, que
es el elemento más importante de los pronósticos comerciales. Es importante hacer notar que la sencillez del método no le resta exactitud;
nto así que se utiliza ampliamente no sólo en todos los medios de negocios, sino también en las áreas técnica y científica (de hecho, una de las aplicaciones de mayor importancia es su uso en actividades censales). Los métodos de descomposición producen tres ventajas prácticas muy impo1.Una vez coutilizar.
I Los métodos de predicción más antiguos son los de descomposición. En
ean fórmulcuatro patendencia, ciclo y aleae atenuación) y la aled
ta
rtantes: mputada la predicción, su presentación es simple y fácil de
2.Los resultados, totales y parciales, brindan una perspectiva histórica que también se entiende fácilmente, con base en los conocimientos del analista y en su apreciación intuitiva. 3.Finalmente, aunque otros métodos pueden ser más exactos (Box-Jenkins), no se emplean tanto en el ámbito de los negocios debido a su dificultad de interpretación e integración en el proceso de toma de decisiones. El método clásico es tan sencillo que puede resolverse con simples calculadoras. Esto no o por ser algo más complicado des organiestadística.
Métodos de descomposición L todos de descom sición a principios de siglo, por una parte tratando de elim E cia, e 911 deb o a las económicas, decidió económicas para poder predecir los efectos de las depresiones. E 5, en E ados U s, donmicroeconom requerí ejores e separar los componentes estacionales para predecir las ventas. En actualid , la ma aplicac los sist as de c sos seg l DeptC io de tados U os y se a enfunciones desde 1955 c ocas ione
curre con el método censal, que requiere computadoras para su utilización por las gran
zaciones y las dependencias gubernamentales de geografía y
os mé po surgieron
inar tendencia y variaciones estacionales.
n Fran n 1 id crisis se separar las actividades
n 911 st nido de la ía a m maneras d
la ad yor ión es enem en ún e o. de
omerc Es nid encuentr on p modificac s.
Cuadro 6.1 Sumarización de los rincipios del método de
descomposición.
Método clásico de descomposición El método de descomposición supone que los datos están constituidos de la siguiente manera:
DATOS = patrón + error
Es decir, DATOS = f ( tendencia-ciclo, estacionalidad, error ) En otras palabras, agregado al patrón existe un elemento de aleatoriedad que, asimismo, está presente en cualquier dato de serie de tiempo. Este componente aleatorio también se denomina error o residuo. Resulta evidente que no es posible predecir la aleatoriedad, pero al menos sí puede identificarse y cuantificarse para determinar la confiabilidad o margen de error de la predicción generada por los datos ( véase cuadro 6.1 ). Teóricamente el punto de vista es estadístico, el método de descomposición tiene varios inconvenientes. Sin embargo, como ya se mencionó, en la práctica se ignoran muchas desventajas y el método se utiliza con bastante éxito. Este método se originó desde principios de siglo, aunque desde 1884 Poynting3 trató de eliminar la tendencia y las variaciones estacionales para los precios del trigo sobre una serie de tiempo de varios años. Hooker4 (1901) logró resultados más precisos y posteriormente Spencer5 (1904) y Anderson6 (1914) generalizaron el procedimiento para eliminar la tendencia. Los economistas también participaron en este método con el objetivo de predecir las depresiones, tratando así de aislar los ciclos de la actividad
Métodos de descomposición
La ecuación general para los métodos de descomposición es:
Xt = f ( St, Tt, Ct, Et )
Donde: St = Componente estacional de la variable Xt. Tt = Componente de la tendencia. Ct = Componente cíclico. Et = Componente aleatorio ( error ). El modelo puede ser aditivo, pero se ha impuesto el multiplicativo basado en promedios movibles:
Xt = St x Tt x Ct x Et
p
económica de otros patrones. En 1915, Coperland7 intentó aislar los ciclos estacionales y, finalmente, el método tal y como se conoce ahora fue introducido en 1930 por Macauley8 , quien presentó los promedios movibles como la base de los índices estacionales. El uso de computadoras e inado un amplio esarrollo y utilización de estos modelos, tanto por economistas como por nalistas de administración y mercadotecnia. La sencillez de estos métodos
a ate de los stas, qu los han o mássofisticados sin perder su enfoque y atractivo intuitivo. En la Oficina del Censo de Estados Unidos se han incorporado variantes no sólo de regresión, sino inclusive del método ARIMA. La representac máti del es la te:
Xt = f ( St, Tt, Ct t ) )
Xt (datos originales) en el período t = Componentes estacionales (o índices) en el período t. t = Componente de la tendencia en el período t.
Ct = Componente cíclico en el período Rt = Componente aleatorio (random) o error en el período t.
ponen uede asu arias fdesde la aditiva (simplement umar los ro elementos), la multiplicativa (m tiplicándolo ), la logarítmica, etc. La más usual es la multiplicativa. Lo anterior se debe a que la estacionalidad y el ciclo son proporcionales a la tendencia, or lo q n cífica es:
t t x t t (6.2) Según Majani, para desco a p atco nte e s re seestacionalid n ed
lcular un prome on base en la estacio lidad:para la anual y 4 trimestres para las cuatro estaciones tradicionales.
n las últimas décadas ha origdaha llamado l nción anali ienes hech
ión mate ca básica método siguien
, R (6.1
Donde = Valores de la serie de tiempo t.
ST
t.
La función de relación de estos com tes p
cuatmir v ormas,
e al sul s
p ue la represe tación espe
X = ( S T x Ct x R )
mponer un serie de tiem o en sus cu ro mpone s se requier
ad y eliminan cinco paso la aleatori
, donde los tad:
s primeros paran la
1. Ca dio móvil c na 12 meses
MAt = ( Xt – 6 Xt – 5 + Xt t + 1 + … + Xt + 5 ) / 12 ; Datos mensuales .3)
MAt = ( Xt – 2 + Xt – 1 + Xt + Xt + 1 ) / 4 ; Para datos trimestrales
(6.4)
2. Dividir los datos reales entre el valor promedio y multiplicar por 100, con lo que se obtienen las variaciones porcentuales por cada estación contra el promedio.
X / MA = ( S x T x C x R ) / (T x C) = S x R
(6.5)
Donde MA = T x C , ya que al promediar se eliminan la estacionalidad y
3.
los En jorar el p o que per
ad
sos:
1.
2.3.
+ + X(6
La aleatoriedad.
Promediar sistemáticamente las estaciones homólogas para eliminarla aleatoriedad de las variaciones porcentuales. Este proceso genera índices estacionales (véanse cuadros 6.2 y 6.3).
forma práctica pueden agregarse dos pasos: uno que permita meroceso de atenuación para eliminar la estacionalidad y otrmita “ajustar” los índices estacionales.
Cuadro 6.2 Proceso de eliminación de aleatoriedad y cálculo de estacionalid
La tabla se ha construido con los siguientes pa
Se promedian los valores trimestrales de un año y se centran en el tercer renglón.
Por definición, los promedios eliminan las variaciones estacionales. Al dividir las observaciones X / MA entre los promedios movibles se
obtiene la variación de la observación contra la media, que al
multiplicarse por cien da un valor porcentual. Los valores superiores a 100 indican ventas mayores que la media y viceversa. Estos valores se organizan horizontalmente, con lo que puede observarse claramente la estacionalidad.
4.
5.
Y p me
or definición, como el error es aleatorio, es igual a cero con respecto a ladia
X / MA = ( S x T x C x E ) / (T x C) = S x E
0
1000
2000
3000
4000
5000
1 3 5 7 9 11 13 15 17 19
Serie1
Gráfica de los datos originales, donde se observan la tendencia ascendente y
estacionalidad.
a r, según se vio, es igual cero.
según efectos climáticos, sociales o religiosos.
la Donde: MA = T x C, ya que
L estacionalidad desaparece al promediar, y el erroa
cionalidad es cíclica, pero lo es dentro de cada año y en general es La esta
Cuadro6.3 Promedios movibles dobles y ajuste de los índices de estacionalidad.
Métodos de descomposición.
Cálculo de la estacionalidad (%);veamos la tabla: (Venta de papel francés por promedios movibles centrados)
ad
Año
Trimestre
Periodo
Observaciones
Promedio
Movible
Movible doble
Estacio-
nalid1997 1 1 3017.60
2 2 3043.54 3 3 2094.35 2741.33 2773.48 75.51 4 4 2809.84 2805.63 2820.60 99.62
19 115.39 78 1 5 3274.80 2835.57 2838.06 2 6 3163.28 2840.56 2867.40 110.32 3 7 2114.31 2894.24 2900.83 72.89 4 8 3024.57 2907.41 2948.69 102.57
1979 1 9 3327.48 2989.96 3030.66 109.79 2 10 3493.48 3071.37 3129.64 111.63 3 11 2439.93 3187.92 3232.62 75.48 4 12 3490.79 3277.32 3298.29 105.84
1980 1 13 3685.08 3319.26 3311.57 111.28 2 14 3661.32 3303.88 3299.98 110.95 3 15 2378.43 3296.07 3316.64 71.71 4 16 3459.55 3337.21 3342.20 103.51
1981 1 17 3849.63 3347.20 3380.19 113.89 2 18 3701.18 3413.19 3428.93 107.94 3 19 2642.38 344.68 4 20 3585.52
n s es o Trimestre 1ro 2do 3ro Sumas
Í dices e tacional crud s
4toAño
1977 75.51 9 2 175.13 9.61978 .39 110.32 . 0115 72 89 102.57 4 1.17 1979 109.79 111.63 5.48 105.84 402.74 71980 .2 110.95 71.71 7.45 111 8 103.51 391981 113.89 107.94 221.83
9 15 8.32 Suma 450.35 440.84 295.59 411.54 1598.32
Promedio 112.5875 110.21 73.8975 102.885 399.58 1.00105 Factor de Ajuste
Índices Estacionales Ajustados Tr 4to Sumas imestr 1ro 2do 3ro
e Año
1977 75.5893688 99.7247109
175.31408
1978 115.511287
110.435958
72.19666149
102.677812
401.591671
1979 109.90540 111.74733 75.559373 105.91 5
51249
403.163321
17 1
980 111.39696 111.06662 71.7853746 103.6188 397.86776
1981 114.00971 108.053456
222.063166
1600 Suma 450.82336 441.30336 295.900696 411.97257 1600
5 9 1 Pr 2.70584 110.32584
2 73.9751739 102.99314
3 400 omedio 11
1
s inclu ediana ( Newbold9 ) o eliminan los valores extremos; aq os a akridakis10 para el primer paso, que consiste en centrar los valores de atenuación (promedio movible) y en seguida hacer un promedio movible doble (véanse cuadros 6.2 y 6.3):
MAdt = ( MAt + MAt + 1 ) / 2
(6.6)
. El ajuste de los índices estacionales se lleva a cabo al elaborar un cuadro horizontal de las razones porcentuales X / MA por cada período y año (cuadro 6.3). En seguida se promedian verticalmente dichos promedios y luego todos ellos se suman horizontalmente. Por supuesto, la suma debe ser igual a 400. Si ésta es inferior a 400, entonces se divide 400 entre el valor resultante (el cociente es superior a 1) y este número se utiliza como valor de ajuste. A continuación todos los índices parciales se multiplican por este factor, de manera que en la nueva tabla ahora los valores promediados son iguales a 400. Si la suma inicial es superior a 400, entonces se invierte la división, con el 400 como divisor, de manera que el factor de ajuste ahora es inferior a uno.
Los dos últimos pasos son: el cuarto para aislar y calcular la tendencia, y el quinto para aislar y calcular el ciclo.
Aislamiento y cálculo de la tendencia
Es importante hacer notar que la tendencia puede ser un componente temporal del ciclo, el cual muestra primero una tendencia ascendente y luego descendente, dependiendo si la serie de tiempo plantea la fase de crecimiento o la de depresión económica de dicho ciclo (figura 6.1a).
1. Algunos autore yen la muí aplicam M
2
Pero también puede plantearse una tendencia que trascienda al ciclo, en uyo caso los movimientos de crecimiento y depresión forman parte de
un crecimiento sostenido (por ejemplo el crecimiento de la población) como se muestra en la figura 6.1b del ejemplo del cuadro 6.3 (y que continúa en el cuadro 6.4), en el que se estudia parcialmente la venta de papel en Francia de 1968 a 1980 y pueden apreciarse varios altibajos de tipo cíclico, pero donde el esquema integral es de crecimiento sostenido.
PNB 0 1 6 x Años
Figura 6.1 (a) Ciclo sin Tendencia
Venta de papel en Francia y $
c
Probablemente una de las características más afortunadas del modelo de descomposición es que al calcular la tendencia se plantea en formasimplificada una ecuación, lineal o exponencial, que al tener agregados los índices estacionales y cíclicos correspondientes se genera este sencillo modelo, denominado de descomposición. Ciclo sexenal en México
y
12
0 1968 1980 x
EJE
de 1968 a 1980, puede verse que aunque
hay tres recesiones, una leve en 1969, una serie en 1974 - 1975 y una que comenzó en 1980, la tendencia en general muestra una pendiente lineal de crecimiento sostenido. Si se hicieran estudios parciales con intervalos cortos de tiempo, podría caerse en la parte ascendente de cada ciclo, donde el crecimiento precedente a una depresión es rápido (exponencial) tanto para los años previos a 1974 como para los anteriores a 1980. Resulta evidente que para cubrir el ciclo y la tendencia se requiere un número considerable de años que muestren el esquema general en toda su amplitud, ya que de otra manera los resultados de tendencia y ciclo podrían ser engañosos. No existe ninguna seguridad de que cualquier análisis matemático sea capaz de prever con exactitud los cambios de tendencia o ciclo, aunque la descomposición en sus integrantes permite que el analista tenga una visión bastante razonable de todo el proceso de predicción (véase cuadro 6.4). La solución matemática es muy simple, ya que al utilizar un modelo de mínimos cuadrados y graficar los períodos de tiempo en el eje de las abscisas y las ventas trimestrales en el de las ordenadas, la ecuación queda como
Tt = a + bxt (6.7)
(b) Ciclo con Tendencia de Crecimiento
RCICIO 6.1 Al considerar los datos del cuadro 6.3 y de la figura 6.1b sobre la ventade papel periódico en Francia
posición
Cuadro 6.4 Cálculo de la tendencia en el método de descomposición.
Métodos de descom(Cálculo de Tendencia)
Se utiliza el método de regresión lineal, tomando como la variable Independiente el periodo (trimestre) y como variable
Dependiente las ventas (observaciones)
Años
Tri- mest
re
Pe- riod
o
Datos Promedio
movible
Promedio
Doble
Índ. esta-
cional
Tendencia
Ind. Est.
ajustado
Predi-cción
1 2 3 4 5 6 7 8 9 10 4/5*1
00 3xb+a 8x9/10
0 199 1 1 3017. 2554.7 112.7 2879.4
7 6 8 1 97 2 2 3043.
54 2610.6
7 110.3
3 2880.3
49 3 3 2094.
35 2741.3 2773.4
83 75.5 2666.5
5 73.98 1972.7
14 4 4 2809. 2805.6 2820.6 99.6 2722.4
84 3 102.9
9 2803.8
35 197
8 1 5 3274.
8 2835.6 2838.0
63 115.4 2778.3
2 112.7
1 3131.4
42 2 6 3163.
28 2840.6 2867.3
99 110.3 2834.2
0 110.3
3 3126.9
75 3 7 2114.
31 2894.2 2900.8
25 72.9 2890.0
9 73.98 2138.0
85 4 8 3024. 2907.4 2948.6 102.6 2945.9 102.9 3034.0
57 85 7 9 53 197 1 9 33
9 27.
48 2990.0 3030.6
63 109.8 3001.8
5 112.7
1 3383.3
88 4 3129.6 111.6 3057.7 110.3 3373.62 10 3493. 3071.
48 43 4 3 3187.9 3232.6 75.5 3113.6 73.98 2303.4
56 3 11 2439.
93 2 2 .3 3298.2 105.8 3169.5
0 102.9
9 3264.2
71 4 12 3490. 3277
79 89 198
0 08 7 3225.3
9 112.7
1 3635.3
33 1 13 3685. 3319.3 3311.5 111.3
2 14 3661.23
3303.9 3299.978
110.9 3281.27
110.33
3620.226
3 15 2378.43
3296.1 3337.15
73.98 2468.827
4 16 3459.55
3393.04
102.99
3494.489
Donde Tt = Valor de la tendencia a predecir en el período t. xt = Dato observado (real) del período t a predecir. b = Coeficiente de regresión de la pendiente de la tendencia. a = Constante de intersección de la pendiente con el eje de las ordenadas. En el cuadro6.5 se muestra el resultado de la regresión para 16 valores de las ventas de papel; con los coeficientes obtenidos se procedió a elaborar los resultados que aparecen en el cuadro6.4 .
Cuadro 6.5 Cálculo de la tendencia por el método de descomposición.
Métodos de descomposición (Cálculo de tendencia)
Resultado Regresión Constante 2498.9 Error de estim. Y 534.6414Coef. determinac. (r2) 0.171589Tamaño de la muestra 14 Grados de libertad 12
Coeficiente a Coeficiente b donde Y = a + bt y t = Periodo Coeficiente(s) X 55.8836
Error coef. X .4 38 35 46
Tendencia aestac
islada, ionalidad
elimina la
0000
2000000
4000
1 3 5 7 9 11 13 15 17 19
1
3Serie2
La fórmula de predicción es muy simple: Se cálcula, como base y representación de los datos, una línea recta donde: Y = a + Xb T = a + Periodo * b Donde: T = Tendencia a = Constante b = Coeficiente de regresión Y el valor t obtenido, se multiplica por el índice estacional ajustado, restituyéndole así sus variaciones estacionales: Ft = (Periodo x b + a) x Índice estacional
A Loest o occidental. Este
pre ha sido de gran interés debido a las razones de
En Estados Unidos se ha mostrado que los ciclos están constituidos por 5 hasta 105 meses y por
variaciones de contracción que han durado de 6 a 65 meses, de manera que un ciclo1945 se registraron 30 ciclos, y desde 1945 hasta 1994 otros ocho, con
económicos y bancarios de los países industrializados. En términos algebraicos, la separación del ciclo es muy sencilla, yasi los promedios movibles se dividen entre la tendencia se obtiene
C = ( T x C) / T = MA / T , lo que multiplicado por 100 (6.8) es el índice de ciclo.
Ft = (Periodo Xb
E multiplica por 100 para obtener un valor porcentual. Debido a que las actividades cíclicas son fenómenos a largo plazo, resultobservaciones de un número múltiplo de años correspondientes al de los
os, etc.
característica de detectar los cambios cíclicos con bastante exactitud y oportunidad, especialmente en los casos en los que existen cambios bruscos donde la detección tempran bio de tendencia ascendente n la toma de deci
nálisis del ciclo
s factores cíclicos han recibido bastante atención desde los primeros udios de los trabajos econométricos en el mund
fenómeno siemextrema miseria y sufrimiento que causan dichas variaciones cuando alcanzan niveles extremos.
variaciones de expansión que van desde 2
completo puede variar de 17 a 117 meses. Entre 1854 y
un patrón recurrente que desafortunadamente es bastante irregular. Las causas pueden variar: desde eventos aleatorios como malas cosechas, sequías, etc., hasta reajustes en los sistemas
que
+ a)*índice estacional*índice de ciclo
l ciclo, igual que la estacionalidad, se
a evidente que se requiere, por lo menos, tener
ciclos que se estudian, sean macroeconómicos, meteorológic Como ya se mencionó, es posible que este método no sea tan preciso, por ejemplo, como el Box-Jenkins (ARIMA). Sin embargo, tiene la
a de un cam hacia uno descendente puede ser muy importante e
siones. Aparentemente, el método Box-Jenkins con toda su
exactitud no es capaz de determinar este tipo de cambios en el momento requerido. Otras aplicacion
Método II del censo Este método fue desarrollado en 1955 por la Oficina del Censo del Departamento de Comercio estadounidense. Como es de suponer, el
ya sin nunca ión de la
e s meses. Esta prueba fue capaz de detectar
los cambios en la estacionalidad causados por el embargo estadounidense en Medio Oriente, que provocaron aumentos de precio, lo cual llevó a la crisis del petróleo.
3. Prueba de la igualdad: Algunas veces se hacen ajustes exagerados a los datos ya sin estacionalidad, por lo que esta prueba es de gran valor para detectar estos tipos de ajuste, que no deben exceder de 90 a 110% de los valores regulares en el resto de los datos del año.
e composicións de los métodos de des
censo no requiere la estacionalidad y el personal de la oficina del censo descubrió la forma de separar los cuatro componentes de las series de tiempo, uno por uno. Otra mejora aportada por la oficina del censo fue ajustar la estacionalidad, ya que las variaciones en el tamaño de los meses hacen que algunos sean de cuatro semanas y otros de cinco, de modo que sólo por este hecho se genera hasta 10% de error adicional. Ajustar los coeficientes según la duración del mes ha permitido mejorar la predicción. Además de las mejoras operativas del método aportadas por la oficinadel censo, ahí también se diseñaron tres pruebas para determinar la precisión del método de descomposición: 1. Prueba del mes adyacente: Prueba la razón entre los valores
estacionalidad y el promedio del mes adyacente. Esta razón debe exceder de 95 a 105% para que el proceso de eliminacestacionalidad sea adecuado.
2. Prueba del mes de enero: Trata de evitar cambios importantes al pasar de un año al siguiente y consiste en comparar los resultados denero con los de los demá
Pronósticos comerciales
No hay duda de que los pronósticos no constituyen una ciencia exacta, ya que la mayor parte de los datos proporcionados por los administradores carece de un análisis profundo que les quite su carácter especulativo. El
tes
atemático, principalmente porque no entienden el alcance, las ventajas y/o las
todos ios entiendan
fácilmente los resultados del proceso de pronóstico. Los métodos de pronósticos deben ser no solamente exactos, sino también convincentes, y es en este renglón donde los métodos de descomposición resultan
ar. ntender
te
Aunque todo mundo sabe que los presupuestos se generan con base en pronósticos, curiosamente en el área financiera el presupuesto no tiende a ser de lo más exacto ni homogéneo, sino a expresar las aspiraciones, el optimismo y/o las necesidades políticas a resolver. El analista estadístico pocas veces puede aportar nada mejor que la precisión matemática, los márgenes de error y el procesamiento rápido y oportuno. Por supuesto, cuando el financiero a cargo de presupuestar incluye un factor de exceso en la predicción real para forzar cuotas de venta, motivar al personal administrativo o generar una nota de optimismo en la empresa, el analista estadístico que hace el pronóstico no debe caer en la tentación de alterar sus resultados matemáticos a fin de generar un optimismo injustificado: su función es pronosticar el futuro, no
objetivo principal de los métodos de predicción es obtener informaciónsuficiente para ayudar al ejecutivo en la toma de decisiones. Bastanhombres de negocios se niegan a usar un enfoque altamente m
limitaciones que implica el enfoque matemático. Resulta evidente que para solventar este problema, el analista de méde predicción debe buscar la manera en que los usuar
sumamente atractivos porque son muy intuitivos y fáciles de interpretEl ejecutivo puede acudir a su experiencia y sentido común para elos conceptos de ciclo-tendencia, por lo cual puede decirse que esmétodo permite un buen grado de sinergia entre el analista estadístico yel ejecutivo que asume la responsabilidad de las decisiones. Pronósticos de presupuestos
mejorarlo. El analista debe considerar, sin entrar en más detalle, los siguientes puntos:
• La economía nacional. • El ámbito internacional, especialmente en las compañías
multinacionales. • La demanda de los productos de la compañía. • El volumen de ventas. • La participación en el mercado. • El precio de los productos de la empresa.
La labor de predicción (forecasting) en las compañías modernas se cubre parcialmente por el departamento de estadística de la empresa y/o por empresas externas que realizan estas labores para los departamentos de Mercadotecnia, Recursos Humanos, etc. Este punto puede resumirse al notar que el método de descomposición es una herramienta bastante útil que permite que la empresa moderna haga predicciones mejores y más sencillas, de fácil empleo y muy atractivas desde el punto de vista de la interpretación de los resultados.
EJERCICIO 6.2 Venta de ropa de playa en el Pacíf illones de dólares estadounidenses.
ico mexicano, en m
Periodo Trimestre X T MA C I.E. F SSE
1 1 362 353,12 2 2 385 368,28 3 3 432 383,44391,02 1,02 1,15447,8 249,94 4 341 398,6 406,181,0190,87351,9 119,55 1 382 413,76421,341,0180,98411,5 869,76 2 409 428,92 436,5 1,0181,01441,61062,87 3 498 444,08451,661,0171,15517,3 371 8 4 387 459,24466,821,0170,87404,5 305,49 1 473 474,4 481,981,0160,98470,7 5,2
10 2 513 489,56497,141,0151,01 503 100,911 3 582 504,72 12 4 474 519,88
MSE = 385,6
Tendencia de la serie
0
200
400
600
800
2 3 4 5 6 7 8 9 10 111 12
Serie2Serie3
Resultado Regresión
Constante 337.954545 Error de est.Y 49.1877024 Coef. determ (r) 0.57600721 Tamaño de Muestra 12
10 Grados de Libertad
Coeficiente(s) Error co
X 15.1608392
ef. X 4.11328231
Ajuste del elo
300400500600
1 2 3
Mod
0100200
4 5 6 7 8
Serie2Serie3
Indices estacionales ajustados 1 2 3 4 113.2 88.1
96.2 99.2 116.2 85.1
99.2 103.2 114.2
97.7 101.2 114.5 86,6 400
Indices estacionales sin ajustar 1 2 3 4 113 88
96 99 116 85 99 14 103 1
98 101 114 86,5
399 Factor de ajuste= 1,001669
Resumen matemático El método de descomposición trata de aislar y predecir los patrones que integran la información histórica de la empresa como base para xtrapolar los resultados hacia pronósticos útiles en planeación y toma de
decisiones. Estos patrones son: 1. Tendencia: Es el comportamiento de los datos a largo plazo y puede
ser creciente o decreciente. Cuando no cambia puede utilizarse para abreviar el proceso de predicción.
por
ones. as
en forma de onda, que se relacionan con la temperatura, la lluvia, el frío, los meses del año, festividades o bien con políticas gubernamentales o corporativas.
El elemento error se refiere a la aleatoriedad de los daros y es la diferencia entre el efecto combinado de los tres subpatrones de una serie real de tiempo. El desarrollo matemático es como sigue:
MA = ( X1 + X2 + X3 + X4 ) / 4 = T x C ; (6.9)
Donde MA = promedios movibles. Dado que al atenuar los valores ias
) = S ; (6.10)
cuadrados),
tomando como variable dependiente a los valores reales (o los atenuados) y como variable independie nte dichos para obtener
.11)
e
2. Ciclo: Este factor representa las bajas y altas causadas condiciones macroeconómicas o industriales. El ciclo sigue a menudoel patrón de fluctuaciones en forma de ondas, con altas y depresi
3. Estacionalidad: Los factores estacionales se refieren a lvariaciones, también
(promediando) éstos pierden estacionalidad y variaciones aleator(recuérdese que Σ Xi – X = 0 ), entonces
X / MA = ( S x T x C x R ) / (T x C
T se calcula por medio del método de regresión (mínimos
nte a los períodos propiame
Tt = a + b( Pt ) ; (6
A su vez, para calcular el ciclo se tiene
MA / T = ( T x C ) / T = C ;
Ya que T en el numerador y en el denominador se anul .
(6.12)
an Por último, el error también puede determinarse algebraicamente con la única finalidad de conocer el margen de confianza de la predicción.
MA = T x C por lo que S = X / ( MA ) ; entonces
( S x T x C x R ) / S = X / S = T x C x R, de donde ( T x C x R ) / MA = ( T x C x R ) / ( T x C ) = R ; (6.13)
ya que el producto T x C se elimina en el numerador y en el denominador.
CAPITULO 7
AUTOCORRELACION
Construcción de modelos de predicción basados en técnicas de Autocorrelación. El problema practico que se abordara en este capitulo, es si es posible, con base solo en la información del pasado de las variables de una serie de tiem os dada, pronosticar los valores futuros de las mismas. En la atenuación exponencial se aplica un algoritmo a una serie de tiempo sin investigar las propiedades de esta. En este capitulo se asume que el investigador cuenta con los recursos necesarios para llevar a cabo su análisis y desarrollar una función de predicción idónea para una serie de tiempo que tiene ciertas propiedades observadas. Entonces, el algoritmo escogido para pronosticar esta determinado por dicha investigación sobre el comportamiento de los valores de una serie de tiempo. El primer paso en este intento analítico debe ser ajustar un modelo a los datos, de forma que éste genere una serie de datos de predicción que se ap
¿ cuál es la mejor manera de predecir el futuro de una serie dada?
INDEPENDENCIA DE VARIABLES ALEATORIAS
p
roximen al proceso inicial que les dio origen. Si se logra lo anterior, se tendrá una buena herramienta que permitirá plantear la pregunta:
Esta cuestión puede desglosarse en las tres preguntas siguientes: 1. ¿Que clase de modelo debe considerarse como el posible generadoruna serie de tiempo observada? 2. ¿Cómo debe proceder el analista para ajustar un modelo es
de
pecífico de una lase general de modelos a un grupo panicular de datos?
3. ¿Cómo se desarrollarán los valores futuros de predicción de un modelo que se ajuste a los datos originales?
s
es importantes que limitan en forma considerable esta cantidad:
n
cción de modelos de predicción es buscar iempre el modelo más sencillo que describa mejor las características de los
ia.
upuesto, el primer paso será siempre graficar los datos originales y enseguida desarrollar el paso de autocorrelación, que describe la relación ntre los diversos valores de la serie de tiempo según k desplazamientos de
dichos valores entre sí. Box y Jenkins resumieron los pasos de análisis para analizar series de tiempo invariadas. Una vez que se encuentra el mejor modelo, el paso final es utilizarlo para la predicción requerida véase la siguiente figura.
c
Por tanto, cualquier predicción es una función de los datos mismos, según el modelo que mejor se ajuste a ellos. En principio, existirían tantos modelocomo series de datos individuales (una infinidad); sin embargo, hay por lo menos dos restriccion
1. Las predicciones son funciones lineales de los datos observados. 2. La meta es encontrar parámetros eficientes que permitan una descripcióadecuada de las características de dicha serie de datos, siempre y cuando logre minimizarse el MSD con el número óptimo de parámetros. La limitación lineal es simplemente una manera práctica de restringir el número posible de funciones disponibles y, aun así, las posibilidades son amplias y suficientes para las necesidades prácticas del analista (debe recordarse la posibilidad de transformar los datos no lineales: Una buena estrategia en la construsdatos. Esta estrategia también se conoce como principio de la parsimonEn este capítulo se sentarán las bases del proceso de autocorrelación por s
e
FIGURA 1. Esquema de la metodología Box-Jenkins para modelación de series de tiempo.
Análisis autocorrelacionales en una serie de datos
La clave de estos modelos se encuentra en el coeficiente de autocorrelación (para las series de tiempo que se correlacionan consigo mismas con desplazamientos de 1, 2 o más periodos). La ecuación para determinar el oeficiente de Autocorrelación es c
∑
∑ −+=
−
−−= n
kt
n
ktt
k
YY
YYYYr
2
1
)(
))(( (1)
=tt
1
donde indica cómo los valores sucesivos de Y se relacionan consigo mismo
tre sí, y así sucesivamente. Al agrupar dichos coeficientes r como
Autocorrelación. A su vez, esta función puede graficO. Ejemplo 1: considere una tabla de 10 números aleatorios, como se muestra en el siguiente cuadro.
Autocorrelación Calculo de coeficientes de autocorrelacion
Observaciones
Cuadrados diferenciales vs.
media
Producto diferencia
s 1er
desplaz. 2do.
Desplaz. 3ro 4to 5to
1rs, 2r
indica cómo los valores de Y separados por dos periodos se relacionanendesplazamientos 1, 2, 3,…., se obtiene la denominada función de
13 9 -6 15 -18 -18 68 4 -10 12 12 -4 -2
15 25 -30 -30 10 5 -154 36 36 -12 -6 18 -244 36 -12 -6 18 -24 -12
12 4 2 -6 8 8 411 1 -3 4 2
7 9 -12 -6 14 16 8 12 4
100 144 -27 -29 26 -19 -4710 14.4 -3 -3.625 3.7142857 -- -9.4
Coeficiente de -
0.20138880.180555
-0.1319444
-0.3263888
9Autocorrelación -0.1875 9 5 4
Cuadro 1. Diez números aleatorios autocorrelacionados con cinco d mien si .
esplaza tos de mismos
ANALISIS AUTOCORRELACIONALES EN UNA SERIE DEDATOS
Veamos el siguiente ejemplo: autocorrelación
Cuadro 2.Resumen del calculo de los coeficientes de
autocorrelación Para 10 números aleatorios.
uvo utilizando 10 números no relacionados (aleatorios) en el rango de 0 a 20; sin embargo, si este hecho no fuera conocido, sería fácil Esta serie se obt
determinar que los números son independientes y no se encuentran relacionados entre sí al someterlos a la técnica de autocorrelación. Para cada desplazamiento calculado, si no hay Autocorrelación, el coeficiente debe estar muy próximo a cero. Al sustituir en (1) se obtiene lo siguiente:
)1012(.....)1015()108()1013()1012)(1014(....)104)(1015()1015)(108()108)(1013(
222 −++−+−+−−−++−−+−−+−−
=kr
22222 24....5)2(3)2)(4(....2)6()6(5)5)(2()2(3
++++−+++−+−+−+−
= 188.0−=
Validación de los coeficientes de correlación El coeficiente de Autocorrelación es una herramienta muy valiosa para investigar las propiedades empíricas de una serie de tiempo, y aunque para efectos de este texto la teoría subyacente es bastante complicada, si se utiliza la distribución probabilística de Autocorrelación es posible validar los coeficientes obtenidos.
Existen dos métodos estadísticos para validar los coeficientes de auto-correlación: el primero utiliza el error estándar que prueba si cada uno de los coeficientes es estadísticamente diferente de cero (ver figura 8.2) y el segundo considera un grupo completo de valores de coeficientes de
Autocorrelación dado un número k de desplazamientos como en este caso, donde k = 5 (r1, r2, r3, r4 y r5). A continuación se desarrolla una prueba global de significancia, donde se desea saberse si desde el punto de vista estadístico todas las variables del grupo son diferentes de cero. Esta prueba es la estadística Q Box-Pierce y se resuelve con la distribución probabilística x2.
En cuanto al error estándar de un coeficiente de Autocorrelación rk ais-lado, con los diez valores observados en el ejemplo 1 se obtuvieron cinco autocorelaboración de la gráfic figura 3 (la laboración de la gráfica se hizo con SYSTAT).
Se observa el margen de confianza calculado según la fórmula
relaciones que se muestran en la figura 2 (el cálculo y la a se hicieron con Excel) y en la
e
nserk
196.1= A 95% de probabilidad (2)
Lo que se interpreta teóricamente como sigue: los coeficientes de auto-correlación para una serie de tiempo generada por números aleatorios deben tener un valor próximo a cero. Si se toma una infinidad de muestras de números aleatorios, de la misma forma y en promedio los coeficientes de autocorrelación tendrían un valor cercano a cero. Si para denotar la Autocorrelación de toda la población se utiliza la , entonces los valores de r debe formar una distribución probabilística alrededor de
kp
kp
FIGURA 2. Utiliza rror estándar de riborr
ar los coeficien oc ón
arios autores (entre otros Anderson, Bartlett y Quenouille) demostraron que dicha distribución tiende a la normal con media cero y desviación estándar
ción del e la dist ución de autoc elación
para valid tes de aut orrelaci .
V
n/1 . Esta información puede utilizarse (ecuación 2) para desarrollar una prueba de significancia de los coeficientes de Autocorrelación
FIGURA 3. Gráficas de los datos observados y de cinco coeficientes de utocorrela rgenes de error (no excedidos pro los valores de )
os tro de un rango
specificado por la media más o menos 1.96 desviaciones estándar, puede
a ción y los má k
como las pruebas t de Student o F de Fisher, que permiten determinar si alguna de las rk proviene de una población cuyos valores son cero para k desplazamientos. Debido a que n = 10 y como a 95% de probabilidad todos coeficientes de autocorrelación deben quedar den
r
le
concluirse que la serie de tiempo está formada por valores aleatorios si los coeficientes de autocorrelación quedan dentro de los límites
),3162.0(96.1)3162.0(96.1 +≤≤− kr 62.062.0 +≤≤− kr
En las figuras 8.2 y 8.3 puede verse que ninguno de los cinco valores rk excede los límites establecidos por el e r a lo que
Ahora bien, puede observarse que r5 = 0.33, y aunque con una muestra de sólo 10 observaciones este valor de r es estadísticamente igual a cero, si tal valor de r se hubiese obtenido con una muestra de 360 observaciones en lugar de 10, donde los límites de confianza hubieran sido ±0.105 en lugar de ±0.3162, estaría hablándose de la presencia de algún tipo de patrón (no aleatorio), ya que el valor de r habría excedido ampliamente el límite establecido por el error estándar. Es claro que con un número tan elevado de observaciones sería bastante difícil que un coeficiente de autocorrelación llegara a alcanzar el valor de 0.33, aunque en casos como el que se ha escrito es importante utilizar en forma teórica algún otro modo de asegurar
adístico Q desarrollado por Box-Pierce (1970) que computa rk como sigue:
r or estándar, lo cual confirmya se sabía: que la serie de datos estudiada está compuesta por números aleatorios. Esto se conoce como ruido blanco y se verá en mayor detalle en el capítulo siguiente.
dla significancia de los valores rk. Para este efecto se utiliza el est
∑=
=5
1
2
k
rnQ (3)
[ ] 343.2)33.0()13.0()18.0()20.0()19.0(10 22222 =−+−++−+−=
Este estadístico se considera de la distribución de x2 con (m - p - q) grados de libertad. En el próximo capítulo se estudiará el número de parámetros AR (p) que se utilizan para hacer una predicción, así como el número de arámetrop s (q) MA para establecer un modelo de promedios movibles, onde (m) es el número total de parámetros a utilizar en cualquier modelo
ruido blanco (autocorrelación de números aleatorios), todos ellos son iguales a cero. Al consultar la tabla de x2 con 5
dARIMA: en el caso del
grados de libertad se encuentra que el valor es 11.07 al 95% de probabilidad y que entonces el valor calculado de Q = 2.343 está muy lejos de exceder el punto crítico de tablas. El estadístico Q confirma una vez más que este grupo de datos no puede considerarse diferente de cero (en términos estadísticos). Ljung y Box8 afirman que la ecuación
∑=
h21
ene una distribución más cercana a la de x2• Para los efectos prácticos del curso Pronósticos para la toma de decisiones para el que está destinado este texto, la prueba Q debe ser suficiente para validar modelos que no requieren
stas pruebas normalmente aceptan las series de datos omo significativamente autocorrelacionados si el valor de Q cae en el
extremo 5% de la cola del lado derecho de la distribución de x2• Es decir que el valor de Q es mayor que el valor crítico de tablas a 95% (0.05) de probabilidad. Desafortunadamente, a menudo estas pruebas fallan al no rechazar modelos que no dan un buen ajuste, por lo que es conveniente advertir que un modelo no debe aceptarse únicamente con base en la prueba estadística Box-Pierce o en la de Ljung-Box.
Coeficiente de autocorrelación parcial
En un análisis de regresión conviene determinar cuanta capacidad tiene cada variable independiente para explicar su relación con la variable independiente y. las regresiones de cada variable independiente se parcializan individualmente para obtener los residuales de este análisis individual y encontrar la correlación de dichos residuales con la variable independiente Xi. En autocorrelación existe una técnica similar. La autocorrelación parcial se utiliza como una medida del grado de asociación entre Yt y Yt-1 cuando se han eliminado los efectos de otros desplazamientos como 1,2,3,..., k-1.
−−+=k
krknnnQ1
)()2(
ti
un grado tan alto de precisión, sea en los campos técnico o científico. Cabe hacer notar que ec
nxxx ,.....,, 21
Al observar la autocorrelación entre Yt y Yt-1 del ejercicio 1, también se ve
entre
recisamente lo que hace la autocorrelación parcial.
que entre Yt-1 y Yt-2 existe autocorrelación porque la distancia entre ambos es de una unidad, por lo que entre Yt y Yt-2 debe haber una relación debidoa que ambas están relacionadas con Yt-1. Para medir la correlación realYt y Yt-2 es necesario eliminar el efecto intermedio de Yt-1, que es p El coeficiente de autocorrelación parcial de orden k se denota como kα y puede calcularse haciendo la regresión de Yt contra Yt-1, Yt-2, ..., Yt-k.
ybybybby ktkttt −−− ++++= .... (5) 22110
Esta es una regresión múltiple que viola la premisa de independencia entre variables independientes ya que, como bien se sabe. los valores Y son desplazamientos de la variable misma, por lo que este proceso se denomina autorregresión (AR) y se utiliza para describir la ecuación
Figura 4. coeficiente de autocorrelación parcial (PACF)
Entonces la autocorreción parcial ∝k es la estimación del coeficiente bk de la regresión múltiple. Es de notar que la primera autocorrelación parcial es exactamente igual a la primera autocorrelación, y si se hace variar el número de términos del lado derecho de la ecuación se obtienen las autocorrelaciones parciales para los diferentes valores de K. Así como sucede con los coeficientes de autocorelación, los coeficientes parciales deben estar muy próximos a cero en el caso de las series de ruido
bnormalmente distribuilanco, donde dichas autocorrelaciones parciales son independientes y están
das con un error estándar = n/1 . De aquí que los mismos valores críticos de ± 1.96 ( )n/1 pueden utilizarse con PACF para
riod a o a s espe
Otra manera de analizar una serie de tie s desc onerla en ondas o ciclos d erentes frecuenc Este método era m pular dea enim o de l mput n conserva méaunque cada vez se menciona menos en las ediciones modernas de los tratados sobre métodos de predicción para negocios. A nque méto arece lejo, al menos tiene la virtud de ayudar a
entifica la aleatoriedad y la estacionalidad en las series de tiempo. En ste sen es necesario hacer una descripción de las tres características ásicas d las onda inoidale 1 da edi sigu inv n
relacionada con la frecuen 2. Amplitud de onda, que se mide en altura o “fortaleza” de la onda.
. Fase, que se refiere al desplazamiento (o posición) horizontal de la ond
En las series de tiempo, el ancho de onda traduce o unidades de tiempo (o número de observaciones que fo an una onda) y la fase se trata e orm ar. C lquier de tiem está com esta porobservaciones equidistantes, ajustadas por mínimos cuadrados a un número de ondas sinoidales con frecuencia, amp y fase d das. Los r ultado se conocen como per gram huster9, 98) y tam ién como nálisisrmónico o análisis de Fourier. Para efec s de las s ies de tiempo, xaminar las amplitudes de onda tiene cualquiera de los tres objetivos guiente
1. Ayuda a identificar la aleatoriedad e las sede de tiempo o de losresi ales). E uadro 8. y la figura muestran claramente que no ex ningú rón i able, al conf a la total alea-tor d de la e de , hech e ya se ostró a iame .
evaluar el ruido blanco.
Pe ogram nálisi ctral
mpo e ompe dif ias. uy po antes l
dv ient as co adoras personales y aú cierto rito,
u este do p compid r e tido b e s s s:
. Ancho de on , m da de una cresta a la iente, e ersame te cia.
3
a.
se comrm
n f a simil ua serie po pu n
litud a es s iodo a (Sc 18 b a
a to eresi s:
(d s du l c 3 8.5
iste n pat dentific lo cu irmieda sed tiempo o qu dem mpl nte
2. Ayuda a identificar estacionalidad en la sede de tiempo.
Ayuda a determ inancia de autocorrelación negativa o positiva, ya que para ésta predomi las baj recuencias, mientras para tocorr ón n lo hac as altas.
ebe adv rtirse que sta técn a no es central para lo modelos ARIMA,
unque e algun utilida siem ícil t ide eodelo apropiado para una se e de tiem
Frecuencias de índice Real
Imaginaria
Magnitud Fase
Periodograma
3. inar la predomnan as f
au elaci egativa en l
D e e ic s a es d a d en la pre dif area de ntificar l m d po.
1 0.0 9.250 0.0 9.250 0.0 217.883 2 0.12500 1.037 0.119 1.043 0.114 2.772 3 0.25000 -1.125 -1.125 1.591 -2.356 6.446 4 0.37500 1.213 1.119 1.650 0.754 6.936 5 0.50000 1.500 0.0 1.500 0.0 5.730
onentes Fourier de ruido blanco (archivo aleatorio)
Cuadro 3. Comp
Figura 5 . Periodograma de una serie de ruido blanco (números aleatorios)
s jos de tiempo (un año). Si el patrón es consistente, los coeficientes en el
desplazamiento 12 (para series mensuales) o en el desplazamiento 4 (para
IDENTIFICACIÓN DE LA ESTACIONALIDAD
La estacionalidad puede definirse como un patrón que se repite a intervalofi
series trimestrales) son altos y positivos, lo que indica la presencia de stacionalidad. Si no hubiera ningún coeficiente diferente de cero, indicaría
m e distancia no están correlacionados, o g
úl-
erar qu los valores de p, q y m son iguales cero, en la tabla de x2 puede verse, para 95% de probabilidad y 12 grados e libertad, que el valor es 21
autocorrelaciones no es significativo, aunque el valor 0.7 del desplazamiento 8 e igual a 0.42
mbién a 95% de probabilidad.
EJERCICIO 2
de los índices de un patrón
n rios, sino que también se identifica claramente el patrón de
eque los eses o trimestres a un año dque no existe un patrón que pueda identificarse de un año al si uiente. Datos de esta clase no tendrían estacionalidad.
or lo general, en un desplazamiento estacional o en alguno de sus mPtiplos puede identificarse un coeficiente de autocorrelación significativo (ver ejercicio 8.2, desplazamientos 4 y 8). Como era de esperarse, en la autocorrelación parcial se observa una autocorrelación altamente sig-nificativa y en los índices 1,5 y 9 (cada 4) del periodograma se aprecia claramente un aumento considerable en magnitud, así como en el periodograma propiamente dicho. El valor de Q que se obtiene en la prueba Box-Pierce es 11.61 y al consid ead .02. Este hecho indica que todo el grupo de
s mayor que el margen de error, que es ta
Considere los datos del siguiente cuadro, donde por medioestacionalidad del método de descomposición se identificó estacional. En este ejercicio no sólo se establece que los datos no soestacionaestacionalidad.
Ejercicio 2. Desplazamientos, ACF, PACK, periodograma y
gráfica de los datos originales
Fourier componentes del archivo Papel
Frecuencia índice
Real Imaginaria Magnitud Fase periodograma
1 0.0 3029.891 0.0 3029.891 0.0 4.67545E+0.72 0.06250 -28.208 141.826 144.604 1.767 106494.711 3 0.12500 -43.021 18.218 46.720 2.741 11116.538 4 0.18750 -5.558 24.204 24.834 1.797 3140.862 5 0.25000 267.371 36.049 269.790 0.134 370700.469 6 0.31250 -25.977 21.598 33.783 2.448 5812.393 7 0.37500 -33.829 23.411 41.139 2.536 8619.604 8 0.43750 -17.727 36.650 40.712 2.021 8441.446 9 0.50000 -238.394 0.0 238.394 3.142 289440.656
A
El tér
orizno exhconsttamb
NÁLISIS DE DATOS ESTACIONA
TIEMPO
mino estacionado se refiere a que en l
ontales a lo largo del eje de tiempo y fliste patrón de crecimiento ni decrecim
ante independiente del tiempo. La variién permanece constante a lo largo del
RIOS EN UNA SERIE DE
os datos de una serie de tiempo tos deben estar
uctúan alrededor de una media iento. Los da
anza de dichas fluctuaciones tiempo.
La visualización de las sedes de tiempo basta muchas veces para convencer al analista si los datos son estacionarios o no. La gráfica de autocorrelación
CF) se abate a cero rápidamente. En una serie de tiempo no estacionaria n varios de los desplazamientos aparecen uno o varios coeficientes
diferentes de cero orrelación en el jercicio 2 ) la autocorrelación de los datos no estacionarios decrece len-
(Ae
. En estos casos (véase la gráfica de autocetamente al aumentar el número de desplazamientos. En el siguiente
FIGURA 6. esta gráfica es de datos que no cambian la media a lo largo del tiempo. Se dice que esta serie de tiempo estacionaria en la media.
FIGURA 7. esta gráfica tiene variación en la media, pero evidentemente no
una serie de tiempo stacionaria en la varianza.
se observa cambio en la varianza. Se dice que ésta es e
FIGURA 8. Ésta es una gráfica de serie de tiempo que no es estacionaria ni en la media ni en la varianza. La media vaga (cambios en el tiempo) y la varianza no es razonablemente constante sobre el
empo.
án observarse varios modelos donde se describirán en detalle s características de éstos usando las herramientas presentadas en este
atrones no estacionarios. Antes de
ecesario eliminar la no estacionariedad para permitir la aparición de otras
s aplicando la técnica de diferenciación. Esta técnica se define como el
laro que en una serie de tiempo el número de valores di-renciados será n -1.
ti
capítulo podrlacapítulo. ELIMINACIÓN DE LA NO ESTACIONARIEDAD DE LAS SERIES DE TIEMPO Muchas veces los diagramas de autocorrelación son dominados por la tendencia, la estacionariedad y otros pproceder a construir un modelo de predicción, en muchas ocasiones es nestructuras de autocorrelación. Una manera de lograr lo anterior ecambio que hay entre cada observación de la serie original:
1'
−−= ttt YYY
Debido a que no es posible calcular la diferencia para la primera ob-servación, es cfe
EJERCICIO 3 Se obtiene una serie de tiempo con una tendencia ascendente y se procede a
n las tres series de tiempo puede observarse que el primer valor de Q está
o al valor de blas (11.02 < 11.07), ya no es significativo y el tercero, después de
desplazamiento tiene un valor alto (-0.32), pero
xcedan el margen de error.
presan como
efectuar las primeras diferencias, encontrándose que aun no desaparece la tendencia (la ACF muestra pendiente). Se procede a aplicar segundas diferencias y ahora la serie de tiempo se convierte en “ruido blanco”. Ebastante próximo al valor de tablas (11.79 > 11.07 a 95% de probabilidad) aunque es significativo; el segundo valor, también próximtadiferenciar por segunda vez, ha perdido toda significancia. Puede notarse que el quintoes necesario recordar que pueden aceptarse hasta 5% de valores cuyos picos e Como se ha observado en este ejercicio, al hacer las primeras diferencias no siempre se logra eliminar la no estacionariedad de la serie de tiempo, por lo que es necesario recurrir a las segundas diferencias, que se ex
( ) ( ) 21211'
1''' 2 −−−−−− +−=−−−=− ttttttttt YYYYYYYYYY t
FIGURA 9. Gráficas de autocorrelación de la serie de la página iguiente. La primera gráfica muestra la tendencia con el primer esplazamiento significativo, la segunda todavía conserva tendencia y tercera ya es ruido blanco.
sdla
REDUCCIÓN DE LA ESTCIONARIEDAD POR MEDIO DE PRIMERAS Y SEGUNDAS DIFERENCIAS
t Y Dif Cuad. Desplazamiento
1 2 3 4 5 6
1 2,44 -35,38 1251,45 1150,27 1020,45 846,75 645,11 382,97 66,01
2 5,3 -32,52 1057,28 937,95 778,29 592,95 352,01 60,67 -261,56
3 8,97 -28,85 832,08 690,45 526,03 312,28 53,82 -232,04 -515,88
4 13,88 -23,94 572,92 436,49 259,13 44,66 -192,54 -428,07 -707,16
5 19,58 -18,24 332,55 197,42 34,03 -146,69 -326,13 -538,76 -762,52
6 26,99 -10,83 117,2 20,2 -87,08 -193,61 -319,84 -452,67 -588
7 35,95 -1,87 3,48 -15,01 -33,37 -55,12 -78,02 -101,34
8 45,86 8,04 64,71 143,86 237,66 336,36 436,91
9 55,7 17,88 319,84 528,37 747,81 971,36
10 67,36 29,54 872,86 1235,36 1604,67
11 79,63 41,81 1748,42 2271,1
12 92,13 54,31 2950,03
37,82 10122,82 7596,47 5087,6 2708,94 571,32 -1309,25 -2769,12
0,75043 0,502587 0,267607 0,056439 -0,12934 -0,27355
Suma de cuadrados: 0,98 0,563145 0,252594 0,071614 0,003185 0,016728 0,0074831
Q = 11,785155 X tablas = 12,592 2
Primeras diferencias
1 2,86 -5,29 28,02 23,73 17,17 12,99 3,94 -4,27 -9,3
2 3,67 -4,48 20,1 14,54 11 3,33 -3,62 -7,87 -7,56
3 4,91 -3,24 10,52 7,96 2,41 -2,62 -5,7 -5,47 -11,37
4 5,7 -2,45 6,02 1,82 -1,98 -4,31 -4,14 -8,6 210,1
5 7,41 -0,74 0,55 -0,6 -1,31 -1,25 -2,61 -3,06 -3,23
6 8,96 0,81 0,65 1,42 1,36 2,83 3,32 3,5
7 9,91 1,76 3,08 2,96 6,16 7,23 7,63
8 9,84 1,69 2,84 5,91 6,94 7,33
9 11,66 3,51 12,29 14,43 15,24
10 12,27 4,12 16,94 17,89
11 12,5 4,35 18,89
8,15 119,93 90,08 57 25,53 -1,17 -25,77 -41,56
0,751091 0,475275 0,212881 -0,00974 -0,2149 -0,34657
Suma de cuadrados 1,0017343 0,564138 0,225886 0,045318 9,49E - 05 0,046183 0,120113
Q = 11,019077 < 12,592 No significativa
1 0,81 -0,15 0,023716 -0,04 0,03 -0,11 -0,09 0 0,16
2 1,24 0,28 0,076176 -0,05 0,21 0,16 0 -0,29 0,24
3 0,79 -0,17 0,030276 -0,13 -0,1 0 0,18 -0,15 0,06
4 1,71 0,75 0,556516 0,44 -0,01 -0,77 0,64 -0,26 -0,55
5 1,55 0,59 0,343396 -0,01 -0,61 0,5 -0,21 -0,43
6 0,95 -0,01 0,000196 0,01 -0,01 0 0,01
7 -0,07 -1,03 1,069156 -0,89 0,37 0,76
8 1,82 0,86 0,732736 -0,3 -0,63
9 0,61 -0,35 0,125316 0,26
10 0,23 -0,73 0,538756
0,96 3,49624 -0,7052 -0,75989 0,543452 0,527216 -1,12638 -0,09048
-0,2017 -0,21735 0,155439 0,150795 -0,32217 -0,02588
Suma de cuadrados 0,2392854 0,040683 0,047239 0,024161 0,022739 0,103793 0,00067
Q = 2,3928543 < 12,592
Y’ se denomina diferencias de segundo orden. Esta serie tiene n-2 valores. En la práctica casi nunca es necesario ir más allá de las segundas diferencias porque las series de datos solamente tienen no estacionariedad de primer o segundo nivel. MODELO NAIVE En las ecuaciones 3.3, 8.8 y 9.5 se describe el modelo Naive o random walk, de gran utilidad práctica para las sedes de datos que han sido transformadas en ruido blanco por medio de la técnica de diferenciación.
tTT eYY += −1
rgos periodos coTípicamente estos modelos tienen la
encia ascendente o descendente quen patrones de ten-
pueden cambiar de dirección en forma impredecible (véase figura 8.8). Este modelo se utiliza frecuentemente en econometría y en el análisis de las fluctuaciones financieras de las acciones
s de valores.
RUEBAS PARA LA ESTACIONARIEDAD
do para rificar la ta-las series de tiempo, la más conocida es la Dickey-Fuller.
d
en las bolsa P De las diversas pruebas que se han desarrolla ve esionariedad de c
''22
'111
' ... ptptttt YbYbYbYY −−−− +++Φ=
donde Y denota la serie diferenciada '
t 1−− tt
alrededor de tres desplazamientos (p = 3) y si la sede original tY requiere diferenciación, entonces el valor estimado de ∅ se aproxima a cero. Si Y, ya es estacionaria, entonces el valor de ∅ es negativo.
YY . En general se ejecutan
l valor de ∅ se estima a partir de la regresión (8.9) utilizando la técnica os cuadrados. Si se requiere diferenciación, entonces ya
a ∅. En vez de lo anterior, el res de tablas creadas por Fuller
976 , entonces puede considerarse que la .
CAPITULO 8
egresívos de alto orden ARIMA (2,0,0) o ARIMÁ
odelos de regresión simple y múltiple cuya forma general es Y = b0 + b1X + b2X2 + ………… +bpXp + e (8.1) Donde Y es la variable a predecir, X1 hasta Xp son las variables explicatorias, b0 hasta bp son los coeficientes de regresión y e es el término que denota el error aleatorio de la serie de tiempo. En la ecuación (8.1) los
Eordinaria de mínimno es válido el supuesto de la prueba t parvalor de ∅ debe compararse con los valo(1 ). Si el parámetro es significativoserie a prueba es estacionaria
Método Box-Jenkins (ARIMA) Objetivos • 8.1 Introducción • 8.2 Modelo autorregresivo de orden 1 (cuando p = 1) • 8.3 Modelo de promedios movibles de primer orden Ma (1) 8.4 Modelos autorr•
(p, o, o) • 8.5 Modelos de promedios movibles (MA) de alto orden... 8.1 Introducción Antes se discutieron los m
valores X1, X2 ……. Xp pueden representar cualquier factor como precio, ingreso per cápita, existencias de inventario, etcétera. Si ahora estas variables se definen como X1 = Yt-1, X2 = Yt-2, ……., Xp =Yt-p , la ecuación (8.1) se convierte en Yt = b0 + b1Yt-1+ b2Yt-2 + ······ +bpYt-p + et (8.2) que todavía es una ecuación de regresión pero difiere de la (8.1) porque en sta las variables del miembro derecho son diferentes variables ex-
s de la mente
esplazados en tiempo; de ahí el término auto regresión (AR) que se utiliza
razón para tratar en forma iferente la auto regresión de la regresión? La respuesta es doble:
gresión es muy fácil violar el supuesto de la indepen-
igualdad usualmente se relacionan entre sí (de hecho, cada ariable independiente es un desplazamiento de la misma variable de serie
de tiempo). 2. No siempre es tan sencillo determinar el número de valores previos de Yt a utilizar en la ecuación (8.2).
quí, explícitamente la relación de dependencia se hace a lo largo de los errores (o residuales) y la ecuación se denomina de promedios movibles o
ver ges).
les no debe confundirse con la que se estudió en los métodos de atenuación y en los de descomposición. Aquí se denomina
éplicatorias, en tanto que en la ecuación (8.2) son los valores previomisma variable Yt a pronosticar. Estos valores han sido simpledpara describir ecuaciones de la forma (8.2). Este tipo de ecuaciones ya se usó en el capítulo anterior sobre auto correlación. La primera pregunta que se plantea es: ¿cuál es la d 1. En la auto redencia del error entre variables independientes porque las variables del lado derecho de lav
Otro concepto interesante es que así como se auto correlacionan los valores pasados de las observaciones de las series de tiempo, también es posible utilizar los errores (residuos) como variables explicatorias: Yt = bO + b1ey-1+ b2et-2+... +bpet-p+et (8.3) A
modelo MA (Moving A La frase promedios movib
de promedios movibles porque se refiere a una serie de promedios movibles de las series de errores et. En los capítulos anteriores se trataba de los romedios movibles de las observaciones propiamente dichas, Yt. En
Como se verá más adelante, l ueden acoplarse fácilmente a s modelos MA para formar una clase general y más útil de modelos de
procedimiento de diferenciación se denomina promedios ovibles auto regresivos integrados (ARIMA), y fue popularizado por Box
modelo no stacional general se denomina ARIMA (p, d, q ), donde:
AR: p = orden (o nivel) de la porción auto regresiva. I: d = nivel de diferenciación implicado. MA: q = orden (o nivel).de la porción de promedios movibles. Los modelos de las ecuaciones (8.2) y (8.3) se escriben en esta notación. Un modelo de ruido blanco como el descrito por la ecuación (8.4) se clasifica como ARIMA (0,0,0) debido a que no hay aspectos AR (Yt no depende de Yt-1). No hay diferenciación implicada y tampoco hay porción MA (Yt no depende del error et-1). La variable Yt está formada por dos componentes: el error mencionado y la constante c.
anera semejante, un modelo aleatorio Naive se clasifica como ARIMA
Obsérvese que los términos no utilizados pueden descartarse en la escripción del modelo; por ejemplo, un modelo AR (2,0,0) también puede
peste capítulo el término MA se refiere a los errores.
os modelos AR ploauto regresión: los ARMA. La limitación más importante de estos modelos es que deben usarse sólo con datos estacionarios aunque pueden extenderse a series de tiempo no estacionarias utilizando la diferenciación de las series de tiempo. Estemy Jenkins en 1970. Existe gran variedad de modelos ARIMA. El e
Yt = c + et (8.4)
e mD(0,1,0) debido a que no contiene componentes significativos AR ni MA e incorpora una diferenciación. El valor más reciente puede utilizarse para redecir el valor del siguiente periodo, y en los modelos Box- Jenkins lap
ecuación representativa sería Yt =Yt-1 + et (8.5)
d
escribirse como AR (2), porque no implica diferenciación (I) ni promedios ovibles (MA). Un modelo ARIMA (1,0,1) también se escribe como
AR ), etcétera.
delos es muy laborioso y se utilizó hasta el advenimiento de s computadoras.
ara desarrollar un modelo debemos seguir los siguientes pasos:
. Conceptualización de series de tiempo, visto en los modelos de
nes generales de ARIMA. tadísticas que han probado su utilidad
uto correlación, error estándar y prueba Q). 4. Ilustrar cómo los conceptos, notaciones y herramientas estadísticas pueden combinarse para ayudar al análisis de una amplia variedad de variables ordenadas en series de tiempo. Los modelos de atenuación y descomposición se presentaron en la forma siguiente: Ft-1 = Ft + α (Xt – Ft ) = Ft + α(et) Ecuación (1) Si sustituimos, la atenuación es ahora Ft = Ft+1 + α (Xt+1 - Ft+1) Ft-1 = Ft+1 + α (Xt+1 - Ft+1) + α (Xt – Ft )
Y sustituyendo para Ft-1 = e (2) (3)
mMA (1,1) y un modelo ARIMA (0,1,1) se denominará IMA (1,1
Métodos ARIMA de auto correlación
Este tipo de mola P 1atenuación(Smoothing). 2. Definición de las notacio3. Describir las herramientas es(a
= Ft+1 + α (et+1 ) + α(et) Ecuación (2)
en él primer término d
Ft-1 = Ft-2 + α (et-2 ) + a (et-1 ) + α(et) Ecuación
Los resultados de seguir expandiendo la ecuación por sustitución son claros. Dada alguna predicción inicial, llámese Ft-2 se pueden obtener nuevas predicciones agregando un porcentaje de los errores entre el valor real y el vvalor pronosticado inicial Ft+1 y qud Euna serie de tiempo entre los elementos que la componen (estacionalidad, tendencia, ciclo y aleatoriedad) calculando y pronosticando cada uno por separado (excepto la aleatoriedad, que puede calcularse pero no predecirse) y a continuación recombinando estas prLvariaciones en alguna variable de interés (dependiente) con base en variaciones en varios otros factores (variables independientes). Por ejemplo en la regresión múltiple el modelo es:
alor pronosticado (por ejemplo: Xt-2 - Ft-2 )asi para cada valor real y su e se acercara en promedio al patrón real
e lo datos de la serie de tiempo.
n el caso de la descomposición el principio es el de partir o descomponer
edicciones. a regresión, como ya sabemos, es una predicción causal, trata de predecir
Y = b0 + b1X1 + b2X2 + ……………. + bkXk +e cuación(4)
ariable dependiente, X1 hasta Xk son las variables dependientes y bo hasta bk son los coeficientes de regresión lineal y e
cipios de atenuación y los de regresión aplicados a s series de tiempo como se indica a continuación:
En la ecuación (4) X1, X2,..., Xk pueden representar cualquier factor, como entas mensuales, el producto nacional bruto, precios, etc. Si a estas
variables ahora las definimos como: Xt = Yt-1 , X2 = Yt-2 , Xk = Yt-k entonces la ecuación (4) se convierte en: Y = a + b1Yt-1 + b2Yt-2 + …….. + bkYt-k +e La ecuación (5) sigueecuación (4) en que las variables de derecha (independientes) ahora son valores previos de la misma variable Yt Estos valores son simplemente valores con es iente y por lo tanto se gener otación de la ecuación (5
E Donde Y es la vines el error aleatorio. Combinaremos los prinla
v
Ecuación(5)
siendo una ecuación de regresión, pero difiere de la la
pacio en tiempo de la misma variable dependa una auto regresión (AR) presentada en la n
).
S la a
re 1. En la auto regresión. el supue o básico de independencia del error (residuos) de los resultados se puede violar fácilmente dado que todas las variables ción de ependencia (son la misma variable).
. La determinación del numero de valores anteriores de Yt, para
ón (3).
e plantean entonces algunas preguntas acerca de la ecuación (5): ¿por que regresión que se aplica a una auto correlación debe tratarse en form
diferente de un cálculo de mínimos cuadrados? Tenemos una doble spuesta:
st
independientes de la ecuación (5) tienen una relad 2incluirse en la ecuación (5) no es un mecanismo sencillo. De igual manera, la ecuación (5) puede escribirse en términos de errores anteriores, tal como se ve. Yt = a + b1et-1 + b2et-2 +......+ bket-k + et Ecuación (6) Aquí, explícitamente se establece una relación de dependencia entre términos sucesivos de error, y la ecuación del modelo se denomina (MA) de promedios movibles. Nótese la relación con la ecuaci
Los modelos de auto regresión (AR) pueden acoplarse con los de promedios movibles (MA) para generar modelos muy útiles de series de tiempo llamados (ARMA) autoregressive/moving averages.
Métodos AR y MA. Comparación con la regresión: Fórmulas: Regresión simple: Yt = a +bXt-1 = 1.043 + .83Xt-1 (7) Regresión múltiple: Yt = a + b1Xt-1 + b2Xt-2 + … + bpXt-p (8)
Yt = Ø1Yt-1 + Ø2Yt-2 + ········ +
gresivo residuos (MA): Yt = et - Ø1et-1 – Ø2et-2 - ······ - Øqet-q
ecir que dos de los coeficientes r de auto correlación quedan fuera de los limites de confianza al 95% de probabilidad. La flotación es que ahora en lugar del coeficiente b tenemos n coeficiente rp, denotado ahora con la letra griega ∅p
ara un modelo MA (2), seguimos la misma lógica, excepto que el , en
tendríamos dos coeficientes r significativos.
Debe observarse que ahora no existe la constante a, se genera ahora una onstante que es función de la media para el caso de los procesos AR en
donde se calcula la constante µ’ = µ - µ∅. En él caso de los procesos MA, iliza la media
µ completa en lugar de la constante a.
Como indicamos, los modelos AR y MA pueden acoplarse para generar nado de diferenciación
) para lograr los modelos ARIMA. A continuación se presentan los
Autorregresivo (AR): ØpYt-p (9)
utorreA(10)
or ejemplo, un modelo AR (2) quiere dP
u Método ARMA de auto correlación Pcoeficiente r ahora se convierte en un coeficiente con notación griega ∅donde
c
dado que son obtenidos de auto correlación de residuales se ut
modelos combinados. incluyendo un ajuste denomi(1modelos de predicción ARIMA tal y como lo desarrollaron Box y Jenkins.
Los modelos ARIMA para sedes de tiempo son:
Modelo aleatorio: ARIMA (0,0,0) Loa tres números se refieren al proceso AR, al grado de diferenciación (1) y al proceso MA. en donde: Yt = µ + et Ecuación (11)
onde la observación Yt está formada de dos partes. Una media general µ,
y un componente de error aleatorio et, el cual es independiente de periodo a periodo. Se clasifica como ARIMA (0,0,0) porque no hay proceso AR (no hay ninguna r significativa por ser datos estacionarios), esto es, ninguna Yt, depende de Yt-1. No hay diferenciación implicada (los datos ya son estacionarios) y no hay proceso MA (Yt no depende de et-1). La gráfica de los datos para este modelo es:
ARIMA (0,0,0 (a) ARIMA (0,0,0) • No tiene aspecto AR • No hay diferenciación • No tiene aspecto MA
D
o: ARIMA (0,1,0)
ación (13) muestra que las primeras diferencias de la serie de an un modelo aleatorio. Veamos las dos siguientes gráficas
Modelo aleatorio no estacionari
La ecuación (12), muestra los datos como si fueran AR (con tendencia) en donde Yt, depende de Yt-1, pero en el caso de que el coeficiente Yt-1 es unitario, la ecutiempo Yt formy sus implicaciones: (b)ARIMA(0,l,0) • Tiene aspecto AR
• Necesita cálculo de primeras diferencias para remover lo no estacionario de la media • No tiene aspecto MA
Yt = Yt-1 + et Ecuación (12) Yy – Yt-1 = et Ecuación (13) Matemáticamente, es conveniente redefinir (Yt – Yt-1) como Wt, la serie de
encias, de manera que podemos entonces hablar de W como una serie estacionaria. Este concepto de ser estacionaria se puede describir en términos no estadísticos en la forma siguiente:
. Si una serie de tiempo se grafica y no hay evidencia de cambio en la edia sobre cierto
periodo de tiempo gráfica (a), entonces decimos que la serie es estacionaria en la media. 2. Si la serie de tiempo graficada muestra que no hay cambio obvio en la varianza a lo largo del tiempo, entonces se dice que se trata de una serie estacionaria en la varianza. 3. La segunda gráfica (b) muestra una serie de tiempo ARIMA (0,1.0) típica, donde la media varia sobre el tiempo (con una aparente tendencia). Ésta es una serie de tiempo con una media no estacionaria. 4. La tercera gráfica (c) muestra que la serie de tiempo no es estacionaria en la media ni en la varianza. No es razonablemente constante sobre el tiempo.
(c) ARIMA (0.1,0)
primeras difer
1m
• No tiene aspecto AR • La media varía “henaiite” y la varianza cambiante, nos da una serie de tiempo difícil de manejar • No tiene aspecto MA
Modelo de auto regresión ARIMA, estacionario de primer orden tipo (1,0,0):
ARIMA (1,0,0)
a ecuación (14) muestra la forma básica de un modelo AR (1) o ARIMA (1,0,0), hablando en forma más general. La observación Y, depende de la Yt-1 y el valor del coeficiente autorregresivo ∅ está restringido a caer en el rango -1 a + 1. Yt = ∅1Yt-1 + µ’ + et Ecuación (14) (d) ARIMA(1,0,0) o AR(1)
L
donde Ø1 = r1 y et = NID(O , l0) (NID significa que el error está istribuido normalmente, es independiente y con media = O y varianza =
10). L A (1,0,0) para un modelo onde et, es un error distribuido normalmente e independiente.
(e) ARIMA (1,0,0)0 AR (1)
d
a grafica (d) muestra una serie de tiempo ARIMd
Cuya grafica muestra datos con una tendencia muy leve.
Modelo estacionario de promedios movibles MA de primer orden:
hablando en forma más general. La observación Yt, depende del error et, y también del et-1 con el coeficiente -∅1 restringido a caer en el
ARIMA (0,0,1) La ecuación (15) muestra la forma básica de un modelo MA (1) 0 ARIMA (0,0,1),
rango -1 a + 1. Yt =µ + et - ∅1e t-1 Ecuación (15) (f) ARIMA (0,0,1) 0 MA(1) Yt =100 + et - ∅te t-1 Donde ∅t = 0.7 y et es NID (0,10)
a gráfica (f) muestra un ejemplo de modelo ARIMA (0,0,1) o MA (1), con el valor del coeficiente q de la ecuación (15) restringido a quedar en el
rango entre -1 y + 1.
Modelo ARIMA simple combinado: ARIMA (1,0,1)
eden combinarse para plo, la ecuación (16)
bina un proceso AR de primer orden y un proceso MA de primer orden.
ARIMA (1,0,1) o ARMA (1,1)
dia y en la varianza. La grafica (g) a un ejemplo de una serie que podría ser ARIMA (1,0,1) y que fue
ente (Makridakis).
n el ejercicio se observará que una tendencia que se resuelve con un odelo AR (2) con un MSD muy pequeño, también se resuelve con un odelo ARIMA (1,0,1) disminuyendo aún más el MSD.
L
Los elementos básicos de los procesos AR y MA puproducir una gran variedad de modelos. Por ejemcom Yt = µ’ + ∅1 Yt-1 + et - ∅1 et-1 Ecuación (16) Aquí Yt depende de un valor Yt-1 anterior y un error previo et-1. La serie de tiempo se pone estacionaria en la medgenerada artificialm Emm
(g) ARIMA (l,0,l)
Yt = 0.31 Yt-1 + 70 + et + 0.7 et-1. onde et es NID (0,10)
d
Combinaciones ARIMA de afro orden (p, d, q):
Claramente no hay límite a la variedad de modelos ARIMA. El modelo general, que cubre todos los casos m uchos más, se
conoce como ARIMA (p, d, q ).
donde AR: p = orden del proceso de auto regresión
I: d = grado de diferenciación involucrado MA: q = orden del proceso de promedios movibles
En la práctica, raramente se hace necesario trabajar con valores de p, d o q
que sean diferentes de 0, 1 o 2. Es importante observar qué tan pequeño rango de valores de p, d o q pueda ser capaz de generar a su vez tan amplia variedad de modelos ARIMA para las diversas situaciones de predicción
encionados antes y m
encontradas en el medio comercial, industrial o científico.
8.2 Modelo autorregresivo de orden 1 (cuando p = 1)
Yt = c + Ø1Yt-1 + et (8.6)
epresenta la forma básica de un modelo ARIMA (1,0,0) o AR (1). La bservación Yt depende de Yt-1 y el valor del coeficiente de auto regresión 1 está restringido entre los valores -1 y +1. En este caso, el error et está istribuido normalmente con media O y varianza 1.
Obviamente, si el valor de Ø1 es igual a cero, entonces el modelo Yt es equivalente al modelo ruido blanco de la ecuación (8.4). Cuando Ø1 = 1, Yt es equivalente al modelo naive de la ecuación (8.5). Normalmente, dado que Ø1= r1 , los modelos AR (1) oscilan entre estos dos extremos, en cuyo caso la serie de tiempo sólo tiene un coeficiente de auto correlación de un desplazamiento significativo (el primero, ver auto correlación parcial, donde los coeficientes restantes disminuyen exponencialmente ). En el ejercicio 8.1 se estudia un caso AR (1) - Gráfica de autocorre1aciòn Gráfica de autocorre1aciòn parcial
La ecuación
RoØd
Figura 8.2 Diagramas de auto correlación y auto correlación parcial Ejercicio 8.1 Serie de tiempo AR (1). En el cuadro de la página siguiente se observan los datos del ejercicio 8.1 con una tendencia descendente y la ecuación del modelo es Yt = µ` + Ø1Yt-1 + et en donde la constante c = ư, está dada como función de la media de la serie de tiempo, el desarrollo es como sigue ( Yt - µ ) = Ø1 (Yt-1 - µ ) + et donde µ = media de la serie Yt = Ø1Yt-1 + ( µ - Ø1µ ) + et Yt = Ø1Yt-1 + µ`+ et (8.7) al sustituir en la fórmula se encuentran los valores siguientes: Yt = O.73 ·Yt-1 + 40.71 188.1 = 0.73 x 203 + 40.71 Que es el resultado anotado en el primer renglón del cuadro de la página anterior. Si la iteración continúa se obtienen todos los valores subsiguientes, y para continuar la predicción cada valor de pronóstico será utilizado para predecir el que le sigue. Como se muestra en la figura 8.3 donde los valores de predicción que siguen se muestran con la línea punteada.
Figura 8.3 SERIES
8.3 Modelo de promedios movibles de primer orden MA (1) La ecuación Yt = c+ et - Ø1et-1 (8.8) Representa un modelo MA (1), o sea un modelo ARIMA (0,0,1) en la notación más general. La observación. Yt depende del error, denotado por et y también del error previo et-1 multiplicado por el coeficiente -Ө1. Dado que en este caso se trabaja con los residuos, es evidente que para obtener valores de predicción de la magnitud original la constante es la media µ no modificada (ư).
Como ya se había dicho, el valor del coeficiente Ө1 está restringido entre -1 y +1. En la ecuación (8.8), nótese el signo negativo del coeficiente Ө1. Esta es una convención para los modelos ARIMA. En la figura 8.1, que contiene el resumen de los modelos ARIMA Box--Jenkins, se ha graficado la serie de tiempo MA (1), y en la figura 8.4 pueden apreciarse las gráficas del ACF y el PACF. Nótese que en el primer desplazamiento sólo existe una auto correlación significativa (diferente de cero) y que las auto correlaciones parciales decaen exponencialmente.
Figura 8.4 Gráficas de serie de tiempo, ACF y PACF de un MA (1) desarrolladas en el paquete SYSTAT
8.4 Modelos auto regresivos de alto orden ARIMA (2,0,0) o ARIMA (p,0,0)
La ecuación (8.9) representa un modelo AR de orden p (avo): Y1 = e + Ø1Yt-1 + Ø2Yt-2 + .....+ ØpYt-p + et (8.9) donde c = constante
Øj = parámetro autorregresivo j (avo) et = el error del miembro t de la ecuación Existen restricciones aplicables a los valores de los parámetros auto regresivos. Para p = 1, -1 < Ø1< 1. Para p = 2 se aplican las siguientes restricciones: -1 < Ø2< 1 Ø2 + Ø1 < 1 Ø2 - Ø1 < 1 Para p = 3 las restricciones son aún más complicadas; sin embargo, como ya se mencionó, aunque teóricamente existe una gran variedad de combinaciones de alto orden, puede observarse que en el ACF difícilmente se encuentran más de dos coeficientes de auto correlación que sean significativos, por lo que en la práctica es bastante excepcional utilizar un modelo con p > 2. En el ejercicio 8.2 de la página siguiente se han utilizado los datos no estacionarios con pendiente ascendente del ejercicio 7.3. De inmediato puede apreciarse que el MSD = 148 disminuye en AR (1) a 39.7 con AR (2). Es claro que el coeficiente de auto correlación del desplazamiento 1 es significativo y que el correspondiente al desplazamiento 2 se encuentra en el límite (ver la gráfica del ejercicio 8.2), ya que al parecer la tendencia no es lineal y presenta concavidad izquierda (signo positivo del coeficiente de autocorrelaçión Ø2). Sin embargo, en este ejercicio es posible observar cómo puede generarse un mejor resultado simplemente explorando empíricamente el mejor ajuste (de manera muy similar a como se trabaja con el método Stepwise para el análisis de regresión múltiple). En este caso particular se exploró la combinación ARIMA (1,0,1) [también denominada ARMA (1,1)] y en forma sorprendente se obtuvo un ajuste casi perfecto, con un valor virtualmente igual a cero. Ejercicio 8.2 Auto correlación de una serie de tiempo no estacionaria con tendencia ascendente.
8.5 Modelos de promedios movibles (MA) de alto orden ARIMA (0,0,2) o ARIMA (0,0,q)
La ecuación (8.10) representa un modelo MA de orden q (avo): Yt = c - Ø1et-1 – Ø2et-2 - …..- Øpet-q donde c = constante
Øj = parámetro de promedios movibles j (avo) e1 = el error del miembro t de la ecuación
Las mismas restricciones mencionadas en los modelos AR también se aplican a los modelos MA. Puede verse que es posible producir una gran variedad de modelos de promedios movibles, pero igual que con los modelos auto regresivos, en general puede afirmarse que difícilmente se requerirá un modelo de orden mayor que el modelo MA (2).
MODELOS DE COMBINACIONES ARMA Y ARIMA Los elementos básicos AR y MA pueden combinarse para producir diversos modelos, como se observa en cl ejercicio 8.2 donde la ecuación (8.11) muestra que el valor de Yt depende del valor previo Y (Yt-1) y del error
previo según el término et-1. Se asume que estas series son estacionarias en la media y en la varianza. Yt = C + Ø1Yt-1 + et - Ø1et-1(8.11) Los modelos ARMA de orden mayor pueden desarrollarse de la misma manera Yt =c + Ø1Yt-1 + Øp Yt-p + et - Ø1et-1 - ..... - Øqet-q (8.12) Si a un modelo ARMA se agrega la no estacionariedad, entonces sé obtiene un modelo ARIMA (p,d,q) donde la ecuación para un caso simple como ARIMA (1,1,1) se conserva igual a la notación ARMA (ecuación 8.11) y los casos de orden mayor quedan como en la ecuación (8.12). La variedad de modelos generados al introducir la eliminación de la no estacionariedad por medio de primeras y segundas diferencias es enorme, de manera que es casi imposible definir reglas que permitan identificar los modelos. En el apéndice 1 de este capítulo se incluye una manera simple de manejar empíricamente tal tipo de variaciones utilizando la versión pública y gratuita para estudiantes del paquete de estadística SYSTAT (que en realidad no es diferente de cualquier otro paquete como SAS, SPSS, etcétera). Igual que para los modelos ARMA y ARIMA, también debe mencionarse la complejidad añadida al utilizar dichos modelos para predecir esta-cionalidad. Exactamente de la misma manera en que puntos consecutivos de una serie de tiempo exhiben una auto correlación AR, MA, y/o mezclas ARMA o ARIMA, los datos separados por una estación completa (normalmente un año) pueden exhibir las mismas propiedades. La notación ARIMA puede extenderse fácilmente para manejar los aspectos de estacionalidad de una serie de tiempo y la notacòn que suele usarse es ARIMA (p, d,q ) (P,D,Q )
Parte no Parte estacional estacional del modelo del modelo El álgebra es simple pero puede ser laboriosa y por tanto rebasa los alcances de este libro. Igual que para el manejo empírico de todos los modelos de ARIMA, basta con examinar como funciona cualquier paquete estadístico que contenga estos modelos.
Top Related