ANALISIS EXPLORATORIO DE DATOS - Datos...

52
Introducci´on al An´ alisis de Series Temporales Introducci´on a la Estad´ ıstica Espacial ANALISIS EXPLORATORIO DE DATOS Datos Dependientes Ana P´ erez Gonz´ alez [email protected] 8 de noviembre de 2010 Ana P´ erez Gonz´ alez ANALISIS EXPLORATORIO DE DATOS

Transcript of ANALISIS EXPLORATORIO DE DATOS - Datos...

Page 1: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

ANALISIS EXPLORATORIO DE DATOS

Datos Dependientes

Ana Perez [email protected]

8 de noviembre de 2010

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 2: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Contenido

1 Introduccion al Analisis de Series Temporales

2 Introduccion a la Estadıstica Espacial

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 3: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Contenido

1 Introduccion al Analisis de Series Temporales

2 Introduccion a la Estadıstica Espacial

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 4: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

En ocasiones nuestro interes recae en explicar la estructura y preverla evolucion de una o mas variables a lo largo del tiempo.Por ejemplo,series de ındices de precios, demanda de enerbıa, ventas, etc.Veamos un par de ejemplos de series temporales.

Figura de la derecha: Pasajeros mensuales en una lınea aereade los EEUU desde 1949 hasta 1960Figura de la izquierda: Intensidad de color de un productoquımico industrial.

Time

pasa

jero

s

1950 1952 1954 1956 1958 1960

100

200

300

400

500

600

Time

colo

r

0 5 10 15 20 25 30 35

6570

7580

85

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 5: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Modelo:

Partimos de una serie Yt, t = 0,±1,±2, .... Donde el subındice tindica el momento en el que es medida la variable Y . La sucesionde variables aleatorias Yt, t = 0,±1,±2, ... s denomina proceso es-tocastico.Existen varios conceptos relacionados con el proceso:Funcion Media:

E [Yt] = µt

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 6: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Funcion Covarianza

γt,s = Cov [YtYs] = E [(Yt − µt) (Ys − µs)]

Funcion de Correlacion

ρt,s =Cov [YtYs]

V ar [Yt]V ar [Ys]

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 7: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Proceso Estacionario

Se define un proceso estacionario o debilmente estacionario si:

La funcion media es constante

La funcion variana es constante

La covarianza entre dos instantes solo depende de ladiferencia de los instantes: γt,t+k = γs,s+k

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 8: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Una serie puede ser no estacionaria porque su tendencia varıao porque varıa su funcion de varianza.

Ademas se pueden presentar efectos estacionales que serepiten en ciertos periodos temporales. Por ejemplo siestudiamos la evolucion turismo mensual en Espana durantelos ultimos 10 anos.

Es bueno obtener series estacionarias porque ası es mas facilobtener predicciones de nuevas observaciones, intervalos deconfianza, etc.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 9: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

A menudo se supone la siguiente descomposicion de una Serie

Xt = Tt + St + It

Tt representa la tendencia de la serie.

St representa la Estacionalidad.

It representa el termino de variaciones totalmente aleatorias.

En otros casos el modelo que se supone es multiplicativo puro

Xt = Tt × St × It

o mixtoXt = Tt × St + It

Una vez determinado el modelo, nuestro objetivo sera determinar yaislar cada uno de sus elementos.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 10: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Analisis de la tendencia En algunos casos se supone un modelode regresion entre la tendencia y la variable temporal, por ejemploel de regresion lineal:

Tt = a+ bt.

en este caso se puede recurrir a tecnicas de estimacion del modelode regresion para estimar la tendencia. La mas sencilla el modelo deregresion lineal.Sin embargo en otros casos no es posible formular este modelo ynecesitamos recurrir a metodos No Parametricos como es el caso deaplicar filtros de MEdias Moviles.El metodo vasado en medias moviles consiste en promediar un numeroespecıfico de observaciones de la serie temporal entorno a un valorxt0 . Este proceso se realiza para todos los valores de la serie excep-to para unos pocos de los primeros y de los ultimos, ya que no esposible promediar para ellos.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 11: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

La longitud del la serie utilizada para promediar se elige de formaque promedie el posible efecto estacional de la serie. Por ejemplo, sitengo series mensuales, necesito promediar 12 meses consecutivos.Para cada t

mt =xt−6 + xt−5 + ...+ xt+6

12

Luego se calcula la diferencia, en el caso de que el modelo sea adi-tivos

st = mt − xt

Si el modelo es multiplicativo

st =mt

xt

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 12: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Tecnicas de suavizacion para estimar la tendencia.

Existen otras tecnicas no parametricas basadas en lasuavizacion para calcular la tendencia de la serie.

Los metodos de suavizacion utilizan puntos antes y despuesdel punto dado para estimar mediante un metodo suavizado elvalor de la serie.

Como consecuencia la serie suavizada tendra algunasobservaciones faltantes al principio y al final salvo que seadapte el metodo de suavizacion en esos puntos.

Un metodo que utiliza la funcio de R, stl, es el basado elregresion local ponderada (loess).

Utiliza pesos que reduzcan el efecto de los puntos outlyers.

Estos metodos no requieren de especificar un modelopreviamente.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 13: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Una vez calculada la tendencia se procede a calcular la estacionalidadde la serie. En el caso de que el modelo sea aditivo, se calcula laserie sin tendencia como

Xt − Tt = St + It

Luego, Se aplicarıa el suavizador por medias moviles a la serie sintendencia Xt − Tt. De este modo se obtendran los ındices de esta-cionalidad de la serie original.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 14: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

En R, podemos introducir los datos correspondientes a una serietemporal en un objeto denominado ”ts”.

> class(AP)

[1] "ts"

> AP

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

1949 112 118 132 129 121 135 148 148 136 119 104 118

1950 115 126 141 135 125 149 170 170 158 133 114 140

1951 145 150 178 163 172 178 199 199 184 162 146 166

Este tipo de objetos ya tiene definido el instante en el que comienzala serie, cuando termina y la frecuencia.

> start(AP)

[1] 1949 1

> end(AP)

[1] 1960 12

> frequency(AP)

[1] 12

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 15: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Aparte de dibujar la serie en cada instante, como hicimos anteri-ormente, tambien podemos agregar los datos para poder estudiarmejor si existe tendencia o no.En el ejemplo de los pasajeros, podemos agregar y ver mas clara-mente la tendencia.PAra ello es necesario utilizar las funciones aggregate y cycle.

Time

aggr

egat

e(A

P)

1950 1952 1954 1956 1958 1960

2000

3000

4000

5000

1 2 3 4 5 6 7 8 9 10 11 12

100

200

300

400

500

600

Graficos de media anual y boxplots mensuales de los pasajeros.Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 16: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Veamos como construir un objeto ”ts”.El archivo MAine contiene la tasa de desempleo mensual del estadode Maine desde Enero de 1996 hasta Agosto del 2006.

Maine.mensual<-(ts(unemploy,start=c(1996,1),freq=12))

Cuando no tengo la serie completa, por ejemplo cotizaciones diariasen bolsa, se utiliza la funcion timeSeries del paquete timeSeries. Aesta funcion hay que proporcionarle un vector con las fechas y lamatriz o vector de datos correspondientes a la serie.Tambien puedo agregar y calcular la serie anual

Maine.anual<-aggregate(Maine.mensual)/12

Time

Mai

ne.m

ensu

al

1996 1998 2000 2002 2004 2006

34

56

Time

Mai

ne.a

nual

1996 1998 2000 2002 2004

3.5

4.0

4.5

5.0

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 17: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Estimacion de la tendencia. Una forma basica de estimar la ten-dencia es aplicar modelos de regresion. El modelo mas sencillo es elde regresion lineal.Como se observa una clara heterocedasticidad, aplicamos una trans-formacion logaritmica a la variable que representa el numero depasajeros. A continuacion aplicamos la regresion mınimo cuadratica:

> model1<-lm(log(AP)~time(AP))

> summary(model1)

Call:

lm(formula = log(AP) ~ time(AP))

Residuals:

Min 1Q Median 3Q Max

-0.30858 -0.10388 -0.01796 0.09738 0.29538

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -2.302e+02 6.539e+00 -35.20 <2e-16 ***

time(AP) 1.206e-01 3.345e-03 36.05 <2e-16 ***

Residual standard error: 0.139 on 142 degrees of freedom

Multiple R-squared: 0.9015, Adjusted R-squared: 0.9008

F-statistic: 1300 on 1 and 142 DF, p-value: < 2.2e-16

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 18: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

1950 1952 1954 1956 1958 1960

−2

−1

01

2

time(AP)

rstu

dent

(mod

el1)

1

2

34

5

6

78

9

10

11

1213

14

15

16

17

18

1920

21

22

23

242526

27

28

2930

3132

33

34

35

3637

38

39

4041

42

43

44

45

46

47

484950

515253

54

5556

57

58

59

6061

62

63

6465

66

67

68

69

70

71

72

73

74

757677

78

79

80

81

82

83

848586

878889

90

9192

93

94

95

9697

98

99100101

102

103104

105

106

107

108109

110

111

112113

114

115116

117

118

119

120

121

122

123124

125

126

127128

129

130

131

132133

134

135

136137

138

139140

141

142

143

144

Histogram of rstudent(model1)

rstudent(model1)

Fre

quen

cy

−2 −1 0 1 2

05

1015

2025

3035

Aquı vemos el grafico de los residuos estandarizados estandarizadosası como el histograma.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 19: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

0 5 10 15 20

−0.

4−

0.2

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

Series rstudent(model1)

Esta es la funcion de autocorrelacion muestral sobre los residuosestandarizados,comunmente conocida como correlograma.En ella, acada valor de k le asocia la correlacion revelada en la muestra entrela variable y su pasado a distancia k.Nos interesa observar los picos que sobresalen de la banda. Loslımites estan en los puntos −1

n± 2

n

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 20: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Descomposicion de una Serie

En R, disponemos de la funcion decompose que descompone una se-rie en su tendencia, estacionalidad y parte aleatoria. Lo hace siguien-do el modelo aditivo o multiplicativo mediante el metodo de MediasMoviles. Veamos un ejemplo:

m1<-decompose(log(AP))5.

05.

56.

0

obse

rved

4.8

5.2

5.6

6.0

tren

d

−0.

20.

00.

2

seas

onal

−0.

100.

00

1950 1952 1954 1956 1958 1960

rand

om

Time

Decomposition of additive time series

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 21: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Las siguientes instrucciones nos dibujan la tendencia y la estacional-idad en el mismo grafico.

m1$trend

m1$seasonal

ts.plot(cbind(m1$trend,m1$trend+m1$seasonal), lty=1:2)

Time

1950 1952 1954 1956 1958 1960

5.0

5.5

6.0

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 22: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Ahora podemos calcular la funcion de autocorrelacion parcial de losresiduos obtenidos por esta descomposicion.Dado que el metodo utilizado es por medias moviles y lo que se hacees suavizar en el ciclo, que tiene longitud 12, no podremos utilizarlas primeras 6 y ultimas 6 observaciones.Por ello se especifica que usemos [6:138]

acf(m1$random[7:138])

5 10 15 20

−0.

20.

00.

20.

4

Lag

AC

F

Series m1$random[7:138]

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 23: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

La funcion de autocorrelacion mide la correlacion entre losvalores de la serie distanciados un lapso de tiempo k, esdecir:Cor(Yt, Yt+k

La funcion de autocorrelacion parcial, calcula la correlacionentre parejas de valores separados esa distancia k peroeliminando el efecto debido a la correlacion producida porretardos anteriores a k. Consideramos

Xt = β1Xt−1 + ...+ βk−1Xt−k+1 + βt−kXt−k + Ut

el coeficiente de autocorrelacion parcial de orden k, vienedado por el estimador de βt−k

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 24: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

El grafico sugiere la figura del coseno que es caracterıstico de unmodelo autoregresivo de orden 2 o que su componente estacionalno ha sido estimada adecuadamente.Veamos algunos ejemplos basicos de Modelos estocasticos.Ruido Blanco

Una serie de tiempo se define ruido blanco si las variables son in-dependientes e identicamente distribuidas con media cero. Vamos asimularlo

norm<-rnorm(100)

plot(norm,type="o")

acf(norm)

0 20 40 60 80 100

−2

−1

01

2

norm

5 10 15 20

−0.

2−

0.1

0.0

0.1

0.2

AC

F

Series rnorm(100)

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 25: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Paseo aleatorio

Una serie de tiempo se define como Random Walk”si:

Xt = Xt−1 + ut

Vamos a simularlo

u<-rnorm(500)

x<-u

for(t in 2:500)x[t]<-x[t-1]+u[t]

plot(x,type="o")

acf(x)

0 100 200 300 400 500

−25

−20

−15

−10

−5

0

Index

x

0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

Series x

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 26: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Otro ejemplo:

> ser<-decompose(Maine.mensual)

> plot(ser)

34

56

obse

rved

3.5

4.5

tren

d

−0.

50.

00.

5

seas

onal

−0.

40.

00.

4

1996 1998 2000 2002 2004 2006

rand

om

Time

Decomposition of additive time series

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 27: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

ts.plot(cbind(ser$trend,ser$trend+ser$seasonal), lty=1:2)

acf(ser$random[7:120])

Time

1996 1998 2000 2002 2004 2006

34

56

0 5 10 15 20

−0.

50.

00.

51.

0

Lag

AC

F

Series ser$random[7:120]

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 28: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Si realizamos la estimacion no parametrica de la tendencia mediantela funcion stl

plot(stl(Maine.mensual,s.window="per"))

34

56

data

−0.

50.

00.

51.

0

seas

onal

3.5

4.5

5.5

tren

d

−0.

40.

00.

4

1996 1998 2000 2002 2004 2006

rem

aind

er

time

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 29: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Modelizacion Box-Jenkins

PROCESOS AUTOREGRESIVOS AR

La serie Xt sigue un proceso autorregresivo de orden p,denominado AR(p) si:

Xt = α1Xt−1 + α2Xt−2 + ...+ αpXt−p + ut

donde ut es el ruido blanco y αi son los parametros delmodelo.

PROCESOS DE MEDIAS MOVILES MA

Un proceso de medias moviles de orde q (MA(q)) es unacombinacion lineal de los q terminos de ruido blanco masrecientes, y esta definido por

Xt = ut + β1ut−1 + β2ut−2 + ...+ βqut−q

La determinacion de estos modelos se realiza a partir de las funcionesde autocorrelacion y autocorrelacion parcial.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 30: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Introduccion a la Estadıstica Espacial En terminos muy generalespodemos decir que datos espaciales son todos aquellos que vienenasociados a una localizacion del espacio.En funcion de la obtencion de los datos espaciales, podemos clasificaren:

Localizaciones aleatorias:procesos puntuales (point patterns).

Localizaciones no aleatorias: Tecnicas kriging

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 31: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Como ejemplo de Localizaciones aleatorias podemos citar:Ejemplo: Los datos de ubicacion de pino negro japones en una re-gion de un bosque natural en Japon (Diggle (2003)).library(spatstat) # librerıa ’Spatial Point Pattern analysis,model-fitting, simulation, tests’data(japanesepines)data(cells)data(redwood)istat(japanesepines) # analise exploratorio e test Complete Spa-tial Randomness (CSR)

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 32: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Procesos Puntuales

El analisis exploratorio de los Procesos Puntuales se centra enla distribucion espacial de los sucesos observados (deteccionde clusters,etc) y sobre la inferencia del modelo subyacente.

CSR - Complete Spatial Randomness Conjunto de testpara detectar si los eventos se distribuyen independientementede forma aleatoria y uniforme en el area de interes. Es decir,no existen regiones con exceso o defecto de sucesos.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 33: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Ejemplos de datos (librerıa spatstat)

cells

cells: The data record the locations of the centres of 42 biologicalcells observed under optical microscopy in a histological section

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 34: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

redwood

redwood: The data represent the locations of 62 seedlings andsaplings of California redwood trees in a square sampling region.They originate from Strauss (1975); the present data are a subsetextracted by Ripley (1977) in a subregion that has been rescaled toa unit square.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 35: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

japanesepines

japanesepines:The data give the locations of Japanese black pinesaplings in a square sampling region in a natural forest. The obser-vations were originally collected by Numata (1961).

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 36: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

La funcion summary muestra el promedio de la intensidad en laregion de interes.

> summary(japanesepines)

Planar point pattern: 65 points

Average intensity 65 points per square unit (one unit = 5.7

Window: rectangle = [0, 1]x[0, 1]units

Window area = 1 square unit

Unit of length: 5.7 metres

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 37: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Ejemplo cells: los datos muestran que la distribucion espaciales regular, no semeja aleatoriedad (proceso biologico encompetencia por el espacio)

Ejemplo redwood las localizaciones parecen estar agrupadas

Ejemplo japanesepines: las localizaciones no muestranagrupamiento ni distribucion regular → posible aleatoriedad.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 38: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Funcion G: Distancia al suceso mas cercano: La funcion G midela funcion de distribucion de las distancias desde un suceso arbitrarioa su suceso mas cercano. Esas distancias se definen como di =mın{dij , j = 1, 2, · · · , n} la distancia mas pequena a otro sucesodel i− esimo suceso, entonces su estimacion es

G (r) =# {di : di ≤ r}

n,

donde el numerador es el numero de elementos en el conjunto (detamano n) que tienen una distancia a un suceso menor que r.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 39: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Bajo CSR, el valor teorico de la funcion G es aproximadamente

G (r) = 1− exp{

−λπr2}

,

con λ representando la intensidad, es decir, el numero medio de suce-sos por unidad de area. Podemos comparar graficamente la diferenciaentre el valor teorico (bajo CSR) y el estimado, ademas podemosconstruir usando simulacion de Monte-Carlo (y bajo CSR) bandaspuntuales.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 40: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Comparativa de la funcion G y su estimacion con las bandas. Ex-traido de Bivand et al. (Bivand 2008), p. 162. La lınea representa

los puntos(

G, G)

. La zona gris representa la envolvente de G al

95 por ciento de confianza.Observando la Figura , corroboramos lo expuesto anteriormente.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 41: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Funcion F: Distancia de un punto al suceso mas cercano Rela-cionada con la funcion anterior, consideramos m puntos en la regionespacial (generalmente una rejilla k ∗ k de valores) y definimos lafuncion de distribucion estimada F como

F (x) =# {xi : xi ≤ x}

m,

con xi la distancia del punto i-esimo al suceso mas cercano.Esta funcion es una medida del espacio promedio que queda entresucesos.. Bajo CSR, el valor esperado teorico es aproximadamente:

F (x) = 1− exp{

−λπx2}

como en el caso anterior, podemos comparar graficamente la difer-encia y construir bandas puntuales por Monte-Carlo.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 42: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Comparativa de la funcion F y su estimacion con las bandas. Ex-traido de Bivand et al. (Bivand 2008), p. 163.En la Figura , el grafico del centro muestra que los datos estan dentrode las bandas, de acuerdo con la hipotesis CSR, en al izq. muestranun modelo regula y en la der. los puntos parecen agrupados, dadopor los valores bajos de F (x).

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 43: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Contar puntos en cuadrantes

Una alternativa, no basada en distancias, consiste en dividir la regionA en m-subregiones, por ejemplo cuadrantes de igual area y usar elnumero de datos por cuadrante para testear CSR. Sea ni el numerode datos en la subregion i, y n = n

m, con n el numero de datos. El

test χ2 de Pearson es

χ2 =m∑

i=1

(ni − n)2

n

con una distribucion χ2m−1

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 44: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Una primera descripcion del proceso putnual puede realizarsepor medio de la estimacion de la densidad espacial de losdatos observados.

Otra opcion es estimar la funcion de intensidad del procesopuntual, la cual sera proporcional ala intensidad.

Para ver un estudio mas detallado de las propiedades deprimer y segundo orden se puede ver el trabajo deDiggle(2003) Statistical Analysis of Spatial Point Patterns.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 45: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Geoestadıstica Los datos geoestadısticos son aquellos que podrıanser medidos en cualquier lugar pero que tıpicamente se toman me-didas en un numero limitado de localizaciones.Por ejemplo el ph del agua de un lago, la presion barometrica deuna determinada zona, etc.El siguiente ejemplo nos da ubicaciones y concentraciones de metalespesados, junto con otras mediciones recogidas en los entornos delrıo Meuse.

concentración de zinc[113,197.4](197.4,344.9](344.9,602.5](602.5,1053](1053,1839]

concentración de cadmio[0.2,0.4924](0.4924,1.213](1.213,2.986](2.986,7.351](7.351,18.1]

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 46: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Parece que la concentracion de zinc es mas alta en torno al rıo. Porello se considera la variable dist que mdide la distancia al rıo.Calculamos el grafico de dispersion del logaritmo de la concentracionde zinc frente a la raiz cuadrada de la distancia. Esta figura revelauna clara tendencia espacial.

sqrt(dist)

log(

zinc

)

5.0

5.5

6.0

6.5

7.0

7.5

0.0 0.2 0.4 0.6 0.8

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 47: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Estimamos un modelo lineal de la variable logaritmo de zinc enfuncion de la raiz cuadrada de la distancia al rıo.En el siguiente grafico podemos ver los valores estimados(recentrados)y los resıduos.SE observa que sigue habiendo una clara tendencia espacial en losresiduos. Es necesario profundizar mas en el analisis de estos datos.

fitted.s residuals

[−1.283,−0.7073](−0.7073,−0.1312](−0.1312,0.4448](0.4448,1.021](1.021,1.597]

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 48: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

La generalidad del modelo es:Sea s un punto de Rp, el proceso viene definido por

{Z (s) , s ∈ D ⊂ Rp}

El objetivo sera modelar la dependencia espacial entre las observa-ciones.El modo de hacer esto dependera del tipo de observaciones quetengamos

Si tenemos un proceso puntual, la dependencia sera dada porpropiedades de la funcion intensidad.

En Geoestadıstica se buscara modelizar la varianza ocovarianza entre las observaciones.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 49: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

El variograma es un grafico que dibuja la semivarianza como funcionde la distancia. El variograma teorico viene dado por

γ (h) = 0,5E (Z (s)− Z (s+ h))2

La estimacion preliminar del variograma con nuestro ejemplo dedatos de zinc es:

distance

sem

ivar

ianc

e

0.2

0.4

0.6

500 1000 1500

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 50: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Permite identificar distancias a partir de las cuales seconsidera que los datos son independientes.

Si las variables zs y zs+h son incorreladas, entonces suvariograma es constante. Por ello a partir de una ciertadistanca el variograma se estabiliza.

Efecto pepita o nugget, que a distancias proximas a cero elcovariograma no sea nulo. Esto es propio de variables muyirregulares.

El Rango es la distancia a la cual el variograma se estabiliza.

SILL es el valor que toma una vez estabilizado el variograma.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 51: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

Para estimar el variograma existen varias tecnicas

Seguir un metodo parametrico suponiendo un cierto modeloparametrico para el variograma.La funcion vgm del paquete gstat dispone de varios modelosparametricos para realizar la estimacion del variograma.

Utilizar metodos no parametricos.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS

Page 52: ANALISIS EXPLORATORIO DE DATOS - Datos Dependienteseio.usc.es/eipc1/base/BASEMASTER/FORMULARIOS-PHP/... · Veamos un par de ejemplos de series temporales. Figura de la derecha: Pasajeros

Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial

BIBLIOGRAFIA

Cowpertwait, P.S.P. and Metcalfe,A. V.(2009) IntroductoryTime Series with R. Springer.

Cryer, J.D. and Chan, K.S.(2008). Tyme Series Analysis. Withapplications in R. Springer.

Bivand, R.S, Pebesma, E.J., Gomez-Rubio, V. (2008). AppliedSpatial Data Analysis with R. Springer.

Diggle, P.J. (2003). Statistical analysis of Spatial pointpatterns. Oxford University Press.

Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS